Спектрально-полосные методы кодирования речи

Спектрально-полосные методы кодирования речи

На их основе строятся полосные вокодеры. Спектр речевого сигнала на передающем конце разделяется узкополосными фильтрами на частотные полосы (спектральные каналы). В каждом канале путем детектирования и сглаживания фильтрами нижних частот определяются огибающая и средняя интенсивность сигнала. Информация об этих величинах передается в аналоговой или цифровой форме по каналу связи. Кроме того, передаются сигналы тон —шум и значения частоты основного тона.

На приемной стороне управляет подключением генератора шума или генератора импульсов, частота которых определяется частотой. С помощью этих генераторов создается широкополосный сигнал, который, как и на передающем конце, разделяется на частотные полосы с помощью фильтров. Колебания с выходов фильтров умножаются на значения огибающих канальных сигналов и суммируются друг с другом. Полученный синтезированный сигнал приближенно отображает исходный естественный речевой сигнал, преобразованный на передающей стороне.

Число спектральных каналов обычно варьируется от 7 до 20. Причем с увеличением числа каналов повышаются разборчивость и качество синтезированной речи, но возрастают и требования к пропускной способности канала связи.

Согласно экспериментальным данным, для передачи огибающей сигнала на выходе каждого канала достаточно провести ее дискретизацию с частотой 50 Гц и квантование с помощью трехразрядного двоичного кода, а для частоты основного тона соответственно 100 Гц и пятиразрядного кода. Следовательно, для 12-канального полосного вокодера потребуется передавать по каналу связи 2300 бит/с, а для 20-канального вокодера — 3500 бит/с.

Основным недостатком полосных вокодеров является техническая сложность и громоздкость реализации, обусловленная большим количеством используемых фильтров. Качество восстанавливаемой речи может снижаться из-за того, что в полосе пропускания фильтра на тональных звуках может оказаться несколько гармоник основного тона и число таких гармоник может меняться во времени. Кроме того, снижение качества обуславливают возможные ошибки при определении F0 (Ti).

Вместо значений частот основного тона можно использовать так называемый основной канал: передавать естественную речь, взятую в частотной полосе, например 250...750 Гц. При этом качество речи, как правило, улучшается, однако скорость передачи увеличивается до 10 Кбит/с. Поскольку передается не только преобразованная речь, в этом случае говорят о полосном полувокодере.

Яндекс.Метрика