Гармонические вокодеры и метод линейного предсказания (ЛПР)

Гармонические вокодеры и метод линейного предсказания (ЛПР)

Гармонические вокодеры. В гармоническом вокодере спектральная огибающая речевого сигнала в момент времени приближается с помощью ее представления рядом по ортогональным функциям и усечением этого ряда до т членов:

Гармонические вокодеры и метод линейного предсказания (ЛПР)

В качестве ортогональных функций обычно выбираются функции:

Гармонические вокодеры и метод линейного предсказания (ЛПР)

Таким образом, достигается та же цель, что при полосном или формантном вокодере: найти сравнительно небольшое количество числовых параметров, которые бы удовлетворительно приближали спектральную огибающую S (t,f).

Как показали экспериментальные и расчетные данные, в канал связи достаточно передавать значения 5...7 коэффициентов Фурье с темпом 50 Гц и квантовать их четырехразрядным двоичным кодом, а также зарезервировать 600 бит/с для передачи основного тона. Иначе говоря, достаточно иметь канал связи с пропускной способностью, не большей 2000 бит/с. Но следует признать, что гармонические вокодеры не нашли практического применения из-за отсутствия существенных преимуществ по сравнению с полосными или формантными вокодерами.

Метод линейного предсказания (ЛПР). Весьма эффективен для представления преобразованной речи. В последнее время он находит самое широкое применение как при анализе речевых сигналов, так и в вокодерных преобразованиях. Текущее значение S (tn) дискретизированного во времени речевого сигнала аппроксимируется линейной функцией, параметры которой формируются виде линейной комбинации предшествующих значений этого сигнала:

Гармонические вокодеры и метод линейного предсказания (ЛПР)

Линейное предсказание обладает несколькими преимуществами по сравнению с другими способами аппроксимации: оно позволяет выделить периодические составляющие речи. Выбирая порядок Р прогнозирующей функции, адекватно отражающей число формант в частотном спектре, можно установить, что пики передаточной функции фильтра часто соответствуют действительным формантам. Это свойство значительно уменьшает трудности, связанные с оценкой положения формант в непрерывной речи.

Самую эффективную компрессию, близкую к предельно достижимой, обеспечивают фонемные вокодеры. При нормальной речи средней интенсивности в секунду произносится 10 фонем и i полного числа 66. Это значит, что для передачи каждой фонемы достаточно шести двоичных символов и можно ограничиться пропускной способностью канала 60 бит/с. Правда, в этих условиях не удается передать какие-либо индивидуальные особенности голоса (такая передача речи называется звучащим телеграфом). Этот недостаток наряду с тем, что при определении последовательности произносимых фонем будут допускаться частые ошибки, вовсе не компенсирует некоторую выгоду в уменьшении требований к пропускной способности канала связи.

Яндекс.Метрика