Skip to main content

Оглавление

  1. Введение
  2. Информация и ее мера
    1. Форма представления информации
    2. Мера количества информации
  3. Кодирование информации
    1. Общие понятия и определения. Цели кодирования
    2. Оптимальное кодирование
    3. Помехоустойчивое кодирование
  4. Передача информации по каналам связи
    1. Общие сведения о каналах связи
    2. Виды двоичных сигналов
    3. Каналы передачи данных с электрическими линиями
    4. Оптические каналы передачи данных
    5. Управление физическим каналом
  5. Общая характеристика средств воспроизведения и отображения информации
    1. Назначение СОИ
    2. Информация, подлежащая воспроизведению и отображению
    3. Способы представления информации в наглядном виде
    4. Классификация средств воспроизведения и отображения информации
    5. Основные характеристики средств воспроизведения и отображения информации
  6. Дискретные индикаторы
    1. Классификация и определения
    2. Газоразрядные индикаторы
    3. Электролюминесцентные индикаторы
    4. Полупроводниковые индикаторы
    5. Жидкокристаллические индикаторы
    6. Электрофоретические индикаторы
  7. Средства отображения информации с электронно-лучевыми индикаторами
    1. Классификация СОИ на ЭЛТ
    2. Формирование знаков на экране ЭЛТ
  8. Средства отображения информации коллективного пользования
    1. Состав СОИ коллективного пользования
    2. Принцип построения и характеристики больших экранов
    3. Видеопреобразователи БЭ с электронно-лучевой трубкой
    4. Видеопреобразователи с промежуточным носителем информации
    5. Светоклапанные видеопреобразователи БЭ
    6. Видеопреобразователи на управляемых транспарантах с жидкими кристаллами
    7. Мнемосхемы
    8. Лазерные средства отображения информации
  9. Речевые средства диалога человека с техническими средствами
    1. Метод прямого кодирования - восстановления речевых сигналов
    2. Синтез речи на основе методов цифрового моделирования голосового тракта
    3. Формантный синтез
    4. Фонемный цифровой синтез
    5. Кодирование речи коэффициентами линейного предсказания (КЛП)
  10. Вопросы инженерной психологии
    1. Инженерная психология и ее роль при разработке СОИ
    2. Психофизиологические требования к системам отображения информации
    3. Моторные компоненты действия оператора
    4. Эргономические характеристики систем отображения информации
    5. Организация рабочего места оператора в АСУ
  11. Контрольные вопросы
  12. Контрольные этапы и их максимальный рейтинг
  13. Индивидуальное задание №1
  14. Индивидуальное задание № 2
  15. Лабораторная работа № 1 "Исследование частотных модуляторов-демодуляторов систем передачи дискретной информации"
    1. Введение
    2. Модуляция носителей информации
    3. Дискретный канал с частотной модуляцией
    4. Частотные модуляторы
    5. Частотные демодуляторы
    6. Программа лабораторной работы
    7. Содержание отчета по лабораторной работе
    8. Контрольные вопросы
    9. Рекомендуемая литература
    10. Приложение 1
    11. Приложение 2
    12. Приложение 3
  16. Лабораторная работа №2 Исследование кодеров и декодеров последовательных асинхронных систем передачи информации двоичными однополярными сигналами
    1. Введение
    2. Последовательная асинхронная передача данных
    3. Программа лабораторной работы
    4. Содержание отчета по лабораторной работе
    5. 5 Контрольные вопросы
    6. 6 Рекомендуемая литература
    7. Приложение
  17. Лабораторная работа №3 Исследование пакета программ компьютерной мультипликации системы AUTODESK ANIMATOR
    1. 1 Введение
    2. Работа с системой
    3. Мультипликация
    4. Создание мультипликации методом полиморфных преобразований
    5. Оптические эффекты
    6. 6 Цвет
    7. Матрица
    8. Текст и мультипликация текста
    9. Вспомогательное средство MASK
    10. Пример мультипликации текста
    11. Полиморфные преобразования в мультипликации
    12. Панель OPTICS
    13. Другие возможности панели OPTICS
    14. Опция PATH
    15. Вращение
    16. Вращение и масштабирование
    17. Вращение, масштабирование и маршрут
    18. Композиция и соединение
    19. Программа работы
    20. Содержание отчета
    21. Контрольные вопросы
    22. Список литературы
    23. Приложение
  18. Методические указания по курсовому проектированию
    1. Введение
    2. Основные этапы курсового проектирования
    3. Рейтинговая раскладка курсового проекта
    4. Варианты заданий на курсовое проектирование
    5. Связь систем сбора информации с ЭВМ верхнего уровня
  19. Примеры творческих экзаменационных заданий
  20. Пример выполнения индивидуального задания №1
    1. 1 Техническое задание
    2. 2 Введение
    3. 3 Разработка структурной схемы УЗО и программного модуля
    4. 4 Заключение
  21. Список использованных сокращений
  22. Литература

Формантный синтез

Существует много методов реализации формантного синтеза речи. Все они основаны на детальном знании фонем и фонетическом расчленении речи и базируются на двух фундаментальных понятиях: лингвистического - фонемы, и акустического - форманты.

Фонема - основная единица звукового строя языка. Звуковой состав различных языков имеет свои особенности. В русском языке насчитывают 41 фонему, из них 6 гласных и 35 согласных (в английском - 20 гласных и 24 согласных, в французском - 15 гласных и 20 согласных). Можно сказать, что фонема - наименьшая языковая единица, имеющая смыслоразличительное значение. Из последовательности фонем строятся слова. Смысл высказывания выражается посредством цепочки слов.

Под формантами понимаются частотные резонансы (полюса передаточной функции) речевой акустической системы. Параметры формант (частота, ширина, уровень) опеределяются акустическими свойствами системы. Наиболее важный параметр - частота форманты, тесно связан с геометрической конфигурацией речевого тракта. Поскольку в процессе речи конфигурация речевого тракта меняется, то соотвественно меняются формантные частоты (рис. 8.9).

Рис. 8.9 - Пример частотного спектра речи

Для удовлетворительного синтеза речи обычно нужны две - четыре формантные частоты. Они лежат в диапазоне от 200 (первая форманта мужского голоса) до 2000 Гц (третья форманта женского голоса) [23]. Точным расположением формантных частот в звуковом спектре и определяется звук, который мы интерпретируем как речь. Причем, все формантные частоты присутствуют в речи одновременно и непрерывно перемещаются вверх-вниз по частотному спектру в соответсвии с особенностями произносимого слова. Поэтому, слушая говорящего человека, вы слышите звук не какой-либо одной частоты, а множество обертонов, которые образуются при фильтрации импульсов, формируемых на выходе голосового тракта.

Итак, в основе формантного синтеза лежит аналогия с моделью речеобразования человека. Рассмотрим формирование гласных звуков на модели (рис. 8.10).

Рис. 8.10 - Модель речеобразования

Источник возбуждения создает импульсы основного тона, частота следования которых непрерывно меняется в процессе формирования речи. Речевой тракт при образовании гласных звуков работает как набор резонаторов, в которых происходит фильтрация сигнала возбуждения. В результате образуется спектральная картина, содержащая ряд максимумов. Максимумы соответствуют резонансам тракта (это и есть форманты). Таким образом, форманты - это некоторая частотная область концентрации энергии в спектре звука. Используют от двух до шести формант в зависимости от требуемой точности анализа речи. Суммарный выходной сигнал формантных фильтров (резонаторов) достаточно близко соответствует частотному спектру речи человека, и наш слух воспринимает его как речевое сообщение.

Приведем таблицу формантных частот для некоторых фонем гласных звуков.

Таблица 8.1

Путем одновременной генерации формантных частот , , согласно таблицы 8.1 можно получить гласные звуки.

Структурная схема формантного синтезатора гласных звуков приведена на рис. 8.11.

Структурная схема форматного синтезатора гласных звуков включает задающий генератор частоты основного тона, полосовые фильтры, перестраиваемые на формантные частоты, соответствующие синтезируемой фонеме с помощью переменных резисторов - и сумматор, суммирующий сигналы с трех фильтров. В спектрограмме выходного сигнала этой схемы содержатся три формантные частоты, идентичные формантным частотам в спектрограмме речи человека, произносящего те же гласные.

Рис. 8.11 - Структурная схема формантного синтезатора гласных звуков

Гораздо сложнее формировать согласные звуки. Согласные - звуки речи, при произношении которых в полости рта образуются преграды для выдыхаемого воздуха:

- взрывные - при полном смыкании органов речи (п, т, к);

- фрикативные - образуется щель (с, ф, х);

- носовые согласные (н, м);

- аффриката - согласный звук, представляющий слитное сочетание (ч -тщ, ц -тс).

Чтобы расширить диапазон синтезатора (рис. 8.11), необходимо ввести источник шума для формирования взрывных и фрикативных согласных, а также аналог носовой резонансной полости, имитирующий носовые согласные. Структура этого расширенного формантного синтезатора приведена на рис. 8.12.

Структура полного формантного синтезатора речи (рис. 8.12) усложняется не очень сильно, по сравнению с синтезатором гласных звуков. Значительно увеличилось количество регулировок в схеме. Три из них служат для управления амплитудой фрикативных, гласных и носовых звуков, один - для регулировки высоты тона, а пять остальных - для регулирования частот различных резонансов. Применив в качестве устройства управления регуляторами микропроцессор с соответствующим количеством портов ввода-вывода мы получим устройство, способное производить все необходимые регулировки со скоростью, достаточной для приемлемого приближения к нормальной речи человека.

Рис. 8.12 - Структурная схема формантного синтезатора речи

Естественно, что чем больше обращений к справочной таблице будет производить микропроцессор по каждой фонеме, тем большей плавностью будет отличаться синтетическая речь и тем ближе она будет к естественной человеческой речи.

Преимущество формантного метода синтеза - в его универсальности (т.е. возможность иметь неограниченный словарь) так как здесь речь создается из отдельно генерируемых звуков. Правильно расставив звуки, можно произнести любое слово.

Универсальность эта, однако, не дается бесплатно - за нее приходится расплачиваться ухудшением разборчивости речи. Без соответствующей подготовки трудно понять, что говорит синтезатор.

Дополнительные трудности при реализации большого словаря создает множество имеющихся исключений из правил написания и произношения слов. Если проанализировать одну и ту же фонему, встречающуюся в различных словах, то может оказаться несколько вариантов произношения данной фонемы. Вариации произносимых фонем называют аллофонами. Аллофоны подразделяются на комбинаторные и позиционные. Комбинаторные оттенки обусловлены соседством данной фонемы с другими фонемами и являются следствием наложения одного звука на другой. Позиционные оттенки обусловлены положением фонемы в слове или фразе по отношению к ударному слогу, концу и началу слова и т.д.

Учет всех факторов позволяет оценить общее число аллофонов, необходимое для качественного синтеза русской речи. Общее число аллофонов гласных и согласных .

Другой класс лингвистических понятий, учет которых исключительно важен при создании систем синтеза речи, составляют интонация и ударение. Физически интонация и ударение реализуются совокупностью акустических средств (просодикой), к числу которых относятся:

1) мелодика (движение частоты основного тона голоса);

2) ритмика (текущее изменение длительности звуков и пауз);

3) энергетика (текущее изменение силы звука).

Этап преобразования печатного текста в последовательность фонем должен сопровождаться выделением информации, необходимой для задания просодических характеристик синтезируемых речевых сигналов.

Для этой цели текст анализируется и по определенным правилам разбивается на основные единицы: фраза, синтагма, акцентная группа, фонетическое слово.

Эти единицы маркируются, соответственно фразовым, синтагматическим, групповым и словесным ударениями. Каждой синтагме присваивается один из возможных интонационных типов. Это завершенность, незавершенность, вопрос или восклицание.

Под синтагмой понимают слово (или группу слов), представляющее собой цельную синтаксическую интонационно-смысловую единицу.

Например:

Таким образом, в качестве входной информации текстового сообщения используется размеченный орфографический текст, т.е. обычный орфографический текст с проставленными знаками словесного, синтагматического и фразового ударений.