Метод відображення мовних сигналів у задачі розпізнавання мовця

Корнієнко, О. О.

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://ir.stu.cn.ua/123456789/15794

Назва:	Метод відображення мовних сигналів у задачі розпізнавання мовця
Інші назви:	The method of displaying speech signals in the speech recognition task Метод отображения речевых сигналов в задаче распознавания говорящего
Автори:	Корнієнко, О. О.
Ключові слова:	розпізнавання мовця довга короткочасна пам’ять рекурентна нейронна мережа підхід триплет втрат speaker recognition long short-term memory reccurent neural network triplet loss function распознавание говорящего длинная кратковременная память рекуррентная нейронная сеть; подход триплет потерь
Дата публікації:	2017
Видавництво:	Чернігів: ЧНТУ
Серія/номер:	Технічні науки та технології; № 3 (9)
Короткий огляд (реферат):	Актуальність теми дослідження. Більшість когнітивних сервісів використовують мовні сигнали як джерело інформації, а саме: розпізнавання емоцій, мови та ідентифікація мовця. Актуальною проблемою є створення загального підходу до відображення мовних сигналів, позбавленого недоліків існуючих методів класифікації у задачі розпізнавання мовця. Постановка проблеми. Більшість сучасних методів розпізнавання мовця є чутливими до тривалості мовних сигналів і, відповідно, це накладає істотні обмеження на їх застосування. Аналіз останніх досліджень і публікацій. Метод зрівняння фундаментальних частот голосів та ймовірнісні підходи часто застосовують для розпізнавання мовця. Предметом більшості робіт, пов’язаних із розпізнаванням мовця, є пошук метрик зрівняння статистичних моделей голосових трактів мовців для забезпечення найвищої точності розпізнавання. Формування цих моделей (метод i-vector) здійснюється на основі статистичних розподілів короткочасних спектральних ознак. Основним недоліком такого підходу є необхідність великої кількості тренувальних даних (записів мовних сигналів великої тривалості), з метою розрахунку статистичних розподілів ознак та побудови текстонезалежної моделі мовця. Виділення не вирішених раніше частин загальної проблеми. Створення загального методу виділення закономірностей у спектральних ознаках мовних сигналів короткої тривалості та характер їх зміни у часі є відкритим завданням. Постановка завдання. У роботі запропоновано новий підхід до відображення мовних сигналів, як векторів ознак розподілених у часі, з використанням рекурентної нейронної мережі. Виклад основного матеріалу. Розпізнавання мовця включає ідентифікацію та верифікацію людини за голосом та полягає у пошуці оптимальної пари функції відображення набору ознак мовного сигналу в багатовимірний вектор, та функції оцінки схожості таких відображень. Для пошуку альтернативної функції відображення ознак мовного сигналу в роботі використано рекурентну нейронну мережу, що складається з ланцюга двонаправлених довгих короткочасних пам’ятей. Використано евклідову відстань для спрощення процесу зрівняння зразків мовних сигналів. Для налаштування ваг рекурентної нейронної мережі використано підхід триплет втрат, що успішно використовується для розпізнавання облич. Висновки. Експериментально показано, що використання запропонованого підходу дозволило зменшити помилку розпізнавання мовця EER на 7,5 % порівняно із сучасним підходом i-vector при розмірності векторів відображень 16 та 100, відповідно, для мовних сигналів тривалістю 2 с.
Опис:	Корнієнко, О. О. Метод відображення мовних сигналів у задачі розпізнавання мовця / О. О. Корнієнко // Технічні науки та технології. – 2017. – № 3 (9). – C. 129-137.
URI (Уніфікований ідентифікатор ресурсу):	http://ir.stu.cn.ua/123456789/15794
Розташовується у зібраннях:	№3 (9)

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
302.pdf	стаття	1,28 MB	Adobe PDF	Переглянути/Відкрити

Показати повний опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

DSpace JSPUI

DSpace зберігає і дозволяє легкий і відкритий доступ до всіх видів цифрового контенту, включаючи текст, зображення, анімовані зображення, MPEG і набори даних