Короткий опис(реферат):
Актуальність теми дослідження. Більшість когнітивних сервісів використовують мовні сигнали як джерело інформації, а саме: розпізнавання емоцій, мови та ідентифікація мовця. Актуальною проблемою є створення загального підходу до відображення мовних сигналів, позбавленого недоліків існуючих методів класифікації у задачі розпізнавання мовця.
Постановка проблеми. Більшість сучасних методів розпізнавання мовця є чутливими до тривалості мовних сигналів і, відповідно, це накладає істотні обмеження на їх застосування.
Аналіз останніх досліджень і публікацій. Метод зрівняння фундаментальних частот голосів та ймовірнісні підходи часто застосовують для розпізнавання мовця. Предметом більшості робіт, пов’язаних із розпізнаванням мовця, є пошук метрик зрівняння статистичних моделей голосових трактів мовців для забезпечення найвищої точності розпізнавання. Формування цих моделей (метод i-vector) здійснюється на основі статистичних розподілів короткочасних спектральних ознак. Основним недоліком такого підходу є необхідність великої кількості тренувальних даних (записів мовних сигналів великої тривалості), з метою розрахунку статистичних розподілів ознак та побудови текстонезалежної моделі мовця.
Виділення не вирішених раніше частин загальної проблеми. Створення загального методу виділення закономірностей у спектральних ознаках мовних сигналів короткої тривалості та характер їх зміни у часі є відкритим завданням.
Постановка завдання. У роботі запропоновано новий підхід до відображення мовних сигналів, як векторів ознак розподілених у часі, з використанням рекурентної нейронної мережі.
Виклад основного матеріалу. Розпізнавання мовця включає ідентифікацію та верифікацію людини за голосом та полягає у пошуці оптимальної пари функції відображення набору ознак мовного сигналу в багатовимірний вектор, та функції оцінки схожості таких відображень. Для пошуку альтернативної функції відображення ознак мовного сигналу в роботі використано рекурентну нейронну мережу, що складається з ланцюга двонаправлених довгих короткочасних пам’ятей. Використано евклідову відстань для спрощення процесу зрівняння зразків мовних сигналів. Для налаштування ваг рекурентної нейронної мережі використано підхід триплет втрат, що успішно використовується для розпізнавання облич.
Висновки. Експериментально показано, що використання запропонованого підходу дозволило зменшити помилку розпізнавання мовця EER на 7,5 % порівняно із сучасним підходом i-vector при розмірності векторів відображень 16 та 100, відповідно, для мовних сигналів тривалістю 2 с.