Вопросы оценки близости речевых характеристик того или иного индивидуума к заранее известному эталону-образцу тесно связаны с понятием стабильности голосовых и речевых характеристик фигуранта. Известно, что голос лица, подлежащего идентификации, не может быть охарактеризован одним единственным произнесением, поскольку и голос и речь индивидуума по своей природе вариативны. Необходимо обработать ряд произнесений статистически (говоря математическим языком — обработать полученную в процессе исследования выборку), чтобы определить характерные особенности голоса конкретного индивидуума.
Простейшее правило принятия решения — это метод «ближайшего соседа». В отношении задачи криминалистической идентификации личности говорящего это означает, что расстояния вычисляются между вектором наблюдения неизвестного диктора X и всеми эталонными векторами подозреваемых Yi. В конечном итоге считается опознанным тот из подозреваемых, речевые параметры которого соответствуют минимальному расстоянию. Другими словами, понятие расстояния между двумя точками можно многими способами расширить до понятия расстояния δ(х, ω) между точкой и множеством. Например, можно положить:
задав расстояние δ(х, ω) ( как топологическое расстояние между точкой x и ее ближайшим соседом во множестве ω. Используя такое определение, можно придать точный смысл понятию классификации, которое широко используется в теории распознавания образов: x ωj. тогда и только тогда, когда
где полагается, что минимизация проводится по формуле (2) для каждого j на множестве {yIωj}.
Для окончательного решения о том, принять или отвергнуть j-го претендента, в задаче идентификации говорящего необходимо сравнение минимального расстояния δ ( x, yij) с некоторым заранее заданным порогом. За указанный порог для частоты основного тона, например, может быть принято среднее значение флуктуационных изменений, свойственных натуральному речевому процессу и составляющее, по данным ряда авторов, которые подтверждены нашими материалами, примерно 15-20% от среднего значения.
Возвращаясь к вопросу выбора метрики, отметим, что в конкретном многообразии криминалистических экспертиз идентификации личности по голосу и звучащей речи удобной оказалась метрика:
показывающая средневзвешенное относительное отклонение по сумме анализируемых параметров (т.е. по компонентам вектора наблюдения) в процентах.
Рассмотренные в данной статье подходы к формированию группы устойчивых идентификационных признаков в совокупности с математическими методами принятия решений и оценки полученных результатов составили основу инструментальных исследований просодических и спектральных характеристик речи в задаче криминалистической идентификации личности говорящего.
Автор: А. Ш. Каганов — Заведующий лабораторией криминалистической экспертизы видео- и звукозаписей РФЦСЭ при Минюсте России, канд. техн. наук, ст.науч.сотр.
- ↑ Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. Тбилиси, 1976.
- ↑ Лингвистический энциклопедический словарь. М., 1990.
- ↑ Каганов А.Ш. Перцептивный и акустический аспекты криминалистической идентификации личности по голосу и звучащей речи. Нижний Новгород, 2006.
- ↑ Рамишвили Г.С., Чикоидзе Г.Б. Криминалистическое исследование фонограмм речи и идентификация личности говорящего. Тбилиси, 1991.
- ↑ Каганов А.Ш., Михайлов В.Г. Соотношение перцептивных признаков и формантных частот гласных в речевом потоке // Сборник трудов. XIII сессия российского акустического общества. М., 2000. Том 3. Акустика речи. Медицинская и биологическая акустика.
- ↑ Коваль С.Л. и др. Использование метода формантного выравнивания для проведения инструментальной части идентификационного исследования говорящего // Современные методы, технические и программные средства, используемые в криминалистической экспертизе звукозаписей: Методич. пособие для экспертов. М., 2003.
- ↑ Варшавский Л.А., Литвак И.М. Исследование формантного состава и некоторых других физических характеристик звуков русской речи // Проблемы физиологической акустики. 1955. Т.3. [/ref[ref] Rosenberg A.E. Effect of glottal pulse on the quality of natural vowels // JASA. 1971. 49. № 2.
- ↑ Фант Г. Анализ и синтез речи. Новосибирск, 1970.
- ↑ Чистович Л.А. и др. Речь, артикуляция и восприятие. М., 1965.
- ↑ В настоящее время отмечается процесс убыстрения темпа речи, который идет практически во всех европейских языках.
- ↑ Определяя темп речи, правильно говорить, по-видимому, о срднезвуковом времени, которое, на наш взгляд, является более точной величиной по сравнению с количеством слогов.
- ↑ Каганов А.Ш., Михайлов В.Г. Идентификация личности по голосу с использованием формантных признаков и параметров основного тона // Сборник трудов. IX сессия российского акустического общества. М., 1999. Том 3. Акустика речи. Медицинская и биологическая акустика.
- ↑ Норман Б.Ю. Язык: знакомый и незнакомый. Минск, 1987.
- ↑ Фукунага К. Введение в статистическую теорию распознавания образов. М., 1979.
- ↑ Данфорд Н., Шварц Дж. Т. Линейные операторы. Общая теория. М., 1962.
- ↑ Оговоримся, что под «произнесением» в данном случае понимается выборка, сделанная на исходном (или, соответственно, на сравнительном) речевом материале ограниченного объема.
Статьи по теме: