Измеряя едва заметные изменения в качестве голоса, ИИ может помочь врачам выявить опасные повреждения голосовых связок до того, как симптомы усугубятся.

Предварительное исследование показало, что незначительные изменения в звучании голоса, особенно в соотношении гармоник и шума, могут служить ранними признаками поражения голосовых связок, что открывает путь к созданию в будущем инструментов скрининга на основе искусственного интеллекта.
Новое исследование, проведённое учёными из Орегонского университета здоровья и науки и Портлендского государственного университета, выявило характерные особенности голоса, которые могут служить потенциальными биомаркерами для раннего выявления доброкачественных и злокачественных новообразований голосовых связок. Исследование опубликовано в журнале Frontiers in Digital Health.
Предыстория
Нарушения голоса характеризуются изменением высоты, громкости и качества звука. Эти нарушения могут быть вызваны различными факторами, в том числе патологией голосовых связок, неврологическими заболеваниями или особенностями использования голоса.
Люди с нарушениями голоса часто сталкиваются с низким качеством жизни, низкой самооценкой, трудностями в работе и социальной изоляцией. Эти проблемы особенно актуальны для тех, чья профессиональная деятельность в значительной степени зависит от голосового общения.
Как доброкачественные, так и злокачественные новообразования голосовых складок (рак гортани) связаны с нарушениями голоса. В то время как доброкачественные новообразования существенно влияют на качество голоса и вызывают дискомфорт, злокачественные новообразования часто представляют угрозу для жизни, если их не лечить.
Дисфония (нарушение голоса) — один из первых симптомов поражения голосовых складок, который требует проведения диагностики, включающей визуализацию гортани и оценку морфологии поражения с помощью видеоэндоскопии. Гортань — это анатомическая структура в области шеи, где расположены голосовые складки.
Последние достижения в области технологий искусственного интеллекта (ИИ) упростили анализ человеческого голоса для раннего выявления различных заболеваний, в том числе патологий гортани, неврологических и психологических расстройств, рака головы и шеи, а также диабета.
Использование голоса в качестве цифрового биомаркера представляет собой многообещающую платформу для неинвазивного выявления и скрининга этих потенциально опасных для жизни состояний. Проект Voice to AI, реализуемый в рамках консорциума Bridge to Artificial Intelligence (Bridge2AI) Национального института здравоохранения (NIH), направлен на анализ голоса как биомаркера состояния здоровья для использования в клинической практике.
В рамках текущего исследования учёные проанализировали набор данных Bridge2AI-Voice, чтобы выявить конкретные акустические характеристики, которые позволяют эффективно отличать рак гортани и доброкачественные образования голосовых складок от других патологий голосовых складок и здоровой голосовой функции. Акустические характеристики — это измеримые свойства голоса, включая высоту, громкость и качество.
Исследование
Набор данных, проанализированный в ходе исследования, включает 12 523 записи 306 участников, собранные в пяти местах в Северной Америке. Акустический анализ был сосредоточен на записях «Радужного прохода» (180 записей от 176 участников) с предварительно извлечёнными характеристиками с помощью программного обеспечения openSMILE. Основной целью исследования было выявление акустических характеристик, которые позволяют отличить голоса участников с повреждениями голосовых связок от голосов участников без каких-либо нарушений голоса, а также отличить голоса участников с повреждениями от голосов участников с другими нарушениями голоса.
Участники были разделены на две группы в зависимости от типа поражения и диагноза, связанного с нарушением голоса. В первую группу вошли участники с раком гортани, доброкачественными поражениями или без нарушений голоса, а во вторую — участники с раком гортани или доброкачественными поражениями без других нарушений голоса, а также участники с другими нарушениями голоса (спастической дисфонией или параличом голосовых складок). Трансгендерные участники были исключены из анализа с разделением по полу, поскольку невозможно было подтвердить, что они ранее обращались за помощью в изменении голоса.
Четыре акустические характеристики плюс изменчивость (стандартное отклонение) HNR, основной частоты, дрожания, мерцания и отношения гармоник к шуму (HNR) были извлечены из голосовых записей участников для сравнительного анализа. Основная частота относится к частоте, с которой вибрируют голосовые связки; дрожание - это мера колебаний основной частоты; мерцание - это мера колебаний амплитуды звуковых волн; и HNR - это отношение периодической составляющей к апериодической в речевом сигнале.
Ключевые выводы
Анализ акустических характеристик показал, что у участников с доброкачественными образованиями среднее значение HNR и основной частоты значительно отличаются от показателей участников без нарушений голоса, а вариативность HNR (стандартное отклонение) значительно отличается от показателей участников с раком гортани. Вариативность HNR (стандартное отклонение) не имела существенных различий между участниками с доброкачественными образованиями и участниками без нарушений голоса. Среднее значение HNR и основной частоты существенно не различались у участников с доброкачественными образованиями и у участников с раком гортани.
Гендерное сравнение показало, что у цисгендерных мужчин наблюдаются схожие различия в средних значениях HNR и вариабельности HNR при отсутствии голосовых нарушений и вариабельности HNR при раке гортани, но не у женщин, что может быть связано с меньшим размером выборки.
Ни в одном из сравнений не было обнаружено существенных различий в дрожании или мерцании, и ни одна акустическая характеристика не отличала группы с поражениями от других вокальных нарушений во второй анализируемой группе.
Значимость исследования
Исследование показало, что вариативность отношения гармоник к шуму (стандартное отклонение) является перспективным голосовым биомаркером для раннего выявления и мониторинга поражений голосовых складок. Периодическая составляющая этого отношения возникает из-за регулярных импульсов в голосовой щели во время фонации, а апериодическая составляющая — это шум, возникающий из-за турбулентности при прохождении воздуха через голосовую щель (центр гортани).
В ходе исследования были измерены как среднее значение, так и стандартное отклонение отношения гармоник к шуму, поскольку учёные полагали, что эта вариативность поможет оценить стабильность голосообразования. Наблюдаемые различия в стандартном отклонении между группами с доброкачественными и злокачественными образованиями позволяют предположить, что этот показатель может служить полезным маркером для отслеживания прогрессирования заболевания и выявления рака гортани на ранней стадии.
Однако в ходе исследования не удалось выявить существенных различий в соотношении гармоник и шума и его вариативности у участников с доброкачественными или злокачественными образованиями, а также у участников с другими нарушениями голоса. Это указывает на то, что отличить новообразования от других патологий голоса может быть сложнее.
Примечательно, что исследование не выявило существенных различий в соотношении гармоник и шума и его вариативности у участниц женского пола. Это подчёркивает необходимость анализа дополнительных акустических характеристик, чтобы рассматривать голос как перспективный ранний индикатор поражения голосовых складок.
Авторы подчёркивают, что это предварительные результаты и они не являются подтверждённым скрининговым тестом. Они призывают к проведению дополнительных исследований с участием более крупных и разнообразных групп населения, особенно женщин, прежде чем внедрять эти методы в клиническую практику.
В целом результаты исследования указывают на то, что в будущем могут появиться проверенные инструменты для скрининга голоса на основе искусственного интеллекта, которые позволят выявлять людей с незначительными изменениями голоса, которые в противном случае могли бы не обратиться за медицинской помощью, особенно в учреждениях первичной медико-санитарной помощи или телемедицины. Такие инструменты могут способствовать более раннему направлению пациентов к специалистам по голосу, помогать определять приоритетность срочных случаев и сокращать задержки в диагностике.
Ссылка на журнал:
- Дженкинс П. 2025. Голос как биомаркер: предварительный анализ доброкачественных и злокачественных поражений голосовых складок. Frontiers in Digital Health.DOI: 10.3389/fdgth.2025.1609811, https://www.frontiersin.org/journals/digital-health/articles/10.3389/fdgth.2025.1609811/full




Чтобы написать отзыв нужно авторизоватся