Смартфоны теперь распознают и эмоции

Автор: Эйлин
15 февраля 2013
1 497
0

Многие думают, что для мобильного телефона определить местоположение ближайшей автобусной остановки – это уже на грани фантастики, и тогда смартфон действительно оправдывает своё название. Ведь «смарт», кроме всего прочего, означает и «сообразительный».
Но в таком случае как продвинутые пользователи, которые уже привыкли к различным «наворотам» и прочим «бонусным функциям», отнесутся к возможности телефона определять настроение и эмоции хозяина? Это, могут сказать они, и вовсе за гранью фантастики, ведь в таком случае это уже не столько телефон, сколько устройство, напоминающее миелофон, фигурирующее в фантастическом фильме «Гостья из будущего» по мотивам повести Кира Булычёва, способное читать мысли людей на расстоянии («миелос» -- одно из греческих слов, означающих «мозг»).
Но, кстати, устройства, читающие мысли человека, уже разрабатываются, и на фоне их определение эмоций всё же является задачей более простой.
Исследования, которые проводятся командой инженеров и электронщиков из Рочестерского университета, в ближайшем будущем сделают возможным определение эмоционального состояния человека. В принципе, это уже возможно, надо только удешевить технологию. На одном из семинаров IЕЕЕ по РЯТ (разговорные языковые технологии), который прошёл 5 декабря 2012 года, разработчики продемонстрировали новую, интересную для специалистов и широкой публики, компьютерную программу. Она с довольно высокой точностью анализирует эмоции и чувства, опираясь на речь человека.
При этом программа на смысл слов и фраз не обращает своё внимание, и не важно, как построены предложения, и какие именно слова в них используются. Как рассказала профессор кафедры вычислительной техники, Вэнди Хенцельман, она и её группа использовали актёров, которые вслух читали календарь, то есть называли числа месяцев и дни недели. Было важно, как они говорят. Вэнди Хенцельман подчеркнула, что программа проводит анализ более десятка параметров и особенностей человеческой речи, и среди них такие, например, как громкость и высота, тембр и темп, и многие другие. Используя эти параметры, можно определить, по крайней мере, одну из шести основных эмоций человека.
В настоящее время программа достигла показателя точности примерно 81—82%, что значительно лучше по сравнению с результатами более ранних аналогов, которые в лучшем случае достигали точности 55—60%.
На основе проведённых исследований и было создано специальное приложение для смартфона. Программа на данный момент даёт только два значка после записи и анализа пользовательского голоса: грустное лицо и весёлое лицо. А написал программу один из аспирантов во время летней учебной стажировки в «Майкрософт Рисёрч».
Хенцельман добавляет, что до завершения исследование ещё далеко. В будущем планируется разработать подстройку графических шаблонов и цветовой гаммы, а также подбор музыкальных треков в мобильном устройстве в соответствии с настроением обладателя. Команда Вэнди Хенцельман работает с психологами Патриком Дэвисом и Мелиссой Старж-Эппл, изучающими взаимодействия между подростками и родителями. Именно в этом случае общение в значительной мере протекает на эмоциональном и невербальном уровне. В настоящий момент психологи помогают инженерам заниматься категоризацией эмоций. В дальнейшем не обязательно будет слушать непосредственно разговор, и определять на разных стадиях беседы динамику эмоционального состояния собеседников.
Понимать эмоции компьютер учится во многом так же, как это привыкли делать люди. Люди слышат голос собеседника и, опираясь на параметры голоса, знают, что человек радуется, находится в приподнятом настроении, или сердится на что-то, чем-то раздражён, или в голосе чувствуется грусть. Эмоции человека влияют на его речь, изменяя высоту, громкость, темп, и часто гармоники речи. Человек во многом всё это распознаёт подсознательно, но это всё измеряемо, эмоции можно классифицировать. И тогда распознавание эмоций становится подвластным компьютеру.
На данный момент исследователи работают с 12-ю хорошо изученными конкретными характеристиками речи, которые меняются через краткие промежутки времени. Они записали фрагменты разговора, и каждый фрагмент записи был классифицирован, а затем использован для «научения» компьютерной программы. Так компьютер узнаёт, какие изменения в голосе выражают страх, отвращение, печаль, радость, ощущение счастья, нейтральное состояние.
Но пока программа наиболее эффективно работает с одним-двумя собеседниками, а при оживлённой беседе большой группы людей программа «теряется» и уже не выдаёт столь высокие результаты, показатели падают до 50%, а то и до 30%.
Но это лишь начало, и исследователи теперь заняты поиском способа минимизации «группового» эффекта. К примеру, можно обучать систему по голосам в сравнительно однородных группах, например, в одновозрастных компаниях.
Только представьте: пройдёт пару лет, и на вопрос по телефону: «Как дела?», вам ответит уже не сам владелец, а его умный смарт-анализатор!