Новости

Определить эмоцию человека исключительно по выражению лица не представляется возможным

Точнее – можно, но это не точно 😏.

image

Сильной и одновременно слабой стороной теории эмоций П.Экмана является центрирование на лице человека и стремление по комбинации определенных участков напряжения и движений (так называемые action units) определить текущую эмоцию. Эти положения были ведущими еще 5-15 лет тому назад и они активно использовались в разработке различных программ по чтению лиц и эмоций. Именно на них выросли все известные на сегодня API определения эмоций.

Однако в последнее время стали появляться доказательные данные того, что одного лица крайне мало, чтобы правильно определить эмоцию человека. Такие данные были и раньше, но в целом они не становились ведущими, поскольку чувствительно бы замедлили развитие прогресса в определении эмоций компьютером. Проще говоря то, что человек на изображении улыбается вовсе не означает, что он испытывает эмоцию радости.

Во-первых, улыбкой мы маскируем практически все другие эмоции – и страх, и печаль, и презрение и даже отвращение. Но, тем не менее, чаще всего, если машина увидела улыбку (AU12), то она припишет этому изображению эмоцию радости. 

Во-вторых, даже при калибровке и наблюдении за лицом, у нас есть определенные стереотипы: динамика направления уголков губ для нас стереотипно более значима, чем динамика мышц и AU, связанных с глазами. Упрощенно – легкую улыбку мы увидим чаще, чем легкий прищур и придадим ей большее значение. 

В-третьих, есть лица абсолютно не читаемые по такой методологии. Это со многим чем связано, в том числе и с уровнем контроля над собственной мимикой. И таких людей, достоверно, становится все больше и больше: люди адаптируются и перестают быть читабельными.

На современном этапе полная оценка эмоции включает в себя 5 основных компонентов: лицо, голос, жестикуляцию и движений, контент, который человек говорит в данный момент, и оценка контекста. Однако тогда, многие исследователи в таких случаях уже говорят не о базовых эмоциях, а о эмоциональных состояниях. 

И вот сейчас большой интерес к оценке в том числе и контекста. 


В частности, недавно корейцы представили CAER-Net — алгоритм, который умеет распознавать эмоции человека не только по его лицу, но и ориентируясь на другие маркеры на изображении.


Система основана на работе двух сверточных нейросетей, каждая из которых анализирует лицо человека в кадре и все остальное, кроме лица.

Точность распознавания эмоций, как они декларируют, составляет более 73 процентов. Работа доступна на портале arXiv.org. 

Архитектура их обучающей сети представляет собой систему из двух сверточных нейросетей, каждая из которых анализирует, с одной стороны, лицо человека на снимке, а с другой — то, что его окружает, при этом для каждой из сети то, что анализирует другая, остается недоступным. 

Оказалось, что, несмотря на то, что такая нейросеть достаточно точно определяет эмоцию только по лицу, бывают ситуации, что по контексту эмоция распознается проще и точнее. Это позволило разработчикам заключить, что совместный анализ выражения лица и контекста ситуации (того, что происходит в кадре) является наиболее оптимальным и эффективным.

Статьи в: Ведомости   Forbes  РБК  Psychologies