Il riconoscimento delle emozioni con i computer: due approcci a confronto

emozioni

Il problema del riconoscimento degli stati emotivi attraverso la comunicazione non verbale (tratti del volto, gesti delle mani, movimento e postura del corpo) in modo automatico sta diventando un campo di studio molto attivo. Particolare interesse si sta rivolgendo al riconoscimento automatico delle espressioni facciali dell’uomo per lo studio della comunicazione in ambienti sociali. L’app Insanity sviluppata da per i Google Glass è una delle più innovative applicazioni in commercio che utilizzano queste nuove tecnologie Gli studi sul legame tra mimica facciale e stati emotivi, cominciando da Darwin fino ai più recenti studi di P. Ekman e W. Friesen, hanno dimostrato che il volto è un potente canale di comunicazione per trasmettere emozioni, opinioni relative a esperienze, persone, prodotti o situazioni che si stanno vivendo. Un’espressione facciale può essere definita come una manifestazione visibile dello stato emotivo, delle attività cognitive, delle intenzioni, della personalità e della psicologia di una persona. È ben noto che la mimica facciale ha una maggiore efficacia comunicativa rispetto ad altri mezzi di comunicazione dell’uomo, quali voce, parole e gesti del corpo e per questa ragione fra tutti i mezzi di comunicazioni è anche il più studiato dovendo estrarre informazioni da materiale multimediale, come video e immagini. Per questi motivi una grande comunità di ricerca sta studiando le espressioni facciali per diverse applicazioni in differenti aree sociali, come l’assistenza sanitaria, il marketing, l’istruzione, la sicurezza e l’intrattenimento. Nel marketing ad esempio, si può estrarre un’opinione positiva o negativa sui prodotti di consumo in modo non invasivo o per aiutare nella vendita per individuare potenziali clienti o, ancora, per studiare l’impatto di una campagna pubblicitaria. In ambito medico invece ha trovato un elevato interesse nell’individuazione delle espressioni facciali in sistemi automatici come sostegno nell’insegnamento nei soggetti affetti da autismo.  La necessità di indagare l’iterazione uomo-macchina si trova anche nell’intrattenimento e nei computer game dove la diffusione di nuove tecnologie e piattaforme (es. Microsoft Kinect, Nintendo Wii, etc.) permette il tracciamento del movimento e l’iterazione di tutto il corpo, catturando performance cognitive ed emozionali. Gli stati emotivi che tipicamente sono riconosciuti sono quelli definiti nel modello di Ekman che sono felicità, rabbia, tristezza, disgusto, paura e sorpresa. Ma non mancano studi su particolari stati come attenzione, fatica, dolore. I sistemi di riconoscimento per la valutazione delle emozioni dalle espressioni facciali applicano due principali approcci: il riconoscimento diretto delle emozioni o riconoscimento per inferenza degli stati emotivi.  Il primo approccio applica la tecnica del templatematching e richiede l’esecuzione di due passi fondamentali:

  • codifica del volto attraverso delle feature, come landmark o immagini filtrate.
  • classificazione dell’espressione facciale rispetto una determinata emozione.

Il secondo approccio prevede l’uso della teoria di Ekman e il metodo di codifica Facial Action System Coding (FACS). Questo sistema di codifica serve a classificare i micro-movimenti dei muscoli facciali, detti Action Units (AU) e a descrivere qualsiasi movimento facciale come combinazione di AU. Il metodo di inferenza prevede tre fasi:

  • estrazione delle feature: si analizzano le singole parti del volto, quali sopracciglia, occhi, naso e bocca, per essere codificate in insiemi di punti o texture.
  • riconoscimento delle AU per identificare l’espressione facciale.
  • riconoscimento dello stato emotivo tramite inferenza a partire dalle AU individuate. Tipicamente in questa fase sono utilizzati dei prototipi matematici introdotti dallo stesso Ekman, ma sono utilizzati anche differenti sistemi di classificazione.

L’approccio sul templatematching è quello che ottiene tipicamente migliori performance sui dataset standard, ma queste elevate performance portano ad avere delle controindicazioni. Il volto è codificato tramite un’immagine e questo comporta un elevato numero di parametri da considerare, quindi i tempi di elaborazione e la memoria necessaria per gli algoritmi che si basano su questo approccio sono superiori rispetto all’approccio basato sull’inferenza. Un altro punto a svantaggio è legato alla classificazione. Per qualsiasi tipo di classificatore utilizzato (SVM o rete neurale) per la gran quantità di parametri sono necessari per l’addestramento molti campioni e quindi elevati tempi di addestramento. Al contrario l’approccio basato su inferenza lavora su un numero inferiore di parametri, quindi minori tempi di elaborazione e addestramento del sistema e meno memoria necessaria.

Vediamo alcuni esempi di sistemi di riconoscimento delle emozioni

I pochi sistemi funzionanti sono privati e non ancora disponibili al largo pubblico, senza considerare che hanno bisogno di un computer con alte prestazioni per l’elaborazione dell’algoritmo in tempi accettabili. Per l’approccio di tipo templatematching è possibile considerare due sistemi che hanno ottime performance, ma entrambi eseguono un’analisi in offline dei video:

  • il professore di psichiatria e psicologia Jeffrey F. Cohn dell’Università di Pittsburghed il suo team di ricerca ha proposto un sistema innovativo: il volto è codificato tramite un modello wireframe e poi con un’innovativa architettura di HMM esegue la segmentazione e il riconoscimento dell’espressione facciale da sequenze video.
  • Il ricercatore ingegnere Jens-UweGarbas dell’università Friedrick-Alexander di Erlanger-Norimberga, con il suo team, presenta un sistema che estrae le feature dal volto tramite un filtro LBP e sceglie le feature più rappresentative tramite l’algoritmo Real-AdaBoost e infine classifica il volto come positivo o negativo tramite una classificazione parallela su due classi tramite l’uso di una rete neurale.

Per quanto riguarda l’approccio basato sull’inferenza, si evidenziano come esempi molto validi  i seguenti sistemi:

  • Il sistema AutomatedFacial Image Analysis System (AFA) di sempre di Jeffrey Cohn è in grado di analizzare video in real time per identificare lo stato d’animo dall’analisi del volto. Il volto è rappresentato da una maschera composta da punti e linee e questa maschera è utilizzata da un classificatore SVM che riesce a riconoscere le azioni facciali. Il sistema è stato adattato anche per l’analisi delle immagini: il sistema utilizza AFA System e dalla azioni del volto riconosciute inferisce lo stato emotivo del soggetto analizzato. La classificazione finale avviene tramite una SVM multi classe. Questo sistema finale compie l’analisi su immagini.
  • il sistema elaborato dal professore di Computer Technology Peter Robinson dell’Università di Cambridge. Egli ha portato alla realizzazione di un sistema che analizza in real time flussi video per individuare la presenza di uno dei seguenti stati d’animo: concorde, discorde, concentrato, interessato, pensieroso e insicuro. Il volto è codificato tramite 24 punti e le feature utilizzate sono le distanze tra questi punti e sono usati per individuare diverse situazioni (bocca aperta, movimenti della testa, posizione delle sopracciglia), le espressioni codificate tramite FACS sono riconosciute da una catena di HMM per ogni possibile azione e il calcolo della probabilità di ogni stato d’animo avviene tramite una rete bayessiana.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: