Linguistica Computazionale: strumenti e risorse per il TAL

Nella società dell’infthemeormazione differenti categorie di utenti (professionisti, amministratori pubblici e comuni cittadini) devono confrontarsi con la necessità quotidiana di accedere a grandi quantità di contenuti digitali semi-strutturati o non strutturati, all’interno di basi documentali in linguaggio naturale disponibili sul Web o su Intranet locali. Un’alta percentuale delle conoscenze e processi che regolano le attività di gruppi di lavoro, istituzioni e imprese risiede,  infatti, all’interno di documenti dalle forme e tipologie più varie (testi normativi, manuali, agenzie stampa, rapporti tecnici, e-mail ecc.), talvolta in lingue diverse e, sempre più di frequente, accompagnati da materiale multimediale. La natura non strutturata di tale informazione richiede due passi fondamentali per una sua gestione efficace: ovvero, la selezione dei documenti rilevanti rispetto alle necessità specifiche dell’utente e l’estrazione dell’informazione dai testi, per garantire il suo impiego in altre applicazioni o per compiti specifici. La facilità di tale accesso, la capacità di recuperare l’informazione adeguata in tempi rapidi, la sua gestione e usabilità sono, dunque, parametri chiave per garantire il successo di imprese economiche, lo sviluppo imprenditoriale, la competitività professionale, così come anche l’integrazione sociale e occupazionale e la formazione permanente. Gli sviluppi più recenti della linguistica computazionale e del natural language engineering hanno creato soluzioni tecnologiche dalle enormi potenzialità per migliorare la ricerca e gestione intelligente dell’informazione contenuta nei documenti testuali. Le nuove tecnologie della lingua, infatti, permettono ai sistemi informatici di accedere ai contenuto digitale attraverso il Trattamento Automatico della Lingua (TAL) o Natural Language Processing (NLP). Il problema di come acquisire e gestire la conoscenza depositata nei documenti testuali dipende dal suo essere codificata all’interno della rete di strutture e relazioni grammaticali e lessicali che costituiscono la natura stessa della comunicazione linguistica. Sono il lessico e le regole per la combinazione delle parole in strutture sintatticamente complesse che nel linguaggio si fanno veicoli degli aspetti multiformi e creativi dei contenuti semantici. Attraverso l’analisi linguistica automatica del testo, gli strumenti del TAL sciolgono la tela del linguaggio per estrarre e rendere espliciti quei nuclei di conoscenza che possono soddisfare i bisogni informativi degli utenti. Dotando il computer di capacità avanzate di elaborare il linguaggio e decodificarne i messaggi, diventa così possibile costruire automaticamente rappresentazioni del contenuto dei documenti che permettono di potenziare la ricerca di documenti anche in lingue diverse (Crosslingual Information Retrieval), l’estrazione di informazione rilevante da testi (Information Extraction), l’acquisizione dinamica di nuovi elementi di conoscenza su un certo dominio (Text Mining), la gestione e organizzazione del materiale documentale, migliorando così i processi di elaborazione e condivisione delle conoscenze.

by Nicoletta Calzolari e Alessandro Lenci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: