Processament de llenguatge natural (I)

Com sabem que un animal o una cosa és intel·ligent? Perquè són parlants, parlen i
entenen el que els hi dius. L’home en molts casos ha associat la intel·ligència amb la
parla.
El llenguatge natural és el que s’utilitza com a mitjà de comunicació habitual entre els
humans, sembla un gest senzill i inconscient, però la parla és un procés que implica
milions de connexions neuronals i complexos processos de captació i comprensió. Està
format per una sintaxis i obeeix els principis d’economia i optimitat.

Sempre s’ha buscat que els ordinadors fossin capaços de poder comprendre el
llenguatge humà. Els avanços tecnològics han permès que els ordinadors siguin
capaços de captar la informació transmesa per una persona i traslladar-la a un altre,
interactuant amb ella amb el seu mateix llenguatge o al menys de una manera
intel·ligible. Per aconseguir que l’ordinador sigui capaç de raonar i aprendre com un
esser humà, el primer pas es poder rebre informació i comunicar-la com un humà. Dins
de la IA d’això s’encarrega la disciplina del processament del llenguatge natural (o NLP
en anglès).

Aquesta és l’encarregada de produir sistemes informàtics que imitin la comunicació
humana mitjançant veu i/o text a la vegada que l’estudi del llenguatge en sí.

Parlar de llenguatge Natural en sí podríem començar des dels temps de la parla
humana, però l’estudi i el processament computacional data dels anys 50. Abans del
naixement del terme “Intel·ligència Artificial” en 1956.

1.1 Evolució de les aplicacions PLN

Els primers experiments en aquest sector, basats en la substitució de paraula a
paraula, van obtenir resultats rudimentaris.
Va sorgir per tant la necessitat de resoldre ambigüitats sintàctiques i semàntiques, i
d’aquest mode la consideració d’informació contextual. La carència d’un ordre de
l’estructura oracional en algunes llengües, i la dificultat per obtenir una representació
tant sintàctica com semànticament van ser un dels problemes mes rellevants. Després
d’enfrontar-se a aquests problemes es va donar un pas a una concepció més realista
del llenguatge, en la que era necessari contemplar les transformacions que es van
produint en l’estructura de la frase quan es fa el procés de traducció.

En els anys seixanta es produeix un major interès en comprendre el llenguatge. La
major part del treball en aquest període es centre en tècniques d’anàlisis sintàctic. Fins
en la representació del significat. El resultat va ser la construcció del primer sistema
de preguntes-respostes basat en llenguatge natural.

Es deia Eliza i reproduïa les habilitats conversacionals d’un psicòleg. Ho feia a partir de recollir patrons d’informació de les respostes del client i elaborava preguntes que simulaven una entrevista.

Entren els setanta i vuitanta ja s’havien fet molts experiments i es va començar a intentar construir
programes i aplicacions més fiables. Comencen apareixerà moltes gramàtiques orientades a un tractament computacional i comença a créixer notablement la programació lògica.
En Europa van sorgir interès en elaborar programes per traducció automàtica. Es va
crear Eurotra que va ser un projecte d’investigació de traducció multilingüe. A Japó
apareixen equips dedicats a la creació de productes de traducció per distribució
comercial.
Els últim anys es caracteritzen per la incorporació de tècniques estadístiques i es
desenvolupen formalismes adequats per el tractament de la informació lèxica.
S’introdueixen noves tècniques de representació del coneixement properes a la intel·ligència artificial. Comencen també a sorgir avanços en sistemes de recuperació
d’informació amb l’objectiu de millorar els resultats en consultes de text complet.