In [None]:
# esta celda controla el estilo del cuaderno
from IPython.core.display import HTML
def css_styling():
    styles = open("custom.css", "r").read()
    return HTML(styles)
css_styling()

# Procesamiento del Lenguaje Natural

## Introducción

Esta primera nota técnica del módulo cubre la introducción al mundo del Procesamiento del Lenguaje Natural (PLN). Describiremos con detalle en qué consiste esta subdisciplina de la Inteligencia Artificial, qué problemas trata de resolver y qué aproximaciones utiliza. Nos detendremos en la descripción de las subtareas en las que se suele descomponer un sistema de PLN, tratando de dar ejemplos de aplicaciones y productos comerciales. Por último, nos detendremos a analizar algunas de las dificultades del PLN, que por el momento nos impiden tener sesudas conversaciones con las máquinas, tal y como ocurre en las historias de ciencia ficción.


## Vives rodeado de Procesamiento del Lenguaje Natural

/TODO(victor): intro con imágenes

Tras varios inviernos, parece que volvemos a vivir con optimismo las posibilidades de la Inteligencia Artificial.

## ¿Qué es el PLN?

El **Procesamiento del Lenguaje Natural** (PLN) es el área de la inteligencia artificial que tiene como objetivo hacer que las máquinas comprendan y utilicen el lenguaje humano. 

En inglés, la disciplina se denomina generalmente *Natural Language Processing* (NLP, o NLProc) y, depende de los foros, puede recibir otros nombres como *Human Language Technologies* (HLT), tecnologías de la lengua, ingeniería lingüística, [lingüística computacional](http://www.coli.uni-saarland.de/~hansu/what_is_cl.html), etc. 

Es un área claramente multidisciplinar que aglutina a gente con formación en lingüística, ingeniería, informática, estadística, psicología, interacciónhombre-máquina, ciencias cognitivas, etc. 

![Diagrama de Venn del PLN](img/venn-nlp.png)

Estás estudiando ciencia de datos, y ya conoces algunas de las herramientas y metodologías de desarrollo y evaluación de sistemas basados en aprendizaje automático. A lo largo de este módulo descubrirás que parte de estas formas de trabajar son comunes en PLN.

![Diagrama de Venn de Ciencia de Datos](img/ds-venn.png)

A pesar del auge del PLN, similar a que vemos en otras ramas de la inteligencia
artificial, y los avances continuos que vemos en los últimos años, el PLN no es
una disciplina nueva. Nace hace unos 70 años, en la década de 1950, con un
objetivo inicial muy concreto: construir sistemas de traducción automática. 

En cualquier caso vivimos una época apasionante para adentrarnos en el mundo del
procesamiento del lenguaje y para aprender a enseñar a las máquinas a comunicarse con nostros de la manera más natural. 


## Lenguaje natural y lenguaje artificiales

El lenguaje es una de las capacidades cognitivas, probablemente la más
importante, que nos hace humanos. Permite comunicarnos unos con otros
y funciona como vehículo del pensamiento. Permite, en definitiva, transmitir
ideas de un cerebro a otro, a través del tiempo y el espacio. 

Por un lado, denominamos **lenguaje natural** o **lengua natural** a cada uno
de los [más de 6700 idiomas que según Ethnologue se hablan en el planeta a día
de hoy](https://www.ethnologue.com/browse/names), y que han surgido y se han
desarrollado de manera natural entre los distintos pueblos del mundo. Estas
lenguas naturales, ya sean maternas o aprendidas como segunda lengua, suelen
ser habladas o transmitidas a través de señas. 

Estos 6700 idiomas incluyen a las lenguas más grandes del mundo, como el
inglés, el francés, el español, el árabe, el chino mandarín o el hindi; algunas
con menos hablantes nativos pero con economías poderosas detrás, como el
holandés, el coreano, el hebreo o el finés; y también idiomas con decenas de
millones de hablantes de los que probablemente nunca has oído hablar, como el
hausa, el bengalí, o el tagalo; y lenguas minorizadas de todos los continentes,
con tan pocos hablantes nativos y tan poco músculo económico que su
supervivencia no está asegurada. Piensa solo en las lenguas *regionales* de
Europa y en los centenares de lenguas autóctonas de África, Oceanía, América
y Asia, algunas de las cuales ni siquiera tienen registro escrito, y que
desaparecerán cuando fallezca el último de sus hablantes. 

Por otro lado, los seres humanos hemos creado **lenguajes artificiales**, que
son aquellas construcciones humanas que se diseñan y se definen con el
propósito de describir conceptos y relaciones de manera clara, concisa y no
ambigua. Suelen tener solo forma escrita, y algunos de ellos probablememnte te
resultan familiares, como el lenguaje lógico-matemático y los lenguajes de
programación. 

En medio de las lenguas naturales y los lenguajes artificiales se suelen situar
las **lenguas construidas o planificadas**, que son aquellas que se diseñan
partiendo de las lenguas naturales con el objetivos práctico de facilitar la
comunicación o por motivos artísticos, pero que no aspiran a convertirse en
lenguas maternas de ningún grupo de población, como el esperanto, el quenya
o el klingon. 

## Objetivos 

El PLN se interesa en proporcionar modelos computacionales para describir,
interpretar, modelar o reproducir distintos fenómenos lingüísticos. Tiene como
principal objetivo el desarrollo de herramientas y soluciones que permitan: 

- **comprender** lenguaje natural, de manera que un enunciado o un texto
  emitido o creado por un ser humano pueda ser procesado e interpretado por una
  máquina. Esta faceta del PLN centrada en la comprensión del lenguaje natural
  recibe en inglés el nombre de *natural language understanding* (NLU). 

- **generar** lenguaje natural, de manera que una estructura de datos
  originalmente procesable por una máquina pueda transformarse en un enunciado
  o un texto expresado en lenguaje natural. Esta faceta del PLN centrada en la
  generación del lenguaje natural recibe en inglés el nombre de *natural
  language generation* (NLG). 

A lo largo de este módulo veremos que los retos y dificultades que se
encuentran estas dos facetas del PLN son distintos, y nos centraremos, sobre
todo, en las tareas de comprensión del lenguaje natural. 


## Desarrollo histórico del PLN

Históricamente, el PLN (y en general, la Inteligencia Artificial) ha operado
siguiendo varias aproximaciones diferentes:

1. **sistemas basados en conocimiento**: en problemas que podemos modelar,
   proporcionamos conocimiento lingüístico formalizado y las máquinas actúan
   aplicando reglas.

2. **sistemas basados en el análisis estadístico de los datos**: en problemas
   cuya descripción es costosa o no podemos modelar, proporcionamos ingentes
   cantidades de datos (en el caso del PLN, colecciones de documentos)
   y dejamos que la máquina cree el modelo a partir del cálculo de
   probabilidades y la detección de patrones de uso. 

Como hemos mencionado antes, la disciplina nace en plena *Guerra Fría*, en la década de los 1950s, con el
objetivo principal de construir sistemas de **traducción automática**, esto es,
sistemas que eran capaces de procesar un mensaje o un texto en una lengua
y traducirla a otra lengua diferente. Piensa en servicios de inteligencia
estadounidenses o soviéticos interceptando mensajes del oponente y equipos de
traductores, lingüistas y hablantes bilingües describiendo en forma de reglas. 

En la decada siguiente aparecen los llamados **sistemas expertos** que asistían
en la toma de decisiones: sistemas de diálogo que trataban de imitar
conversaciones humanas, creación de ontologías para capturar conocimiento del
mundo. 

Hasta los 1980s, la mayor parte de los sistemas de PLN estaban basados en
conocimiento y manejaban complejas reglas diseñadas a mano. Se deja sentir la
influencia de la Lingüística Generativa de Noam Chomsky. 

A partir de esa década, irrumplen las aproximaciones estadísticas basadas en
sistemas de **aprendizaje automático**, que requieren grandes colecciones de
datos anotados manualmente. Este desarrollo discurre paralelo al aumento de
potencia de los ordenadores. 

Actualmente, vivimos un auge de los sistemas de aprendizaje automático
*supervisados* (anotados manualemente) y *no supervisados* (sin anotaciones de
ningún tipo), con especial énfasis en el uso de la Web. Se aprovecha la
explosión de datos disponibles en formato electrónico. 

En la década de los 2010s hemos visto el resurgir de los sistemas de
aprendizaje automático que utilizan **redes neuronales** para procesar ingentes
cantidades de datos (*deep learning*). La gran pega reside en que es necesario
contar con muchos datos y mucha potencia de cálculo (cententares de GPUs)...
Hasta que llegaron los modelos pre-entrenados y la aplicación de *Transfer
Learning* al mundo del procesamiento del lenguaje. Y es que... somos
afortunados, porque justo ahora [estamos viviendo el momento ImageNet del PLN](http://ruder.io/nlp-imagenet/). 


## Tareas típicas del *pipeline* de PLN

La tarea de procesar un enunciado o un texto de entrada expresado en lenguaje
natural de manera que una máquina pueda comprenderla es muy compleja. Es
habitual intentar descomponer el problema en subtareas y diseñar sistemas
específicos que aborden la resolución de estos subproblemas. Y a menudo estos
sistemas se organizan como si fueran una cadena de montaje o un *pipeline*, de
manera que la entrada de cada componente es la salida del anterior, y a su vez
alimenta al sistema que entra en juego tras él. 

A continuación vamos a identificar y describir alguna de las subtareas que
conforman habitualmente un *pipeline* de PLN. Incluiré también el nombre de la
tarea en inglés y enlaces a la página [Papers with
Code](https://www.paperswithcode.com), por si tienes interés en profundizar por
tu cuenta y ver ejemplos concretos.


### Segmentatión en oraciones y tokenización.

Asumiendo que partimos de una representación digital en formato texto, el primer paso que necesitamos recorrer para procesar lenguaje natural es segmentar el texto en oraciones. En gramática, definimos
[oración](https://es.wikipedia.org/wiki/Oraci%C3%B3n_%28gram%C3%A1tica%29) como
una secuencia de palabras con sentido completo y autonomía sintáctica. Y en
muchas lenguas delimitamos las oraciones con signos de puntuación. 

El siguiente paso, al que llamamos [tokenización](https://paperswithcode.com/task/tokenization) (o *tokenization* en inglés) es la tarea que consiste en procesar un texto de entrada en forma de cadena para segmentar e identificar las unidades atómicas mínimas, llamadas *tokens*. Estos tokens muchas veces se corresponderán con la idea intuitiva que los hablantes tenemos
de lo que es una palabra. En muchas lenguas, las palabras se suelen escribir
entre espacios o signos de puntuación, pero no siempre es así. Pero ojo, en
otras ocasiones, como veremos más adelante, estos tokens podrá corresponderse
con unidades menores. 

![Palabras en varias lenguas](img/words.png)


### Desambiguación semántica

La [desambiguación
semántica](https://paperswithcode.com/task/word-sense-disambiguation), en
inglés, *word sense disambiguation* (WSD), es la tarea consistente en procesar
palabras y determinar cuál de todos los posibles sentidos es el correcto,
atendiendo al contexto de aparición. 

![Significados de *planta*](img/wsd.png)

### Extracción de información

Llamamos [extracción de
información](https://paperswithcode.com/task/information-extraction),
*information extraction* (IE) en inglés, a la tarea que consite en localizar
y extraer de manera automática información estructurada con determinadas
características formlaes (p. ej., números de teléfono, fechas, cantidades numéricas, direcciones de correo electrónico,
códigos postales, etc.) a partir de información no extructurada expresada como
lenguaje natural. El objetivo de estas extracciones suelen ser rellenar tablas con información
estructurada o añadir registros en una base de datos.


### Análisis morfo-sintáctico

¿Recuerdas los análisis de oraciones y los árboles sintácticos que hacíamos en
clase de lengua? Cuando se trata de hacerlo automáticamente, podemos distinguir
dos pasos. 

En primer lugar, el [análisis
morfológico](https://paperswithcode.com/task/part-of-speech-tagging),
*part-of-speech tagging (PoS)* en inglés, es la tarea que tiene como objetivo
identificar qué tokens son nombres, adejetivos, verbos, etc., en definitiva,
determinar a qué categoría gramatical pertenece cada palabra. 

Una vez tenemos las palabras asociadas con su categoría gramatical, podemos
analizar las relaciones que se establecen entre las ellas. El [análisis
sintáctico](https://paperswithcode.com/task/dependency-parsing) (*parsing*) es
la tarea en la que se analiza una oración para representar su estructura
sintáctica interna. 

![Análisis morfo-sintáctico con el NL API de Google](img/pos-parsing.png)

### Reconocimiento de entidades

El [reconocimiento de entidades
nombradas](ihttps://paperswithcode.com/task/named-entity-recognition-ner), o *named entities recognition*
(NER) en inglés, es la tarea que consiste en procesar una secuencia de
palabras para reconocer cuáles de estas son menciones a tipos de entidades
relevantes y asignar el tipo de entidad concreto. 

Un sistema de reconocimiento generalista, como el que se muestra en la
siguiente imagen, se centra en localizar e identificar tipos de entidades como personas, organizaciones, lugares, fechas y cantidades.

![Reconocimiento de entidades con NL API de Google](img/ner.png)

Pero este reconocimiento de entidades se puede llevar a otros dominios
específicos. Es habitual construir sistemas de NER concretos en el ámbito
biomédico (para reconocer síntomas, enfermedades, fármacos, etc.), del derecho
(para reconocer nombres de leyes, personas físicas y jurídicas, representantes
legales, fechas de publicación y firma, etc.) o de comercio electrónico (para
reconocer nombres de productos, marcas, vendedores, características físicas de
los productos como colores y materiales, stock, etc.).

El reconocimiento de entidades puede parecer similar a la extracción de
información, pero es una tarea más sofisticada, que no solo tiene en cuenta las
caractarísticas formales del texto, sino que trata de vincular menciones
explícitas que aparecen en el texto con las entidades del mundo a las que hacen
referencia.


### Traducción automática

La [traducción
automática](https://paperswithcode.com/task/machine-translation), en inglés
*machine translation* (MT)) es la tarea consistente en procesar una oración en
una lengua de origen y transformarla en una frase equivalente en una lengua de
destino.

![Traducción entre español y chino con Google Translate](img/mt.png)


### Reconocimiento del habla

Ten en cuenta que el lenguaje natural es eminentemente hablado y no siempre tenemos registro escrito. En estos casos, necesitamos hacer uso de algún sistema de [reconocimiento de habla](https://paperswithcode.com/task/speech-recognition), *automatic speech recognition* (ASR) en inglés, que es la tarea consistente en procesar una señal de audio, reconocer el habla y devolver una representación en formato texto del enunciado. 


### Síntesis de voz

La [síntesis de voz](https://paperswithcode.com/task/text-to-speech-synthesis), denominada *text-to-speech* (TTS) en inglés, es la tarea en dirección contraria que tiene como objetivo convertir lenguaje natural en formato texto en una señal acústica que los humanos podamos identificar como habla.


### Recuperación de információn

La [búsqueda o recuperación de información](), *information retrieval* (IR) en
inglés, es una de los problemas centrales del procesamiento del lenguaje. Es la
tarea que consiste en procesar *queries* de usuarios, expresadas como palabras
clave o en lenguaje natural, para consultar una base de datos de información
y devolver una lista ordenada de resultados relevantes. Los buscadores web,
como [Google Search](https://support.google.com/websearch/answer/134479?hl=en&ref_topic=3081620), [Bing](http://www.bing.com) y [Wolfram|Alpha](https://www.wolframalpha.com/examples/) son algunos ejemplos.

![Búsqueda web en Duck Duck Go](img/duckx2go.png)

![Búsqueda web en Wolfram Alpha](img/wolfram-alpha.png)


### Búsqueda de respuestas

La [búsqueda de respuestas](https://paperswithcode.com/task/question-answering), *question answering*
(QA) en inglés, es la tarea que va un paso más allá de la búsqueda y procesa la
consulta original del ususario, idealmente expresada en lenguaje natural, para
devolver una o varias respuestas concretas, en lugar de proporcionar un ránking de resultados.

![Búsqueda de respuestas en Google](img/qa.png)


### Resumen automático

El [resumen automático](https://paperswithcode.com/task/text-summarization), *text summarization* en inglés, es la tarea consistente en procesar uno o varios documentos expresados en lenguaje natural y generar una versión más breve que sintetice la información contenida en los documentos originales. 


### Análisis de opinión

El [análisis de opinión](https://paperswithcode.com/task/sentiment-analysis), *sentiment analysis* en inglés, es la tarea que consiste en procesar texto en lenguaje natural, identificar los fragmentos con información subjetiva y clasificarlos en base a su polaridad para determinar si se trata de opiniones positivas, negativas o neutras.


### Asistentes virtuales

En los últimos años hemos sido testigos de la aparición de diversos asistentes
virtuales desarrollados por las grandes empresas de inteligencia artificial del
mundo y de su inclusión en numerosos dispositivos. Los famosos
[Siri](https://www.apple.com/es/siri/), [Alexa](https://developer.amazon.com/es-ES/alexa), [Google
Assistant](https://assistant.google.com/intl/es_es/)
o [Cortana](https://www.microsoft.com/es-es/windows/cortana) son solo algunos
ejemplos de herramientas comerciales. Lo más llamativo es que cada vez más
a menudo usamos estos asistentes como interfaz de usuario para conectar y manejar dispositivos de todo tipo, desde teléfonos y ordenadores hasta sistemas de domótica y electrodomésticos.


## Hacer PLN no es fácil

El siguiente diagrama muestra cuál es el grado de avance en algunas de las
tareas mencionadas anteriormente. 

![Language Technologies Progress, according to Stanford NLP](img/langtech-progress.png)


¿Y por qué es tan difícil?

La siguiente imagen muestra algunos de los retos a la hora de procesar
automáticamente lenguaje natural.

![Language Technologies Difficulties, according to Stanford NLP](img/nlp-difficulties.png)

TODO: explicar el diagrama 

Es importante remarcar que solo se contempla
para el inglés y las grandes lenguas del mundo. La principal dificultad de NLP
en muchos casos es la ausencia de datos y recursos en lenguas no mayoritarias. 

Al contrario que los lenguajes artificiales, el lenguaje natural es
eminentemente **ambiguo**. ¿Qué significa esto? Pues que un mismo elemento
o estructura puede tener más de una interpretación completamente válida.

La ambigüedad del lenguaje natural existe a varios niveles:

- desde el punto de vista del sonido, lo que se denomina ambigüedad fonética
  y fonológica, encontramos pares de palabras o secuencias de palabras que son
  homófonas y suenan igual: *vaca/baca*, *casa/caza*, *has sido tú/has ido tú*.

- en relación a los diferentes tipos de palabras, encontramos ambigüedad
  morfológica cuando una palabra determinada puede clasificarse dentro de más
  de una categoría gramatical : *casa, beso, río* pueden ser tanto
  nombres como verbos, y *bajo* puede funcionar además adjetivo y preposición.
  
- desde el punto de vista del significado de las palabras, hablamos de
  ambigüedad semántica cuando encontramos palabras polisémicas, es decir
  palabras con más de un significado: *banco*, *pie*, etc.

- atendiendo a la estructura de las oraciones, podemos encontrar ambigüedad
  sintáctica cuando una misma oración tiene dos árboles sintácticos
  perfectamente válidos, aunque con significado diferente. La oración *Ayer me
  encontré a tu padre corriendo por el parque* tiene varias interpretaciones
  posibles, cada una con una estructura sintáctica diferente. ¿Quién iba
  corriendo ayer por el parque? ¿Yo? ¿Tu padre? ¿Los dos somos aficionados al
  running y nos cruzamos corriendo?

- por último, encontramos interpretaciones ambiguas a nivel del discurso, con
  problemas triviales para los seres humanos pero muy complejos de resolver por
  las máquinas como la correferencia, y las anáforas.

## Conclusiones

En esta nota técnica, nos hemos introducido en el apasionante mundo del PLN y lo hemos puesto en relación con otras áreas como la Inteligencia Artificial y la Ciencia de Datos. Después hemos hecho un breve recorrido histórico de la disciplina para terminar describiendo las subtareas en las que habitualmente se descompone un sistema de procesamiento del lenguaje natural. Por último, hemos remarcado las diferencias entre lenguaje natural y los lenguajes artificiales, que son las que explican en gran medida las dificultades que encontramos para conseguir que las máquinas entiendan el lenguaje de los humanos.
