
# ¿Qué es el PLN?

El **Procesamiento del Lenguaje Natural** (PLN) es el estudio científico del lenguaje desde un punto de vista computacional. En inglés, se denomina _Natural Language Processing_ (NLP, o mejor \#NLProc). La disciplina recibe otros nombres, como _Human Language Technologies_ (HLT), tecnologías de la lengua, ingeniería lingüística, lingüística computacional, etc.

Es la parte de la inteligencia artificial que estudia todo lo que tiene que ver con el lenguaje humano con el objetivo de hacer que las máquinas comprendan el lenguaje de los seres humanos y lo utilicen: El objetivo último es mejorar la interacción entre seres humanos y máquinas. 

Es un área claramente multidisciplinar que aglutina lingüística, ingeniería, inteligencia artificial, informática, estadística, psicología, interacción hombre-máquina, ciencias cognitivas, etc.

Nace como disciplina en los años 1950s con un objetivo inicial claro: construir sistemas de traducción automática.

![DS wrt AI](https://drive.google.com/uc?id=1iiv_Q-k-UcoFs3R2QxUXW6pwOwbWlez5)


## Objetivos 

El PLN se interesa en proporcionar modelos computacionales para describir, modelar o reproducir distintos fenómenos lingüísticos. Tiene como principal objetivo el desarrollo de herramientas y soluciones que permitan:

- procesar automáticamente lenguaje natural.

- comprender el lenguaje natural.

- interaccionar de manera eficaz con ordenadores (o máquinas) de manera natural a través del habla.


## Enfoques

Tradicionalmente, el PLN, como otras áreas de la Inteligencia Artificial, ha trabajado utilizando dos aproximaciones diferentes:

1. sistemas basados en conocimiento: en problemas que podemos modelar, proporcionamos conocimiento lingüístico formalizado y las máquinas actúan aplicando reglas.

2. sistemas basados en estadística: en problemas que son costosos o no podemos modelar, proporcionamos ingentes cantidades de datos (colecciones de documentos) y dejamos que la máquina cree el modelo a partir del cálculo de probabilidades y la detección de patrones de uso.


![NLP wrt ML](https://drive.google.com/uc?id=1LqXNmuPfr9cLE6WQXfje91QA2lgYtZTb)


## Progresos

La disciplina nace a partir de los 1950s y al inicio de la Guerra Fría con el objetivo principal de construir sistemas de **traducción automática**.

En la decada siguiente aparecen los llamados **sistemas expertos** que asistían en la toma de decisiones: sistemas de diálogo que trataban de imitar conversaciones humanas, creación de ontologías para capturar conocimiento del mundo.

Hasta los 1980s, la mayor parte de los sistemas de PLN estaban basados en conocimiento y manejaban complejas reglas diseñadas a mano. Se deja sentir la influencia de la Lingüística Generativa de Noam Chomsky.

A partir de esa década, irrumplen las aproximaciones estadísticas basadas en sistemas de **aprendizaje automático**, que requieren grandes colecciones de datos anotados manualmente. Este desarrollo discurre paralelo al aumento de potencia de los ordenadores.

Actualmente, vivimos un auge de los sistemas de aprendizaje automático *supervisados* (anotados manualemente) y *no supervisados* (sin anotaciones de ningún tipo), con especial énfasis en el uso de la Web. Se aprovecha la explosión de datos disponibles en formato electrónico.

En la década de los 2010s hemos visto el resurgir de los sistemas de aprendizaje automático que utilizan **redes neuronales** para procesar ingentes cantidades de datos (*deep learning*). La gran pega reside en que es necesario contar con muchos datos y mucha potencia de cálculo (cententares de GPUs)... Hasta que llegaron los modelos pre-entrenados y la aplicación de *Transfer Learning* al mundo del procesamiento del lenguaje. Y es que... somos afortunados, porque justo ahora [estamos viviendo el momento ImageNet del NLP](https://ruder.io/nlp-imagenet/). 



## Tareas típicas del PLN

Una buena manera de conocer los temas que trata un área de investigación es revisar el [calendario de los congresos](https://www.cs.rochester.edu/~omidb/nlpcalendar/) más importantes:
  
- ACL: [call for papers](http://www.acl2019.org/EN/call-for-papers.xhtml) y [programa final](http://www.acl2019.org/EN/program.xhtml).

- EMNLP: [call for papers](https://www.emnlp-ijcnlp2019.org/calls/papers) y [programa final](https://www.emnlp-ijcnlp2019.org/program/schedule/).

- COLING: [call for papers](https://coling2020.org/pages/call_for_papers) y [programa final](http://coling2018.org/detailed-program/).

- SEPLN: [call for papers](http://hitz.eus/sepln2019/?q=node/7) y [programa final](http://hitz.eus/sepln2019/?q=node/4).


De este modo, podemos identificar algunas de las tareas más comunes del área:


- Desambiguación semántica (*word sense disambiguation*) y reconocimiento de entidades (*named entities recognition*): [Natural Language API](https://cloud.google.com/natural-language) y [Meaning Cloud](https://www.meaningcloud.com/es/demos/demo-analitica-textos)

- Análisis morfo-sintáctico (*[PoS tagging](http://nbviewer.ipython.org/gist/vitojph/5465948)/[parsing](http://nbviewer.ipython.org/gist/vitojph/5524353)*)

- Traducción automática (*machine translation*): [Google Translate](http://translate.google.es)

- Extracción de información (*information extraction*): [TripIt](https://www.tripit.com/) y los [bundles de Inbox](https://support.google.com/inbox/answer/6228360?hl=en)

- Reconocimiento del habla (*automatic speech reconition*) y síntesis de voz (*speech synthesis*): [Google Speech API](https://www.google.com/intl/es/chrome/demos/speech.html)

- Recuperación de información (*information retrieval*): [Google Search](https://support.google.com/websearch/answer/134479?hl=en&ref_topic=3081620),
  [Bing](http://www.bing.com) y [Wolfram|Alpha](https://www.wolframalpha.com/examples/)

- Resumen automático (*automatic summarization*) y generación automática de textos: [Quakebot](http://www.latimes.com/local/earthquakes/) y [Automated Insights](http://automatedinsights.com/)

- Búsqueda de respuestas (*question answering*): tímidos intentos de [Google](https://www.google.es/?gfe_rd=cr&ei=MMHyV_uRNO2gzAbS7ITIDw#q=cu%C3%A1nto+mide+torre+picasso) o [Bing](https://www.bing.com/search?q=d%c3%b3nde+est%c3%a1+pamplona&qs=HS&pq=d%c3%b3nde+es&sc=8-8&sp=1&cvid=551C10183EB545CA92783A664393826F&FORM=QBRE) y, sobre todo, [Watson](http://www.youtube.com/watch?v=WFR3lOm_xhE)

- Análisis de opiniones (*sentiment analysis*) y gestión de la reputación online (*online reputation management*): [Bitext](https://www.bitext.com/sentiment-analysis/) y [Atribus](https://www.atribus.com/).

- Comprensión del lenguaje natural (*natural language understanding*): [Siri](https://www.apple.com/es/ios/siri/), [Google Assistant](https://assistant.google.com/intl/es_es/), [Cortana](https://www.microsoft.com/es-es/windows/cortana) y [Aura](https://aura.telefonica.com/espana).


## Problemas resueltos y cuestiones abiertas

![Language Technologies Progress, according to Stanford NLP](https://drive.google.com/uc?id=1gx7Q1ozUwfYER7mp5T7yCAG3WZiWkQg1)

Otra visión más actualizada sobre los problemas abiertos en el área es [The 4 Biggest Open Problems in NLP](http://ruder.io/4-biggest-open-problems-in-nlp/).


# ¿Por qué es tan difícil el PLN?

El lenguaje natural es eminentemente **ambiguo**. Esta es la principal diferencia entre lenguas naturales y lenguajes artificiales.
  
Esta ambigüedad existe a varios niveles:

- ambigüedad fonética y fonológica: *vaca/baca*, *casa/caza*, *has sido tú/has ido tú*

- ambigüedad morfológica: *casa, beso, río, bajo*

- ambigüedad sintáctica: *Ayer me encontré a tu padre corriendo* 

- ambigüedad semántica: *banco*, *pie*, etc.

- ambigüedad de discurso: correferencia, resolución de anáforas.


![Language Technologies Difficulties, according to Stanford NLP](https://drive.google.com/uc?id=1aNv2dZc0505cPXCIS7FoY2AGMVAcaR02)



# Otras lecturas

- [Introduction to NLP](http://futurewavewebdevelopment.com/wp/2016/08/brucemwhealton/)

- [What is Computational Linguistics?](http://www.coli.uni-saarland.de/~hansu/what_is_cl.html)

- [Perspectives in Computational Linguistics](https://www.linguisticsociety.org/content/computers-and-languages)

- [The Stupidity of Computers](https://nplusonemag.com/issue-13/essays/stupidity-of-computers/)

- [ACL FAQ on Computational Linguistics](https://aclweb.org/aclwiki/Frequently_asked_questions_about_Computational_Linguistics)