## Natural Language Processing

El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es el enfoque computarizado para analizar texto que se basa en un conjunto de teorías y un conjunto de tecnologías. NLP comenzó en la década de 1950 como la intersección de la inteligencia artificial y la lingüística. NLP originalmente era distinta de la recuperación de información de texto (IR), que emplea técnicas basadas en estadísticas altamente escalables para indexar y buscar grandes volúmenes de texto de manera eficiente. Actualmente, la NLP toma prestados de varios campos muy diversos, lo que requiere que los investigadores y desarrolladores de la NPL de hoy amplíen significativamente su base de conocimiento mental. Y, al ser un área muy activa de investigación y desarrollo, no hay una sola definición acordada que satisfaga a todos, pero hay algunos aspectos que formarían parte de la definición de cualquier persona con conocimiento [1], [2].

__Definición:__ Procesamiento de lenguaje natural es una gama de técnicas computacionales motivadas teóricamente para analizar y representar expresiones humanas que ocurren naturalmente en uno o más niveles de análisis lingüístico con el fin de lograr un procesamiento de lenguaje similar al humano para una variedad de tareas o aplicaciones. [2]

El objetivo de la NLP como se indicó anteriormente es "lograr un procesamiento de lenguaje similar al humano". A pesar de que el campo de la NLP se denominó originalmente Entendimiento del Lenguaje Natural (NLU, por sus siglas en inglés) en los primeros días de la inteligencia artificial (AI, por sus siglas en ingles), hoy en día se está de acuerdo en que si bien la meta de la NLP es la NLU verdadera, esa meta aún no se ha logrado. Un sistema completo de NLU podría [2]:
1. Parafrasear un texto de entrada
2. Traducir el texto a otro idioma.
3. Responder preguntas sobre el contenido del texto.
4. Sacar inferencias del texto.

Si bien la NLP ha hecho grandes avances en el logro de los objetivos 1 a 3, el hecho de que los sistemas de la NLP no puedan, por sí mismos, hacer inferencias a partir del texto, la NLU sigue siendo el objetivo de la NLP. [2]
Si bien la comprensión semántica completa sigue siendo un objetivo muy lejano, los investigadores han adoptado un enfoque de dividir y conquistar e identificar varias tareas secundarias útiles para el desarrollo y análisis de aplicaciones. Estos van desde lo sintáctico, como el etiquetado de parte del discurso, fragmentación y análisis, hasta lo semántico, como la desambiguación del sentido de las palabras, el etiquetado de roles semánticos, la extracción de entidades denominadas y la resolución de la anáfora. [3]

Actualmente, la mayoría de las investigaciones analizan esas tareas por separado. Muchos sistemas poseen pocas características que ayudarían a desarrollar una arquitectura unificada que presumiblemente sería necesaria para tareas semánticas más profundas. [3]

En particular, muchos sistemas tienen tres fallos a este respecto: 
1. Son superficiales en el sentido de que el clasificador es a menudo lineal, 
2. Para un buen desempeño con un clasificador lineal, deben incorporar muchas características específicas para la tarea; y 
3. Las funciones en cascada aprendidas por separado de otras tareas, propagando así los errores. [3]

### NLP paso a paso [8]

Para este desarrollo se utilizará ejemplos que hacen referencia en el leguaje del inglés, por lo tanto se usaran muchas palabras o frases en inglés. Usando como referencia el siguiente texto de Wikipedia:

"_London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia. It was founded by the Romans, who named it Londinium._"

Como se puede leer, el texto anterior contiene datos muy interesantes los cuales pueden ser de mucha ayuda si un algoritmo leyera y analizara este texto. Puedo entender que Londres es una ciudad localizada en Inglaterra. Pero para obtener esta información es necesario enseñar a nuestro algoritmo los conceptos básicos del lenguaje escrito.

#### Paso 1: Segmentación del texto

El primer paso es dividir el texto en oraciones. Asumiendo que cada idea esta separada en una oración obteniendo:

1.	“London is the capital and most populous city of England and the United Kingdom.”
2.	“Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia.”
3.	“It was founded by the Romans, who named it Londinium.” 

Utiliza únicamente modelo de segmentación de texto puede ser simple solo usando los signos de puntuación. Pero NLP ofrece técnicas más complejas que trabajar mejor cuando los documentos no están escritos de forma clara.

#### Paso 2: Tokenización de las palabras

Una vez dividimos el texto en oraciones, se puede proceder a dividir esta oración en palabras. Tomando como ejemplo la primera oración: 

“_London is the capital and most populous city of England and the United Kingdom._”

La oración se puede dividir en palabras o tokens. Esto es llamando tokenización. El cual tendría como resultado:

“_London_”, “_is_”, “_the_”, _capital_”, “_and_”, “_most_”, “_populous_”, “_city_”, “_of_”, “_England_”, “_and_”, “_the_”, “_United_”, “_Kingdom_”, “_._”

Tokenización es fácil, solamente es dividir las palabras por cada espacio que haya. Los signos de puntación se deberán tratar como tokes separados debido a que nos dan cierto sentido en las oraciones.

#### Paso 3: Predecir partes del texto por cada token

El siguiente paso es tomar cada palabra de la oración y tratar de descifrar que rol juega en el texto, por ejemplo, si es un sustantivo, verbo, adjetivo y así. Una vez conocido el rol de cada palabra en la oración nos ayudara a iniciar a entender sobre que trata la oración.

Podemos hacer esto introduciendo cada palabra (y algunas palabras adicionales alrededor del contexto) en un modelo de clasificación pre-entrenado:

<img src="img/picture1.png">

El modelo se entrenó originalmente al alimentarlo con millones de oraciones en inglés con el rol de cada palabra ya etiquetada y para hacer que aprendiera a replicar ese comportamiento. Se tiene que tomar en caso de que el modelo es completamente basado en estadísticas. Este no comprende que significa las palabras como lo hacen las personas. Este únicamente sabe cómo suponer una parte del texto basado en un oración similar y palabras que haya visto anterior. Después del procesado la oración puede verse así: 

<img src="img/picture2.png">

#### Paso 4: Lemmatización del texto

En los idiomas una palabra puede aparecer en dos formas diferentes, como, por ejemplo:
* I had a __pony__.
* I had two __ponies__. 

Ambas oraciones hablan sobre el sustantivo pony, pero estos usan diferentes inflexiones. Por lo tanto, es importante que nuestro algoritmo conozca la base simple de cada palabra para identifique se la oración se esta refiriendo al mismo concepto. En la NLP se le llama a este proceso como lematización: determinar la forma más básica o el lema de cada palabra en la oración. 

La lematización generalmente se realiza al tener una tabla de consulta de las formas de lema de palabras en función de su parte en el texto y posiblemente tener algunas reglas personalizadas para manejar palabras que nunca ha visto antes.

Así es como se ve la oración después de que la lematización, el único cambio se realiza en el verbo “be”, donde se cambia su forma de tercera persona por su forma base.

<img src="img/picture3.png">

#### Paso 5: Identificación de stop words

Palabras como: “_and_”, “_the_” y “_a_” introducen mucho ruido ya que aparecen mucho más frecuentemente que otras palabras. Algunas NLP los marcarán como stop words, es decir, palabras que tal vez desee filtrar antes de realizar un análisis estadístico. Así se vería nuestro ejemplo con las stop words en gris:

<img src="img/picture4.png">

Las stop words generalmente se identifican simplemente al verificar una lista codificada de palabras de detención conocidas. Pero no hay una lista estándar de palabras de parada que sea apropiada para todas las aplicaciones. La lista de palabras a ignorar puede variar dependiendo de su aplicación.

#### Paso 6: Análisis de dependencia

El siguiente paso es analizar como todas las palabras de la oración están relacionadas con las otras. Como meta se tiene construir un árbol que asigne una única palabra padre a cada palabra en la oración. La raíz del árbol puede ser el verbo principal de la oración.

<img src="img/picture5.png">

Pero podemos ir un paso más allá. Además de identificar la palabra principal de cada palabra, también podemos predecir el tipo de relación que existe entre esas dos palabras:

<img src="img/picture6.png">

#### Paso 7: Reconocimiento de la entidad nombrada (NER)

Ah este punto se puede iniciar a extraer ideas. En la oración, tenemos los siguientes sustantivos:

<img src="img/picture7.png">

Algunos de estos nombres presentan cosas reales en el mundo. Por ejemplo, "_London_", "_England_" y "_United Kingdom_" representan lugares físicos en un mapa. Con esa información, podríamos extraer automáticamente una lista de los lugares del mundo real mencionados en un documento utilizando la NLP.

El objetivo de NER, es detectar y etiquetar estos nombres con los conceptos del mundo real que representan. Así es como se ve nuestra oración después de ejecutar cada token a través del modelo de etiquetado NER:

<img src="img/picture8.png">

Pero los sistemas NER no solo hacen una búsqueda simple en el diccionario. En su lugar, utilizan el contexto de cómo aparece una palabra en la oración y un modelo estadístico para adivinar qué tipo de sustantivo representa una palabra. Un buen sistema NER puede diferenciar entre "_Brooklyn Decker_" la persona y el lugar "_Brooklyn_" usando claves de contexto.

Estos son solo algunos de los tipos de objetos que un sistema NER típico puede etiquetar:
* Nombres de personas
* Nombres de compañia
* Ubicaciones geográficas (tanto físicas como políticas)
* Nombres de productos
* Fechas y horarios
* Cantidades de dinero
* Nombres de eventos

NER tiene muchos usos, ya que hace que sea tan fácil tomar datos estructurados del texto. Es una de las maneras más fáciles de obtener valor rápidamente de una tubería de NLP.

#### Paso 8: Resolución de la Coreferencia

En este punto,se sabe las partes del comentario de cada palabra, cómo se relacionan entre sí y qué palabras se refieren a entidades nombradas.

Sin embargo, el inglés está lleno de pronombres, palabras como _he_, _she_ y _it_. Estos son atajos que se usan en lugar de escribir nombres una y otra vez en cada oración. Los humanos pueden hacer un seguimiento de lo que representan estas palabras en función del contexto. Pero el modelo de NLP no sabe qué significan los pronombres porque solo examina una oración a la vez.

Usando la tercera oración del texto:
"_It was founded by the Romans, who named it Londinium._"

Si se analiza, se entiende que "_it_" fue fundado por los romanos. Pero es mucho más útil saber que "_London_" fue fundada por los romanos.

Como un ser humano que lee esta oración, puede darse cuenta fácilmente que "_it_" significa "_London_". El objetivo de la resolución de referencia es descubrir este mismo mapeo mediante el seguimiento de los pronombres en las oraciones. Se quiere averiguar todas las palabras que se refieren a la misma entidad.

El resultado de ejecutar la resolución de referencia en el text para la palabra "_London_":

<img src="img/picture9.png">

Con la información de referencia combinada con el árbol de análisis y la información de la entidad nombrada, se deberia poder extraer mucha información de este documento.

La resolución de la referencia es uno de los pasos más difíciles de implementar. Es incluso más difícil que el análisis de oraciones. Los avances recientes en el aprendizaje profundo han dado como resultado nuevos enfoques que son más precisos, pero aún no son perfectos.

#### Resumen

En la imagen a continuación se visualiza una solución posible para crear un sistema de NLP

<img src="img/picture10.png">

### Estado actual

Existen muchos esfuerzos alrededor de NLP, tanto a nivel de investigación como a nivel de aplicación. Algunos ejemplos de investigaciones son las presentadas en [3] y [4] donde se implementa una red neuronal profunda con aprendizaje multitarea para generar una gran cantidad de predicciones de procesamiento del lenguaje: etiquetas de parte del discurso, fragmentos, etiquetas de entidad nombradas, roles semánticos, palabras semánticamente similares y la probabilidad de que la oración tenga sentido (gramatical y semánticamente) utilizando un modelo de lenguaje. Investigaciones como [4] describimos núcleos para varias estructuras de lenguaje natural, permitiendo representaciones ricas y de alta dimensión de estas estructuras, mostrando cómo se puede aplicar un núcleo sobre árboles para analizar utilizando el algoritmo vottron perceptrón y dando resultados experimentales en el cuerpo ATIS de árboles parse. 

También se dan otros esfuerzos que involucra la medicina donde se toma la información clínica y se procesa por medio de NLP, resolviendo la falta de estructuración en la información, haciendo que los datos clínicos estén disponibles para su uso, caso presentado en [5]. Otra aplicación es la detección de informes de defectos duplicados mediante el procesamiento de lenguaje natural [6]. Una aplicación muy particular es la expuesta en [7], donde se presenta un analizador de opciones el cual extrae opiniones sobre un tema de documentos de texto en línea dando como resultado una extracción de términos de características específicas del tema, extracción de sentimiento y asociación (sujeto, sentimiento) por análisis de relación.

Se pueden encontrar en el marcado aplicaciones muy famosas que utilizan este algoritmo como por ejemplo Cortana, Siri en la detección de comandos por voz e inclusive Gmail para la detección de spam

### Referencias

[1] Nadkarni, P. M., Ohno-Machado, L., & Chapman, W. W. (2011). Natural language processing: an introduction. Journal of the American Medical Informatics Association, 18(5), 544-551. 

[2] Liddy, E.D. (2001). Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. NY. Marcel Decker, Inc.

[3] Collobert, R., & Weston, J. (2008, July). A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning (pp. 160-167). ACM.

[4] Collins, M., & Duffy, N. (2002). Convolution kernels for natural language. In Advances in neural information processing systems (pp. 625-632).

[5] Friedman, C., & Hripcsak, G. (1999). Natural language processing and its future in medicine. Acad Med, 74(8), 890-5.

[6] Runeson, P., Alexandersson, M., & Nyholm, O. (2007, May). Detection of duplicate defect reports using natural language processing. In Proceedings of the 29th international conference on Software Engineering (pp. 499-510). IEEE Computer Society.

[7] Yi, J., Nasukawa, T., Bunescu, R., & Niblack, W. (2003, November). Sentiment analyzer: Extracting sentiments about a given topic using natural language processing techniques. In Third IEEE international conference on data mining (pp. 427-434). IEEE.

[8] Geitgey,A. (2018). Natural Language Processing is Fun! In https://medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e
