# ¿Qué es NLP?

NLP, o *Natural Language Processing*, hace referencia a un campo bastante amplio, que abarca tareas como las siguientes:
- **Part-of-speech tagging** (etiquetado *part-of-speech*) o análisis de sintaxis: identificar si cada palabra es un sustantivo, verbo, adjetivo, etc.
- **Named entity recognition** (NER, reconocimiento de entidad nombrada): identificar nombres de personas, organizaciones, ubicaciones, códigos médicos, expresiones de tiempo, cantidades, valores monetarios, etc.
- **Dar respuesta a preguntas**.
- **Speech recognition** (reconocimiento de voz).
- **Text-to-speech** (texto a voz) y speech-to-text (voz a texto).
- **Topic modeling** (modelado de temas).
- **Sentiment classification** (clasificación de sentimiento).
- **Language modeling** (modelado de lenguaje).
- **Traducción**.


Veamos algunos ejemplos. La siguiente imagen muestra el resultado de un análisis de entidades sobre un texto introducido en el servicio gratuito de prueba de análisis de texto de Google (https://cloud.google.com/natural-language):

![entitiesrecognition.png](attachment:entitiesrecognition.png)

A continuación, se muestra el resultado del análisis de sentimiento para el mismo texto:

![sentiment_analysis_google.png](attachment:sentiment_analysis_google.png)

Además, también se puede realizar un análisis sintáctico automático:

![syntax_google.png](attachment:syntax_google.png)

Por último, también es posible crear sistemas para realizar tareas específicas más complejas como transcripción automática de voz a texto, o de texto a voz (https://cloud.google.com/speech-to-text , https://cloud.google.com/text-to-speech):

![text_to_speech.png](attachment:text_to_speech.png)

Todas estas son aplicaciones de NLP que pueden desarrollarse a medida o utilizarse en modo SaaS en plataformas como la de Google.

## Contexto histórico del NLP
En un principio, el NLP se basaba en reglas lógicas codificadas de forma bastante inflexible sobre un idioma. 

En la década de 1990, se produjo un cambio hacia el uso de enfoques estadísticos y de aprendizaje automático, pero la complejidad del lenguaje natural hacía que los enfoques estadísticos simples a menudo no proporcionaran resultados del todo satisfactorios. 

Actualmente, nos encontramos en medio de un cambio importante en el avance hacia las redes neuronales. Debido a que el deep learning permite una complejidad mucho mayor, ahora se están logrando resultados antes inimaginables. 

Aún así, en muchas ocasiones la mejor estrategia es aquella que combina técnicas basadas en reglas lógicas con enfoques basados en deep learning.

![avancesnlp.PNG](attachment:avancesnlp.PNG)

![avancesnlp2.PNG](attachment:avancesnlp2.PNG)

https://www.iic.uam.es/innovacion/transformers-en-procesamiento-del-lenguaje-natural/

![avancesnlp3.PNG](attachment:avancesnlp3.PNG)

### Caso de estudio: spell checkers (correctores ortográficos)
El siguiente ejemplo pertenece a Peter Norving, un científico informático estadounidense y el director de investigación (exdirector de Calidad de búsqueda) de Google Inc.

Antiguamente, los correctores ortográficos requerían miles de líneas de reglas codificadas a mano:

![spellchecker1.png](attachment:spellchecker1.png)

En comparación con el enfoque anterior, una versión basada en datos históricos y probabilidades se puede escribir en muchas menos líneas:

![spellchecker2.png](attachment:spellchecker2.png)

En este enlace, se puede leer más acerca de los correctores ortográficos: http://norvig.com/spell-correct.html

### Cambios constantes
El campo del NLP todavía está en un estado de cambio casi permanente, por lo que es necesario mantenerse en constante movimiento, al corriente de los nuevos avances y recomendaciones de buenas prácticas. Es interesante seguir los consejos periódicos que brindan algunos *machine learning advisors* como Peter Skomoroch, ex científico de datos de LinkedIn:

![skomoroch.png](attachment:skomoroch.png)

### Norvig vs. Chomsky

***Antecedentes: Noam Chomsky es un profesor emérito del MIT, el padre de la lingüística moderna, uno de los fundadores de la ciencia cognitiva, ha escrito más de 100 libros. Peter Norvig es director de investigación de Google.***

Este "debate" habla de la tensión entre dos enfoques:

- Modelar el mecanismo subyacente de un fenómeno.
- Usar el aprendizaje automático para predecir los resultados (sin comprender necesariamente los mecanismos que los crean).

Esta tensión todavía está muy presente en el ámbito del NLP (y en muchos campos en los que se está adoptando el aprendizaje automático, así como en los enfoques de la inteligencia artificial en general).

De la cobertura de MIT Tech Review de un panel en el MIT en 2011 (https://www.technologyreview.com/2011/05/04/118906/unthinking-machines/):

*Chomsky se burló de los investigadores en aprendizaje automático que utilizan métodos puramente estadísticos para producir un comportamiento que imita algo en el mundo, pero que no intentan comprender el significado de ese comportamiento. Chomsky comparó a estos investigadores con científicos que podrían estudiar la danza hecha por un abeja regresando a la colmena, los cuales producirían una simulación basada en estadísticas de tal danza sin intentar comprender por qué la abeja se comportó de esa manera. "Esa es una noción de éxito científico que es muy novedosa. No conozco nada parecido en la historia de la ciencia ”, dijo Chomsky.*

De la respuesta de Norvig sobre Chomsky y las dos culturas del aprendizaje estadístico (http://norvig.com/chomsky.html):

*Breiman nos invita a renunciar a la idea de que podemos modelar de manera única la verdadera forma subyacente de la función de la naturaleza desde las entradas hasta las salidas. En cambio, nos pide que estemos satisfechos con una función que explique bien los datos observados y generalice a nuevos datos nunca antes vistos, pero que pueden expresarse en una forma matemática compleja que puede no tener relación con la forma de la función "verdadera" (si tal función verdadera existe). Chomsky toma el enfoque opuesto: prefiere mantener una forma simple, con un modelo elegante, y renunciar a la idea de que el modelo representará bien los datos".*

https://www.theatlantic.com/technology/archive/2012/11/noam-chomsky-on-where-artificial-intelligence-went-wrong/261637/

https://www.tor.com/2011/06/21/norvig-vs-chomsky-and-the-fight-for-the-future-of-ai/

### Yann LeCun vs. Chris Manning
Otra discusión interesante sobre el tema de cuánta estructura lingüística incorporar en los modelos de NLP es la que se produjo entre Yann LeCun y Chris Manning:

http://www.abigailsee.com/2018/02/21/deep-learning-structure-and-innate-priors.html (Aprendizaje profundo, estructura y antecedentes innatos: una discusión entre Yann LeCun y Christopher Manning)

Por un lado, Manning es un destacado defensor de la incorporación de una estructura más lingüística en los sistemas de aprendizaje profundo. Por otro lado, LeCun es uno de los principales defensores de la capacidad de arquitecturas neuronales simples pero poderosas para realizar tareas sofisticadas sin una ingeniería de funciones extensa y específica de tareas. Por esta razón, la anticipación por el desacuerdo entre los dos fue alta, y un comentarista de Twitter describió el evento como "el equivalente en IA de Batman vs Superman".

...

Manning describió la estructura como un “bien necesario” (9:14), argumentando que deberíamos tener una actitud positiva hacia la estructura como una buena decisión de diseño. En particular, la estructura nos permite diseñar sistemas que pueden aprender más de menos datos y con un mayor nivel de abstracción, en comparación con aquellos sin estructura.

Por el contrario, LeCun describió la estructura como un "mal necesario" (2:44) y advirtió que imponer una estructura requiere que hagamos ciertas suposiciones, que son invariablemente incorrectas para al menos una parte de los datos, y pueden volverse obsoletas en un futuro cercano. Como ejemplo, planteó la hipótesis de que ConvNets podría quedar obsoleto en 10 años (29:57).

# Conceptos básicos y terminología

## Text corpus o *corpora*
Los datos del lenguaje de los que dependen todas las tareas de NLP se denominan *corpus de texto* o simplemente *corpus*. 

En esencia, **un corpus es un gran conjunto de datos de texto que pueden estar en cualquier idioma**. 

El corpus puede constar de un solo documento o de varios documentos. Por otro lado, la fuente del corpus de texto puede ser una red social como Twitter, un blog, foros de discusión abiertos como Stack Overflow, libros y muchos otros. 

En algunas de las tareas como la traducción automática, necesitaríamos un corpus multilingüe. Por ejemplo, es posible que necesitemos las traducciones al inglés y al español del mismo contenido del documento para desarrollar un modelo de traducción automática. Para las tareas de habla, también necesitaríamos grabaciones de voz humana y el corpus transcrito correspondiente.

Para muchas de las tareas de NLP, el corpus se divide en partes más pequeñas para su posterior análisis. Estos fragmentos pueden estar a nivel de párrafo, oración o palabra.

## N-grams
**Una secuencia de caracteres o palabras forma un N-gram**. 

Por ejemplo, un carácter *unigram* consta de un solo carácter, un *bigram* consta de una secuencia de dos caracteres, etc. 

De manera similar, los N-grams de palabras constan de una secuencia de n palabras. En NLP, los N-grams se utilizan como características para tareas como la clasificación de texto.

## Bag of words
**Una bolsa de palabras captura las frecuencias de ocurrencia de palabras en el corpus de texto sin considerar el orden o la secuencia de dichas palabras**, a diferencia de los N-grams. Una bolsa de palabras también se usa a modo de características en tareas como el análisis de sentimientos y la identificación de temas.

# Recursos
## Libros

Algunas referencias útiles son las siguientes:

- Speech and Language Processing, by Dan Jurafsky and James H. Martin (https://web.stanford.edu/~jurafsky/slp3/) *Free PDF*

- Introduction to Information Retrieval by By Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (https://nlp.stanford.edu/IR-book/html/htmledition/irbook.html) *Free online*

- Natural Language Processing with PyTorch by Brian McMahan and Delip Rao (https://www.oreilly.com/library/view/natural-language-processing/9781491978221/) *Need to purchase*

## Blogs

- Sebastian Ruder (https://ruder.io/)
- Joyce Xu (https://medium.com/@joycex99)
- Jay Alammar (https://jalammar.github.io/)
- Stephen Merity (https://smerity.com/articles/articles.html)
- Rachael Tatman (https://towardsdatascience.com/evaluating-text-output-in-nlp-bleu-at-your-own-risk-e8609665a213)

# Herramientas de NLP 
- Regex, que se usa, por ejemplo, para encontrar todos los números de teléfono en un texto: 123-456-7890, (123) 456-7890, etc.
- Tokenization, que consiste en dividir un texto en unidades significativas (tiene un significado diferente en el área de Seguridad de la Información)
- Word embeddings
- Linear algebra/matrix decomposition
- Redes neuronales
- Hidden Markov models
- Parse trees

# Librerías de Python 
- nltk (https://www.nltk.org/): lanzada por primera vez en 2001, a lo largo de los años se ha convertido en una librería de NLP muy amplia.
- spaCy (https://spacy.io/): en general, tiene menos funcionalidades que nltk, pero más eficientes.
- gensim (https://radimrehurek.com/gensim/): muy potente para modelado de temas y detección de similitudes.

Por otro lado, existen otras herramientas muy especializadas que también se consideran de gran utilidad:
- PyText (https://pytext.readthedocs.io/en/master/): es un framework de modelado de NLP basado en aprendizaje profundo y está  construido en PyTorch.
- fastText (https://fasttext.cc/): tiene una biblioteca de *embeddings*.

Por último, las siguientes son librerías de ML/DL que cuentan con funcionalidades para tratamiento de texto:
- sklearn (https://scikit-learn.org/stable/): librería de ML en Python de propósito general.
- fastai (https://docs.fast.ai/): redes neuronales rápidas y precisas que utilizan las mejores prácticas modernas, además de PyTorch.

# Cuestiones éticas
## Bias

![google-translate.png](attachment:google-translate.png)

Algunos enlaces interesantes para profundizar en el tema:

- How Vector Space Mathematics Reveals the Hidden Sexism in Language (https://www.technologyreview.com/2016/07/27/158634/how-vector-space-mathematics-reveals-the-hidden-sexism-in-language/)
- Semantics derived automatically from language corpora contain human-like biases (https://arxiv.org/abs/1608.07187)
- Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them (https://arxiv.org/abs/1903.03862)
- Word Embeddings, Bias in ML, Why You Don't Like Math, & Why AI Needs You (https://www.youtube.com/watch?v=25nC0n9ERq4&list=PLtmWHNX-gukLQlMvtRJ19s7-8MrnRV6h6&index=9)

## Falsificación

![gpt2-howard.png](attachment:gpt2-howard.png)

(https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2)

*Él predijo la crisis de noticias falsas de 2016. Ahora está preocupado por un apocalipsis de información* (entrevista con Avi Ovadya, https://www.buzzfeednews.com/article/charliewarzel/the-terrifying-future-of-fake-news)

- Generar un clip de audio o video de un líder mundial declarando la guerra. "No tiene que ser perfecto, solo lo suficientemente bueno para hacer que el enemigo piense que algo ocurre y puede que provoque una respuesta instintiva e imprudente de represalia".

- Los movimientos políticos pueden ser manipulados por campañas falsas para competir efectivamente con humanos reales por la atención de los legisladores y reguladores, ya que será demasiado difícil notar la diferencia.

- Imaginémonos si cada parte del spam que recibimos pareciera idéntico a los correos electrónicos de personas reales que conocemos (con el contexto, tono, etc. apropiados).

![etzioni-fraud.png](attachment:etzioni-fraud.png)

¿Cómo preveniremos la falsificación basada en inteligencia artificial? (https://hbr.org/2019/03/how-will-we-prevent-ai-based-forgery): "Necesitamos promulgar la norma de que cualquier artículo que no esté firmado está potencialmente falsificado".

## Referencias
- fastai/course-nlp
- Arumugan, R. y Shanmugamani, R. (2018). Hands-On Natural Language Processing with Python. Packt.