Procesamiento de Lenguaje Natural
==================

Qué es?
=======

"Lengua o idioma hablado o escrito por humanos para propósitos generales de comunicación" [Wikipedia, 2018]

"Natural-language processing (NLP) is an area of computer science and artificial intelligence concerned with the interactions between computers and human (natural) languages" [Wikipedia, 2018]

computadora -> lenguaje natural

lenguaje natural -> computadora

# Fuentes estructuradas vs. fuentes desestructuradas

- Estructuradas: los datos están almacenados con una estructura, que puede ser simple o compleja, pero nos permite entenderlo de alguna manera. Son los que generalmente utilizamos: archivos de texto delimitados, bases de datos, ... cualquiera cosa que pueda transformar rápidamente a filas y columnas.

- Desestructuradas: no existe una estructura que nos permita entender los datos y por ende obtener información de ellos. Las principales son video, audio y texto.

<img src='images/nlp_example.png' width='70%' />

<p>Podemos separar oraciones positivas y negativas?</p>

# Algo de historia

- 1950: Alan Turing publica "Computing Machinery and Intelligence". Test de Turing.

- 1954: Experimento Georgetown - IBM.

- 1966: Nace ELIZA

- 1970s: Surgen las primeras ontologías y "chatterbots".

- 1980s: Se empiezan aplicar técnicas estadísticas a la resolución de problemas de NLP.

- 2011: Watson gana el concurso de televisión Jeopardy!



- 2011: Desafío de los esquemas de Winograd. Ejemplo:

"The trophy would not fit in the brown suitcase because it was too big".

What was too big?

<br />
Repuesta 0: the trophy

Respuesta 1: the suitcase

- Actualidad: ?

## Algunos problemas de los que se ocupa el PLN

- Topic classification

"El PLP tuvo una buena tarde y se perfila como gran candidato."

Deportes ? Economía ? Política ?

- Recuperación de información

"La Argentina está organizada como un <strong>Estado federal descentralizado</strong>, integrado desde <strong>1994</strong> por un <strong>Estado nacional</strong> y <strong>24 estados autogobernados</strong>, que a su vez son <strong>24 distritos electorales legislativos nacionales</strong>."

- Question answering (chatbots)

"Hola. Soy afiliado de la prepaga y necesito autorizar un pedido de tomografía 3D por intermedio del sistema de autogestión. No consigo encontrar la práctica, ¿me podríar decir si es necesario autorizarla realmente?"

<img src="files/images/Facebook_comment.png" width="600px" />

- Análisis de opiniones / sentimientos

"El mejor servicio que usé en mi vida, nada de demora y me resolvieron todas las dudas que tenía. GENIOS!!!"

[algo que un usuario dijo nunca en ningún lugar]

- Text summarization

<img src="files/images/NLP_text_sum.png" width="400px" />

- Word-sense desambiguation

Uno de los problemas abiertos dentro de NLP!

"Puso dos velas a San Pancracio."

Cilindro de cera o pieza de lona?

- Reconocimiento de Entidades Nombradas (NER)

"<strong>PP</strong> en crisis en <strong>España</strong>: la oposición acorrala a <strong>Mariano Rajoy</strong> con un voto de censura. <strong>El presidente</strong> dará un comunicado esta tarde en una conferencia de prensa".

- Machine translation

"The United Nations came into being in 1945, following the devastation of the Second World War, with one central mission: the maintenance of international peace and security."

"Tras la devastación de la Segunda Guerra Mundial, las Naciones Unidas empezaron su labor en 1945, con una prioridad: mantener la paz y la seguridad internacionales."

- Natural Language Generation (NLG)

<img src="files/images/CV_intro_11.PNG" width="500px" />

"La imagen muestra una persona desayunando en un lugar cerrado, posiblemente su casa, mientras lee un diario."

- Speech recognition (o "voz a texto")


"OK Google"

"Oye Siri"

## Técnicas de preprocesado para datos no estructurados (lenguaje natural)

### Tokenización

In [2]:
from nltk import word_tokenize

print(word_tokenize("Hola mundo!. Hello world!."))

print(word_tokenize("Cross-validation is not an end-to-end model."))

['Hola', 'mundo', '!', '.', 'Hello', 'world', '!', '.']
['Cross-validation', 'is', 'not', 'an', 'end-to-end', 'model', '.']


### Stemming

Es una normalización para lenguaje natural!

biblioteca = bibliotecario = bibliotecaria ?

In [5]:
from nltk.stem.porter import PorterStemmer
from nltk.stem.snowball import SnowballStemmer

stemmer = PorterStemmer()

palabras = ["argue", "argued", "argues", "arguing"]

print([stemmer.stem(p) for p in palabras])

stemmer = SnowballStemmer("spanish")

palabras = ["biblioteca", "bibliotecario", "bibliotecarias"]

print([stemmer.stem(p) for p in palabras])

['argu', 'argu', 'argu', 'argu']
['bibliotec', 'bibliotecari', 'bibliotecari']


### Lemmatization

Es otra técnica de normalización, similar a stemming pero intentando hacer un análisis más completo.

Permite introducir el resultado de un etiquetado POS para realizar la operación.

### Part-of-Speech tagging (POS)

<img src="files/images/NLP_POS_tagging.png" width="500px" />

In [6]:
from nltk import pos_tag

text = word_tokenize("This is an introductory class to NLP.")

print(pos_tag(text))

[('This', 'DT'), ('is', 'VBZ'), ('an', 'DT'), ('introductory', 'JJ'), ('class', 'NN'), ('to', 'TO'), ('NLP', 'NNP'), ('.', '.')]


### Eliminación de stop-words

Son unidades que se pueden encontrar en la entrada pero no aportan información: artículos, pronombres, preposiciones, etc.

Generalmente deben ser eliminadas.

In [7]:
from nltk.corpus import stopwords

o = "This is an introductory class to NLP."

tokens = word_tokenize(o)

[word for word in tokens if word not in stopwords.words('english')]

['This', 'introductory', 'class', 'NLP', '.']

# Feature engineering en NLP

## Bag of words

"John likes to watch movies. Mary likes movies too."

"Ana hates horror movies."

<table>
    <tr>
        <td>John</td>
        <td>likes</td>
        <td>watch</td>
        <td>movies</td>
        <td>Mary</td>
        <td>Ana</td>
        <td>hates</td>
        <td>horror</td>
    </tr>
    <tr>
        <td>1</td>
        <td>2</td>
        <td>1</td>
        <td>2</td>
        <td>1</td>
        <td>0</td>
        <td>0</td>
        <td>0</td>
    </tr>
        <tr>
        <td>0</td>
        <td>0</td>
        <td>0</td>
        <td>1</td>
        <td>0</td>
        <td>1</td>
        <td>1</td>
        <td>1</td>
    </tr>
</table>

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

s = ["John likes to watch movies. Mary likes movies too.",
     "Ana hates horror movies."]

tf_vectorizer = CountVectorizer(stop_words='english')
X = tf_vectorizer.fit_transform(s)

df = pd.DataFrame(X.toarray(), columns=tf_vectorizer.get_feature_names_out())
df

Unnamed: 0,ana,hates,horror,john,likes,mary,movies,watch
0,0,0,0,1,2,1,2,1
1,1,1,1,0,0,0,1,0


## Term Frequency–Inverse Document Frequency (tf-idf)

- Intenta reflejar estadísticamente la importancia de cada término incluido dentro de una serie de documentos.

- Instintivamente, si nos interesara clasificar noticias en categorías:

I("el") <<< I("pelota") 

I("pelota") <<< I("Messi")

In [36]:
s1 = """La selección argentina ya prepara la despedida rumbo al Mundial Rusia 2018. 
Con Lionel Messi a la cabeza, en la Bombonera, el equipo de Jorge Sampaoli se enfrentará
a Haití el próximo martes 29 de mayo."""

s2 = """Nicolás Kicker, el tenista argentino declarado "culpable" de arreglo de dos partidos
en Challengers en Italia y Colombia en 2015 por la unidad de Integridad del Tenis 
(TIU, según sus siglas en inglés), nació en Merlo hace 25 años y siempre representó al 
costado más austero del tenis profesional."""

s3 = """Ganar en la gira de mitad de temporada, hecho. Ganarle a un equipo neozelandés, hecho.
Ganar cuatro partidos seguidos, hecho. El próximo ítem por tachar en la lista de cosas pendientes 
de Jaguares es ganarle a Sharks, que ha configurado una suerte de paternidad sobre los argentinos
al imponerse en los cuatro enfrentamientos entre sí."""

from sklearn.feature_extraction.text import TfidfVectorizer
ffidf_vectorizer = TfidfVectorizer(use_idf=True, binary=True)
X_train_tf = ffidf_vectorizer.fit_transform([s1, s2, s3])
words = ['argentina', 'la', 'temporada']
words_ixs = [i for i, w in enumerate(ffidf_vectorizer.get_feature_names()) if w in words]
X_train_tf[:,words_ixs].toarray()

array([[0.20039744, 0.11835796, 0.        ],
       [0.        , 0.09997393, 0.        ],
       [0.        , 0.09975011, 0.16889161]])

# Word embedding

Mapeos de palabras a vectores n-dimensionales:

In [3]:
algoritmo = [0.3487, -0.0157, 0.5778, 0.2491, -0.0401, ...]
    
programa = [0.094, 0.1304, -0.1018, -0.0706, -0.9981, ...]
    
piano = [0.0477, -0.7108, 0.2198, 0.068, -0.0124, ...]

**Por qué embeddings?**

Problemas de representaciones como bag-of-words y similares:
- Todas las palabras en el vocabulario tienen la misma distancia
- Alta dimensionalidad (V)

Idealmente nos gustaría que:
- La medida de distancia incorpore nociones de semántica
- Trabajar en un espacio D-dimensional de forma que D << V

*'Words that occur in similar contexts tend to have similar meanings'*

Harris, 1954

<img src="files/images/word_embeddings.svg" width="500px" />

**Semántica como álgebra lineal**

In [None]:
d['rey'] - d['hombre'] + d['mujer'] == d['reina']

## Cómo construir embeddings?

Hay muchos algoritmos:
- word2vec
- GloVe
- fastText
- StarSpace
- RAND-WALK
- ...

## word2vec

- Fue uno de los primeros trabajos propuestos en esta dirección (2013 - Mikolov *et. al.* @Google) 
- Se presentan dos algoritmos:
    - CBOW: Predice una palabra en base al contexto
    - SkipGram: Predice el contexto dada una palabra

<img src="files/images/w2v_context_window.PNG" width="700px" />

<img src="files/images/w2v_skipgram_nn.PNG" width="700px" />

# Más allá de embeddings, modelos de lenguaje

- GPT
- PaLM
- BERT

Algunas cosas curiosas:
- https://chat.openai.com/
- https://ai.google/discover/palm2/
- https://books.google.com/talktobooks/
- https://research.google.com/semantris/
- https://play.aidungeon.io/

# Bibliografía de referencia:

**Handbook of Natural Language Processing** (2010). Nitin Indurkhya, Fred J. Damerau