Procesamiento de Lenguaje Natural
==================

Qué es?
=======

"Lengua o idioma hablado o escrito por humanos para propósitos generales de comunicación" [Wikipedia, 2018]

"Natural-language processing (NLP) is an area of computer science and artificial intelligence concerned with the interactions between computers and human (natural) languages" [Wikipedia, 2018]

computadora -> lenguaje natural

lenguaje natural -> computadora

# Por qué?

Existe información relevante y nos interesa poder acceder a ella!

# Fuentes estructuradas vs. fuentes desestructuradas

- Estructuradas: los datos están almacenados con una estructura, que puede ser simple o compleja, pero nos permite entenderlo de alguna manera. Son los que generalmente utilizamos: archivos de texto delimitados, bases de datos, ... cualquiera cosa que pueda transformar rápidamente a filas y columnas.

- Desestructuradas: no existe una estructura que nos permita entender los datos y por ende obtener información de ellos. Las principales son video, audio y texto.

# Algo de historia

- 1950: Alan Turing publica "Computng Machinery and Intelligence". Test de Turing.

- 1954: Experimento Georgetown - IBM.

- 1966: Nace ELIZA

- 1970s: Surgen las primeras ontologías y "chatterbots".

- 1980s: Se empiezan aplicar técnicas estadísticas a la resolución de problemas de NLP.

- 2011: Watson gana el concurso de televisión Jeopardy!
- 2011: Desafío de los esquemas de Winograd. Ejemplo:

<i>"The trophy would not fit in the brown suitcase because it was too big".

What was too big?

<br />
Repuesta 0: the trophy

Respuesta 1: the suitcase</i>

- Actualidad: ?

# Algunos problemas de los que se ocupa el PLN

<img src="files/images/NLP_scope.PNG" width="200px" />

- Topic classification

<i>"El PLP tuvo una buena tarde y se perfila como gran candidato."</i>

Deportes ? Economía ? Política ?

- Recuperación de información

<i>"La Argentina está organizada como un <strong>Estado federal descentralizado</strong>, integrado desde <strong>1994</strong> por un <strong>Estado nacional</strong> y <strong>24 estados autogobernados</strong>, que a su vez son <strong>24 distritos electorales legislativos nacionales</strong>." </i>

- Question answering (chatbots)

"Hola. Soy afiliado de la prepaga y necesito autorizar un pedido de tomografía 3D por intermedio del sistema de autogestión. No consigo encontrar la práctica, ¿me podríar decir si es necesario autorizarla realmente?"

<img src="files/images/Facebook_comment.png" width="600px" />

- Análisis de opiniones / sentimientos

<i>"El mejor servicio que usé en mi vida, nada de demora y me resolvieron todas las dudas que tenía. GENIOS!!!"</i> 

[algo que un usuario dijo nunca en ningún lugar]

- Text summarization

<img src="files/images/NLP_text_sum.png" width="400px" />

- Word-sense desambiguation

Uno de los problemas abiertos dentro de NLP!

<i>"Puso dos velas a San Pancracio."</i>

Cilindro de cera o pieza de lona?

- Reconocimiento de Entidades Nombradas (NER)

"<strong>PP</strong> en crisis en <strong>España</strong>: la oposición acorrala a <strong>Mariano Rajoy</strong> con un voto de censura".

- Machine translation (interlinguas)

<i>"The United Nations came into being in 1945, following the devastation of the Second World War, with one central mission: the maintenance of international peace and security."</i>

<i>"Tras la devastación de la Segunda Guerra Mundial, las Naciones Unidas empezaron su labor en 1945, con una prioridad: mantener la paz y la seguridad internacionales."</i>

#### ¿Cómo podríamos intentar resolver el problema de forma radical?. ¿Es viable seleccionar una lengua o idioma existente?

Posible solución: interlingua. 

"El interlingua es una lengua artificial internacional basada en vocablos comunes a la mayoría de los idiomas de Europa occidental y en una gramática anglorrománica simplificada."

- Natural Language Generation (NLG)

<img src="files/images/CV_intro_11.PNG" width="500px" />

"La imagen muestra una persona desayunando en un lugar cerrado, posiblemente su casa, mientras lee un diario."

- Natural Language Understanding (NLU)

Es otro de los problemas abiertos dentro de NLP!

<img src="files/images/NLU.PNG" width="500px" />

<img src="files/images/NLU_tweet.PNG" width="500px" />

- Speech recognition (o "voz a texto")

- Text-to-speech

"OK Google"

"Oye Siri"

# Técnicas de preprocesado para datos no estructurados (lenguaje natural)

### Tokenización

In [87]:
from nltk import word_tokenize

o = "Hola mundo!. Hello world!."

tokens = word_tokenize(o)
tokens

['Hola', 'mundo', '!', '.', 'Hello', 'world', '!', '.']

### Stemming

Es una normalización para lenguaje natural!

biblioteca = bibliotecario = bibliotecaria ?

In [88]:
from nltk.stem.porter import PorterStemmer
from nltk.stem.snowball import SnowballStemmer

stemmer = PorterStemmer()

palabras = ["argue", "argued", "argues", "arguing"]

print([stemmer.stem(p) for p in palabras])

stemmer = SnowballStemmer("spanish")

palabras = ["biblioteca", "bibliotecario", "bibliotecarias"]

print([stemmer.stem(p) for p in palabras])

['argu', 'argu', 'argu', 'argu']
['bibliotec', 'bibliotecari', 'bibliotecari']


# Part-of-Speech tagging (POS)

<img src="files/images/NLP_POS_tagging.png" width="500px" />

In [89]:
from nltk import pos_tag

text = nltk.word_tokenize("This is an introductory class to NLP.")

print(nltk.pos_tag(text))

[('This', 'DT'), ('is', 'VBZ'), ('an', 'DT'), ('introductory', 'JJ'), ('class', 'NN'), ('to', 'TO'), ('NLP', 'NNP'), ('.', '.')]


### Lemmatization

Es otra técnica de normalización, similar a stemming pero intentando hacer un análisis más completo.

Permite introducir el resultado de un etiquetado POS para realizar la operación.

### Eliminación de stop-words

Son unidades que se pueden encontrar en la entrada pero no aportan información: artículos, pronombres, preposiciones, etc.

Generalmente deben ser eliminadas.

In [90]:
from nltk.corpus import stopwords

o = "This is an introductory class to NLP."

tokens = word_tokenize(o)

[word for word in tokens if word not in stopwords.words('english')]

['This', 'introductory', 'class', 'NLP', '.']

# Feature engineering en NLP

### Bag of words

"John likes to watch movies. Mary likes movies too."

<table>
    <tr>
        <td>John</td>
        <td>likes</td>
        <td>watch</td>
        <td>movies</td>
        <td>Mary</td>
    </tr>
    <tr>
        <td>1</td>
        <td>2</td>
        <td>1</td>
        <td>2</td>
        <td>1</td>
    </tr>
</table>

In [91]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

s = "John likes to watch movies. Mary likes movies too."

tf_vectorizer = CountVectorizer(stop_words='english')
X = tf_vectorizer.fit_transform([s])

df = pd.DataFrame(X.toarray(), columns=tf_vectorizer.get_feature_names())
df

Unnamed: 0,john,likes,mary,movies,watch
0,1,2,1,2,1


### Term Frequency–Inverse Document Frequency (tf-idf)

- Intenta reflejar estadísticamente la importancia de cada término incluido dentro de una serie de documentos.

- Instintivamente, si nos interesara clasificar noticias en categorías: 

I("el") <<< I("pelota") 

I("pelota") <<< I("Messi")


- Term-Frequency: número de veces que un término aparece en un documento. Existen algunas variantes: tf, bool, tf log, etc.
- Inverse Document Frequency: Indica cuánta información aporta el término expresando qué tan frecuente es en todos los documentos.


In [92]:
s1 = """La selección argentina ya prepara la despedida rumbo al Mundial Rusia 2018 . 
Con Lionel Messi a la cabeza, en la Bombonera, el equipo de Jorge Sampaoli se enfrentará
a Haití el próximo martes 29 de mayo."""

s2 = """Nicolás Kicker, el tenista argentino declarado "culpable" de arreglo de dos partidos
en Challengers en Italia y Colombia en 2015 por la unidad de Integridad del Tenis 
(TIU, según sus siglas en inglés), nació en Merlo hace 25 años y siempre representó al 
costado más austero del tenis profesional."""

s3 = """Ganar en la gira de mitad de temporada, hecho. Ganarle a un equipo neozelandés, hecho.
Ganar cuatro partidos seguidos, hecho. El próximo ítem por tachar en la lista de cosas pendientes 
de Jaguares es ganarle a Sharks, que ha configurado una suerte de paternidad sobre los argentinos
al imponerse en los cuatro enfrentamientos entre sí."""

from sklearn.feature_extraction.text import TfidfVectorizer
ffidf_vectorizer = TfidfVectorizer(use_idf=True).fit([s1, s2, s3])
X_train_tf = ffidf_vectorizer.fit_transform([s1, s2, s3])
print(list(ffidf_vectorizer.vocabulary_)[:5])
X_train_tf[:5,:5].toarray()

['la', 'selección', 'argentina', 'ya', 'prepara']


array([[0.        , 0.17615489, 0.        , 0.17615489, 0.10403992],
       [0.13859057, 0.        , 0.13859057, 0.        , 0.08185382],
       [0.        , 0.        , 0.        , 0.        , 0.07201206]])

### Word embedding

"Mi hermano pintó la casa ______"

El ministro hizo una broma antes de comenzar la ceremonia.

Esa broma me dio risa.

No me hizo reir la broma del ministro.

Idealmente:

    algoritmo → [4,56,2,15,21,...,9]
    
    programa → [21,41,5,64,2,...,42]
    
    piano → [67,0,94,42,11,...,72]

<img src="files/images/word_embedding.png" width="300px" />

<img src="files/images/word2vect.PNG" width="700px" />

# Problemas resolubles utilizando Machine Learning

- Topic classification
- Recuperación de información ☓
- Question answering (chatbots)
- Relationship extraction ☓
- Sentiment analysis
- Text summarization ☓
- Word-sense desambiguation
- NER ☓
- Machine translation (interlingua)
- NLG
- NLU ☓
- Speech recognition
- Text-to-speech ☓