# NLP with library **NLTK**, the Natural Language Tool Kit.

## Word tokenization: 
Es el acto de dividir el texto en palabras. En el modulo nltk.tokenize hay varios tokenizations por ejemplo TweetTokenizer

In [129]:
import nltk
my_text = "The coolest job in the next 10 years will be " +\
"statisticians . People think I'm joking, but " +\
"who would've guessed that computer engineers " +\
"would've been the coolest job of the 1990s?"

nltk_tokens = nltk.word_tokenize(my_text,preserve_line=True)
print (nltk_tokens)

['The', 'coolest', 'job', 'in', 'the', 'next', '10', 'years', 'will', 'be', 'statisticians', '.', 'People', 'think', 'I', "'m", 'joking', ',', 'but', 'who', 'would', "'ve", 'guessed', 'that', 'computer', 'engineers', 'would', "'ve", 'been', 'the', 'coolest', 'job', 'of', 'the', '1990s', '?']


## Stemming
El stemming es la acción de reducir las formas flexivas de las palabras y llevarlas a sus conceptos básicos. Por ejemplo, el concepto de *is ,be , are y am* es el mismo

In [130]:
from nltk.stem import *
stemmer = LancasterStemmer()
l = [stemmer.stem(word) for word in nltk_tokens]

print(l)


['the', 'coolest', 'job', 'in', 'the', 'next', '10', 'year', 'wil', 'be', 'stat', '.', 'peopl', 'think', 'i', "'m", 'jok', ',', 'but', 'who', 'would', "'ve", 'guess', 'that', 'comput', 'engin', 'would', "'ve", 'been', 'the', 'coolest', 'job', 'of', 'the', '1990s', '?']


En el ejemplo, hemos utilizado el stemmer de Lancaster, que es uno de
los algoritmos más potentes y recientes. Al comprobar el resultado, verá
inmediatamente que está todo en minúsculas y la palabra *statisticians* está
asociado a su raíz: *stat* 

## Word tagging
Tagging, o POS-Tagging, es la asociación entre una palabra (o un
token) y su etiqueta de parte de oración (POS-Tag). Después del
etiquetado, usted sabe qué (y dónde) están los verbos, adjetivos,
sustantivos

In [None]:
import nltk
nltk.pos_tag(nltk.word_tokenize("John's big idea isn't all that bad.",
             preserve_line=True), tagset='universal')


## Stopwords(Palabras claves)
Las stopwords son los tokens menos informativos del texto, ya
que son las palabras más comunes (como the, it, is, as y not). Las
stopwords suelen eliminarse y asi el procesamiento requiere menos tiempo
y menos memoria; además, a veces es más preciso.

In [132]:
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS
print (stop_words)

frozenset({'down', 'via', 'herself', 'thereafter', 'indeed', 'nobody', 'already', 'sincere', 'whither', 'either', 'cannot', 'everything', 'on', 'again', 'so', 'a', 'of', 'above', 'top', 'without', 'further', 'nor', 'and', 'are', 'all', 'one', 'latterly', 'whenever', 'also', 'seem', 'she', 'seemed', 'eight', 'when', 'anywhere', 'only', 'nowhere', 'under', 'how', 'another', 'everywhere', 'first', 'therein', 'why', 'not', 'hundred', 'is', 'hers', 'whence', 'that', 'part', 'it', 'eleven', 'detail', 'forty', 'amount', 'least', 'ten', 'then', 'cry', 'noone', 'although', 'whoever', 'bottom', 'up', 'along', 'was', 'neither', 'three', 'afterwards', 'from', 'whatever', 'around', 'both', 'am', 'now', 'our', 'his', 'anyhow', 'see', 'many', 'whereafter', 'onto', 'empty', 'ie', 'about', 'meanwhile', 'them', 'often', 'few', 'has', 'becoming', 'name', 'besides', 'sixty', 'whose', 'sometime', 'nevertheless', 'most', 'except', 'fifty', 'fire', 'back', 'before', 'own', 'whole', 'in', 'could', 'at', 'him'

## **A complete data science example –text classification** (otros ejemplos estan en el archivo *2_data_munging.ipynb*)
Un ejemplo con el conjunto de datos 20newsgroup, que ya se introdujo en el capítulo1. Para
hacer las cosas más realistas y evitar que el clasificador sobreajuste los
datos, eliminaremos las cabeceras de los correos electrónicos, los pies de
página (como una firma) y las comillas. Además, en este caso, el objetivo es
clasificar entre dos categorías similares: *sci.med* y *sci.space*.

In [133]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer


categories = ['sci.med', 'sci.space']
to_remove = ('headers', 'footers', 'quotes')

twenty_sci_news_train = fetch_20newsgroups(subset='train',
                                           remove=to_remove, categories=categories)
twenty_sci_news_test = fetch_20newsgroups(subset='test',
                                          remove=to_remove, categories=categories)


Usaremos **Tfidf** que  es la multiplicación de  frecuencia de la palabra en el documento por la inversa de 
su frecuencia en todos los documentos. Las puntuaciones altas indican que la palabra se
utiliza varias veces en el documento actual, pero es poco frecuente en los demás
(es decir, es una palabra clave del documento):

In [134]:
tf_vect = TfidfVectorizer()
X_train = tf_vect.fit_transform(twenty_sci_news_train.data)
X_test = tf_vect.transform(twenty_sci_news_test.data)
y_train = twenty_sci_news_train.target
y_test = twenty_sci_news_test.target

word_list = tf_vect.get_feature_names_out()
for n in X_test[0].indices:
    print(' "%s" -- %0.3f' %  (word_list[n], X_test[0, n]), end='      ')

twenty_sci_news_test.data[0]

 "you" -- 0.167       "want" -- 0.303       "to" -- 0.109       "the" -- 0.101       "star" -- 0.421       "sounds" -- 0.401       "plane" -- 0.474       "me" -- 0.233       "like" -- 0.219       "ground" -- 0.415       "for" -- 0.146      

"\n\n\n\n\nSounds to me like you'd want a star for the ground plane.\n"

In [135]:
'''como la norma por defecto es 'l2' la suma de los cuadrados de cada fila es igual a uno'''
import numpy as np

np.power(X_test[0].todense(), 2).sum()


1.0

In [141]:
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score

clf = SGDClassifier()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print("Accuracy=", accuracy_score(y_test, y_pred))


Accuracy= 0.8911392405063291


Vamos a ver si usuando las tecnicas de limpieza de texto aprendidas en este capitulo podemos mejorar la **Accuracy**

In [142]:
import nltk
from sklearn.feature_extraction import text

stop_words = text.ENGLISH_STOP_WORDS


def clean_and_stem_text(text):
    """t básicamente pone en minúsculas, tokeniza,stems y reconstruye cada 
    documento del conjunto de datos"""
    tokens = nltk.word_tokenize(text.lower(),preserve_line=True)
    clean_tokens = [word for word in tokens if word not in stop_words]
    stem_tokens = [stemmer.stem(token) for token in clean_tokens]
    return " ".join(stem_tokens)


cleaned_docs_train = [clean_and_stem_text(text) for text in twenty_sci_news_train.data]
cleaned_docs_test = [clean_and_stem_text(text) for text in twenty_sci_news_test.data]


In [145]:

X1_train = tf_vect.fit_transform(cleaned_docs_train)
X1_test = tf_vect.transform(cleaned_docs_test)
clf.fit(X1_train, y_train)
y1_pred = clf.predict(X1_test)
print("Accuracy=", accuracy_score(y_test, y1_pred))


Accuracy= 0.8924050632911392


Este proceso requiere más tiempo, pero conseguimos una precisión mejor. Un ajuste preciso de los parámetros de **Tfidf** y
una elección con validación cruzada de los parámetros del clasificador acabarán elevando la precisión por encima del 90 por ciento. 

## Latent Dirichlet Allocation (LDA)
Algoritmo popular no supervisado solo para texto **NLP** 
El objetivo del **LDA** es extraer conjuntos de palabras homogéneas, o temas,
de una colección de documentos. Las matemáticas que hay detrás del
algoritmo son muy avanzadas; aquí veremos sólo una noción práctica del
mismo.

In [None]:
import nltk
import gensim
from sklearn.datasets import fetch_20newsgroups


def tokenize(text):
    """
    tokenizar y crear una lista de todas las palabras incluidas en el conjunto de
    datos. También elimina las palabras vacías y pone cada palabra en minúsculas"""

    return [token.lower() for token in gensim.utils.simple_preprocess(text)
            if token not in gensim.parsing.preprocessing.STOPWORDS]


text_dataset = fetch_20newsgroups(categories=['rec.autos', 'sci.med'],
                                  random_state=101,
                                  remove=('headers', 'footers', 'quotes'))


documents = text_dataset.data
print("Document count:", len(documents))

print(documents[0])
np.array(tokenize(documents[0])).transpose()


Document count: 1188

I have a new doctor who gave me a prescription today for something called 
Septra DS.  He said it may cause GI problems and I have a sensitive stomach 
to begin with.  Anybody ever taken this antibiotic.  Any good?  Suggestions 
for avoiding an upset stomach?  Other tips?



array(['new', 'doctor', 'gave', 'prescription', 'today', 'called',
       'septra', 'ds', 'said', 'cause', 'gi', 'problems', 'sensitive',
       'stomach', 'begin', 'anybody', 'taken', 'antibiotic', 'good',
       'suggestions', 'avoiding', 'upset', 'stomach', 'tips'],
      dtype='<U12')

In [None]:
processed_docs = [tokenize(doc) for doc in documents]
word_dic = gensim.corpora.Dictionary(processed_docs)
print("Num tokens:", len(word_dic))

print(word_dic)

Num tokens: 16161
Dictionary<16161 unique tokens: ['antibiotic', 'anybody', 'avoiding', 'begin', 'called']...>


En el conjunto de datos hay algo más de 16.000 palabras distintas. Ahora
toca filtrar las palabras demasiado comunes y las demasiado raras. En este
paso, mantendremos las palabras que aparezcan al menos 10 veces y no
más del 20% de los documentos. En este punto, tenemos la representación
"Bag Of Words" (o BoW) de cada documento; es decir, cada documento se
representa como un diccionario que contiene cuántas veces aparece cada
palabra en el texto. La posición absoluta de cada palabra en el texto se
pierde, exactamente igual que si metiéramos todas las palabras del
documento en una bolsa. Como resultado, no toda la señal del texto se
capta en las características basadas en este enfoque, pero la mayor parte
de latiempo, basta con hacer un modelo eficaz:

In [None]:
#representación "Bag Of Words"  BoW) de cada documento
word_dic.filter_extremes(no_below=10, no_above=0.2)
print(word_dic)

bow = [word_dic.doc2bow(doc) for doc in processed_docs]

Dictionary<1403 unique tokens: ['anybody', 'begin', 'called', 'cause', 'doctor']...>


In [None]:
lda_model = gensim.models.LdaMulticore(
    bow, num_topics=2, id2word=word_dic, passes=10, iterations=500)


In [None]:
# Con el modelo está entrenado, podemos ver la asociación entre palabras y temas
lda_model.print_topics(-1)


[(0,
  '0.016*"edu" + 0.011*"com" + 0.009*"people" + 0.006*"msg" + 0.006*"food" + 0.006*"patients" + 0.006*"time" + 0.006*"pain" + 0.005*"doctor" + 0.005*"disease"'),
 (1,
  '0.019*"car" + 0.008*"new" + 0.008*"use" + 0.007*"cars" + 0.007*"good" + 0.006*"think" + 0.006*"time" + 0.005*"health" + 0.005*"engine" + 0.005*"year"')]

El algoritmo no proporciona un nombre abreviado de los temas, sino su composición (los
números son los pesos de cada palabra dentro de cada tema, ordenados
de mayor a menor). Además, observe que algunas palabras aparecen en
ambos temas; son palabras ambiguas que pueden utilizarse en ambos
sentidos.

Ahora veamos como se comporta el algoritmo con documentos no vistos 


In [None]:
new_doc = "I've shown the doctor my new car. He loved its big wheels!"

bow_doc = word_dic.doc2bow(tokenize(new_doc))
for index, score in sorted(lda_model[bow_doc], key=lambda tup: -1*tup[1]):
    print("Score: {}\t Topic: {}".format(score, lda_model.print_topic(index, 5)))

Score: 0.6015017032623291	 Topic: 0.019*"car" + 0.008*"new" + 0.008*"use" + 0.007*"cars" + 0.007*"good"
Score: 0.3984982669353485	 Topic: 0.016*"edu" + 0.011*"com" + 0.009*"people" + 0.006*"msg" + 0.006*"food"


Las puntuaciones de ambos temas están en torno a 0,4 y 0,6, lo que
significa que la frase contiene un buen equilibrio de los temas car y
medicina. Lo que hemos mostrado aquí es sólo un ejemplo de dos temas;
pero la misma implementación, gracias a la biblioteca de rendimiento
**Gensim**, también puede asignar procesar toda la Wikipedia en inglés en
cuestión de pocas horas.
