In [None]:
# initial setup
%run "../../../common/0_notebooks_base_setup.py"


In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt

<link rel="stylesheet" href="../../../common/dhds.css">
<div class="Table">
    <div class="Row">
        <div class="Cell grey left"> <img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_portada.jpg" align="center" width="90%"/></div>        
        <div class="Cell right">
            <div class="div-logo"><img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/common/logo_DH.png" align="center" width=70% /></div>
            <div class="div-curso">DATA SCIENCE</div>
            <div class="div-modulo">MÓDULO 6</div>
            <div class="div-contenido">Text Minig <br/> Preprocesamiento de texto</div>
        </div>
    </div>
</div>

## Agenda

---

- Introducción

- Bag of words

- Corpus y documentos

- Tokenización

- Construcción de un vocabulario

- Stemming y Lemmatization 

- Encoding

- Singular Value Decomposition


<div class="div-dhds-fondo-1"> Introducción
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>



## ¿Qué es Text Mining?

---

Text Mining es el conjunto de **técnicas que se utilizan para explorar grandes cantidades de texto**, de manera automática o semiautomática, para descubrir patrones repetitivos, tendencias o reglas que explican el comportamiento del texto.

El objetivo es ayudar a **comprender el contenido de un conjunto de textos** por medio de estadísticas y algoritmos de búsqueda.

En esta clase **analizaremos datos de tipo texto**. Algo hemos hecho ya cuando preprocesamos datasets usando, por ejemplo, expresiones regulares. Lo que hacíamos en ese entonces era buscar algo que ya sabíamos que estaba allí. La tarea que nos ocupa ahora es diferente. Queremos usar los **algoritmos de machine learning que aprendimos para hacer clasificación, pero ahora con textos**.

Existen múltiples escenarios en los cuales querríamos hacer esto. Uno de los primeros problemas de aplicación de machine learning, de hecho, fue el de clasificación de correos como spam o no-spam. Otros casos son la clasificación de comentarios de usuarios sobre algún producto como positivos o negativos, identificar a qué sección de un diario pertenecen distintas notas, etc. 

En resumen, **queremos extraer información sobre el contenido de los textos**.


## Técnicas de text mining y su funcionalidad

---

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_problems_techniques.png" align="center" />

Fuente: <a href="https://www.researchgate.net/publication/311394659_Text_Mining_Techniques_Applications_and_Issues" target="_blank">Text Mining: Techniques, Applications and Issues
</a>

* Clasificación de documentos: clasificación de texto, estandarización de elementos 

* Recuperación de información: búsqueda de palabras clave/ consulta e indexación

* Agrupación de documentos: agrupación de frases

* Procesamiento del lenguaje natural: corrección ortográfica, lematización, análisis gramatical y desambiguación del sentido de las palabras

* Extracción de información: extracción de relaciones / análisis de enlaces

* Web mining


## Features

---

Para poder implementar los modelos que ya conocemos, **necesitamos representar los datos como una matriz de features**. 

En el caso de modelos de aprendizaje supervisado, necesitamos además una etiqueta.

<b>¿Cómo convertirían un texto en una matriz de features?</b>


La propuesta más simple es contar la ocurrencia de los términos que aparecen en los textos.

Vamos a representar un texto como una **matriz donde cada fila es un documento y cada columna una palabra**.

## El problema de la dimensionalidad

---

Los textos son secuencias de palabras (y signos de puntuación!) y el sentido de los mismos está contenido precisamente en las estructuras semánticas que forman estos elementos combinados. 

**El sentido no está dado por la mera presencia de las palabras, sino por cómo se articulan**.

Queremos buscar una estructura en el *espacio de los textos posibles*. 

El problema es que ese **espacio es de una dimensionalidad enorme**. 

Para poder computar métricas de distancia entre los textos, para poder entrenar algoritmos de machine learning que nos permitan encontrar patrones en los datos, necesitamos **definir representaciones reducidas de los textos**.


<div class="div-dhds-fondo-1"> Bag of words
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>


## Bag of words

---

Una de las maneras más simples y efectivas de representar los textos es la que se conoce como **"bag of words"**

Consiste en descartar la mayor parte de la estructura de los textos como párrafos, capítulos, etc, y conservar únicamente el conjunto de palabras y el número de veces que aparecen en el texto. 

Es decir, olvidamos el orden en que aparecen. Matemáticamente, el número de maneras en que podemos ordenar n elementos se calcula como n! (se lee 'factorial de n' o 'n factorial') y vale:

$n!=n*(n-1)*(n-2)*(n-3)*...*3*2*1$

Es decir que si tuviéramos 10 palabras diferentes para construir un texto (una oración), podríamos construir $3628800$ textos distintos ya que

$10!=10*9*8*7*6*5*4*3*2*1 = 3628800 $ 

Pero en el esquema "bag of words" todos ellos estarían representados de la misma manera (la misma bolsa de palabras), de manera que serían textos indistinguibles.

<div class="div-dhds-fondo-1"> Corpus y documentos
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>


## Corpus y documentos

---

Llamaremos **corpus** a un conjunto de textos y **documento** a cada texto que compone el corpus (puede ser un libro, un twit o el comentario de un usuario) y que a la vez es nuestra unidad de dato (sería una fila en un dataframe).

Computar la representación "bag of words" de un corpus de documentos conlleva tres pasos:

1. **Tokenización**: convertir cada documento a una lista de palabras (y signos de puntuación) que lo componen.

2. **Construcción de un vocabulario**: colectar todas las palabras que se registraron en el corpus y ordenarlas (típicamente por orden alfabético).

3. **Encoding**: representar los documentos como vectores en el espacio de las palabras del vocabulario.

Veremos cada uno de estos pasos en detalle y luego incorporaremos herramientas de sklearn que permiten aglutinar todo en un sólo modelo.

## Preprocesamiento

---

<a href="https://www.nltk.org" target="_blank">NLTK (Natural Language Toolkit)</a> es una librería de python de código abierto para el procesamiento de lenguaje natural.

Tiene un libro online gratuito para consultar:

Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O’Reilly Media Inc. http://nltk.org/book


<div class="div-dhds-fondo-1"> Tokenización
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>


### Tokenización

---

Los **tokens son típicamente las palabras y signos de puntuación**. 

Tokenización es la **transformación de un texto a unidades constitutivas llamadas tokens**. 

La librería NLTK cuenta con herramientas para hacer ésto, identificando los signos de puntuación: cuándo los mismos separan oraciones y cuándo cumplen otra función, como una abreviatura.




In [None]:
import nltk
nltk.download('punkt')    # esta linea deben ejecutarla sólo una vez
nltk.download('stopwords') # esta linea deben ejecutarla sólo una vez
nltk.download('wordnet')    # esta linea deben ejecutarla sólo una vez
from nltk.tokenize import word_tokenize, sent_tokenize

In [None]:
sentence="Pythoners are very intelligent and work very pythonly and now they are pythoning their way to success."

print(word_tokenize(sentence))


Por otro lado, si quisiéramos obtener una lista de oraciones 

In [None]:
text = "This is the first sentence. A gallon of milk in the U.S. costs $2.99. \
    Is this the third sentence? Yes, it is!"

print('Tokenizamos usando sent_tokenize:')
print(sent_tokenize(text))


Es posible que en algunos casos el tokenizador falle, por ejemplo no reconociendo una abreviatura. 

En el siguiente ejemplo el tokenizador no reconoce 'al.' de modo que interpreta el punto como el fin de una oración.

In [None]:
text2 = "According to Hotho et al. (2005) we can differ three different perspectives of text mining, \
namely text mining as information extraction, text mining as text data mining, and text mining as KDD \
(Knowledge Discovery in Databases) process. Text mining is 'the discovery by computer of new, \
previously unknown information, by automatically extracting information from different written resources."

print(sent_tokenize(text2))

Podemos resolver este problema incluyendo abreviaturas al tokenizador. 

Para ello, en lugar de importar el método sent_tokenize, instanciamos los objetos `PunkTrainer` y `PunktSentenceTokenizer`. 

(La idea de la siguiente celda sólo es mostrar un ejemplo. Pueden consultar la documentación <a href="http://www.nltk.org/api/nltk.tokenize.html?highlight=tokenizer#nltk.tokenize.punkt.PunktTrainer" target="_blank">aquí</a>)

In [None]:
from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktTrainer

trainer = PunktTrainer()

trainer.INCLUDE_ALL_COLLOCS = True

tokenizer = PunktSentenceTokenizer(trainer.get_params())

tokenizer._params.abbrev_types.add('al')

print(tokenizer.tokenize(text2))


<div class="div-dhds-fondo-1"> Construcción de un vocabulario
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>


### Construcción de un vocabulario

---

Vamos a **representar los textos como una bolsa de palabras**. 

Podríamos tokenizar todos los documentos y definir el vocabulario como el set de palabras que aparecieron al menos una vez en todo el corpus.

Esto tiene el problema de que el número de palabras será muy grande y muchas de ellas serán muy poco informativas sobre el contenido del texto, por ejemplo las preposiciones, pronombres, etc. 

A estas palabras se las llama **stopwords** y a menudo se las **excluye del vocabulario**. 

Otra técnica para reducir la dimensionalidad del problema consiste en **agrupar palabras que comparten la misma raíz etimológica** como "correr", "corriendo", "corredor".


#### Stopwords

---

NLTK tiene listas de stopwords en distintos idiomas, podemos acceder a las mismas del siguiente modo:

In [None]:
from nltk.corpus import stopwords 

stopwords_sp = stopwords.words('spanish');

print('\n Las primeras 20 en español:')
print(stopwords_sp[:20])

stopwords_en = stopwords.words('english');

print('\n Las primeras 20 en ingles:')
print(stopwords_en[:20])

#### Stemming y Lemmatization 

---

Stemming y lemmatization son **maneras de reducir las palabras a su raíz etimológica**.

**Stemming lo hace por sustracción de sufijos y prefijos de las palabras**. 

La raíz que queda **(stem) muchas veces no es una palabra en sí misma**. 

Por ejemplo al pasar la palabra "corriendo" por un stemmer obtenemos "corr". 

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_stemming.png" align="center" />


Por el contrario, **el lematizador siempre devuelve una versión reducida de la palabra (lema), pero que es en sí misma una palabra de la misma familia**.

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_lemmatization.png" align="center" />

Para profundizar:
<a href="https://www.datacamp.com/community/tutorials/stemming-lemmatization-python">Stemming and Lemmatization in Python</a>


##### Stemming


In [None]:
# Importamos los algoritmos de Stemming

from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

# Creamos objects a partir de las clases PorterStemmer y LancasterStemmer

porter = PorterStemmer()
lancaster=LancasterStemmer()



In [None]:
# Le pasamos palabras a ambos algoritmos para que hagan stemming:
print("Porter Stemmer")
print(porter.stem("cats"))
print(porter.stem("trouble"))
print(porter.stem("troubling"))
print(porter.stem("troubled"))
print("\n")
print("Lancaster Stemmer")
print(lancaster.stem("cats"))
print(lancaster.stem("trouble"))
print(lancaster.stem("troubling"))
print(lancaster.stem("troubled"))
print("\n")

In [None]:
# Creamos una lista de palabras para hacer stemming con ambos algoritmos:
word_list = ["friend", "friendship", "friends", "friendships", \
             "stabil","destabilize","misunderstanding",\
             "railroad","moonlight","football"]
print("{0:20}{1:20}{2:20}".format("Word","Porter Stemmer","lancaster Stemmer"))
for word in word_list:
    print("{0:20}{1:20}{2:20}".format(word,porter.stem(word),lancaster.stem(word)))


#### Stemmers en otros idiomas:

Python **nltk** no solo proporciona dos stemmers en inglés: PorterStemmer y LancasterStemmer, sino también muchos stemmers que no están en inglés como **SnowballStemmers**.

Idiomas que maneja **SnowballStemmers**:

 - danés
 - holandés
 - inglés
 - francés
 - alemán
 - húngaro
 - italiano
 - noruego
 - portugués
 - rumano
 - ruso
 - español
 - sueco

In [None]:
from nltk.stem.snowball import SnowballStemmer
word = 'having';
englishStemmer=SnowballStemmer("english")
print("{0:15}{1:10}".format(word, englishStemmer.stem(word)))

palabra = 'corriendo';
spanishStemmer=SnowballStemmer("spanish")
print("{0:15}{1:10}".format(palabra, spanishStemmer.stem(palabra)))

##### Lemmatization

In [None]:
from nltk.stem import WordNetLemmatizer

wordnet_lemmatizer = WordNetLemmatizer()

sentence = "He was running and eating at same time. He has \
bad habit of swimming after playing long hours in the Sun."

sentence_words = word_tokenize(sentence);

In [None]:
print("\n{0:20}{1:20}{2:20}\n".format("Word","Lemma",'Stem'))

for word in sentence_words:
    print ("{0:20}{1:20}{2:20}".format(word, wordnet_lemmatizer.lemmatize(word), englishStemmer.stem(word)))

<div class="div-dhds-fondo-1"> Encoding
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>


## Encoding

---

Podemos representar a los documentos en función de las palabras que los componen, sin considerar las estructuras semánticas que éstas forman. 

De esta manera, **un documento puede representarse como un vector en el espacio de palabras que conforman el vocabulario**. 

Existen diferentes maneras de definir estos vectores. La más intuitiva es contar el número de veces que aparece cada palabra en un documento y asignarlo como la coordenada o el peso correspondiente a dicha palabra en el vector. 

<a href = "https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html" target="_blank">CountVectorizer</a> provee esta funcionalidad.



### `CountVectorizer`

---

Al momento de instanciarla, permite pasarle una lista de stopwords para que no las tenga en cuenta.

Como todos los modelos de sklearn, tiene los métodos fit y transform. 

`fit` genera el vocabulario a partir de los documentos, y `transform` vectoriza los documentos al espacio del vocabulario.

Como típicamente el vocabulario es muy grande, las matrices son muy esparsas (tienen muchos ceros) por lo que es conveniente almacenar sólamente las entradas no nulas de las mismas en un objeto de la clase "sparse matrix". `CountVectorizer` genera matrices de esta clase.


In [None]:
# Generamos textos 

t0 = "El potro y el angel llegaron al cine por casualidad."
t1 = "El ángel, el tanque del cine nacional, un paso más cerca del oscar"
t2 = "final del mes del cine nacional: 'El Potro', la única cinta 'millonaria'"
t3 = "Juan Martin del potro volvió a tandil: se dio el ultimo baño de masas con los suyos."
t4 = "Juan Martin del potro fue recibido por una multitud en Tandil."
t5=  "Juan Martin del potro fue a ver 'El Potro' al cine y le encantó."
textos=[t0,t1,t2,t3,t4,t5];

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.stem.snowball import SnowballStemmer

stopwords_sp = stopwords.words('spanish');

# si no hacemos esto y usamos directo stopwords_sp, CountVectorizer devuelve un warning
stopwords_sp_stem = [spanishStemmer.stem(x) for x in stopwords_sp]

vectorizer = CountVectorizer(stop_words = stopwords_sp_stem, lowercase = True, strip_accents = 'unicode');

vectorizer.fit(textos);
print('Vocabulario:\n',vectorizer.vocabulary_) # vocabulario del corpus con la frecuencia de cada término


In [None]:
countvectorizer_encoding = vectorizer.transform(textos);
print('\n Transformamos los textos a una matriz esparsa:',type(countvectorizer_encoding))

pd.DataFrame(countvectorizer_encoding.todense(), 
             columns = vectorizer.get_feature_names()) # Usamos el método .todense() para ver la matriz completa

### Term Frequency Inverse Document Frequency (TF-IDF)

---

La representación de los textos generada mediante `CountVectorizer` tiene en cuenta cuántas veces se observó cada término del vocabulario en cada documento. 

**Problemas**: 

* En un documento mucho más largo que los otros, el conteo de palabras puede resultar en números mucho mayores que en el resto de los documentos. 

    Para corregir esta anomalía, deberíamos normalizar (dividir) el conteo de cada palabra por el tamaño de cada documento.

* Hay palabras que aparecen en muchos documentos y resultan entonces poco informativas para distinguirlos. 

    Una palabra que aparece muchas veces en un documento, pero pocas veces en los demás, es una palabra muy distintiva de ese documento y será importante para representarlo, mientras que palabras que aparecen pocas veces, o que aparecen en muchos documentos serán menos informativas. 


La transformación TF-IDF tiene en cuenta estos factores de la siguiente manera:

* El término 't' dentro del documento 'd' tiene un coeficiente tf-idf(t,d) que es el producto de dos factores:

\begin{equation}
 \text{tf-idf}(t,d)=\text{tf}(t,d) \times idf(t)
\end{equation}

* tf(t,d) es la frecuencia de aparición de t dentro de d (normalizada). 

*  idf(t) es la *inverse document frecuency* del término t y se calcula como:
\begin{equation}
    \text{idf}(t)=\log{\frac{N}{\text{df(t)+1}}} 
\end{equation}

en donde 

* N es el número de documentos 

* df(t) es el número de documentos en los que aparece el término t. 

* Se suele sumar 1 en el denominador para no tener problemas si existe un término en el vocabulario que no aparece en ningún documento (df=0). 


#### Ejemplo

---

document1 = 'el potro y el angel llegaron al cine por casualidad'

document2 = 'el angel el tanque del cine nacional un paso mas cerca del oscar'

document3 = 'final del mes del cine nacional el angel la unica cinta millonaria'

document4 = 'juan martin del potro volvio a tandil se dio el ultimo bano de masas con los suyos'


\begin{align}
    &\text{tf('nacional', document1)}=\frac{1}{10}=0.1\\
    &\text{tf('nacional', document2)}=\frac{1}{13}=0.077\\
    &\text{tf('nacional', document3)}=\frac{0}{12}=0\\
    &\text{tf('nacional', document4)}=\frac{0}{17}=0 \\
    &\text{idf('nacional')}=\log{\frac{4}{3}}=0.288
\end{align}



Y los coeficientes tf-idf:

\begin{align}
    &\text{tf-idf('nacional',doc1)}=0.1\times 0.288=0.0288 \\
    &\text{tf-idf('nacional',doc2)}=0.077\times 0.288=0.0222 \\
    &\text{tf-idf('nacional',doc3)}=0\times 0.288=0 \\
    &\text{tf-idf('nacional',doc4)}=0\times 0.288=0
\end{align}

El coeficiente tf-idf para "potro" en el documento 1 da:

\begin{equation}
    \text{tf-idf('potro',doc1)}= \frac{1}{10} \times \log{\frac{4}{2}}=0.07\\
\end{equation}

Podemos ver que si bien "potro" y "nacional" aparecen el mismo número de veces dentro del documento 1, "potro" tiene un coeficiente mayor porque no aparece en ningún otro documento. 


#### TfidfVectorizer, TfidfTransformer

---

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_tf-idf.png" align="center" />


En sklearn, los objetos de la clase TfidfTransformer sirven para transformar una matriz generada por CountVectorizer(). 

Podemos saltearnos el uso de countvectorizer y usar directamente TfidfVectorizer.

A diferencia de la estimación clásica del factor idf que vimos más arriba, TfidfVectorizer y TfidfTransformer por defecto calculan una versión suavizada del idf como

\begin{equation}
    \text{idf(t)}= \log{\frac{N+1}{df(t)+1}}+1
\end{equation}

y luego normaliza los documentos vectorizados por su norma L2. (ver https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)


In [None]:
from sklearn.feature_extraction.text import TfidfTransformer

Tfidf_encoding=TfidfTransformer().fit_transform(countvectorizer_encoding);

pd.DataFrame(Tfidf_encoding.todense(),columns=vectorizer.get_feature_names())


<div class="div-dhds-fondo-1"> Singular Value Decomposition (SVD)
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>


## Singular Value Decomposition (SVD)

---

SVD es una técnica (general) de factorización de matrices.

Comprender la matemática involucrada excede las ambiciones de esta presentación. Para indagar en ella pueden consultar alguna de estas referencias:

*Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications*
2012, Chapter 11.

https://en.wikipedia.org/wiki/Singular_value_decomposition

En particular **en text mining usamos SVD para reducir la dimensionalidad del corpus de texto** que, a diferencia de lo que hemos hecho hasta ahora, no consiste en remover elementos (stopwords, etc), sino en **encontrar combinaciones de palabras que resulten informativas y quedarnos con "las mejores" de éstas**. 



Una analogía posible es la siguiente: 

Podemos describir un **rectángulo dando dos variables (features): su base y su altura**. 

Si quisiéramos describir el rectángulo con una sola de estas features, por ejemplo la base, estaríamos perdiendo información muy relevante ya que existen rectángulos muy diferentes con la misma base. 

Sin embargo, **si generáramos una nueva variable "área" igual al producto de base por altura**, y describiéramos al rectángulo usando solamente el área, **estaríamos reduciendo la dimensionalidad de una manera mucho más razonable**, guardando más información sobre el rectángulo original que al quedarnos solo con la base.


**SVD es una transformación algebraica parecida a PCA** (principal component analysis) que se puede usar en el contexto de text mining **para encontrar combinaciones lineales de los términos que resulten informativos**, de modo que podamos describir el data set con un número de combinaciones menor al número de términos que teníamos originalmente. 

Estas combinaciones pueden considerarse como **dimensiones con *sentido semántico latente* (latent semantic dimensions)**, es decir, dimensiones en las que tiene sentido proyectar el dataset precisamente por su contenido semántico.

El motivo por el cual podemos reducir la dimensionalidad de los textos proyectandolos a estas *latent semantic dimensions* es que **muchas veces existe redundancia en el conjunto de documentos**. Es decir que con palabras más o menos distintas, muchos documentos hablan de los mismos temas. 



En el ejemplo de los 6 textos que venimos usando 

    t0='El potro y el angel llegaron al cine por casualidad.'
    t1= 'El ángel, el tanque del cine nacional, un paso más cerca del oscar',
    t2= "final del mes del cine nacional: 'El Potro', la única cinta 'millonaria'",
    t3= 'Juan Martin del potro volvió a tandil: se dio el ultimo baño de masas con los suyos.',
    t4= 'Juan Martin del potro fue recibido por una multitud en Tandil.',
    t5= "Juan Martin del potro fue a ver 'El Potro' al cine y le encantó."


Hay 45 palabras distintas. (Antes redujimos el número de términos a 28 quitando stopwords). 

Sin embargo los textos hablan esencialmente de tres temas: hay dos películas nuevas en el cine, Del Potro visitó Tandil, Del Potro fue al cine. 

Esta reducción de la dimensionalidad podría mejorar la performance de un clasificador o un modelo de clustering. Por otro lado, una reducción a dos o tres dimensiones nos puede permitir visualizar los datos. 

Hay que tener en cuenta, sin embargo, que **en general necesitaremos más dimensiones para describir correctamente el corpus y es posible que la representación en dos dimensiones no nos revele mucho sobre la estructura del dataset**.

In [None]:
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
from sklearn.decomposition import TruncatedSVD

svd = TruncatedSVD(n_components=2);
P = svd.fit_transform(Tfidf_encoding)

#grafico
color = ['m', 'g', 'r', 'c', 'b','k']
plt.figure()
patches = []

for i,texto in enumerate(textos):
    plt.plot(P[i,0], P[i,1], color[i]+"o")
    patches.append(mpatches.Patch(color=color[i], label='t'+str(i)))

plt.legend(handles=patches)
plt.xlabel('dimension 1')
plt.ylabel('dimension 2')
#plt.axis([-4, 4, -4, 4])
plt.show()

Las dimensiones que generamos son combinaciones lineales de los términos. 

Podemos ver cuánto pesa cada término en la definición de estas dimensiones. 

Ordenemos los términos en función de cuánto pesan en cada dimensión:

In [None]:
# coeficientes (pesos) de los términos en cada una de las dos dimensiones
comp1,comp2 = svd.components_ 

# los ordenamos de menor a mayor y nos quedamos con los índices de sus posiciones en el array
indices=np.argsort(comp1); 

# invertimos para que queden ordenados de mayor a menor
indices=indices[::-1] 

# Evaluamos los términos en estas posiciones
print('Dimension 1:')
print(np.array(vectorizer.get_feature_names())[indices]) 

print('\n')

indices=np.argsort(comp2);
indices=indices[::-1]
print('Dimension 2:')
print(np.array(vectorizer.get_feature_names())[indices])


En la representación 2D de los textos vemos que hay dos grupos separados: uno que habla escencialmente de cine y otro que habla de tenis. 

En un escenario de aprendizaje no supervisado, podríamos encontrar estos grupos mediante un algoritmo de clustering.

<div class="div-dhds-fondo-1"> Conclusiones
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>


## Conclusiones

---

En esta clase presentamos 

* Conceptos y técnicas útiles de preprocesamiento de texto para construir features que permitan modelar problemas de aprendizaje supervisado y no supervisado.

* <a href="https://www.nltk.org" target="_blank">NLTK (Natural Language Toolkit)</a>, una librería de python de código abierto para el procesamiento de lenguaje natural.

* Reducción de dimensionalidad mediante Singular Value Decomposition


<div class="div-dhds-fondo-1"> Hands-on
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_46_Text_Mining_1/Presentacion/img/M6_CLASE_46_separador.png" align="center" />

</div>


## Hands-on

---

Usando las letras de canciones en español disponibles <a href="https://www.kaggle.com/smunoz3801/9325-letras-de-rap-en-espaol" target="_blank">aquí</a>, construir una nube de palabras para identificar cuáles son las más frecuentes.

Para eso vamos a usar la bilbioteca `WordCloud` que pueden instalarla descomentando esta linea:

In [None]:
#! conda install -c conda-forge wordcloud=1.8.1 --yes --name dhdsblend2021

Construimos la nube de palabras con 

`wordcloud = WordCloud(width=1500, height=1500, margin=0, stopwords = mis_stop_word).generate(mi_texto)`

Y la graficamos con el método:

In [None]:
def plot_cloud(wordcloud):
    # Set figure size
    plt.figure(figsize=(30, 20))
    # Display image
    plt.imshow(wordcloud) 
    # No axis details
    plt.axis("off");


### Ejercicio 1

Leer en un dataframe los datos del archivo `hhgroups_merge_28_05.zip`.

Fuente: https://www.kaggle.com/smunoz3801/9325-letras-de-rap-en-espaol

Consideraremos 
* documento al valor del campo `letra` de cada uno de los registros que componen el dataframe 
* corpus al conjunto de documentos, es decir el conjunto de valores del campo `letra`

### Ejercicio 2

Tokenizar el corpus, hacer stemming, eliminar stopwords 

Considerar "estribillo" una stopword (aparece en muchos registros y va a ser muy relevante en la nube de palabras).

### Ejercicio 3

Construir una nube de palabras para visualizar las palabras más frecuentes en las letras de estas canciones.



## Solución

---



### Ejercicio 1

In [None]:
data = pd.read_csv("../Data/hhgroups_merge_28_05.zip", sep=",")
data

### Ejercicio 2

In [None]:
corpus = data.letra
corpus

Tokenizar:

In [None]:
from nltk.tokenize import word_tokenize

tokens = [word_tokenize(doc) for doc in corpus]

flat_tokens = [item for sublist in tokens for item in sublist]

flat_tokens[0:5]

#tokens_joined = ' '.join(tokens)
#tokens_joined

Stemming:

In [None]:
from nltk.stem import SnowballStemmer

spanish_stemmer = SnowballStemmer('spanish', ignore_stopwords = False)

stem_tokens = [spanish_stemmer.stem(x) for x in flat_tokens]

print("cantidad de stem_tokens: ", len(stem_tokens))


Stopwords:

In [None]:
stopwords_en = stopwords.words('spanish');

stopwords_en.append("estribillo")

stopwords_es_stem = [spanish_stemmer.stem(x) for x in stopwords_en]


In [None]:
stem_tokens_non_stopwords = [x for x in stem_tokens if x not in stopwords_es_stem]

print("cantidad de stem_tokens sin stopwords: ", len(stem_tokens_non_stopwords))

### Ejercicio 3


In [None]:
from wordcloud import WordCloud

# no pasamos la lista de stopwords porque ya las quitamos en el ejercicio anterior:

mi_texto = ' '.join(stem_tokens_non_stopwords) 

mywordcloud = WordCloud(width=1500, height=1500, margin=0, stopwords = None).generate(mi_texto)


In [None]:
plot_cloud(mywordcloud)

<div class="div-dhds-fondo-1"> Referencias y material adicional
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M6/CLASE_44_Descenso_Gradiente/Presentacion/img/M6_CLASE_44_separador.png" align="center" />

</div>

## Referencias

---

<a href="http://nltk.org/book" target="_blank">Natural Language Processing with Python.</a> Steven Bird, Ewan Klein, and Edward Loper (2009). O’Reilly Media Inc. 

<a href="https://www.researchgate.net/publication/311394659_Text_Mining_Techniques_Applications_and_Issues/fulltext/5844091808ae8e63e625730a/Text-Mining-Techniques-Applications-and-Issues.pdf" target="_blank" />Text Mining: Techniques, Applications and Issues</a>

<a href="https://www.geeksforgeeks.org/nlp-how-tokenizing-text-sentence-words-works/" target="_blank">How tokenizing text, sentence, words works</a>

<a href="https://towardsdatascience.com/tf-term-frequency-idf-inverse-document-frequency-from-scratch-in-python-6c2b61b78558" target="_blank">TF(Term Frequency)-IDF(Inverse Document Frequency) from scratch in python</a>