### Desafío - Inferencia de tópicos con EM

* Para realizar este desafío debes haber revisado la lectura y videos correspondiente a la unidad.
* Crea una carpeta de trabajo y guarda todos los archivos correspondientes (notebook y csv).
* Una vez terminado el desafío, comprime la carpeta y sube el .zip

### Descripción
* En esta sesión trabajaremos con una serie de base de datos sobre letras musicales de distintos artistas. Cada uno de los csv se encuentra en la carpeta dump.
* Cada csv tiene el nombre del artista a analizar. Los archivos contienen el nombre del artista, el género musical del artista, el nombre de la canción y las letras.
* En base a esta información, el objetivo del ejercicio es generar un modelo probabilístico que pueda identificar el género musical más probable dado la letra de una canción. Para ello implementaremos un modelo conocido como Latent Dirichlet Allocation que hace uso de una variante del algoritmo EM para inferir clases latentes a partir de una matriz de documentos.

### Ejercicio 1: Preparar el ambiente de trabajo
* Importe los módulos numpy , pandas , matplotlib , seaborn , glob y os siguiendo las buenas prácticas. Los últimos dos módulos permitirán realizar la importación de múltiples archivos dentro de la carpeta dump .
* Para ello genere un objeto que guarde en una lista todos los archivos alojados en dump utilizando glob.glob y os.getcwd() para extraer las rutas absolutas. Posteriormente genere un objeto pd.DataFrame que contenga todos los csv.
* Asegúrese de eliminar la columna Unnamed: 0 que se genera por defecto.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import glob
import os
plt.style.use('seaborn')

In [10]:
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [2]:
rutas = glob.glob(os.getcwd()+'/dump/*.csv')
datas = []
for ruta in rutas:
    df = pd.read_csv(ruta).drop(columns='Unnamed: 0')
    datas.append(df)

In [3]:
df = pd.concat(datas)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9489 entries, 0 to 129
Data columns (total 4 columns):
0    9489 non-null object
1    9489 non-null object
2    9489 non-null object
3    9489 non-null object
dtypes: object(4)
memory usage: 370.7+ KB


In [13]:
df.columns=['Artista','Genero','Cancion','Letra']
df.head()

Unnamed: 0,Artista,Genero,Cancion,Letra
0,Public Enemy,hiphop,You're Gonna Get Yours,"(Flavor Flav) \n Oh-oh Chuck, they out to get ..."
1,Public Enemy,hiphop,Sophisticated Bitch,"That woman in the corner, cold playin' the rol..."
2,Public Enemy,hiphop,Miuzi Weighs A Ton,"Yo Chuck, run a power move on them \n (Yeah) \..."
3,Public Enemy,hiphop,Timebomb,"(Intro - Flavor Flav) \n Hey, Chuck, we got so..."
4,Public Enemy,hiphop,Too Much Posse,(Intro - Flavor Flav) \n What do you got to sa...


In [53]:
df.Genero.value_counts()

rock      4140
hiphop    2535
metal     1582
pop       1232
Name: Genero, dtype: int64

### Ejercicio 2: Matriz de ocurrencias
* Importe la clase CountVectorizer dentro de los módulos feature_extraction.text de la librería sklearn .
* Aplique la clase para extraer las 5000 palabras más repetidas en toda la base de datos.
* Con la clase inicializada, incorpore las letras con el método fit_transform y guarde los resultados en un nuevo objeto

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

### Ejercicio 3: Entrenamiento del Modelo
* Importe sklearn.decomposition.LatentDirichletAllocation y sklearn.model_selection.GridSearchCV .
* Genere una búsqueda de grilla con los siguientes hiperparámetros:
    * n_components: [5, 10, 15] .
    * learning_decay: [0.7, 0.5] .
* Entrene la búsqueda de grilla con las letras en un formato vectorizado con CountVectorizer .
* Reporte brevemente cuál es la mejor combinación de hiperparámetros

##### Digresión: Latent Dirichlet Allocation
* Latent Dirichlet Allocatio (LDA) es un modelo probabilístico generativo basado en Inferencia Variacional EM. La principal utilidad de éste es la identificación de tópicos en un corpus de texto. 
* El proceso de inferencia se puede resumir en los siguientes pasos:
    * Cada documento dentro del corpus se puede entender como una mezcla de tópicos comunes a nivel de corpus.
    * Esta mezcla de tópicos es latente $\leadsto$ Sólo observamos los documentos registrados y sus palabras. La API de sklearn.decomposition.LatentDirichletAllocation presenta la misma funcionalidad de todo modelo de sklearn. Algunos puntos a considerar en la inicialización de la clase son:
        * n_components : Cantidad de tópicos a inferir en un corpus.
        * learning_method : Forma en la que entran los datos en entrenamiento. Cuando es 'batch' , se ingresa la matriz de entrenamiento completa. Cuando es 'online' , la matriz de entrenamiento ingresa de manera secuencial en parcelas pequeñas.
        * learning_decay : Tasa de aprendizaje en la función de pérdida. Cuando se implementa con learning_method='online', el modelo se entrena con Gradiente Estocástico Descendente.
        * Perplejidad: Busca aproximar el número óptimo de tópicos a inferir. Técnicamente evalúa qué tan bien predice una muestra específica. En funcion a un número de tópicos, define la distribución teórica de palabras representada por los tópicos y la compara con la ocurrencia empírica de palabras en tópicos

In [6]:
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.model_selection import GridSearchCV

In [29]:
lda = LatentDirichletAllocation(learning_method='online')

In [19]:
count_vectorizer=CountVectorizer(stop_words='english',max_features=5000)
count_vectorizer_fit = count_vectorizer.fit_transform(df.Letra)

In [30]:
X_train,X_test,y_train,y_test = train_test_split(df['Letra'],df['Genero'],test_size=.33,random_state=11238)

In [31]:
parameter_candidates = [
  {'n_components': [5, 10, 15], 'learning_decay': [0.7, 0.5]}
]

In [44]:
grid = GridSearchCV(lda, parameter_candidates, cv=2, n_jobs=-1)

In [45]:
%%time
grid.fit(count_vectorizer_fit)

CPU times: user 2min 14s, sys: 2.04 s, total: 2min 16s
Wall time: 5min 24s


GridSearchCV(cv=2, error_score='raise-deprecating',
             estimator=LatentDirichletAllocation(batch_size=128,
                                                 doc_topic_prior=None,
                                                 evaluate_every=-1,
                                                 learning_decay=0.7,
                                                 learning_method='online',
                                                 learning_offset=10.0,
                                                 max_doc_update_iter=100,
                                                 max_iter=10,
                                                 mean_change_tol=0.001,
                                                 n_components=10, n_jobs=None,
                                                 perp_tol=0.1,
                                                 random_state=None,
                                                 topic_word_prior=None,
                                       

In [46]:
grid.best_params_

{'learning_decay': 0.7, 'n_components': 5}

### Ejercicio 4 : Inferencia e Identificación de Tópicos
* En base a la mejor combinación de hiperparámetros, entrene el modelo con la matriz de atributos de las letras.
* Para identificar de qué se trata cada tópico, necesitamos identificar las principales 15 palabras asociadas con éste. Puede implementar la siguiente línea de código para identificar las principales palabras en un tópico:

```python
# mediante .components_ podemos extraer una matriz que entrega las distribución de palabras por cada tópico.

for topic_id, topic_name in enumerate(fit_best_lda.components_):
    # para cada tópico
    print("tópico: {}".format(topic_id + 1))
    # mediante argsort logramos ordenar los elementos por magnitud
    # para los elementos más relevantes ordenados por argsort, buscamos su correlativo
    # en la matriz dispersa y devolvemos el nombre.
    # finalmente concatenamos las palabras
    print(" ".join([counter.get_feature_names()[i] for i in topic_name.argsort()[:-15 - 1: -1]]))
```

* Comente a qué tópicos está asociada cada clase inferida.

In [52]:
for topic_id, topic_name in enumerate(grid.best_estimator_.components_):
    # para cada tópico
    print("tópico: {}".format(topic_id + 1))
    # mediante argsort logramos ordenar los elementos por magnitud
    # para los elementos más relevantes ordenados por argsort, buscamos su correlativo
    # en la matriz dispersa y devolvemos el nombre.
    # finalmente concatenamos las palabras
    print(" ".join([count_vectorizer.get_feature_names()[i] for i in topic_name.argsort()[:-15 - 1: -1]]))

tópico: 1
la night man light black come day sun like old hand eyes home sky new
tópico: 2
oh yeah baby love got hey come girl wanna ooh know ah let gonna don
tópico: 3
like got shit don ain yo know man cause fuck just em nigga ya yeah
tópico: 4
god death dead die blood life kill pain soul power hell head mind end world
tópico: 5
don just know ll love ve time like say way feel away want let make


### Ejercicio 5: Identificación de probabilidades
* En base a la información generada, es posible identificar cuales van a ser los géneros más probables de ocurrir para un artista.
* Para ello necesitamos guardar la probabilidad de cada canción en nuestra base de datos original. 
* Podemos implementar esto de la siguiente manera:
    
```python    
# generamos una transformación de los datos a distribución de tópico por palabra en el documento
fit_best_lda = best_lda.transform(transformed_feats)
# estra transformación la podemos coercionar a un dataframe de la siguiente manera
topics_for_each_doc = pd.DataFrame(
                                    # pasamos esta matriz y la redondeamos en 3 decimales
                                    np.round(fit_best_lda, 3),
                                    # agregamos un índice
                                    index=df_lyrics.index
                                    )
#agregamos identificadores de columna
topics_for_each_doc.columns = list(map(lambda x: "T: {}".format(x), range(1, best_lda.n_components + 1)))
# concatenamos las probabilidades de tópico por documento a nuestra matriz original
concatenated_df = pd.concat([df_lyrics, topics_for_each_doc], axis=1)
# argmax en la matriz de tópicos
concatenated_df['highest_topic'] = np.argmax(docs_topics.values, axis=1) + 1   

```

* Genere una matriz de correlaciones entre la probabilidad de tópicos inferidos. Comente brevemente cuales son las principales asociaciones existentes.

* Con esta nueva base de datos, identifique las probabilidades de pertenencia para un artista específico.

* Grafique la distribución de las probabilidades para algún artista en específico.

In [55]:
fit_best_lda = grid.best_estimator_.transform(count_vectorizer_fit)

In [56]:
fit_best_lda

array([[1.06484370e-01, 8.05798407e-04, 7.03641268e-01, 7.99292486e-04,
        1.88269271e-01],
       [6.48326121e-02, 2.53365109e-02, 5.73442769e-01, 9.58289891e-04,
        3.35429818e-01],
       [8.51653483e-04, 2.83075290e-02, 6.09733401e-01, 2.84339464e-01,
        7.67679525e-02],
       ...,
       [8.11358764e-04, 8.15228824e-04, 7.42076681e-01, 8.03110160e-04,
        2.55493621e-01],
       [6.95764018e-02, 7.06569120e-02, 8.40748722e-01, 1.82942348e-02,
        7.23729560e-04],
       [1.63930685e-01, 1.52806404e-02, 8.04795805e-01, 1.51511166e-02,
        8.41752164e-04]])

In [57]:
topics_for_each_doc = pd.DataFrame(
                                    # pasamos esta matriz y la redondeamos en 3 decimales
                                    np.round(fit_best_lda, 3),
                                    # agregamos un índice
                                    index=df.index
                                    )

In [59]:
topics_for_each_doc.head()

Unnamed: 0,0,1,2,3,4
0,0.106,0.001,0.704,0.001,0.188
1,0.065,0.025,0.573,0.001,0.335
2,0.001,0.028,0.61,0.284,0.077
3,0.001,0.181,0.67,0.092,0.056
4,0.088,0.002,0.694,0.002,0.213


In [60]:
topics_for_each_doc.columns = list(map(lambda x: "T: {}".format(x), range(1, grid.best_estimator_.n_components + 1)))

In [64]:
topics_for_each_doc.head()

Unnamed: 0,T: 1,T: 2,T: 3,T: 4,T: 5
0,0.106,0.001,0.704,0.001,0.188
1,0.065,0.025,0.573,0.001,0.335
2,0.001,0.028,0.61,0.284,0.077
3,0.001,0.181,0.67,0.092,0.056
4,0.088,0.002,0.694,0.002,0.213


In [63]:
concatenated_df = pd.concat([df, topics_for_each_doc], axis=1)

In [66]:
concatenated_df['highest_topic'] = np.argmax(df.Genero.values, axis=1) + 1  

AxisError: axis 1 is out of bounds for array of dimension 1