# Análisis de Datos (II): extrayendo vocabulario para clasificar textos

En esta práctica vamos a poner en práctica todo lo aprendido con pandas, numpy y hasta con expresiones regulares. El objetivo de la práctica es tratar de extraer un conjunto de palabras (vocabulario) que nos permitan clasificar (de una manera muy sencilla) si una crítica o review de una película es positiva o negativa sin siquiera leer el texto. ¿Cómo lo vamos a hacer? La idea detrás de este ejemplo es la siguiente: vamos a ver qué palabras son las más comunes en un conjunto de comentarios positivos; vamos a ver qué palabras son las más comunes es un conjunto de comentarios negativos; y, dado un nuevo comentario, vamos a decidir si el conjunto de palabras que lo forman se parece más al conjunto de palabras "positiva" o al de palabras "negativas". 

Para ello, os proponemos un conjunto de 5000 críticas de películas del portal imdb. Cada una de estas críticas está previamente catalogada como positiva (sentiment = 1) o negativa (sentiment = 0). El hecho de que tengamos conocimiento de qué tipo de crítica es (positiva o negativa) nos va a permitir crear un pequeño y simple clasificador de críticas que luego podremos evaluar. 

Los pasos que vamos a dar son los siguientes:
- Importar el conjunto de críticas en un DataFrame. 
- "Limpiar" los comentarios para tratar de dejar todos ellos en un mismo formato: todo en minúsculas, sin caracteres especiales, etc.
- Separar el conjunto de críticas en un conjunto de entrenamiento (alrededor del 80% de las muestras) y un conjunto de test (alrededor del 20% de las muestras)
- Extrar dos diccionarios de palabras: un diccionario de palabras "positivas" y un diccionario de palabras "negativas". A partir de estos diccionarios crearemos un DataFrame vocabulario que nos ayudará a clasificar nuevas muestras
- A partir de un comentario de test, extraeremos el diccionario de dicho comentario, lo "combinaremos" con el vocabulario existente de entrenamiento y veremos si tiene más palabras "positivas" o "negativas". En función del número de palabras lo clasificaremos como comentario positivo o comentario negativo

In [None]:
import pandas as pd
import re
import numpy as np

A continuación vamos a crar el DataFrame comentarios. Echa un vistazo al número de elementos y columnas que tiene, cuáles son las 5 primeras filas, etc.

In [None]:
comentarios = pd.read_csv('comentarios.tsv', sep='\t')

Cuenta el número de comentarios positivos y negativos. ¿Podemos decir que el número de críticas está "balanceado" (hay un número parecido de comentraios positivos y negativos)?

### Limpieza de datos

Vamos a comenzar con una pequeña limpieza de los datos para crear un conjunto de palabras lo suficientemente bueno. Principalmente vamos a:
- eliminar cualquier cosa que no sea una letra mayúscula o minúscula (sustituiremos cada caracter especial por un espacio en blanco
- pasar todo a minúsculas
- dividir el texto en una lista de palabras
- eliminar aquellas palabras de longitud  cero
- eliminar aquellas palabras que forman parte de la lista de stop_words: palabras que, por la cantidad de veces que se usan, no aportan nada de informacion

Para realizar esta limpieza, crea una función procesa_comentario que reciba como parámetro de entrada un comentario y devuelva un listado de palabras "limpias" siguiendo los pasos escritos anteriormente. Para ello puedes utilizar la siguiente información:

- Para eliminar cualquier cosa que no sea una letra, utiliza la función re.sub. Esta función reciba 3 parámetros de entrada: la expresión regular que tiene que buscar para eliminar; la cadena de caracteres por las que va a eliminar cada match de la expresión regular; y el string donde va a trabajar la función. 
- Para pasar todo a minúsculas existe la función lower
- Para dividir un texto en un listado de palabras existe la función split
- Para eliminar palabras de una lista puedes utilizar la función filter

In [None]:
expresion_regular = re.compile('[^      ]')

In [None]:
lista_stop = ['a','about','above','after','again','against','all','am','an','and','any','are','arent','as','at','be','because','been','before','being',
'below','between','both','but','by','cant','cannot','could','couldnt','did','didnt','do','does','doesnt','doing','dont','down','during','each',
'few','for','from','further','had','hadnt','has','hasnt','have','havent','having','he','hed','hell','hes','her','here',
'heres','hers','herself','him','himself','his','how','hows','i','id','ill','im','ive','if','in','into','is','isnt','it',
'its','its','itself','lets','me','more','most','mustnt','my','myself','no','nor','not','of','off','on','once','only','or',
'other','ought','our','ours','ourselves','out','over','own','same','shant','she','shed','shell','shes','should','shouldnt',
'so','some','such','than','that','thats','the','their','theirs','them','themselves','then','there','theres','these','they','theyd',
'theyll','theyre','theyve','this','thos','through','to','too','under','until','up','very','was','wasnt','we','wed','well',
'were','weve','were','werent','what','whats','when','whens','where','wheres','which','while','who','whos','whom','why',
'whys','with','wont','would','wouldnt','you','youd','youll','youre','youve','your','yours','yourself','yourselves']

In [None]:
def procesa_comentario(comentario):
    comentario = re.sub( ##Rellenar aquí con la expresión regular, el caracter de sustitución y el texto a procesar
    comentario = ##Pasar el comentario a minúsculas
    comentario = ##Dividir el string en una lista de palabras
    comentario = #Eliminar las de longitud 0
    comentario = #Eliminar aquellas que pertenezcan a la lista_stop
    return comentario

Una vez definida la función procesa_comentario, modifica el DataFrame comentarios de forma que la columna review deje de ser un texto para convertirse en un listado de palabras. ¿Puedes hacer esto sin estructuras iterativas? Piensa en la función apply

In [None]:
comentarios['review'] = ## Aplicar la función procesa_comentario


### División del DataFrame en train y set

Vamos a dividir nuestra DataFrame en dos DataFrames de entrenamiento (4000 comentarios) y test (1000 comentarios). Para ello, vamos a seleccionar 4000 índices aleatorios entre 1 y 5000. Para esto, vamos a utilizar la función np.random.choice, que elige 4000 números entre 0 y 4999 sin repetición. A partir de dicho conjunto de índices, crea el conjunto índices test y divide el DataFrame comentarios en comentarios_train y comentarios_test

In [None]:
np.random.seed(1234)
indices_train =  np.random.choice(5000, 4000, replace = False)
indices_test = ##Calcula
comentarios_train = #Selecciona 4000 comentarios de entrenamiento
comentarios_test =  #Selecciona 1000 comentarios de test

### Creación de diccionarios

Vamos a crear dos diccionarios: diccionario_negativo y diccionario_positivo. Cada diccionario se creará a partir de los comentarios negativos y positivos de entrenamiento, respectivamente. El diccionario deberá contener el conjunto de palabras que aparecen en todos los comentarios (como clave) y el número de veces que aparecen (como valor). Recuerda la utilidad de la función get asociada a un diccionario y la función iterrows que te permite ir acciendo a cada fila del dataframe.

In [None]:
diccionario_negativo = {}
diccionario_positivo = {}
for indice, fila in comentarios_train.iterrows():
    #Ahora índice es el índice de la fila (no nos interesa demsasiado) y fila es la serie que contieen los datos: fila['id'], fila['sentiment'] y fila['review']
    #Recuerda que puedes hacer diccionario_negativo[palabra] = diccionario_negativo.get(palabra, 0) + 1

Una vez construidos los diccionarios vamos a convertilos cada uno de ellos en una Series.

In [None]:
serie_negativo = pd.Series(diccionario_negativo, name='negativo')
serie_positivo = pd.Series(diccionario_positivo, name='positivo')

Analiza las dos series utilizando la función describe. Observa que, por ejemplo, las dos series tienen más de 24000 palabras y que la media de veces que cada palabra ronda e 9.4 y el 9.5. Sin embargo, la desviación típica es muy alta (en torno a 40) y el valor de cuartil 3 es muy bajo (5): esto indica que hay muchas palabras que aparecen muy pocas veces. 

Para reducir el número de apariciones, vamos a eliminar de cada serie aquellas palabras que no aparezcan tantas veces como la media actual de apariciones. Observa que ahora nos quedamos con unas 3600 y 4000 palabras, respectivamente.

In [None]:
print serie_negativo.describe()
print serie_positivo.describe()

In [None]:
print serie_negativo.describe()
print serie_positivo.describe()

Como último pasa para crear el vocabulario, vamos a combinar las dos series en un DataFrame que contenga como índices las palabras de los dos vocabularios y 2 columnas: negativo y positivo; en las que aparezca el número de veces que dichas palabras aparecen en cada tipo de comentario. 

In [None]:
vocabulario = pd.concat([serie_negativo, serie_positivo], axis = 1)
vocabulario = vocabulario.fillna(0)
vocabulario

Muestra por pantalla las 10 palabras "negativas" que más veces aparecen y las 10 palabras "positivas" que más veces aparecen

Vamos a transformar la información cuantitativa (cuántas veces aparece cada palabra) en un porcentaje relativo. Es decir, dividir cada fila del DataFrame entre la suma del número de veces que dicha palabra aparece en comentarios "positivos" y "negativos". De esta manera tenemos algo parecido a la "probabilidad" de que dicha palabra aparezca en un comentario "positivo" en uno "negativo". Puedes utilizar la función apply aplicada a cada fila. Así, si la palabra "ejemplo" aparece 5 veces en un comentario negativo y 15 en uno positivo, se transformará en 0.25 (5/20) y 0.75 (15/20).

In [None]:
vocabulario = vocabulario.apply( #Rellenar
vocabulario.fillna(0)
vocabulario

### Clasificación de nuevos comentarios

A partir del DataFrame comentarios_test vamos a hacer lo siguiente. Para cada comentario de test:
- obtener diccionario_test con las palabras de dicho comentario junto con el número de veces que aparece
- transformar dicho diccionario en una Series
- multiplicar la serie_test por cada columna del DataFrame. De esta manera, cada palabra que aparezca en serie_test se multiplicará por la probabilidad de ser positivo o negativo. 
- Sumar por columnas el resultado de la multiplicación anterior: esto nos dará un resultado final de probabilidades acumulada
- Obtener el nombre de la columna que mayor suma ha obtenido: si es la columna "negativo" entonces predecimos que dicho comentario es de tipo sentiment=0; al contrario predeciremos sentiment=1;
- Contar el número de acierots/fallos de nuestro clasificador

In [None]:
num_aciertos = 0
num_fallos = 0
for indice, fila in comentarios_test.iterrows():
    diccionario_test = {}
    for ##
    serie_test = pd.Series(diccionario_test)
    
    #Recuerda que para multiplicar una serie y un dataframe puedes usuar 
    #vocabulario.multiply(serie_test, axis=0) prediccion = vocabulario.add(serie_test, axis=0).sum().idxmax()
    
    #La funcion idxmax() de una Series/DataFrame te devuelve el nombre del índice que tenga mayor valor

In [None]:
print (num_aciertos)
print (num_fallos)