# CP 2 Aprendizaje de Máquinas
---
## Clasificación supervisada e introducción a la herramienta sklearn

El objetivo de la clase práctica es resolver un problema utilizando los algoritmos dados en conferencia. Se tienen críticas de cine positivas y negativas. 1000 de cada una. El objetivo es, dado el texto de la crítica, determinar si la crítica es positiva o negativa.

### Ejercicio 1: Extracción de los datos

In [None]:
import os
from pathlib import Path
from typing import List

En la carpeta `txt_sentoken` se encuentran las críticas. Dentro hay dos carpetas (`pos`, `neg`), donde están las críticas positivas y negativas.

In [None]:
path_p = Path("txt_sentoken/pos")
path_n = Path("txt_sentoken/neg")

Cada archivo de cada carpeta es una crítica diferente, por lo que tenemos que analizar los archivos de cada una de estas carptetas para procesar las críticas.

In [None]:
ds_p = list(path_p.iterdir())     # directorio donde están las críticas positivas
ds_n = list(path_n.iterdir())     # directorio donde están las críticas negativa

Luego, cada archivo tenemos que convertirlos en cadenas de texto.

In [None]:
def convert_file_to_text(file_path: Path) -> str:
    # Your code here !
    text = []
    f = open(file_path)
    for line in f.readlines():
        text += line
    return ''.join(text)
    #

Por ejemplo, de esta forma se convierte un archivo:

In [None]:
a = convert_file_to_text(ds_p[0])
a

Luego, hacemos lo mismo para cada archivo, guardándolos en dos listas diferentes, una de críticas positivas y otra de críticas negativas.

In [None]:
texts_p = []    # Lista de críticas positivas
texts_n = []    # Lista de críticas negativas

Para esto se carga el contenido de cada archivo de crítica positiva y se salva en la lista de críticas positivas.

In [None]:
for file in ds_p:
    texts_p.append(convert_file_to_text(file))

Y se hace lo mismo con los archivos de críticas negativas y la lista de críticas negativas.

In [None]:
for file in ds_n:
    texts_n.append(convert_file_to_text(file))

Para comprobar el resultado de este proceso, se comprueba la longitud de las listas, estas deben tener 1000 elementos.

In [None]:
len(texts_p)

In [None]:
len(texts_n)

### Ejercicio 2: Extracción de características

¿Cómo convertimos una cadena de texto en una matriz de características?

Existen varias maneras, una de las más sencillas, es usando `CountVectorizer` de `sklearn`, que convierte una collección de documentos en una matriz con recuentos de tokens.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer 

Para crear la matriz de características con `CountVectorizer`, se usa su método `fit_transform`, que crea un diccionario con el vocabulario del texto, y se retorna una matriz que guarda para cada documento la cantidad de veces que ocurre un término. 

In [None]:
vectorizer = CountVectorizer()
mt = vectorizer.fit_transform(texts_p + texts_n)
mta = mt.toarray()

La matriz de características tiene dos dimensiones, la primera representa la cantidad de instancias (ejemplos) y la segunda la cantidad de características. Busquemos las dimensiones de la matriz:

In [None]:
# matriz de características
mt.shape

Para cada documento, ¿cuál es el por ciento de términos cuya ocurrencia es distinto de cero? Es decir, ¿cuál es el por ciento de los valores en la matriz que son distintos de cero? 

In [None]:
mt.nnz *100.0 / (mt.shape[0] * mt.shape[1])

El vector de clase dice, para cada instancia cuál es la clase a la que pertenece. La clase positiva (1) representa una crítica positiva y la clase negativa (0) una crítica negativa.

In [None]:
y = [1]*1000 + [0]*1000

### Ejercicio 3: Elección del clasificador

Ahora que ya se tienen la matriz de clasificación y el vector de clases, ¿qué hacemos?, ¿qué clasificador usamos?, ¿por qué?

El Naive Bayes de sklearn se llama Gaussian Naive Bayes porque está diseñado (a diferencia del visto en conferencia) para lidiar con características que sean valores continuos. Gaussian Naive Bayes supone que la probabilidad de las características es gaussiana: $$P(x_i ∣ y)=\dfrac{1}{\sqrt{2\pi \sigma^2_y}}exp(−\dfrac{{(x_i-\mu_y)^2}}{2\sigma^2_y})$$

In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier

### Ejercicio 4: Entrenamiento de los algoritmos

Para comenzar el entrenamiento del clasificador elegido, es necesario dividir la matriz de características y el vector de clase en dos conjuntos, uno de entrenamiento y otro de prueba.

In [None]:
from sklearn.model_selection import train_test_split

# Your code here !
X_train, X_test, y_train, y_test = train_test_split(mta, y, train_size=0.60)
#

Se comprueba que el 60% del total de instancias (1000 ejemplos) correponden al conjunto de entrenamiento (serían 1200 instancias) y el resto (800) al conjunto de prueba.  

In [None]:
print(X_train.shape)
print(X_test.shape)

Primero, se realiza el entrenamiento con Naive Bayes con todos los datos, y se prueban los resultados obtenidos en este mismo conjunto. 

El entrenamiento en los algoritmos de aprendizaje de máquinas de sklearn se realizan todos mediante la función `fit`, que recibe la matriz de características y el vector de clase. Para obtener la precisión del rendimiento del algoritmo, se utiliza la función `score`, que también recibe la matriz de características y el vector de clase, y retoran el porcentaje total de elementos clasificados correctamente.

In [None]:
naive_bayes = GaussianNB()
naive_bayes.fit(mta,y)
naive_bayes.score(mta,y)

Ahora, se hace correctamente, realizando el entrenamiento en el conjunto de entrenamiento y probando los resultados obtenidos en un conjunto de prueba, que nunca antes fue visto por el algoritmo.

In [None]:
# Your code here !
naive_bayes = GaussianNB()
naive_bayes.fit(X_train, y_train)
naive_bayes.score(X_test, y_test)
#

### Ejercicio 5: Probar con el resto de los clasificadores vistos: KNN

Ahora probemos los resultados con el otro algoritmo dado en clases, KNN.

In [None]:
# Your code here !
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
knn.score(X_test, y_test)
#

### Ejercicio 6: Experimentos

Para comprobar la eficiencia real del algoritmo es necesario realizar el entrenamiento y prueba del algoritmo utilizado varias veces. Así, se tiene un valor más estadísticamente significativo del rendimiento del algoritmo en el dataset utilizado.

In [None]:
def experiments(Clsf, iterations: int) -> List[float]:
    rs = []
    # Your code here !
    for _ in range(iterations):
        X_train, X_test, y_train, y_test = train_test_split(mta, y, train_size=0.60)
        clf = Clsf()
        clf.fit(X_train, y_train)
        rs.append(clf.score(X_test, y_test))
    #
    return rs

In [None]:
import numpy as np

Se comprueban los resultados obtenidos con el algoritmo de KNN.

In [None]:
# Your code here !
rs1 = experiments(KNeighborsClassifier, 30)

Para tener una idea del rendimiento promedio, se calcula la media de los resultados obtenidos.

In [None]:
# Your code here !
np.mean(rs1)

Y luego se comprueban los resultados con Naive Bayes.

In [None]:
# Your code here !
rs2 = experiments(GaussianNB, 30)

In [None]:
# Your code here !bb
np.mean(rs2)

Por último, comprobamos mediante una prueba de hipótesis si la media de las muestras correspondientes a los resultados de rendimiento son diferentes.

In [None]:
from scipy.stats import ttest_ind

In [None]:
# Your code here !
result = ttest_ind(rs1, rs2)
result.pvalue < 0.01