<a href="https://colab.research.google.com/github/wgbusch/Algo2/blob/master/NLP_%2B_Autovalores.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de Sentimiento con KNN y PCA

Vamos a usar el dataset de IMDB de [Maas et al(2011)](
https://ai.stanford.edu/~amaas/data/sentiment/) 


In [0]:
!wget https://github.com/finiteautomata/imdb-dataset/raw/master/imdb_dataset.csv.zip
!unzip imdb_dataset.csv.zip

In [0]:
import pandas as pd 

df = pd.read_csv("IMDB Dataset.csv")


print("Cantidad de documentos: {}".format(df.shape[0]))

In [0]:
pd.options.display.max_colwidth = 200

df[:3]

Lo mezclamos para que no esté ordenado

In [0]:
# Esto pide un sample, le pedimos una muestra de todo el df
df = df.sample(frac=1)

df[:3]

## Train y Test

Nos vamos a quedar con una fracción de los datos para train y otra para test

In [0]:
import sklearn

df_train = df[:10000]
df_test = df[10000:13000]

text_train, text_test = df_train["review"], df_test["review"]
label_train, label_test = df_train["sentiment"], df_test["sentiment"]

print("Class balance : {} pos {} neg".format(
    (label_train == 'positive').sum() / label_train.shape[0], 
    (label_train == 'negative').sum() / label_train.shape[0]
))

Está más o menos parejo. Usemos accuracy (#cantidad de aciertos / #cantidad de ensayos) como métrica

## Convertir a bag of words

Veamos cómo funciona CountVectorizer

La idea general es que CountVectorizer convierte un conjunto de texto en el modelo de bolsa de palabras (bag of words), donde cada texto se representa como un vector de $\mathbb{R}^V$, donde $V$ es el vocabulario elegido.

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

textos = [
    "bolsa de palabras",
    "bolsa es una palabra",
    "palabra no es una bolsa",
]

vect = CountVectorizer()

Lo entramos a estos textos

In [0]:
vect.fit(textos)

In [0]:
 vect.vocabulary_

In [0]:
mat = vect.transform(textos)

mat

Es una matriz "rala" (ESPARSA NO ES UNA PALABRA DE ESPAÑOL)

In [0]:
mat = mat.todense()

mat

Ahora, apliquemos esto a nuestros textos...

No nos vamos a quedar con todas las palabras:

- Sacar palabras muy frecuentes
- Sacar palabras que aparecen muy pocas veces 

¿Por qué sirve esto?

In [0]:
vect = CountVectorizer()

vect.fit(text_train)

len(vect.vocabulary_)

Esto es un montón. Reduzcámoslo un poco

In [0]:
vect = CountVectorizer(min_df=3, max_features=5000)

vect.fit(text_train)

len(vect.vocabulary_)

In [0]:
X_train = vect.transform(text_train)
X_test = vect.transform(text_test)

y_train = label_train# == 'positive' # Convertimos a vectores booleanos
y_test = label_test# == "positive"

In [0]:
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier(50)

clf.fit(X_train, y_train)

In [0]:
%%time
from sklearn.metrics import accuracy_score
y_pred = clf.predict(X_test)

acc = accuracy_score(y_test, y_pred)
print("Accuracy: {}".format(acc))

¿Podremos mejorarlo...?

## Metodo de la potencia

Implementar las siguientes funciones (`power_iteration` y `eig`)

In [0]:
import numpy as np

def power_iteration(A, niter=10000, eps):
    """
    Calcula el autovector al autovalor asociado de valor máximo
    
    
    Devuelve (a, v) con a autovalor, y v autovector de A
    """
    
    a = 1
    v = np.ones(A.shape[0])
    
    return a, v


In [0]:

D = np.diag([5.0, 4.0, 3.0, 2.0, 1.0])

v = np.ones((D.shape[0], 1))

v = v / np.linalg.norm(v)

# Matriz de Householder
B = np.eye(D.shape[0]) - 2 * (v @ v.T)

# Matriz ya diagonalizada
M = B.T @ D @ B

power_iteration(M)

In [0]:
def eig(A, num=2, niter=10000, eps=1e-6):
    """
    Calculamos num autovalores y autovectores usando método de la potencia+deflación
    """
    A = A.copy()
    eigenvalues = []
    eigenvectors = np.zeros((A.shape[0], num))
    for i in range(num):
        """
        TODO: Completar código
        """
        pass    
    return np.array(eigenvalues), eigenvectors
