# Análisis de Sentimiento - Parte 2 (PCA)


Primero, bajemos los datos

In [1]:
!wget https://github.com/finiteautomata/imdb-dataset/raw/master/imdb_dataset.csv.zip
!unzip imdb_dataset.csv.zip

zsh:1: command not found: wget
unzip:  cannot find or open imdb_dataset.csv.zip, imdb_dataset.csv.zip.zip or imdb_dataset.csv.zip.ZIP.


## Método de la Potencia

In [1]:
import numpy as np

def power_iteration(A, niter=1000, eps=1e-6):
   
    v = np.random.rand(A.shape[1])
    #b = b / np.linalg.norm(b)

    for i in range(niter):
        prev_v = v
        v = A @ v
        v = v / np.linalg.norm(v)

        # <a, b> = |a| |b| cos(angle)
        # -1 < cos(angle) < 1
        cos_angle = np.dot(v, prev_v)
       
        if (1 - eps) < cos_angle <= 1:
            print(f"Paré en la iteración {i+1}")
            break

    eigenvalue = np.dot(v, A @ v)
    return eigenvalue, v


In [2]:
D = np.diag([5.0, 4.0, 3.0, 2.0, 1.0])

v = np.ones((D.shape[0], 1))

v = v / np.linalg.norm(v)

# Matriz de Householder
B = np.eye(D.shape[0]) - 2 * (v @ v.T)

# Matriz ya diagonalizada
M = B.T @ D @ B

l, v = power_iteration(M, eps=1e-11)

assert(np.allclose(M@v, l*v))

Paré en la iteración 55


In [3]:
def eigen(A, num=2, niter=10000, eps=1e-6):
    
    A = A.copy()
    eigenvalues = []
    eigenvectors = np.zeros((A.shape[0], num))
    
    for i in range(num):
        
        print(f"Autovalor {i+1}")
        
        l, v = power_iteration(A, niter, eps)
        
        eigenvalues.append(l)
        eigenvectors[:, i] = v
        
        A = A - l * np.outer(v, v)
        
    return np.array(eigenvalues), eigenvectors


In [4]:
w, V = eigen(M, num = 5, niter=20000, eps=1e-24)
w, V


Autovalor 1
Autovalor 2
Autovalor 3
Autovalor 4
Autovalor 5


(array([5., 4., 3., 2., 1.]), array([[-0.6, -0.4,  0.4,  0.4,  0.4],
        [ 0.4,  0.6,  0.4,  0.4,  0.4],
        [ 0.4, -0.4, -0.6,  0.4,  0.4],
        [ 0.4, -0.4,  0.4, -0.6,  0.4],
        [ 0.4, -0.4,  0.4,  0.4, -0.6]]))

In [5]:
A = np.array([
  [7, 2, 3],
  [0, 2, 0],
  [-6, -2, -2]
])

w, V = eigen(A, num=3, niter=20000, eps=1e-24)
l, v = np.linalg.eig(A) 
l, v

Autovalor 1
Autovalor 2
Autovalor 3


(array([4., 1., 2.]), array([[ 0.70710678, -0.4472136 , -0.57735027],
        [ 0.        ,  0.        ,  0.57735027],
        [-0.70710678,  0.89442719,  0.57735027]]))

Todo bien, sin embargo..

In [6]:
for i in range(len(A)):
    print(np.allclose(A @ V[:, i], w[i] * V[:,i]))
    print(A @ V[:, i])
    print(w[i] * V[:,i])
        

True
[ 2.82842712  0.         -2.82842712]
[ 2.82842712  0.         -2.82842712]
False
[ 3.46410162  1.15470054 -3.46410162]
[ 1.15470054  1.15470054 -1.15470054]
False
[-2.0302589  -1.87408514  2.18643267]
[-0.15617376 -0.93704257  0.31234752]


![tenor.gif](attachment:tenor.gif)

## Volvamos a Análisis de Sentimiento

In [7]:
import pandas as pd 
import sklearn

df = pd.read_csv("IMDB Dataset.csv")
df = df.sample(frac=1, random_state=2020)

df

#df_train = df[:10000]
#df_test = df[10000:13000]

#text_train, text_test = df_train["review"], df_test["review"]
#label_train, label_test = df_train["sentiment"], df_test["sentiment"]

#print("Class balance : {} pos {} neg".format(
#    (label_train == 'positive').sum() / label_train.shape[0], 
#    (label_train == 'negative').sum() / label_train.shape[0]
#))
#print("Cantidad de documentos: {}".format(df.shape[0]))

Class balance : 0.5007 pos 0.4993 neg
Cantidad de documentos: 50000


Veamos qué forma tienen los datos

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(min_df=20, max_features=7000, binary=True)

vect.fit(text_train)

X_train = vect.transform(text_train)
X_test = vect.transform(text_test)

y_train = label_train# == 'positive' # Convertimos a vectores booleanos
y_test = label_test# == "positive"

## PCA

Vamos a ver una técnica para reducir la dimensionalidad y aún así mantener la mayor cantidad de información posible.

Recordemos que, dada X su matriz de covarianza $M_X$ es

$$ M_X = \frac{X^T X}{n-1} $$

En primer lugar, calculemos la matriz de covarianza de $X_{train}$

In [9]:
import numpy as np

# Esto es porque me lo convierte a np.matrix si no
X = np.array(X_train - X_train.mean(axis=0))

cov_matrix = X.T @ X / (X.shape[0]-1) 

In [10]:
%%time
w, V = eigen(cov_matrix, num=30, niter=1000, eps=1e-6)

Autovalor 1
Paré en la iteración 5
Autovalor 2
Paré en la iteración 9
Autovalor 3
Paré en la iteración 156
Autovalor 4
Paré en la iteración 53
Autovalor 5
Paré en la iteración 47
Autovalor 6
Paré en la iteración 59
Autovalor 7
Paré en la iteración 79
Autovalor 8
Paré en la iteración 58
Autovalor 9
Paré en la iteración 332
Autovalor 10
Paré en la iteración 120
Autovalor 11
Paré en la iteración 53
Autovalor 12
Paré en la iteración 119
Autovalor 13
Paré en la iteración 130
Autovalor 14
Paré en la iteración 120
Autovalor 15
Paré en la iteración 146
Autovalor 16
Paré en la iteración 122
Autovalor 17
Paré en la iteración 321
Autovalor 18
Paré en la iteración 174
Autovalor 19
Paré en la iteración 250
Autovalor 20
Paré en la iteración 157
Autovalor 21
Paré en la iteración 209
Autovalor 22
Paré en la iteración 140
Autovalor 23
Paré en la iteración 208
Autovalor 24
Paré en la iteración 133
Autovalor 25
Paré en la iteración 261
Autovalor 26
Paré en la iteración 198
Autovalor 27
Paré en la iteraci

A ver los autovalores...

In [11]:
import matplotlib.pyplot as plt

plt.plot(w, 'bo')

print("Tenemos eigenvectors de ", V.shape[0], " features y solo 30 de estos")

Tenemos eigenvectors de  6504  features y solo 30 de estos


## Recordando cambios de base y otros yuyos

Sup $M_X$ es la matriz de la covarianza, 

$$ M_X = \frac{X^T X}{n-1} $$

Si $B = \{v_1, \ldots , v_n\}$ es la base ortogonal de autovectores de $M_X$ entonces la matriz cambio de base de $B$ a la base canónica ($E$) se escribe como la matriz cuyas columnas son los respectivos vectores

$$C_{B, E} = V = \begin{bmatrix}
        &     & \ldots &     \\
    v_1 & v_2 & \ldots & v_n \\
        &     & \ldots &     \\
\end{bmatrix}
$$


La matriz inversa de ésta es la cambio de base de $E$ a $B$. Es decir $C_{E, B} = C_{B, E}^{-1}$. Como nuestra base es ortogonal, tenemos

$$ C_{E, B} = C_{B, E}^T = V^T = \begin{bmatrix}
& & v_1   & &\\
& & v_2   & &\\
& &\vdots & & \\
& & v_n   & & \\
\end{bmatrix}
$$

Es decir, la matriz que consiste de apilar los vectores fila de la base $B$.


### Cambiando de base nuestras instancias de entrenamiento

Nuestras matrices $X \in R^{n \times m}$ con $n$ igual a la cantidad de instancias de entrenamiento, y $m$ la cantidad de variables

Tenemos entonces

$$ X = \begin{bmatrix}
& & x^{(1)}   & &\\
& & x^{(2)}   & &\\
& &\vdots & & \\
& & x_n   & & \\
\end{bmatrix}
$$

Si $x$ es una instancia de entrenamiento a la cual queremos cambiar de base, queremos hacer

$$\overline x = V^T x$$

Luego, si queremos cambiar de base cada instancia, hacemos...

$$ V^T X^T = V^T \begin{bmatrix}
        & &    & &\\
x^{(1)}& x^{(2)} &\ldots & x ^{(n-1)} & x ^{(n)} \\
& & & & \\
\end{bmatrix} = \begin{bmatrix}
        & &    & &\\
V^T x^{(1)}& V^T x^{(2)} &\ldots & V^T x ^{(n-1)} & V^T x ^{(n)} \\
& & & & \\
\end{bmatrix} = \begin{bmatrix}
        & &    & &\\
\overline{x^{(1)}}& \overline{x^{(2)}} &\ldots & \overline{x^{(n-1)}} & \overline{x^{(n)}} \\
& & & & \\
\end{bmatrix}
$$

Ahora, lo que necesitamos es que cada instancia esté en una fila, así que trasponemos

$$
\overline{X} = (V^T X^T)^T = X V
$$

## Ejercicio:

1. Implementar el cambio de base usando su implementación del método de la potencia
2. Experimentar con distintos $\alpha$. ¿Cómo afecta la accuracy de nuestro algoritmo? ¿Es más rápido (en tiempo)?

In [12]:
X_pca_train = X_train @ V[:, :25]
X_pca_test = X_test @ V[:, :25]

X_pca_train.shape


(10000, 25)

Entrenar ahora el clasificador usando estas nuevas instancias

In [13]:
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier(n_neighbors=50)
clf.fit(X_pca_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=50, p=2,
                     weights='uniform')

In [14]:
%%time
from sklearn.metrics import accuracy_score
y_pred = clf.predict(X_pca_test)

acc = accuracy_score(y_test, y_pred)
print("Accuracy: {}".format(acc))

Accuracy: 0.7806666666666666
CPU times: user 1.62 s, sys: 17 ms, total: 1.64 s
Wall time: 1.52 s
