##### Dependencias

In [2]:
%load_ext ipybind

In [3]:
from math import sqrt
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy

##### Datos

In [5]:
!wget -q -O datos_retocados.csv "https://www.dropbox.com/scl/fi/xnztguety6brdy7t2lfge/wiki_movie_plots_deduped_sample.csv?rlkey=7m867bh7ruilw66qlh7ozl9g4&dl=1"

In [6]:
tabla = pd.read_csv("datos_retocados.csv")

In [7]:
generos_dict = {"western": 0, "science fiction": 1, "romance": 2, "crime": 3}
generos_list = ["western", "science fiction", "romance", "crime"]

In [8]:
train_g, train_v = construir_datos_training(tabla, 1000)

# KNN

##### Python puro

In [97]:
def productoPunto(vectorA, vectorB):
    producto = 0
    for i in range(len(vectorA)) : 
       producto = vectorA[i]*vectorB[i] + producto
    return producto 

def norma(vector):
    valor = 0
    for i in range(len(vector)): 
        valor = vector[i]**2 + valor
    valor = sqrt(valor)
    return valor    

def distanciaCoseno(vectorA, vectorB):
    vecA = vectorA - sum(vectorA) / len(vectorA)
    vecB = vectorB - sum(vectorB) / len(vectorB)
    distancia = 1 - (productoPunto(vecA, vecB) / (norma(vecA) * norma(vecB)))
    # preguntar media
    return distancia

In [98]:
def KVecinos(vector, modelo_generos, modelo_vectores, k):
    vecinos = []
    for i in range(len(modelo_vectores)): 
        vecinos.append((modelo_generos[i], distanciaCoseno(modelo_vectores[i], vector)))
      
    vecinos = sorted(vecinos, key=lambda tup: tup[1])
    kvecinos = []
    for i in range(k):
        kvecinos.append(vecinos[i][0])
    return kvecinos

def KNN(vector, modelo_generos, modelo_vectores, k):
    aparicionesDeClase = [0,0,0,0]

    kvecinos = KVecinos(vector, modelo_generos, modelo_vectores, k)

    for vecino in kvecinos:
        aparicionesDeClase[vecino] = aparicionesDeClase[vecino] + 1
    
    maxIndice = 0
    maxApariciones = 0       
    for i in range(len(aparicionesDeClase)):
        if(aparicionesDeClase[i] > maxApariciones):
            maxIndice = i
            maxApariciones = aparicionesDeClase[i]
    return generos_list[maxIndice]

In [99]:
modelo_generos = train_g[19:]
modelo_vectores = train_v[19:]
for i in range(19):
    vector = train_v[i]
    genero_esperado = generos_list[train_g[i]]
    print("Esperado: " + genero_esperado + " Resultado: " + KNN(vector, modelo_generos, modelo_vectores, 10))

Esperado: crime Resultado: crime
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: science fiction
Esperado: western Resultado: western
Esperado: crime Resultado: science fiction
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: romance
Esperado: western Resultado: western
Esperado: crime Resultado: western
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: science fiction
Esperado: western Resultado: western
Esperado: crime Resultado: crime
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: science fiction
Esperado: western Resultado: western
Esperado: crime Resultado: crime
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: crime


##### Numpy

In [100]:
def normaNumpy(vector):
    return np.linalg.norm(vector)

def distanciaCosenoNumpy(vectorA, vectorB):
    vecA = vectorA - np.average(vectorA)
    vecB = vectorB - np.average(vectorB)
    if (normaNumpy(vecA) == 0 or normaNumpy(vecB) == 0):
        return np.inf # preguntar
    return 1 - (np.dot(vecA, vecB) / (normaNumpy(vecA) * normaNumpy(vecB)))

In [101]:
def KVecinosNumpy(vector, modelo_generos, modelo_vectores, k):
    vecinos = np.zeros((len(modelo_generos), 2))
    vecinos[:, 0] = modelo_generos
    vecinos[:, 1] = [distanciaCosenoNumpy(vector, x) for x in modelo_vectores]
        
    vecinos = vecinos[vecinos[:, 1].argsort()]
    kvecinos = np.array(vecinos[:k, 0], dtype=int)
    return kvecinos


def KNNNumpy(vector, modelo_generos, modelo_vectores, k):
    kvecinos = KVecinosNumpy(vector, modelo_generos, modelo_vectores, k)
    return scipy.stats.mode(kvecinos).mode

In [102]:
modelo_generos = train_g[19:]
modelo_vectores = train_v[19:]
for i in range(19):
    vector = train_v[i]
    genero_esperado = generos_list[train_g[i]]
    print("Esperado: " + genero_esperado + " Resultado: " + generos_list[KNNNumpy(vector, modelo_generos, modelo_vectores, 10)])

Esperado: crime Resultado: crime
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: science fiction
Esperado: western Resultado: western
Esperado: crime Resultado: science fiction
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: romance
Esperado: western Resultado: western
Esperado: crime Resultado: western
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: science fiction
Esperado: western Resultado: western
Esperado: crime Resultado: crime
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: science fiction
Esperado: western Resultado: western
Esperado: crime Resultado: crime
Esperado: romance Resultado: romance
Esperado: science fiction Resultado: crime


# Método de la potencia

##### Implementacion en C++ del metodo de la potencia con deflacion

In [30]:
%%pybind11

#include <iostream>
#include <pybind11/numpy.h>
#include <eigen3/Eigen/Dense>
#include <pybind11/eigen.h>
#include <math.h>
#include <tuple>
#include <vector>
#include <pybind11/stl.h>

using namespace std;
using namespace Eigen;

tuple<double, VectorXd, int> calcular_dominantes(const MatrixXd& matriz, const double tolerancia, const int limite_pasos) {
    VectorXd v_old = VectorXd::Random(matriz.cols());
    v_old = v_old.normalized();
    VectorXd v_new = VectorXd(matriz.cols());
    double diff = 1000000.0;
    int donde_termino = 0;
    for (int i = 0; i < limite_pasos && diff > tolerancia; i++) { 
        v_new = (matriz*v_old).normalized();
        diff = (v_old - v_new).lpNorm<Infinity>();
        v_old = v_new;
        donde_termino++;
    }
    double autovalor = (v_old.transpose() * matriz * v_old)[0] / (v_old.transpose() * v_old)[0];
    return {autovalor, v_old.normalized(), donde_termino};
}

void desinflar(MatrixXd& matriz, const double autoval, VectorXd autovec) {
    matriz = matriz - autoval * autovec * autovec.transpose();
}

vector<tuple<double, VectorXd, int>> metodo_potencia_deflacion(const MatrixXd& matriz, const double tolerancia, const int limite_pasos, int cant_auto) {
    MatrixXd mat = matriz;
    if (cant_auto == -1) cant_auto = mat.cols();
    vector<tuple<double, VectorXd, int>> res = {};
    for (int i = 0; i < mat.cols() && i < cant_auto; i++) {
        tuple<double, VectorXd, int> doms;
        doms = calcular_dominantes(mat, tolerancia, limite_pasos);
        res.push_back(doms);
        desinflar(mat, get<0>(doms), get<1>(doms));
    }
    return res;
}

PYBIND11_PLUGIN(metodo_potencia) {
    py::module m("metodo_potencia_con_deflacion");
    m.def("metodo_potencia_deflacion", [](const MatrixXd& matriz, const double tolerancia, const int limite_pasos, const int cant_auto) {
        return metodo_potencia_deflacion(matriz, tolerancia, limite_pasos, cant_auto);
    });
    m.def("primeros_autos", [](const MatrixXd& matriz, const double tolerancia, const int limite_pasos) {
        return calcular_dominantes(matriz, tolerancia, limite_pasos);
    });
    return m.ptr();
}

##### Prueba de correctitud con Householder

In [84]:
n = 50
for i in range(1, 101): 
    print("Probando matriz " + str(i))
    autovalores_esperados = np.array(range(n, 0, -1), dtype=np.float64) * i

    D = np.diag(autovalores_esperados)
    v = np.random.normal(size=(n, 1))
    v = v / np.linalg.norm(v)
    H = np.eye(n) - 2 * (v @ v.T)
    M = H @ D @ H.T
    M = M.astype(np.float64)
    # M es simetrica y tiene autovalores l1 > l2 > ... > l50 > 0
    # Asi que cumple los requisitos
    
    res = metodo_potencia_deflacion(M, 1e-10, 1000000, -1)

    for j in range(n):
        assert(np.isclose(autovalores_esperados[j], res[j][0]))
        assert(np.allclose(H[j, :], res[j][1]) or np.allclose(H[j, :], res[j][1] * -1)) # Preguntar or
        # Por la forma en la que lo construimos, la columna j de H es el autovector asociado al autovalor lj
        # que al mismo tiempo es el elemento j de la diagonal D. Tambien por lo mismo ya estan normalizados
        # y los que nos devuelve el algoritmo tambien estan normalizados, solo queda tener cuidado con
        # que el sentido sea el opuesto.

print("Todas las matrices dieron bien!")


Probando matriz 1
Probando matriz 2
Probando matriz 3
Probando matriz 4
Probando matriz 5
Probando matriz 6
Probando matriz 7
Probando matriz 8
Probando matriz 9
Probando matriz 10
Probando matriz 11
Probando matriz 12
Probando matriz 13
Probando matriz 14
Probando matriz 15
Probando matriz 16
Probando matriz 17
Probando matriz 18
Probando matriz 19
Probando matriz 20
Probando matriz 21
Probando matriz 22
Probando matriz 23
Probando matriz 24
Probando matriz 25
Probando matriz 26
Probando matriz 27
Probando matriz 28
Probando matriz 29
Probando matriz 30
Probando matriz 31
Probando matriz 32
Probando matriz 33
Probando matriz 34
Probando matriz 35
Probando matriz 36
Probando matriz 37
Probando matriz 38
Probando matriz 39
Probando matriz 40
Probando matriz 41
Probando matriz 42
Probando matriz 43
Probando matriz 44
Probando matriz 45
Probando matriz 46
Probando matriz 47
Probando matriz 48
Probando matriz 49
Probando matriz 50
Probando matriz 51
Probando matriz 52
Probando matriz 53
Pr

##### Error y velocidad de convergencia

In [90]:
# Todos los autovalores de una matriz o solo 1 ?
epsilons = np.logspace(-4, 0, 10)
vectorAdevolver = []
for e in epsilons:

    D = np.diag([10., 10. - e, 5., 2., 1.])
    v = np.random.normal(size=(5, 1))
    v = v / np.linalg.norm(v)
    H = np.eye(5) - 2 * (v @ v.T)
    M = H @ D @ H.T

    valores = metodo_potencia_deflacion(M, 1e-8, 1000000, -1)

    # Sacamos el error para cada autovalor y autovector
    errores = [np.linalg.norm(M @ valores[i][1] - valores[i][0] * valores[i][1]) for i in range(len(valores))]
    error_promedio = np.average(errores)
    pasos = [valores[i][2] for i in range(len(valores))]
    print(pasos)
    pasos_promedio = np.average(pasos)
    
    errorYCantidadDePasos = (error_promedio, pasos_promedio)
    vectorAdevolver.append(errorYCantidadDePasos)
#que tiene sentido graficar ya que hay un numero que se hace demasiado grande rompe el promedio jaja saludos recurso
print("")
print(vectorAdevolver)


[685059, 28, 19, 27, 2]
[308195, 28, 21, 25, 2]
[58861, 27, 24, 29, 2]
[43437, 25, 21, 23, 2]
[18943, 25, 20, 31, 2]
[6904, 24, 21, 26, 2]
[3148, 27, 21, 27, 2]
[996, 28, 22, 25, 2]
[389, 28, 19, 26, 2]
[134, 32, 21, 27, 2]

[(np.float64(7.019738535266598e-08), np.float64(137027.0)), (np.float64(6.966198543603171e-08), np.float64(61654.2)), (np.float64(6.760412123034009e-08), np.float64(11788.6)), (np.float64(8.764852496938823e-08), np.float64(8701.6)), (np.float64(7.861327360388222e-08), np.float64(3804.2)), (np.float64(7.395144140974725e-08), np.float64(1395.4)), (np.float64(7.669156961573407e-08), np.float64(645.0)), (np.float64(6.895283799940029e-08), np.float64(214.6)), (np.float64(7.047317175665686e-08), np.float64(92.8)), (np.float64(7.357477934964753e-08), np.float64(43.2))]


# PCA

##### Matriz de covarianza

In [118]:
def centrar(vec):
    return vec - np.average(vec)

##### PCA

In [119]:
class PCA:
    def __init__(self):
        self.V = np.array([0])

    def fit(self, matriz):
        X = np.apply_along_axis(centrar, axis=0, arr=matriz)
        matriz_covarianza = (X.T @ X) / (X.shape[0] - 1) 
        autos = metodo_potencia_deflacion(matriz_covarianza, 1e-8, 1000, -1)
        self.V = np.array([autos[i][1] for i in range(len(autos))])

    def transform_matriz(self, matriz, componentes):
        return matriz @ self.V[:, :componentes]         # Preguntar transposed
    
    def transform_vector(self, vector, componentes):
        return vector.T @ self.V[:, :componentes]
    
    def shape(self):
        return self.V.shape

# Clasificacion

##### Construccion de datos

In [4]:
def construir_datos_training(tabla, cantidad_dimensiones):
    tokens = np.hstack(tabla["tokens"].apply(lambda x: x.split()).values)
    unique_tokens = pd.Series(tokens).value_counts().index[:cantidad_dimensiones].values
    unique_tokens_dict = dict(zip(unique_tokens, range(len(unique_tokens))))

    tabla_matriz = np.zeros((len(tabla), len(unique_tokens)), dtype=int)
    for i, row in tabla.iterrows():
        for token in row["tokens"].split():
            if unique_tokens_dict.get(token,False)!=False:
                tabla_matriz[i, unique_tokens_dict[token]] += 1

    train_tabla = tabla.loc[tabla["split"] == "train"].to_numpy()
    train_generos = train_tabla[:, 5]
    train_generos = [generos_dict[x] for x in train_generos]
    train_vectores = np.zeros((len(train_generos), len(unique_tokens)), dtype=int)
    for i in range(len(train_tabla)):
        for token in train_tabla[i, 8].split():
            if unique_tokens_dict.get(token,False) != False:
                train_vectores[i, unique_tokens_dict[token]] += 1

    # Horrible, preguntar como hacer
    tempa = []
    tempb = []
    for i in range(int(len(train_generos)/4)):
        for j in range(4):
            tempa.append(train_generos[i + j*int(len(train_generos)/4)])
            tempb.append(train_vectores[i + j*int(len(train_vectores)/4)])
    train_generos = np.array(tempa)
    train_vectores = np.array(tempb)

    return train_generos, train_vectores

##### Clasificador (renombre de KNN)

In [83]:
def clasificar(vector, modelo_generos, modelo_vectores):
    return KNNNumpy(vector, modelo_generos, modelo_vectores, 5)

##### K-Fold pero sin K ni fold

In [121]:
def performance_clasificador(tabla, cantidad_dimensiones):
    generos, vectores = construir_datos_training(tabla, cantidad_dimensiones)

    correctos = 0
    tamano_particion = int(len(generos) / 5)
    # modelo_generos = generos[tamano_particion:]
    # modelo_vectores = vectores[tamano_particion:]
    modelo_generos = generos[:len(generos) - tamano_particion]
    modelo_vectores = vectores[:len(vectores) - tamano_particion]

    # preguntar si esta bien usar una sola particion siendo que hay tanta diferencia entre cual se elige
    # tarda el quintuple con la ultima particion que con la primera ??????

    # for i in range(tamano_particion):
    for i in range(tamano_particion, len(generos)):
        vector = vectores[i]
        genero_esperado = generos[i]
        genero_res = clasificar(vector, modelo_generos, modelo_vectores)
        if genero_esperado == genero_res:
            correctos = correctos + 1
    return correctos / len(generos)

In [122]:
performances = [performance_clasificador(tabla, q) for q in [500, 1000, 5000]]
performances

[0.60625, 0.628125, 0.63125]

##### K-Fold

In [128]:
def kfold(tabla, cantidad_dimensiones, particiones, vecinos):
    generos, vectores = construir_datos_training(tabla, cantidad_dimensiones)

    correctos = 0
    tamano_particion = int(len(generos) / particiones)
    for i in range(particiones):
        azul_start = i * tamano_particion
        azul_end = i * tamano_particion + tamano_particion
        modelo_generos = np.concatenate((generos[:azul_start], generos[azul_end:]))
        modelo_vectores = np.concatenate((vectores[:azul_start], vectores[azul_end:]))
        for j in range(azul_start, azul_end):
            vector = vectores[j]
            genero_esperado = generos[j]
            genero_res = KNNNumpy(vector, modelo_generos, modelo_vectores, vecinos)
            if genero_esperado == genero_res:
                correctos = correctos + 1
    return correctos / len(generos)

In [137]:
resultados = np.zeros((20, 3))
for k in range(1, 21):
    performances = [kfold(tabla, q, 4, k) for q in [500, 1000, 5000]]
    resultados[k-1, :] = performances
print(resultados)

[[0.66875  0.65625  0.6625  ]
 [0.646875 0.653125 0.65625 ]
 [0.68125  0.7125   0.678125]
 [0.7125   0.728125 0.728125]
 [0.71875  0.721875 0.725   ]
 [0.73125  0.7375   0.740625]
 [0.746875 0.740625 0.75625 ]
 [0.765625 0.734375 0.765625]
 [0.740625 0.746875 0.78125 ]
 [0.75625  0.775    0.7875  ]
 [0.734375 0.7625   0.778125]
 [0.75     0.75     0.784375]
 [0.740625 0.759375 0.7875  ]
 [0.7375   0.753125 0.796875]
 [0.734375 0.7625   0.790625]
 [0.75     0.75     0.790625]
 [0.740625 0.75625  0.79375 ]
 [0.734375 0.734375 0.8     ]
 [0.734375 0.7375   0.8     ]
 [0.746875 0.746875 0.803125]]


##### Gaming

In [120]:
def mejorKyP(tabla, cantidad_dimensiones):
    generos, vectores = construir_datos_training(tabla, cantidad_dimensiones)

    resultados = np.zeros((241, 1001), dtype=np.float64)

    correctos = 0
    tamano_particion = int(len(generos) / 4)

    pca = PCA()

    for i in range(4):
        azul_start = i * tamano_particion
        azul_end = i * tamano_particion + tamano_particion
        modelo_generos = np.concatenate((generos[:azul_start], generos[azul_end:]))
        modelo_vectores = np.concatenate((vectores[:azul_start], vectores[azul_end:]))

        pca.fit(modelo_vectores)
        for p in range(1, modelo_vectores.shape[1] + 1):
            print(pca.shape())
            modelo_vectores = pca.transform_matriz(modelo_vectores, p)

            for k in range(1, modelo_vectores.shape[0] + 1):
                correctos = 0
                for j in range(azul_start, azul_end):
                    
                    vector = vectores[j]
                    vector = pca.transform_vector(vector, p)
                    genero_esperado = generos[j]
                
                    genero_res = KNNNumpy(vector, modelo_generos, modelo_vectores, k)
                    if genero_esperado == genero_res:
                        correctos = correctos + 1
                resultados[k][p] += correctos
    
    for p in range(1000):
        for k in range(240):
            resultados[k][p] = resultados[k][p] / len(generos)
    return resultados

In [121]:
prueba_resultados = mejorKyP(tabla, 1000)
print(prueba_resultados)

(1000, 1000)
(1000, 1000)


ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 1000 is different from 1)

In [None]:
def clasificar(vector, modelo, k, p)

In [114]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

a[:, :2]

array([[1, 2],
       [4, 5],
       [7, 8]])