# Cantidad de datos utilizados en el entrenamiento y cantidad de K de folds.

#### En este notebook analizamos cual es la cantidad de datos necesarios para entrenar nuestros clasificadores y que sucede cuando variamos el K de K-fold. Tomamos nuestros parámetros ideales obtenidos anteriormente para el algoritmo de KNN y KNN+PCA y analizamos su performance en términos de accuracy y tiempo de ejecución.

## Compilando el módulo desde C++

#### Compilamos el modulo desde C++. En CMakeList.txt está seteado que se corra con OpenMP para paralelizar operaciones.

In [25]:
!cd .. && mkdir build
!cd ../build/ && rm -rf *
!cd ../build && cmake \
  -DPYTHON_EXECUTABLE="$(which python)" \
  -DCMAKE_BUILD_TYPE=Release ..
!cd ../build && make install

mkdir: no se puede crear el directorio «build»: El archivo ya existe
-- The C compiler identification is GNU 9.3.0
-- The CXX compiler identification is GNU 9.3.0
-- Check for working C compiler: /usr/bin/cc
-- Check for working C compiler: /usr/bin/cc -- works
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Detecting C compile features
-- Detecting C compile features - done
-- Check for working CXX compiler: /usr/bin/c++
-- Check for working CXX compiler: /usr/bin/c++ -- works
-- Detecting CXX compiler ABI info
-- Detecting CXX compiler ABI info - done
-- Detecting CXX compile features
-- Detecting CXX compile features - done
Release mode
-- Found OpenMP_C: -fopenmp (found version "4.5") 
-- Found OpenMP_CXX: -fopenmp (found version "4.5") 
-- Found OpenMP: TRUE (found version "4.5")  
-- Found libomp without any special flags
-- pybind11 v2.6.3 dev1
-- Found PythonInterp: /home/laureano/Documentos/met2021/grupal/metnum-1c2021-tp2/tp2/bin/python (found vers

In [11]:
# Verifico la correcta instalación. Si no falla el import está OK
!pwd
!python --version


/home/laureano/Documentos/met2021/grupal/metnum-1c2021-tp2/notebooks
Python 3.8.5


In [17]:
%reload_ext autoreload
%autoreload 2

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import time
import metnum
import funciones
import sklearn as sk
from tqdm import tqdm
from sklearn import metrics



In [19]:
setsDeDatos = []
cantidadDeDatos = 42000
for i in range(1,7):
    setsDeDatos.append(funciones.construir_dataset(numeroElementos = cantidadDeDatos // 2**i))
    cantidadDeDatosDeLosSets.append(cantidadDeDatos // 2**i)

#### Desordenamos los datos del set y creamos 6 sets de datos más chicos siguiendo una progresión geométrica. Utilizamos la funcion construir_dataset para darle formato correcto y separar los datos correctamente. Ahora, setsDeDatos contiene 6 tuplas de formato (X, y, X_test, y_test). Decidimos que X_test e y_test no varíen pese al número de elementos, sino que se testee siempre el clasificador contra un 20% de 42000.

## Búsqueda del par ideal de k vecinos y alpha componentes para KNN+PCA para diferentes tamaños del set.

In [15]:
for i in range(0,5):
    parIdeal = []
    tiemposDeEjecucion = [[] for i in range(6)]
    for setDeDatos in setsDeDatos:
        X_trains,Y_trains,X_vals,Y_vals = funciones.get_KFold_sets(setDeDatos[0],setDeDatos[1])
        tupla, tiempo = funciones.encontrarParOptimo(X_trains,Y_trains,X_vals,Y_vals)
        parIdeal.append((tupla[0],tupla[1]))
        tiemposDeEjecucion[i].append(tiempo)

In [1]:
tiemposDeEjecucion = [[1620.3209363490007, 517.9380939339926, 177.6935183219839, 89.05138266004178, 67.30538997799522,65.26426614898992], [1645.4255232589903, 521.5876698380043, 179.40793328798554,91.91850996098219,67.42663054798868,60.930074498992326], [1633.7907866350324,517.2767119390228,177.42631799903393,92.38252230397484,64.10420476996296,61.08341693202965],[1637.3618278339382,517.8258732898976,180.15826841188027,91.3361352909269,61.513064184029645,59.374192010160186],[1637.6247921559043,517.3657459989263,179.60324345999106,92.11012257916445,66.1535997420433,62.19547860386956],[1630.6813027420721,521.036983095968,179.4455943120047,95.63549344400963,67.14909283201996,59.16061952809105]]
TiemposDeEjecucionPorSet = []

for k in range(0,6):
    suma = 0
    for i in range(0, len(tiemposDeEjecucion)):
        suma+= tiemposDeEjecucion[i][k]
    promedio = suma / 6
    TiemposDeEjecucionPorSet.append(promedio)
        
print(TiemposDeEjecucionPorSet)
    

[1634.2008614958231, 518.8385130159686, 178.95581263214657, 92.07236103984997, 65.6086636756733, 61.33467462035545]


In [None]:
#### Corrimos 5 veces el experimento para obtener un valor de tiempo mas representativo.

In [None]:
accuracys = []
for i in range(len(setDeDatos)):
    y_pred = funciones.Test(parIdeal[i], setDeDatos[0], setDeDatos[1], setDeDatos[2])
    acc = sk.metrics.accuracy_score(setDeDatos[3], y_pred)
    accuracys.append()
    
    

In [None]:
#Tiempo en funcion de tamano
plt.figure(figsize = (6.4 * 1.5, 4.8 * 1.5))
plt.title("Tiempo de calculo de los parametros optimos en funcion del tamanio del set.")
plt.xlabel("Tamanio de entrenamiento")
plt.ylabel("Tiempo")
plt.plot(TiemposDeEjecucionPorSet,cantidadDeDatosDeLosSets)
plt.savefig('./graficosTamanoSet/tiempovstamanio.png')

In [None]:
#Grafico de accu en funcion de tiempo.
plt.figure(figsize = (6.4 * 1.5, 4.8 * 1.5))
plt.title("Accuracy en función de el tiempo de ejecucion surgido de variar el tamanio del set de entrenamiento")
plt.xlabel("Tiempo de Ejecucion")
plt.ylabel("Accuracy")
plt.plot(accuracys,TiemposDeEjecucionPorSet)
plt.savefig('./graficosTamanoSet/accuvstiempo.png')


## Variamos K de K-Fold.

#### Para cada K entrenamos 10 veces, shuffleando distinto la base de datos. Como la base de datos en si es la misma, deberia dar gual siempre. La idea es para k chiquito como no valida tantas veces es propenso a errores entonces es mas inestable. Le medimos la varianza a la performance y a los parametros mismos para intentar detectar esto. Ademas tenemos el promedio del accuracy para cada uno para ver si los K mas grandes producen mejor resultado.

In [None]:
setDeDatosIdeal = setsDeDatos[2] # Este es el ideal?
accMeans = []
accVars = []
paresVars = []
tiemposDeEjecucion = []
tamanoIdeal = 42000
seeds = [1823,1273,98123,1273,7632,8763,65798,40738,213]
paresIdealesPorK = []
    
for K in [2,5,10]:
    paresIdeales = []
    accuracys = []
    tiempoDeEjecucion = []
    for i in range(10):
        X,Y,X_test,Y_test = construirDataset(tamanoIdeal, seeds[i])
        X_trains,Y_trains,X_vals,Y_vals = funciones.get_KFold_sets(X,Y,K)
        tupla, tiempo = funciones.encontrarParOptimo(X_trains,Y_trains,X_vals,Y_vals)
        paresIdeales.append(tupla)
        tiempoDeEjecucion.append(tiempo)
        y_pred = funciones.Test(tupla,X,Y,X_test)
        accuracys.append(sk.metrics.accuracy_score(Y_test,y_pred))
    tiemposDeEjecucion.append(np.mean(tiempoDeEjecucion))
    accMeans.append(np.mean(accuracys))
    accVars.apped(np.var(accuracys))
    var_vec = np.zeros(2)
    var_vec[0] = np.var(paresIdeales,axis=0)
    var_vec[1] = np.var(paresIdeales,axis=1)
    paresVars.append(np.norm(var_vec))
    paresIdealesPorK += paresIdeales
    
#Shufflear varias veces. Medir la varainza de los parametros k y alpha. Medir la esperanza y la varianza del accuracy al testear.


In [None]:
#grafico r2 de los parametros. (Y el numero de la varianza en las leyendas?)
Ks,As = zip(*paresIdealesPorK)
plt.figure(figsize = (6.4 * 1.5, 4.8 * 1.5))
plt.title("Dispersion de los parametros elegidos por cada K")
plt.xlabel("K")
plt.ylabel("Alpha")
plt.plot(As[0:10],Ks[0:10],'.r', label='K=2')
plt.plot(As[10:20],Ks[10:20],'.b', label='K=5')
plt.plot(As[20:30],Ks[20,30],'.g', label='K=10')
plt.legend()
plt.savefig('./graficosTamanoSet/dispersionparams.png')

In [None]:
#boxplot de accuracy
plt.figure()
plt.title("Accuracy para cada K")
plt.boxplot()
plt.savefig('./graficosTamanoSet/dispersionparams.png')

In [None]:

#Gran cantidad de datos sin validacion cruzada da resultados parecidos y tarda menos. 
    