<a href="https://colab.research.google.com/github/VasquezSRE/machinelearning-gtc/blob/main/algorithms/2_Parzen_Window.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
%load_ext autoreload
%autoreload 2

import pandas as pd
import numpy as np
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.datasets import make_moons, make_circles, make_classification
from sklearn.model_selection import train_test_split
from imblearn.metrics import geometric_mean_score
from sklearn.metrics import f1_score
from sklearn.metrics import plot_confusion_matrix
from sklearn.metrics import roc_curve, roc_auc_score
from sklearn.metrics import plot_confusion_matrix
from sklearn.metrics import auc
import matplotlib.pyplot as plt
from sklearn.preprocessing import label_binarize
from sklearn.model_selection import StratifiedKFold
from scipy.spatial.distance import euclidean
from sklearn.neighbors import KernelDensity
import sys; sys.path.append('../Utils')
from sklearn.multiclass import OneVsRestClassifier
from utils import Utils

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [None]:
ut = Utils()
X, Y = ut.get_matrixes()

In [None]:
def ErrorClas(Y_lest, Y):
    """funcion que calcula el error de clasificación
    Y_lest: numpy array con la estimaciones de etiqueta
    Y: etiquetas reales
    retorna: error de clasificación (int)
    """
    error = 1 - np.sum(Y_lest == Y)/len(Y)
    
    return error

In [None]:
def kernel_gaussiano(x):
    """Calcula el kernel gaussiano de x
    x: matriz/vector de numpy
    retorna: el valor de de kernel gaussiano
    """
    return np.exp((-0.5)*x**2)

def ParzenWindow(x,Data,h):
    """"ventana de parzen
    x: vector con representando una sola muestra
    Data: vector de muestras de entrenamiento
    h: ancho de la ventana de kernel
    retorna: el valor de ventana de parzen para una muestra
    """
    h = h
    Ns = Data.shape[0]
    suma = 0
    for k in range(Ns):
        u = euclidean(x,Data[k,:])
        suma += kernel_gaussiano(u/h)
    return suma

In [None]:
#Ejercicio de código
def parzenClass(X_train, Y_train, X_test, h):
    """ Funcion que implementa metodo de ventana de parzen para
        para clasificación
    X_train: es la matriz con las muestras de entrenamiento
    Y_train: es un vector con los valores de salida pra cada una de las muestras de entrenamiento
    X_test: es la matriz con las muestras de validación
    h (float): ancho de h de la ventana
    retorna: - las estimaciones del modelo parzen para el conjunto X_test 
              esta matriz debe tener un shape de [row/muestras de X_test]
             - las probabilidades de la vetana [row/muestras de X_test, numero de clases]  
    """
        
    Yest = np.zeros(X_test.shape[0])
    clases = np.unique(Y_train)
    fds_matrix = np.zeros((X_test.shape[0], len(clases)))

    
    idx = 0
    for n, sample in enumerate (X_test):
        max_prob = 0
        est_label = None
        j = 0
        for label in clases:
            indixes = np.argwhere(Y_train == label)
            train_elements = np.take(X_train, indixes.T[0], axis = 0)
            dim = train_elements.shape
            prob = ParzenWindow(sample,train_elements,h)/dim[0]
            fds_matrix[idx][j] = prob
            if prob > max_prob:
                max_prob = prob
                est_label = label
            j += 1
        Yest[idx] = est_label
        idx +=1

    #Debe retornar un vector que contenga las predicciones para cada una de las muestras en X_val, en el mismo orden.  
    return Yest, fds_matrix

In [None]:
#ejercicio de codigo
def experimentarParzen (X, Y, hs):
    """Función que realiza los experimentos con knn usando
       una estrategia de validacion entrenamiento y pruebas
    X: matriz de numpy conjunto con muestras y caracteristicas
    Y: vector de numpy con los valores de las etiquetas
    ks: List[int/float] lista con los valores de k-vecinos a usar
    retorna: dataframe con los resultados, debe contener las siguientes columnas:
        - el ancho de ventana, el error medio de prueba, la desviacion estandar del error
    """
    
    
    # se usa la función para implementar la estrategia de validación.
    skf = StratifiedKFold(n_splits=4)
    resultados = pd.DataFrame()
    idx = 0
    # iteramos sobre los valores de hs
    for h in hs:
        # lista para almacenar los errores de cada iteración
        # de la validación
        error_temp = []
        
        for train, test in skf.split(X, Y):

            X_train, Y_train, X_test, Y_test = ut.get_training_test(X=X, Y=Y, train=train, test=test)
            #normalizamos los datos

            Yest, probabilidades =  parzenClass(X_train, Y_train, X_test, h)
            errorTest = ErrorClas(Yest, Y_test)
            error_temp.append(errorTest)
    
        resultados.loc[idx,'ancho de ventana'] = h 
        resultados.loc[idx,'error de prueba(media)'] = np.mean(error_temp)
        resultados.loc[idx,'error de prueba(desviación estandar)'] = np.std(error_temp)
        idx+=1
    return (resultados)

In [None]:
hs = [0.05, 0.1, 0.5, 1, 2, 5, 10]
experimentos_parzen = experimentarParzen(X,Y, hs)
experimentos_parzen

Unnamed: 0,ancho de ventana,error de prueba(media),error de prueba(desviación estandar)
0,0.05,0.075324,0.027038
1,0.1,0.088014,0.027034
2,0.5,0.250963,0.021397
3,1.0,0.293258,0.016257
4,2.0,0.315816,0.018205
5,5.0,0.322261,0.016874
6,10.0,0.323066,0.016313
