## **k-nearest neighbors (KNN)**

El conjunto de datos adjuntos muestra los datos de clientes que han visitado un e-commerce el significado de cada columna es el siguiente:

El objetivo es entrenar un modelo de k-nearest neighbors que prediga si un cliente va a comprar o no un producto basado en las características dadas.

Nótese que para entrenar el modelo todas las características deben ser numéricas. Sin embargo hay varias columnas con infoirmación categórica. La forma adecuada de manejar estos datos es a través de un One Hot Encoder, sin embargo, para facilidad del ejercicio, se transforma las variables categóricas en un número entero.

In [None]:
import csv
import sys
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix

def load_data(filename):
    """
    Cargue los datos de compras desde un archivo CSV `filename` y conviértalos en una lista de
    características y una lista de etiquetas. Devuelve una tupla (características, etiquetas).

    Característica debe ser una lista de listas, donde cada lista contiene los siguientes valores, en orden:
         - Administrative, un entero
         - Administrative_Duration, un número de punto flotante
         - Informational, un número entero
         - Informational_Duration, un número de punto flotante
         - ProductRelated, un número entero
         - ProductRelated_Duration, un número de punto flotante
         - BounceRates, un número de punto flotante
         - ExitRates, un número de punto flotante
         - PageValues, un número de punto flotante
         - SpecialDay, un número de punto flotante
         - Mont, un índice de 0 (enero) a 11 (diciembre)
         - OperatingSystems, un número entero
         - Browser, un número entero
         - Region, un número entero
         - TrafficType, un número entero
         - VisitorType, un número entero 0 (no regresa) o 1 (regresa)
         - Weekend, un número entero 0 (si es falso) o 1 (si es verdadero)

     Las etiquetas deben ser la lista correspondiente de salida, donde cada etiqueta
     es 1 si Revenue = True y 0 en caso contrario.
    """
    data = pd.read_csv(filename)

    #Transformar variables categóricas en números enteros
    data['Month'] = data['Month'].map({'Jan': 0, 'Feb': 1, 'Mar': 2, 'Apr': 3, 'May': 4, 'June': 5,
                                       'Jul': 6, 'Aug': 7, 'Sep': 8, 'Oct': 9, 'Nov': 10, 'Dec': 11})
    data['VisitorType'] = data['VisitorType'].map({'New_Visitor': 0, 'Returning_Visitor': 1, 'Other': 2})
    data['Weekend'] = data['Weekend'].astype(int)
    data['Revenue'] = data['Revenue'].astype(int)

    #Separar características y etiquetas
    features = data.drop('Revenue', axis=1)
    labels = data['Revenue']

    return features.values, labels.values
    raise NotImplementedError


def train_model(evidence, labels):
    """
    Dada una lista de listas de características y una lista de etiquetas, devuelve un modelo
    de k-neighbors ajustado (k = 1) entrenado en los datos.
    """
    model = KNeighborsClassifier(n_neighbors=1)
    model.fit(evidence, labels)
    return model
    raise NotImplementedError


def evaluate(labels, predictions):
    """
     Dada una lista de etiquetas reales y una lista de etiquetas predichas,
     devuelve una tupla (sensibilidad, especificidad).

     `sensibilidad` debe ser un valor de punto flotante de 0 a 1
     que representa la "tasa de verdaderos positivos": la proporción de
     etiquetas positivas reales que se identificaron con precisión.

     `especificidad` debe ser un valor de punto flotante de 0 a 1
     que representa la "tasa de verdaderos negativos": la proporción de
     etiquetas negativas reales que se identificaron con precisión.
    """

    """Una matriz de confusión proporciona un desglose detallado de cómo el modelo clasifica las
    instancias en función de las etiquetas reales y las etiquetas predichas.

    Matriz de confusión = [[TN, FP], [FN, TP]]

    TN (True Negatives): El número de instancias que fueron correctamente clasificadas como negativas.
    FP (False Positives): El número de instancias que fueron incorrectamente clasificadas como positivas.
    FN (False Negatives): El número de instancias que fueron incorrectamente clasificadas como negativas.
    TP (True Positives): El número de instancias que fueron correctamente clasificadas como positivas.
    """
    #Calcular la matriz de confusión
    tn, fp, fn, tp = confusion_matrix(labels, predictions).ravel()

    #Calcular sensibilidad y especificidad
    sensitivity = tp / (tp + fn)
    specificity = tn / (tn + fp)

    return sensitivity, specificity
    raise NotImplementedError

#Cuerpo del código llamando las funciones
TEST_SIZE = 0.4

#Cargar datos y dividirlos en entrenamiento y prueba
evidence, labels = load_data("shopping.csv")
X_train, X_test, y_train, y_test = train_test_split(evidence, labels, test_size=TEST_SIZE)

#Entrenar el modelo y hacer predicciones
model = train_model(X_train, y_train)
predictions = model.predict(X_test)
sensitivity, specificity = evaluate(y_test, predictions)

#Imprimir los resultados
print(f"Correctos: {(y_test == predictions).sum()}")
print(f"Incorrectos: {(y_test != predictions).sum()}")
print(f"Tasa de verdaderos positivos: {100 * sensitivity:.2f}%")
print(f"Tasa de verdaderos negativos: {100 * specificity:.2f}%")

Correctos: 4090
Incorrectos: 842
Tasa de verdaderos positivos: 39.36%
Tasa de verdaderos negativos: 90.77%
