# KNN Classifier

In [1]:
from common import get_prediction, split_data, get_data
import preprocessing as prep
import numpy as np

## Cargamos el dataset

In [2]:
data = get_data()
data.head()

Unnamed: 0,tipo_de_sala,nombre,id_usuario,genero,edad,amigos,parientes,id_ticket,precio_ticket,fila,nombre_sede
0,4d,Señor Camilo Pedro,117,hombre,73.5,0,0,59258;,1,,fiumark_quilmes
1,4d,Señora Raquel Angelica,658,mujer,35.0,1,1,586:6;,2,,fiumark_quilmes
2,normal,Señor Antonio Federico,794,hombre,,0,0,"RE""39822",3,,fiumark_chacarita
3,4d,Señor Osvaldo Aureliano,455,hombre,,0,0,"C17""4:39",1,,fiumark_palermo
4,4d,Señorita Rita Eudosia,173,mujer,4.0,1,1,569964,2,,fiumark_palermo


In [3]:
pred = get_prediction()
pred.head()

0    0
1    0
2    0
3    0
4    1
Name: volveria, dtype: int64

## Dividimos los datos

Separamos el holdout

In [4]:
X_train_val, X_holdout, y_train_val, y_holdout = split_data(data, pred)
X_train_val.head()

Unnamed: 0,tipo_de_sala,nombre,id_usuario,genero,edad,amigos,parientes,id_ticket,precio_ticket,fila,nombre_sede
239,normal,Señor Celestino Miguel,797,mujer,52.0,0,0,39687,3,adelante,fiumark_palermo
281,4d,Señora Reina Benita,141,mujer,,0,2,489:,2,,fiumark_chacarita
504,3d,Señor Emeterio de Jesus,309,hombre,33.0,1,0,"R1RR""55:3",3,,fiumark_chacarita
230,4d,Señor Juan Jorge Alberto,158,hombre,33.0,0,0,"UQVQP1QS""5;42;2",1,,fiumark_palermo
738,4d,Señor Pablo Augusto,495,hombre,24.0,0,0,"C16""675:2",1,,fiumark_palermo


Separamos el validation

In [5]:
X_train, X_val, y_train, y_val = split_data(X_train_val, y_train_val)
X_train.head()

Unnamed: 0,tipo_de_sala,nombre,id_usuario,genero,edad,amigos,parientes,id_ticket,precio_ticket,fila,nombre_sede
475,4d,Señor Ignacio Nazar,689,hombre,21.0,0,0,572258,1,,fiumark_palermo
247,4d,Señor Abel Omar,644,hombre,,0,0,3823,6,,fiumark_palermo
726,normal,Señor Fausto Rene,468,hombre,59.0,0,0,3359;4,3,,fiumark_palermo
106,3d,Señora Irma Pascualina,707,mujer,48.0,0,0,4457;8,2,,fiumark_palermo
206,4d,Señor Ovidio Valentin,871,hombre,29.0,0,0,56;46:,1,,fiumark_palermo


## Entrenamos los modelos

Se entrenara este modelo de 3 formas distintas:

### 1. Modelo sin normalizar ni estandarizar los datos

Primero preprocesamos al igual que con decision tree classifier con los distintos preprocesados.

In [6]:
# Con la columna fila
prep_base_1 = prep.Preprocessing(
    [prep.Drop_high_cardinals(), prep.Dummy_variables()]
)

# Rellenado de nan con zeros
prep_1 = prep.Preprocessing(
    [prep_base_1, prep.Nan_to_zero()]
)

# Rellenado de nan con la media
prep_2 = prep.Preprocessing(
    [prep_base_1, prep.Nan_to_mean()]
)

# Rellenado de nan con la moda
prep_3 = prep.Preprocessing(
    [prep_base_1, prep.Nan_to_mode()]
)

# Rellenado de nan con la median
prep_4 = prep.Preprocessing(
    [prep_base_1, prep.Nan_to_median()]
)

In [7]:
# Sin la columna fila
prep_base_2 = prep.Preprocessing(
    [prep.Drop_high_cardinals(), prep.Drop_column_nan(), prep.Dummy_variables()]
)

# Rellenado de nan con zeros
prep_5 = prep.Preprocessing(
    [prep_base_2, prep.Nan_to_zero()]
)

# Rellenado de nan con la media
prep_6 = prep.Preprocessing(
    [prep_base_2, prep.Nan_to_mean()]
)

# Rellenado de nan con la moda
prep_7 = prep.Preprocessing(
    [prep_base_2, prep.Nan_to_mode()]
)

# Rellenado de nan con la median
prep_8 = prep.Preprocessing(
    [prep_base_2, prep.Nan_to_median()]
)

In [8]:
list_preprocessing = [
    # con la columna fila
    prep_1, prep_2, prep_3, prep_4,
    # sin la columna fila
    prep_5, prep_6, prep_7, prep_8
]

params = {
    'n_neighbors': np.arange(1, 50),
    'metric': ['euclidean', 'minkowski', 'manhattan', 'chebyshev', 'cosine'],
    "weights": ['uniform', 'distance']
}

In [None]:
from common import super_training
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

models_preprocessing = super_training(
    X_train, y_train, list_preprocessing,
    GridSearchCV(
        KNeighborsClassifier(),
        params, scoring='roc_auc', n_jobs=-1, cv=5
    )
)

#### Vemos cual de estos es mejor

In [None]:
from common import get_proba_predicts

proba_predicts = get_proba_predicts(models_preprocessing, X_val)

In [None]:
from common import plot_rocs
best_model_index = plot_rocs(proba_predicts, y_val, 4, 2)

Esta vez el mejor modelo parece el numero 7.

In [None]:
best_knn_prep = models_preprocessing[best_model_index]
best_knn_prep[0]

Vemos que hace su preprocesado

In [None]:
best_knn_prep[1].function()

Veamos como se comporta este modelo con el resto de preprocesamientos.

### 2. Modelo con media 0

Ahora al final de los preprocesados anteriores se normalizaran las columnas no binarias.

In [None]:
list_preprocessing_norm = []
# Se agregara la normalizacion de los datos a los preprocesados anteriores
for p in list_preprocessing:
    list_preprocessing_norm.append(
        prep.Preprocessing(
            [p, prep.Normalizer_columns()]
        )
    )

In [None]:
models_preprocessing_norm = super_training(
    X_train, y_train, list_preprocessing_norm,
    GridSearchCV(
        KNeighborsClassifier(),
        params, scoring='roc_auc', n_jobs=-1, cv=5
    )
)

In [None]:
proba_predicts = get_proba_predicts(models_preprocessing_norm, X_val)

In [None]:
best_model_index = plot_rocs(proba_predicts, y_val, 4, 2)

Al igual que el con el caso anterior, el mejor preprocesado es el numero 7.

In [None]:
best_knn_prep_norm = models_preprocessing_norm[best_model_index]
best_knn_prep_norm[0]

Vemos que hace su preprocesado

In [None]:
best_knn_prep_norm[1].function()

Veamos como se comporta este modelo con los datos estandarizados.

### 3. Modelo con media 0 y varianza 1

Por ultimo, se estandarizara las columnas no binarias.

In [None]:
list_preprocessing_std = []
# Se agregara la estandarizacion de los datos a los preprocesados anteriores
for p in list_preprocessing:
    list_preprocessing_std.append(
        prep.Preprocessing(
            [p, prep.Std_columns()]
        )
    )

In [None]:
models_preprocessing_std = super_training(
    X_train, y_train, list_preprocessing_std,
    GridSearchCV(
        KNeighborsClassifier(),
        params, scoring='roc_auc', n_jobs=-1, cv=5
    )
)

In [None]:
proba_predicts = get_proba_predicts(models_preprocessing_std, X_val)

In [None]:
best_model_index = plot_rocs(proba_predicts, y_val, 4, 2)

Este ultimo preprocesado tiene mejores resultados a comparación de los anteriores; esta vez el mejor preprocesado es el numero 3.

In [None]:
best_knn_prep_std = models_preprocessing_std[best_model_index]
best_knn_prep_std[0]

Vemos que hace su preprocesado

In [None]:
best_knn_prep_std[1].function()

## Escogemos el mejor modelo

In [None]:
models_prep_final = [best_knn_prep, best_knn_prep_norm, best_knn_prep_std]

proba_predicts = get_proba_predicts(models_prep_final, X_val)

In [None]:
best_model_index = plot_rocs(proba_predicts, y_val, 3, 1)

El mejor modelo de todos resultó el ultimo.

In [None]:
best_knn, preprocessing = models_prep_final[best_model_index]
best_knn

Con el siguiente preprocesado

In [None]:
preprocessing.function()

## Vemos las metricas del mejor modelo

Preprocesamos el holdout

In [None]:
X_holdout_ = preprocessing.transform(X_holdout)
X_holdout_.head()

In [None]:
from common import plot_roc
plot_roc(y_holdout, best_knn.predict_proba(X_holdout_)[:,1])

In [None]:
from common import plot_confusion
plot_confusion(
    best_knn, 
    X_holdout_, 
    y_holdout
)

In [None]:
from common import plot_metrics
plot_metrics(
    y_holdout, 
    best_knn.predict_proba(X_holdout_)[:,1], 
    best_knn.predict(X_holdout_)
)

## Hacemos la predicción sobre el holdout de la empresa

In [None]:
from common import get_holdout
X_holdout_empresa = get_holdout()
X_holdout_empresa.head()

Preprocesamos el holdout de la empresa con el mejor preprocesamiento para este modelo y separamos 

In [None]:
ussers = X_holdout_empresa['id_usuario']
X_holdout_empresa_ = prep.Preprocessing_KNN().transform(X_holdout_empresa)
X_holdout_empresa_.head()

Predecimos con el mejor modelo

In [None]:
volveria = best_knn.predict(X_holdout_empresa_)
volveria

Generamos el dataframe de las predicciones

In [None]:
import pandas as pd
predictions = pd.DataFrame({
    'id_usuario': ussers, 
    'volveria': volveria
})
predictions.head()

Guardamos el archivo

In [None]:
predictions.to_csv(
    'KNNClassifier.csv', 
    columns=predictions.columns, 
    index=False
)