# CONCLUSIÓN: MODELOS

In [1]:
# Tratamiento de datos
# ------------------------------------------------------------------------------
import numpy as np
import pandas as pd
from tqdm import tqdm

# Gráficos
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Modelado y evaluación
# ------------------------------------------------------------------------------
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score , cohen_kappa_score, roc_curve,roc_auc_score
from sklearn.model_selection import GridSearchCV

# Configuración warnings
# ------------------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')

# Establecer la paleta de color de gráficas
# ==================================
qualitative_colors = sns.color_palette("Set2", 20)

# Para poder ver todas las columnas del dataframe
# ------------------------------------------------
pd.options.display.max_columns = None

```Modelo estandarizado con outliers gestionados```

In [4]:
result_estand_outliers_gestionados = pd.read_pickle("../regresion_logistica/modelo_estandarizado/modelo_outliers_gestionados/data/df_todos_resultados_estandarizado_outliers_gestionados.pkl")
result_estand_outliers_gestionados

Unnamed: 0,accuracy,precision,recall,f1,kapppa,set,modelo
0,0.938097,0.943099,0.944549,0.943823,0.874893,test,Decission Tree Esta I
1,1.0,1.0,1.0,1.0,1.0,train,Decission Tree Esta I
2,0.93367,0.947679,0.930914,0.939222,0.866235,test,Decision tree Esta II
3,0.942139,0.95583,0.937449,0.94655,0.883497,train,Decision tree Esta II
4,0.93367,0.947679,0.930914,0.939222,0.866235,test,Decision tree Esta III
5,0.942139,0.95583,0.937449,0.94655,0.883497,train,Decision tree Esta III
6,0.943178,0.95219,0.9442,0.948178,0.885291,test,Random Forest
7,0.953823,0.962774,0.95233,0.957523,0.906943,train,Random Forest


En el primer modelo de Decission Tree vemos que ha habido overfitting por lo que hemos continuado haciendo comprobaciones y vemos que el resto de modelos han mejorado todas las métricas reduciendo el overfitting, siendo los modelos II y III, que muestran los mismos resultados, los que tienen mejores métricas con valores mínimamente más bajos en train que en test. Respecto al kappa con un valor por encima de 0.7 nos hace pensar que las predicciones no están hechas al azar.

Según lo que queremos predecir, la satisfacción del cliente, donde el valor 1 es satisfecho y el valor 0 es no satisfecho, preferimos el error de tipo II o falso negativo por lo que miraremos el precision.

```Modelo estandarizado con outliers sin gestionar```

In [6]:
result_estand_outliers_sin_gestionar = pd.read_pickle("../regresion_logistica/modelo_estandarizado/modelo_outliers_sin_gestionar/data/df_todos_resultados_estand_con_outliers.pkl")
result_estand_outliers_sin_gestionar


Unnamed: 0,accuracy,precision,recall,f1,kapppa,set,modelo
0,0.943486,0.953752,0.943081,0.948386,0.885949,test,Random Forest
1,0.954583,0.963815,0.952664,0.958208,0.908481,train,Random Forest
2,0.937943,0.944386,0.942801,0.943593,0.874628,test,Decission Tree Esta I
3,1.0,1.0,1.0,1.0,1.0,train,Decission Tree Esta I
4,0.934555,0.94751,0.932802,0.940099,0.867989,test,Decision tree Esta II
5,0.950464,0.962806,0.945902,0.954279,0.900242,train,Decision tree Esta II
6,0.934555,0.94751,0.932802,0.940099,0.867989,test,Decision tree Esta III
7,0.950464,0.962806,0.945902,0.954279,0.900242,train,Decision tree Esta III


En este modelo ocurre igual que el modelo anterior, las métricas han salido muy similares, por lo que nos quedaríamos tambíen con el II y III. 

```Modelo sin estandarizar con outliers gestionados```

In [7]:
result_sin_estand_outliers_gestionados = pd.read_pickle("../regresion_logistica/modelo_sin_estandarizar/modelo_outliers_gestionados/data/df_todos_resultados_sin_estand.pkl")
result_sin_estand_outliers_gestionados

Unnamed: 0,accuracy,precision,recall,f1,kapppa,set,modelo
0,0.945065,0.957108,0.942452,0.949723,0.889186,test,Random Forest
1,0.954583,0.965008,0.951396,0.958154,0.908505,train,Random Forest
2,0.937827,0.942576,0.944619,0.943597,0.87434,test,Decission Tree Esta I
3,1.0,1.0,1.0,1.0,1.0,train,Decission Tree Esta I
4,0.935171,0.949676,0.931613,0.940558,0.869283,test,Decision tree Esta II
5,0.949155,0.9622,0.944053,0.95304,0.89762,train,Decision tree Esta II
6,0.935171,0.949676,0.931613,0.940558,0.869283,test,Decision tree Esta III
7,0.949155,0.9622,0.944053,0.95304,0.89762,train,Decision tree Esta III


En este modelo ocurre igual que en los modelos anteriores, las métricas han salido muy similares, por lo que nos quedaríamos tambíen con el II y III. 

```Modelo sin estandarizar con outliers sin gestionar```

In [8]:
result_sin_estand_outliers_sin_gestionar = pd.read_pickle("../regresion_logistica/modelo_sin_estandarizar/modelo_outliers_sin_gestionar/data/df_todos_resultados_sin_estand_con_outliers.pkl")
result_sin_estand_outliers_sin_gestionar

Unnamed: 0,accuracy,precision,recall,f1,kapppa,set,modelo
0,0.938405,0.944744,0.943291,0.944017,0.875559,test,Decission Tree Esta I
1,1.0,1.0,1.0,1.0,1.0,train,Decission Tree Esta I
2,0.93367,0.944767,0.93413,0.939418,0.866139,test,Decision tree Esta II
3,0.941687,0.952718,0.93995,0.946291,0.882516,train,Decision tree Esta II
4,0.93367,0.944767,0.93413,0.939418,0.866139,test,Decision tree Sin Esta III
5,0.941687,0.952718,0.93995,0.946291,0.882516,train,Decision tree Sin Esta III
6,0.944526,0.957261,0.941263,0.949194,0.888116,test,Random Forest
7,0.951215,0.964254,0.945796,0.954936,0.90177,train,Random Forest


En este modelo ocurre igual que en los modelos anteriores, las métricas han salido muy similares, por lo que nos quedaríamos tambíen con el II y III. 

Todos nuestros modelos presentan unos valores de train muy altos por lo que no nos podemos fiar de los valores tan buenos en el test, ya que se los debe haber aprendido de memoria por tanto no va a saber predecir realmente.

Pensamos que el motivo puede ser haber escogido pocas muestras para la predicción.