In [37]:
import pandas as pd
import os
from plotnine import *
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.model_selection import KFold
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import precision_score, recall_score, accuracy_score
import warnings
warnings.filterwarnings("ignore")



### Ingrese aquí el nombre de los integrantes del grupo
- Nombre integrante 1
- 
- 
- 

# Descripción del problema y la data
La data acompañada corresponde a clientes de una cadena de ropa, y su comportamiento con respecto a campañas de marketing que se le envian.  La `data` contiene 16305 clientes (filas), y 44 *features* (columnas), indicando su número de visitas a la tienda, las ventas, porcentaje de compras en los distintos items, montos gastados en distintos locales de la tienda y en distintos rangos de meses, etc. A estos clientes se les envió una campaña de marketing directa, ante la cual ellos respondieron (`target` = 1) o no lo hicieron (`target`=0).

Hacer una campaña de marketing directo a estos clientes puede tener un impacto importante en las ventas. Se estima que cada cliente que responde a estas campañas genera un profit de $\$28.40$ para la empresa. Sin embargo, hacer estas campañas tiene un costo estimado de $\$2.00$ por cliente.  Es por esto, que la empresa desea identificar correctamente aquellos clientes que son mas proclives a responder a este tipo de campaña de marketing.

El objetivo de este trabajo entonces es construir un **modelo de clasificación**, que permita predecir si un cliente va a responder o no a una campaña de marketing.



Para esto:
- Decida si utilizará todos los features o no. Puede eliminar features, o agregar nuevos si lo desea.  Explique en este documento lo que hizo al respecto.
- Transforme la data si es necesario. Note que los features tienen distintas escalas (por ejemplo, algunos son binarios (0,1), otros son porcentajes [0-1], otros son días [0-365], y otros montos gastados [0-22511].  Explicite **claramente** la o las transformaciones necesarias a la data. Su modelo será evaluado con nueva data, por lo que es necesario tener claro las transformaciones necesarias para poder aplicarlo. 
- Escoga una (o más de una) métrica que utilizará para poder evaluar el performance de sus modelos. Indique cuál será la métrica prioritaria para su evaluación, y el por qué de esta decisión.
- Escoga entre al menos 3 modelos de clasificación estudiados en el curso. Para cada uno de ellos, realice una optimización de hiper-parámetros, para escoger los mejores parámetros para cada uno de ellos.  **Atención**: al menos unos de estos tres modelos debe poder ser interpretable.
- Compare estos tres (o mas) modelos escogidos (con los mejores parámetros que optimizó) entre ellos, usando cross-validation.  Decida cuál es el mejor modelo para usted. **Agregue este modelo al final de este documento** (ver ejemplo).
- Utilice el mejor modelo obtenido pero que tenga capacidad de interpretación de los resultados, y analice este mismo. ¿Cuáles son las características o features más importantes para que un cliente responda positivamente a una campaña de márketing directo?

In [6]:
# Carga de Data
data = pd.read_csv('Clothstore_data.csv')
target = pd.read_csv('Clothstore_target.csv')

In [13]:
# creando diccionario con modelos e hiperparámetros

models = {
  DecisionTreeClassifier: [
    {'max_depth':5},
    {'max_depth':7}
    
  ]
  
}


In [38]:

def one_hot_encoder(df):
  """
  DOCSTRING
  """
  chunks = []
  chunks.append(df)
  bool_cols = df.select_dtypes(include= [bool]).columns
  
  for col in bool_cols:
    chunk = pd.get_dummies(data[col], prefix=col)
    chunks.append(chunk)
  
  df = pd.concat(chunks, axis= 1)
  df.drop(bool_cols, axis= 1, inplace= True)
  

  return df


def fitter(model,params, *args):
  clf = model()
  clf.set_params(**params)
  clf.fit(args[0], args[1])
  preds = clf.predict(args[2])
  recall = recall_score(args[3], preds)
  precision = precision_score(args[3], preds)
  f1 = f1_score(args[3], preds)
  
  
  result = {
    'model_name': [model.__name__] ,
    'params': [params],
    'recall': [recall],
    'precision': [precision],
    'f1': [f1]
  }
  
  df_result = pd.DataFrame(result)
  df_result.to_csv(f'model_results/{args[4]}.csv', index = False)
  
  return df_result



In [43]:
# cross validation

df = one_hot_encoder(data)

kf = KFold(n_splits= 5)
metrics = []


for model in models:
  for i, param in enumerate(models[model]):
    num_iterator = 1
    for train, test in kf.split(df):
      
      scaler = StandardScaler()
      scaler.fit(df.iloc[train,:])
      
      result = fitter(
                  model,
                  param,
                  scaler.transform(df.iloc[train,:]),
                  target.iloc[train,:],
                  scaler.transform(df.iloc[test,:]),
                  target.iloc[test,:],
                  f'{model.__name__}_{i}_{num_iterator}'
                                    
      )
      
      num_iterator =  num_iterator + 1
    
      

ejecutando fitter
ejecutando fitter
ejecutando fitter
ejecutando fitter
ejecutando fitter
ejecutando fitter
ejecutando fitter
ejecutando fitter
ejecutando fitter
ejecutando fitter


In [48]:
# analizando resultados
files =  [f for f in os.listdir("./model_results") if f.endswith(".csv")]  

frames = []
for file in files:
  frame = pd.read_csv(f'model_results/{file}')
  frames.append(frame)
  
results = pd.concat(frames, axis= 0, ignore_index= True)
results['avg_recall'] = results['recall'].mean()
results['avg_precision'] = results['precision'].mean()
results['avg_f1'] = results['f1'].mean()

results['std_recall'] = results['recall'].std()
results['std_precision'] = results['precision'].std()
results['std_f1'] = results['f1'].std()

results
# results.groupby(
#   ['model_name', 'params']
#   )['avg_recall'].mean().reset_index()



Unnamed: 0,model_name,params,recall,precision,f1,avg_recall,avg_precision,avg_f1,std_recall,std_precision,std_f1
0,DecisionTreeClassifier,{'max_depth': 7},0.272232,0.549451,0.364078,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
1,DecisionTreeClassifier,{'max_depth': 7},0.220077,0.553398,0.314917,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
2,DecisionTreeClassifier,{'max_depth': 7},0.322523,0.632509,0.427208,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
3,DecisionTreeClassifier,{'max_depth': 7},0.390654,0.595442,0.471783,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
4,DecisionTreeClassifier,{'max_depth': 7},0.373406,0.569444,0.451045,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
5,DecisionTreeClassifier,{'max_depth': 5},0.255898,0.623894,0.362934,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
6,DecisionTreeClassifier,{'max_depth': 5},0.250965,0.619048,0.357143,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
7,DecisionTreeClassifier,{'max_depth': 5},0.328972,0.654275,0.437811,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
8,DecisionTreeClassifier,{'max_depth': 5},0.391621,0.573333,0.465368,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331
9,DecisionTreeClassifier,{'max_depth': 5},0.255856,0.692683,0.373684,0.306221,0.606348,0.402597,0.063611,0.046567,0.054331


# RESULTADO FINAL MEJOR MODELO
En la siguiente celda, escriba el mejor modelo encontrado por usted, de forma que el profesor y su ayudante puedan evaluar el performance de este modelo escogido ante nuevos datos.  Ponga por lo tanto todos los pasos requeridos para poder hacer esto, incluyendo el preprocesing que sea necesario.

**Ejemplo**: si el modelo final fuera aplicar KNN con 8-vecinos usando los datos normalizados y sin la columna `has_valid_phone`, entonces debería ser algo así:


In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler

data = pd.read_csv('Clothstore_data.csv')
target = pd.read_csv('Clothstore_target.csv')

#Preprocessing data
del data['has_valid_phone']
scaler = StandardScaler()
dataFinal = scaler.fit_transform(data)

#Mejor modelo final
modelo_final = KNeighborsClassifier(n_neighbors=8)
modelo_final.fit(dataFinal, target)