<a href="https://colab.research.google.com/github/Marita21/Marita21/blob/main/Modelos_de_Clasificacion_Actividades.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelos de Clasificación con SciKit-Learn

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mlt
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

+ ## Descripción y Exploración del Dataset:

In [None]:
# Descargar el dataset desde la web (descomprimir el .csv)
# https://www.kaggle.com/datasets/mnassrib/telecom-churn-datasets
# Nota: Cargar el dataset mas pequeño 'churn-bigml-20.csv'

In [None]:
from google.colab import files

In [None]:
uploaded = files.upload()

Saving churn-bigml-20.csv to churn-bigml-20.csv


In [None]:
# Importamos el dataset y hacemos un head()
df_tel = pd.read_csv('churn-bigml-20.csv')
print(df_tel.shape)
df_tel.head()

(667, 20)


Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,LA,117,408,No,No,0,184.5,97,31.37,351.6,80,29.89,215.8,90,9.71,8.7,4,2.35,1,False
1,IN,65,415,No,No,0,129.1,137,21.95,228.5,83,19.42,208.8,111,9.4,12.7,6,3.43,4,True
2,NY,161,415,No,No,0,332.9,67,56.59,317.8,97,27.01,160.6,128,7.23,5.4,9,1.46,4,True
3,SC,111,415,No,No,0,110.4,103,18.77,137.3,102,11.67,189.6,105,8.53,7.7,6,2.08,2,False
4,HI,49,510,No,No,0,119.3,117,20.28,215.1,109,18.28,178.7,90,8.04,11.1,1,3.0,1,False


In [None]:
# ACTIVIDAD: Realizar exploración basica del dataset
# Preguntas de ayuda para orientar: ¿como se distribuye el target?, ¿hay valores faltantes?, ¿que tipo de variables contiene?
# df_tel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 667 entries, 0 to 666
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   State                   667 non-null    object 
 1   Account length          667 non-null    int64  
 2   Area code               667 non-null    int64  
 3   International plan      667 non-null    object 
 4   Voice mail plan         667 non-null    object 
 5   Number vmail messages   667 non-null    int64  
 6   Total day minutes       667 non-null    float64
 7   Total day calls         667 non-null    int64  
 8   Total day charge        667 non-null    float64
 9   Total eve minutes       667 non-null    float64
 10  Total eve calls         667 non-null    int64  
 11  Total eve charge        667 non-null    float64
 12  Total night minutes     667 non-null    float64
 13  Total night calls       667 non-null    int64  
 14  Total night charge      667 non-null    fl

In [None]:
# Creamos un pairplot (scatterplot + histogramas) sobre las variables numericas

numeric_features = list(df_tel.select_dtypes(np.number).columns) # Creamos lista de atributos numericos
df_numeric = df_tel[numeric_features + ['Churn']] # Cramos un dataframe con las columnas deseadas y la variable target

plot01 = sns.pairplot(df_numeric, corner=True, hue = 'Churn') # Instanciamos pairplot
plot01.map_lower(sns.kdeplot, levels=4, color=".2") # Definimos el tipo de grafico que queremos para auqellos por debajo de la diagona

In [None]:
# Creamos un grafico de barras de las algunas variables categoricas

categorical_features = list(df_tel.select_dtypes(object).columns) # Creamos lista de atributos numericos
df_categ = df_tel[categorical_features + ['Churn']] # Cramos un dataframe con las columnas deseadas y la variable target

print('categorical_features:    ', categorical_features)

plot02 = sns.catplot(kind='count', x = "Churn", col = "International plan",
                     col_wrap = 5, data=df_categ,
                     ) # Instanciamos pairplot

plot03 = sns.catplot(kind='count', x = "Churn", col = "Voice mail plan",
                     col_wrap = 5, data=df_categ,
                     ) # Instanciamos pairplot

In [None]:
# ACTIVIDAD: Crear un boxplot de las variables numericas

# OPCIONAL: Explorar en la documentacion de la libreria seaborn diferentes opciones de graficos: https://seaborn.pydata.org/index.html
# Por ejemplo un violinplot para variables numericas

## 1. Implementacion de modelos de clasificacion

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, recall_score, fbeta_score
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier

In [None]:
# ACTIVIDAD: Seleccionar 2 modelos de clasificacion para implementar
# Hint: ¿Alguno de los modelos requiere estandarizacion de variables?, ¿Que hacemos con las variables categoricas?

# Instanciar el primer modelo

In [None]:
# Creacion de variables dummies:

df_cat = df_tel.select_dtypes(object) # Seleccion de las variables categoricas del dataset
df_cat = pd.get_dummies(df_tel, drop_first = True) # Creamos variables dummies

df_train_test = pd.concat([df_cat, df_tel.select_dtypes(np.number)], axis = 1)

In [None]:
# Crear df con features y la variable target

X = ###
y = ###

# Aplicar split del dataset:

X_train, X_test, y_train, y_test = ###

In [None]:
# De ser necesario aplicar estandarizacion de variables:

# scaler =

# X_train_st =
# X_test_st =

In [None]:
# Instanciar y entrenar el modelo elegido:

model =

model.fit('#features_train#', 'target')

In [None]:
# Hacer las predicciones de train y test:

y_train_pred = model.predict('#features_train#')
y_test_pred = model.predict('#features_test#')

In [None]:
# Imprimimos resumen de metricas y la matriz de confusion:

model_name = '##Nombre del Modelo##'

y_true = ##
y_predicted = ##

sns.heatmap(confusion_matrix(y_true, y_predicted), annot=True, cmap='PuBu', fmt='0.0f', linewidths=0.25,
           annot_kws={'size':13} )
plt.xlabel('Predichos')
plt.ylabel('Reales')

print('Accuracy del modelo de ' + model_name + ' :   ', accuracy_score(y_true, y_predicted).round(3))
print('Recall del modelo de ' + model_name + ' :     ', recall_score(y_true, y_predicted).round(3))

print('Rporte del modelo de ' + model_name + ' :   \n', classification_report(y_true, y_predicted))

In [None]:
# Repetir resumen para test:




In [None]:
# Realizar los mismos procedimientos para el segundo modelos elegido

+ ### Visualización de como predice el modelo según la probabilidad y los efectos sobre las métricas

In [None]:
# Histograma de probabilidades

model = ### Instanciar el modelo ya entrenado (no es necesario si se utilizo el nombre 'model')
X_train_ = ### Instanciar variable en forma de array (usando metodo .values si es un DataFrame)

fig, ax01 = plt.subplots(1,1 , figsize=(13,5))
sns.histplot(data = model.predict_proba(X_train_[y_train==0])[:,1], stat = 'count', ax=ax01)
sns.histplot(data = model.predict_proba(X_train_[y_train==1])[:,1], stat = 'count', color = 'orange', ax=ax01)
ylim = plt.ylim()
plt.vlines(0.5, ylim[0], ylim[1])
plt.ylim(ylim)
plt.legend(['Umbral', 'TenYearCHD = 0', 'TenYearCHD = 1'])

+ ### Cambio en las métricas en función del umbral elegido

In [None]:
# OPCIONAL: evaluar como cambia el comportamiento del modelo cambiando el umbral de decision
# Realizamos predicciones con un umbral distinto al que se establece por defecto (0.5)
umbral = 0.4
probs = model.predict_proba('#features#')[:,1]
y_pred_test_umbral = probs > umbral

In [None]:
# Imprimimos resumen de metricas y la matriz de confusion:

model_name = '##Nombre del Modelo##'

y_true = ##
y_predicted = y_pred_test_umbral

sns.heatmap(confusion_matrix(y_true, y_predicted), annot=True, cmap='PuBu', fmt='0.0f', linewidths=0.25,
           annot_kws={'size':13} )
plt.xlabel('Predichos')
plt.ylabel('Reales')

print('Accuracy del modelo de ' + model_name + ' :   ', accuracy_score(y_true, y_predicted).round(3))
print('Recall del modelo de ' + model_name + ' :     ', recall_score(y_true, y_predicted).round(3))

print('Rporte del modelo de ' + model_name + ' :   \n', classification_report(y_true, y_predicted))

## Optimización de hiperparámetros

In [None]:
# ACTIVIDAD: Optimizar los hiperparametros de un modelo de clasificacion

model = ####


In [None]:
param_grid = {'hiperparametro1': 'valor1',
              'hiperparametro1': 'valor2',
              'hiperparametro1': 'valor3',
              'hiperparametro1': 'valor4'
             }

In [None]:
# Instanciar GridSearch con los argumentos correspondientes
grid_obj = GridSearchCV('####')

In [None]:
# Entrenamiento del objeto gridsearch
grid_fit = grid_obj.fit(X_train, y_train)

In [None]:
# Seleccion del mejor modelo e impresion de sus hiperparametros
best_model = grid_fit.best_estimator_
print(grid_fit.best_params_)
print(grid_fit.best_score_)
y_train_pred_model_opt = best_model.predict(X_train)
y_test_pred_model_opt = best_model.predict(X_test)

In [None]:
# Imprimimos resumen de metricas y la matriz de confusion
sns.heatmap(confusion_matrix(y_train, y_train_pred_model_opt), annot=True, cmap='PuBu', fmt='0.0f', linewidths=0.25,
           annot_kws={'size':13} )
plt.xlabel('Predichos')
plt.ylabel('Reales')

print('Accuracy del modelo optimizado:    ', accuracy_score(y_train, y_train_pred_model_opt).round(3))
print('Recall del modelo optimizado:      ', recall_score(y_train, y_train_pred_model_opt).round(3))

In [None]:
# Imprimimos resumen de metricas y la matriz de confusion (Testeo)
sns.heatmap(confusion_matrix(y_test, y_test_pred_model_opt), annot=True, cmap='PuBu', fmt='0.0f', linewidths=0.25,
           annot_kws={'size':13} )
plt.xlabel('Predichos')
plt.ylabel('Reales')

print('Accuracy del modelo optimizado (Testeo):    ', accuracy_score(y_test, y_test_pred_model_opt).round(3))
print('Recall del modelo optimizado (Testeo):      ', recall_score(y_test, y_test_pred_model_opt).round(3))