<a href="https://colab.research.google.com/github/MigXDev/CS_Datos_I_DESAFIO_3/blob/main/TelecomX_LATAM_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Challengue Alura - TelecomX

## Acerca del Desafio

**Telecom X ‚Äì Parte 2: Predicci√≥n de Cancelaci√≥n (Churn)**

üì£ **Historia del Desaf√≠o**

¬°Felicidades! üéâ Has sido promovido despu√©s de tu excelente desempe√±o en el an√°lisis exploratorio de la cancelaci√≥n de clientes en Telecom X. Tu dedicaci√≥n, claridad al comunicar los datos y visi√≥n estrat√©gica marcaron la diferencia.

Ahora, ¬°has sido invitado oficialmente a formar parte del equipo de Machine Learning de la empresa!

üéØ **Misi√≥n**

Tu nueva misi√≥n es desarrollar modelos predictivos capaces de prever qu√© clientes tienen mayor probabilidad de cancelar sus servicios.

La empresa quiere anticiparse al problema de la cancelaci√≥n, y te corresponde a ti construir un pipeline robusto para esta etapa inicial de modelado.

üß† **Objetivos del Desaf√≠o**

- Preparar los datos para el modelado (tratamiento, codificaci√≥n, normalizaci√≥n).
- Realizar an√°lisis de correlaci√≥n y selecci√≥n de variables.
- Entrenar dos o m√°s modelos de clasificaci√≥n.
- Evaluar el rendimiento de los modelos con m√©tricas.
- Interpretar los resultados, incluyendo la importancia de las variables.
- Crear una conclusi√≥n estrat√©gica se√±alando los principales factores que influyen en la cancelaci√≥n.

üß∞ **Lo que vas a practicar**

‚úÖ Preprocesamiento de datos para Machine Learning
‚úÖ Construcci√≥n y evaluaci√≥n de modelos predictivos
‚úÖ Interpretaci√≥n de resultados y entrega de insights
‚úÖ Comunicaci√≥n t√©cnica con enfoque estrat√©gico

üöÄ **Ahora eres: Analista Junior de Machine Learning**

Telecom X conf√≠a en tu entrega para dar los pr√≥ximos pasos hacia una soluci√≥n de inteligencia predictiva eficaz. ¬°Buena suerte!

## üõ†Ô∏è Preparaci√≥n de los Datos



### Importacion de Bibliotecas

In [115]:
# Manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Visualizaci√≥n de Datos
import matplotlib.pyplot as plt
import seaborn as sns

# Manejo de advertencias
import warnings

# Guardar y cargar modelos
import pickle

# Manejo de datos desbalanceados
import imblearn
from imblearn.under_sampling import NearMiss # T√©cnica de undersampling
from imblearn.over_sampling import SMOTENC # T√©cnica de oversampling para datos con columnas categ√≥ricas y num√©ricas

# Modelado y evaluaci√≥n
from sklearn.model_selection import train_test_split # Separaci√≥n de datos
from sklearn.model_selection import StratifiedKFold, cross_validate, GridSearchCV # Validaci√≥n cruzada y b√∫squeda de hiperpar√°metros
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report # M√©tricas de evaluaci√≥n de clasificaci√≥n
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, roc_auc_score, RocCurveDisplay, precision_recall_curve # M√©tricas y visualizaciones de evaluaci√≥n
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, MinMaxScaler, StandardScaler, RobustScaler # T√©cnicas de preprocesamiento
from sklearn.compose import make_column_transformer # Para aplicar transformaciones a columnas espec√≠ficas
from sklearn.tree import DecisionTreeClassifier # Modelo de √°rbol de decisi√≥n
from sklearn.ensemble import RandomForestClassifier # Modelo de bosque aleatorio
from sklearn.linear_model import LogisticRegression # Modelo de regresi√≥n log√≠stica
from sklearn.neighbors import KNeighborsClassifier as knn # Modelo K-vecinos m√°s cercanos
from sklearn.svm import SVC # Modelo de m√°quinas de vectores de soporte
from sklearn.inspection import permutation_importance # Para calcular la importancia de las variables

### Extracci√≥n del Archivo Tratado

Carga el archivo CSV que contiene los datos tratados anteriormente.<br>
üìÇ Atenci√≥n: Utiliza el mismo archivo que limpiaste y organizaste en la Parte 1 del desaf√≠o Telecom X. Debe contener solo las columnas relevantes, ya con los datos corregidos y estandarizados.

In [116]:
Datos_1 = '/content/TelecomX_Data_Base.csv'
Datos_2 = '/content/TelecomX_Data_Base_Bool.csv'

In [117]:
Df_base = pd.read_csv(Datos_1, sep=';')
Df_base_bool = pd.read_csv(Datos_2)

In [118]:
Df_base.head(1)

Unnamed: 0,id_cliente,abandono_cliente,genero,jubilado,pareja,dependientes,meses_antiguedad,servicio_telefono,ad.multiples_lineas,servicio_internet,...,ad.proteccion_dispositivo,ad.soporte_tecnico,tv.streaming,peliculas.streaming,contrato,factura_digital,metodo_pago,cargo.diario,cargo.mensual,cargo.total
0,0002-ORFBO,No,Femenino,False,Si,Si,9,Si,No,DSL,...,No,Si,Si,No,Un a√±o,Si,Cheque por correo,2.16,65.6,593.3


In [119]:
Df_base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id_cliente                 7267 non-null   object 
 1   abandono_cliente           7267 non-null   object 
 2   genero                     7267 non-null   object 
 3   jubilado                   7267 non-null   bool   
 4   pareja                     7267 non-null   object 
 5   dependientes               7267 non-null   object 
 6   meses_antiguedad           7267 non-null   int64  
 7   servicio_telefono          7267 non-null   object 
 8   ad.multiples_lineas        7267 non-null   object 
 9   servicio_internet          7267 non-null   object 
 10  ad.seguridad_online        7267 non-null   object 
 11  ad.respaldo_online         7267 non-null   object 
 12  ad.proteccion_dispositivo  7267 non-null   object 
 13  ad.soporte_tecnico         7267 non-null   objec

### Eliminaci√≥n de Columnas Irrelevantes

Elimina columnas que **no aportan valor al an√°lisis** o a **los modelos predictivos**, como identificadores √∫nicos (por ejemplo, el ID del cliente). Estas columnas no ayudan en la predicci√≥n de la cancelaci√≥n y pueden incluso perjudicar el desempe√±o de los modelos.

In [120]:
Df_base.drop(columns=['id_cliente', 'cargo.diario'],inplace=True)

In [121]:
Df_base.head(1)

Unnamed: 0,abandono_cliente,genero,jubilado,pareja,dependientes,meses_antiguedad,servicio_telefono,ad.multiples_lineas,servicio_internet,ad.seguridad_online,ad.respaldo_online,ad.proteccion_dispositivo,ad.soporte_tecnico,tv.streaming,peliculas.streaming,contrato,factura_digital,metodo_pago,cargo.mensual,cargo.total
0,No,Femenino,False,Si,Si,9,Si,No,DSL,No,Si,No,Si,Si,No,Un a√±o,Si,Cheque por correo,65.6,593.3


### Encoding

Transforma las variables categ√≥ricas a formato num√©rico para hacerlas compatibles con los algoritmos de _machine learning_. Utiliza un m√©todo de codificaci√≥n adecuado, como **one-hot encoding**.

In [122]:
Df_base.columns

Index(['abandono_cliente', 'genero', 'jubilado', 'pareja', 'dependientes',
       'meses_antiguedad', 'servicio_telefono', 'ad.multiples_lineas',
       'servicio_internet', 'ad.seguridad_online', 'ad.respaldo_online',
       'ad.proteccion_dispositivo', 'ad.soporte_tecnico', 'tv.streaming',
       'peliculas.streaming', 'contrato', 'factura_digital', 'metodo_pago',
       'cargo.mensual', 'cargo.total'],
      dtype='object')

In [123]:
X = Df_base.drop(columns=['abandono_cliente'], axis=1)
y = Df_base['abandono_cliente']

In [124]:
X_linear = X.copy()
y_linear = y.copy()

In [125]:
X.columns

Index(['genero', 'jubilado', 'pareja', 'dependientes', 'meses_antiguedad',
       'servicio_telefono', 'ad.multiples_lineas', 'servicio_internet',
       'ad.seguridad_online', 'ad.respaldo_online',
       'ad.proteccion_dispositivo', 'ad.soporte_tecnico', 'tv.streaming',
       'peliculas.streaming', 'contrato', 'factura_digital', 'metodo_pago',
       'cargo.mensual', 'cargo.total'],
      dtype='object')

In [126]:
Categorias = ['genero', 'jubilado', 'pareja', 'dependientes', 'servicio_telefono',
              'ad.multiples_lineas', 'servicio_internet',
              'ad.seguridad_online', 'ad.respaldo_online',
              'ad.proteccion_dispositivo', 'ad.soporte_tecnico', 'tv.streaming',
              'peliculas.streaming', 'contrato', 'factura_digital', 'metodo_pago',]

In [127]:
one_hot = make_column_transformer(
                    (OneHotEncoder(drop='if_binary'), Categorias),
                    remainder='passthrough',
                    sparse_threshold=0,
                    force_int_remainder_cols=False
)

In [128]:
one_hot_linear = make_column_transformer(
                    (OneHotEncoder(drop='first'), Categorias),
                    remainder='passthrough',
                    sparse_threshold=0,
                    force_int_remainder_cols=False
)

label_encoder = LabelEncoder()

In [129]:
X = one_hot.fit_transform(X)
X_linear = one_hot_linear.fit_transform(X_linear)

y = label_encoder.fit_transform(y)
y_linear = label_encoder.fit_transform(y_linear)

In [113]:
columnas = one_hot.get_feature_names_out()

columnas_encoded = []
for columna in columnas:
    columna = columna.split('__')[1]
    columnas_encoded.append(columna)

In [130]:
df = pd.DataFrame(X, columns=columnas_encoded)
df_y = pd.DataFrame(y, columns=['abandono_cliente'])
df = pd.concat([df, df_y], axis=1)
df.head()

Unnamed: 0,genero_Masculino,jubilado_True,pareja_Si,dependientes_Si,servicio_telefono_Si,ad.multiples_lineas_No,ad.multiples_lineas_Si,ad.multiples_lineas_Sin servicio telef√≥nico,servicio_internet_DSL,servicio_internet_Fibra √≥ptica,...,contrato_Un a√±o,factura_digital_Si,metodo_pago_Cheque electr√≥nico,metodo_pago_Cheque por correo,metodo_pago_Tarjeta de cr√©dito (autom√°tica),metodo_pago_Transferencia bancaria (autom√°tica),meses_antiguedad,cargo.mensual,cargo.total,abandono_cliente
0,0.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,0.0,...,1.0,1.0,0.0,1.0,0.0,0.0,9.0,65.6,593.3,0
1,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,9.0,59.9,542.4,0
2,1.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,...,0.0,1.0,1.0,0.0,0.0,0.0,4.0,73.9,280.85,1
3,1.0,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,...,0.0,1.0,1.0,0.0,0.0,0.0,13.0,98.0,1237.85,1
4,0.0,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,...,0.0,1.0,0.0,1.0,0.0,0.0,3.0,83.9,267.4,1


In [131]:
columnas = one_hot_linear.get_feature_names_out()

columnas_encoded = []
for columna in columnas:
    columna = columna.split('__')[1]
    columnas_encoded.append(columna)

In [132]:
df_linear = pd.DataFrame(X_linear, columns=columnas_encoded)
df_y_linear = pd.DataFrame(y_linear, columns=['abandono_cliente'])
df_linear = pd.concat([df_linear, df_y_linear], axis=1)
df_linear.head()

Unnamed: 0,genero_Masculino,jubilado_True,pareja_Si,dependientes_Si,servicio_telefono_Si,ad.multiples_lineas_Si,ad.multiples_lineas_Sin servicio telef√≥nico,servicio_internet_Fibra √≥ptica,servicio_internet_No,ad.seguridad_online_Si,...,contrato_Mes a mes,contrato_Un a√±o,factura_digital_Si,metodo_pago_Cheque por correo,metodo_pago_Tarjeta de cr√©dito (autom√°tica),metodo_pago_Transferencia bancaria (autom√°tica),meses_antiguedad,cargo.mensual,cargo.total,abandono_cliente
0,0.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,1.0,1.0,0.0,0.0,9.0,65.6,593.3,0
1,1.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,...,1.0,0.0,0.0,1.0,0.0,0.0,9.0,59.9,542.4,0
2,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,...,1.0,0.0,1.0,0.0,0.0,0.0,4.0,73.9,280.85,1
3,1.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,...,1.0,0.0,1.0,0.0,0.0,0.0,13.0,98.0,1237.85,1
4,0.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,...,1.0,0.0,1.0,1.0,0.0,0.0,3.0,83.9,267.4,1


In [96]:
df.rename(columns={'InternetService_No': 'NoInternetService'}, inplace=True)
df_linear.rename(columns={'InternetService_No': 'NoInternetService'}, inplace=True)

In [97]:
df_scale = df.copy()

### Verificaci√≥n de la Proporci√≥n de Cancelaci√≥n (Churn)

Si deseas profundizar en el an√°lisis, aplica t√©cnicas de balanceo como **undersampling** o **oversampling**. En situaciones de fuerte desbalanceo, herramientas como **SMOTE** pueden ser √∫tiles para generar ejemplos sint√©ticos de la clase minoritaria.

### Balanceo de Clases (opcional)

Si deseas profundizar en el an√°lisis, aplica t√©cnicas de balanceo como **undersampling** o **oversampling**. En situaciones de fuerte desbalanceo, herramientas como **SMOTE** pueden ser √∫tiles para generar ejemplos sint√©ticos de la clase minoritaria.

### Normalizaci√≥n o Estandarizaci√≥n (si es necesario)

Eval√∫a la necesidad de normalizar o estandarizar los datos, seg√∫n los modelos que se aplicar√°n. Modelos basados en distancia, como **KNN**, **SVM**, **Regresi√≥n Log√≠stica** y **Redes Neuronales**, requieren este preprocesamiento. Por otro lado, modelos basados en √°rboles, como **Decision Tree**, **Random Forest** y **XGBoost**, no son sensibles a la escala de los datos.

## üéØ Correlaci√≥n y Selecci√≥n de Variables



### An√°lisis de Correlaci√≥n

Visualiza la matriz de correlaci√≥n para identificar relaciones entre las variables num√©ricas. Presta especial **atenci√≥n a las variables que muestran una mayor correlaci√≥n con la cancelaci√≥n**, ya que estas pueden ser fuertes candidatas para el modelo predictivo.

### An√°lisis Dirigido

Investiga c√≥mo variables espec√≠ficas se relacionan con la cancelaci√≥n, tales como:

- **Tiempo de contrato √ó Cancelaci√≥n**
- **Gasto total √ó Cancelaci√≥n**

Utiliza gr√°ficos como **boxplots** o **scatter plots** para visualizar patrones y posibles tendencias.

## ü§ñ Modelado Predictivo



### Separaci√≥n de Datos

Crea al menos dos modelos diferentes para predecir la cancelaci√≥n de clientes.

- Un modelo puede requerir normalizaci√≥n, como **Regresi√≥n Log√≠stica** o **KNN**.
- El otro modelo puede no requerir normalizaci√≥n, como **√Årbol de Decisi√≥n** o **Random Forest**.

üí° La decisi√≥n de aplicar o no la normalizaci√≥n depende de los modelos seleccionados. Ambos modelos pueden ser creados sin normalizaci√≥n, pero tambi√©n es una opci√≥n combinar modelos con y sin normalizaci√≥n.

**Justificaci√≥n:**

- **Regresi√≥n Log√≠stica / KNN:** Estos modelos son sensibles a la escala de los datos, por lo que la normalizaci√≥n es importante para que los coeficientes o las distancias se calculen correctamente.
- **√Årbol de Decisi√≥n / Random Forest:** Estos modelos no dependen de la escala de los datos, por lo que no es necesario aplicar normalizaci√≥n.

Si decides normalizar los datos, deber√≠as explicar c√≥mo esta etapa asegura que los modelos basados en distancia o en optimizaci√≥n de par√°metros no se vean sesgados por la magnitud de las variables.

### Creaci√≥n de Modelos

Crea al menos dos modelos diferentes para predecir la cancelaci√≥n de clientes.

- Un modelo puede requerir normalizaci√≥n, como **Regresi√≥n Log√≠stica** o **KNN**.
- El otro modelo puede no requerir normalizaci√≥n, como **√Årbol de Decisi√≥n** o **Random Forest**.

üí° La decisi√≥n de aplicar o no la normalizaci√≥n depende de los modelos seleccionados. Ambos modelos pueden ser creados sin normalizaci√≥n, pero tambi√©n es una opci√≥n combinar modelos con y sin normalizaci√≥n.

**Justificaci√≥n:**

- **Regresi√≥n Log√≠stica / KNN:** Estos modelos son sensibles a la escala de los datos, por lo que la normalizaci√≥n es importante para que los coeficientes o las distancias se calculen correctamente.
- **√Årbol de Decisi√≥n / Random Forest:** Estos modelos no dependen de la escala de los datos, por lo que no es necesario aplicar normalizaci√≥n.

Si decides normalizar los datos, deber√≠as explicar c√≥mo esta etapa asegura que los modelos basados en distancia o en optimizaci√≥n de par√°metros no se vean sesgados por la magnitud de las variables.

### Evaluaci√≥n de los Modelos

Eval√∫a cada modelo utilizando las siguientes m√©tricas:

- **Exactitud (Acur√°cia)**
- **Precisi√≥n**
- **Recall**
- **F1-score**
- **Matriz de confusi√≥n**

Despu√©s, realiza un an√°lisis cr√≠tico y compara los modelos:

- ¬øCu√°l modelo tuvo el mejor desempe√±o?
- ¬øAlg√∫n modelo present√≥ **overfitting** o **underfitting**? Si es as√≠, considera las posibles causas y ajustes:
  - **Overfitting**: Cuando el modelo aprende demasiado sobre los datos de entrenamiento, perdiendo la capacidad de generalizar a nuevos datos. Considera reducir la complejidad del modelo o aumentar los datos de entrenamiento.
  - **Underfitting**: Cuando el modelo no captura bien las tendencias de los datos, lo que indica que es demasiado simple. Intenta aumentar la complejidad del modelo o ajustar sus par√°metros.

## üìã Interpretaci√≥n y Conclusiones Datos



### An√°lisis de la Importancia de las Variables

Despu√©s de elegir los modelos, realiza el an√°lisis de las variables m√°s relevantes para la predicci√≥n de la cancelaci√≥n:

* Regresi√≥n Log√≠stica: Investiga los coeficientes de las variables, que muestran su contribuci√≥n a la predicci√≥n de cancelaci√≥n.

* KNN (K-Nearest Neighbors): Observa c√≥mo los vecinos m√°s cercanos influyen en la decisi√≥n de clasificaci√≥n. Las variables m√°s impactantes pueden ser aquellas que m√°s contribuyen a la proximidad entre los puntos de datos.

* Random Forest: Utiliza la importancia de las variables proporcionada por el modelo. Random Forest calcula la importancia bas√°ndose en c√≥mo cada variable contribuye a la reducci√≥n de la impureza durante las divisiones de los √°rboles.

* SVM (Support Vector Machine): En el SVM, las variables m√°s relevantes son aquellas que influyen en la frontera de decisi√≥n entre las clases. Puedes analizar los coeficientes de los vectores de soporte para entender qu√© variables tienen mayor impacto.

* Otros Modelos: Dependiendo del modelo elegido, considera el an√°lisis de m√©tricas espec√≠ficas para comprender la relevancia de las variables. Por ejemplo, coeficientes en modelos lineales, pesos en redes neuronales, o la importancia relativa en t√©cnicas de boosting (como XGBoost).

### Conclusi√≥n

Elaboren un informe detallado, destacando los factores que m√°s influyen en la cancelaci√≥n, bas√°ndose en las variables seleccionadas y en el rendimiento de cada modelo.

Identifiquen los principales factores que afectan la cancelaci√≥n de clientes y propongan estrategias de retenci√≥n basadas en los resultados obtenidos.