## Challenge TelecomX-2-ML ‚Äì An√°lisis Predictivo de Churn

### Objetivo

En esta segunda etapa del Challenge de Data Science de Alura, el enfoque se centra en el **modelado predictivo** para anticipar la evasi√≥n de clientes (Churn) en TelecomX.
Luego de completar el proceso de **ETL y An√°lisis Exploratorio (EDA)**, el objetivo ahora es construir, evaluar y optimizar modelos de Machine Learning que permitan:

* Predecir qu√© clientes tienen mayor probabilidad de abandonar el servicio.
* Identificar las variables m√°s influyentes en la decisi√≥n de churn.
* Proporcionar recomendaciones estrat√©gicas basadas en evidencia predictiva.


Flujo de implementaci√≥n:

1. Feature Engineering
2. Preprocesamiento
3. Train/Test SplitPipeline
4. Cross-Validation (en Train)
5. Comparaci√≥n de modelos
6. Optimizaci√≥n
7. Entrenamiento final
8. Evaluaci√≥n en Test

---



## Implementaci√≥n del Modelado Predictivo


### Importaci√≥n de librer√≠as y configuraci√≥n del entorno

In [7]:
# ==============================
# CONFIGURACI√ìN GLOBAL
# ==============================

# Ignorar warnings irrelevantes
import warnings
#warnings.filterwarnings("ignore")
warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=UserWarning)


# ==============================
# BIBLIOTECAS PARA MANEJO DE DATOS
# ==============================

import requests
import pandas as pd
import numpy as np
import json
import os

# ==============================
# BIBLIOTECAS PARA PREPROCESAMIENTO - ML
# ==============================

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    confusion_matrix,
    classification_report
)

from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
# ==============================
# BIBLIOTECAS PARA VISUALIZACI√ìN
# ==============================

import matplotlib.pyplot as plt
import seaborn as sns

# ==============================
# CONFIGURACI√ìN DE VISUALIZACIONES
# ==============================

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

# Si trabajas en Jupyter, puedes activar esto:
# %matplotlib inline

# ==============================
# CONFIGURACI√ìN DE PANDAS
# ==============================

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# ==============================
# PALETA DE COLORES PERSONALIZADA
# ==============================

color_no_churn = '#2C3E50'  # Azul oscuro elegante
color_churn = '#E74C3C'     # Rojo elegante

color_palette = [
  '#F8F9FA', # Fondo Limpio (Ghost White)
  '#E9ECEF', # Bordes/Secciones (Slate Gray)
  '#22577A', # T√≠tulos/Estructura (Dark Imperial Blue)
  '#38A3A5', # Procesos activos (Cadet Blue)
  '#57CC99', # √âxito/Validaci√≥n (Emerald)
  '#80ED99'  # Acentos ligeros (Light Green)
]

sns.set_palette(color_palette)

# ==============================
# CREAR CARPETA PARA IM√ÅGENES
# ==============================

os.makedirs('imgs', exist_ok=True)

print('‚úÖ Bibliotecas importadas y entorno configurado correctamente')

‚úÖ Bibliotecas importadas y entorno configurado correctamente


### Carga de datos

Previo an√°lisis con dataset generado en la 1ra etapa y al no encontrar mayores inconsistencias, se utiliza el dataset proprocionado por Alura One "dataset_tratado.csv". 

In [10]:
url = "https://raw.githubusercontent.com/LenninTemoche/Challenge-TelecomX-2-Alura-One-DS/refs/heads/main/datos_tratados.csv"

df = pd.read_csv(url, sep=",")

df.sample(3)

Unnamed: 0,CustomerID,Churn,Gender,SeniorCitizen,Partner,Dependents,Tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,ChargesDaily,ChargesMonthly,ChargesTotal
5611,7901-TBKJX,No,Male,Yes,No,No,56,Yes,Yes,Fiber optic,No,No,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,3.37,101.05,5594.0
3668,5176-LDKUH,No,Female,No,No,No,48,Yes,No,Fiber optic,No,Yes,No,No,No,No,One year,No,Electronic check,2.51,75.15,3772.65
4020,5668-MEISB,No,Female,No,Yes,Yes,72,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),3.54,106.1,7657.4


## 1. Limpieza de Datos

En esta etapa se garantiza la calidad del dataset antes del modelado.

Se realizaron las siguientes acciones:

- Estandarizaci√≥n de categor√≠as inconsistentes.
- Eliminaci√≥n de variables sin valor predictivo.
- Verificaci√≥n final de valores nulos.
- Eliminaci√≥n de registros duplicados (si existieran).

Este paso es fundamental para evitar ruido, sesgos y errores en el entrenamiento de los modelos.

In [11]:
# ============================================================
# 1Ô∏è‚É£ LIMPIEZA DE DATOS (con validaciones antes y despu√©s)
# ============================================================

import numpy as np
import pandas as pd

print("Iniciando limpieza de datos...")

# ------------------------------------------------------------
# üîé 1.0 Diagn√≥stico inicial general
# ------------------------------------------------------------

print("\nüìå DIAGN√ìSTICO INICIAL")

print(f"Filas iniciales: {df.shape[0]}")
print(f"Columnas iniciales: {df.shape[1]}")

# ---- Nulos iniciales ----
nulos_iniciales = df.isnull().sum().sum()
print(f"Nulos totales iniciales: {nulos_iniciales}")

# ---- Duplicados iniciales (con ID si existe) ----
duplicados_iniciales = df.duplicated().sum()
print(f"Duplicados iniciales (con ID): {duplicados_iniciales}")


# ------------------------------------------------------------
# 1.1 Estandarizaci√≥n de categor√≠as
# ------------------------------------------------------------

print("\nüîÑ Estandarizando categor√≠as...")

cols_to_fix = [
    'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
    'TechSupport', 'StreamingTV', 'StreamingMovies'
]

for col in cols_to_fix:
    if col in df.columns:
        antes = df[col].value_counts(dropna=False)
        df[col] = df[col].replace({'No internet service': 'No'})
        despues = df[col].value_counts(dropna=False)

        print(f"\nColumna: {col}")
        print("Valores √∫nicos antes:")
        print(antes)
        print("Valores √∫nicos despu√©s:")
        print(despues)

print("\nCategor√≠as estandarizadas correctamente.")


# ------------------------------------------------------------
# 1.2 Eliminaci√≥n de variable identificadora
# ------------------------------------------------------------

print("\nüóë Validando eliminaci√≥n de ID...")

print(f"Columnas antes de eliminar ID: {df.shape[1]}")

if 'CustomerID' in df.columns:
    df = df.drop(columns=['CustomerID'])
    print("Se elimin√≥ columna 'CustomerID'")
elif 'customerID' in df.columns:
    df = df.drop(columns=['customerID'])
    print("Se elimin√≥ columna 'customerID'")
else:
    print("No se encontr√≥ columna identificadora.")

print(f"Columnas despu√©s de eliminar ID: {df.shape[1]}")

# ---- Validar duplicados despu√©s de quitar ID ----
duplicados_sin_id = df.duplicated().sum()
print(f"Duplicados despu√©s de eliminar ID: {duplicados_sin_id}")


# ------------------------------------------------------------
# 1.3 Eliminaci√≥n de duplicados
# ------------------------------------------------------------

print("\nüßπ Eliminando duplicados (si existen)...")

filas_antes = df.shape[0]

if duplicados_sin_id > 0:
    df = df.drop_duplicates()
    filas_despues = df.shape[0]
    print(f"Se eliminaron {filas_antes - filas_despues} registros duplicados.")
else:
    print("No se encontraron registros duplicados.")

print(f"Filas actuales: {df.shape[0]}")


# ------------------------------------------------------------
# 1.4 Verificaci√≥n final de nulos
# ------------------------------------------------------------

print("\nüìå VERIFICACI√ìN FINAL")

nulos_finales = df.isnull().sum().sum()

reporte_final = pd.DataFrame({
    'Nulos': df.isnull().sum(),
    'Porcentaje (%)': (df.isnull().sum() / len(df)) * 100
}).sort_values(by='Nulos', ascending=False)

if nulos_finales > 0:
    print("Columnas con nulos:")
    print(reporte_final[reporte_final['Nulos'] > 0])
else:
    print("No hay valores nulos en el dataset.")

print(f"Nulos totales finales: {nulos_finales}")

print("\n‚úÖ Limpieza de datos finalizada correctamente.")
print(f"Shape final del dataset: {df.shape}")

Iniciando limpieza de datos...

üìå DIAGN√ìSTICO INICIAL
Filas iniciales: 7043
Columnas iniciales: 22
Nulos totales iniciales: 0
Duplicados iniciales (con ID): 0

üîÑ Estandarizando categor√≠as...

Columna: OnlineSecurity
Valores √∫nicos antes:
OnlineSecurity
No     5024
Yes    2019
Name: count, dtype: int64
Valores √∫nicos despu√©s:
OnlineSecurity
No     5024
Yes    2019
Name: count, dtype: int64

Columna: OnlineBackup
Valores √∫nicos antes:
OnlineBackup
No     4614
Yes    2429
Name: count, dtype: int64
Valores √∫nicos despu√©s:
OnlineBackup
No     4614
Yes    2429
Name: count, dtype: int64

Columna: DeviceProtection
Valores √∫nicos antes:
DeviceProtection
No     4621
Yes    2422
Name: count, dtype: int64
Valores √∫nicos despu√©s:
DeviceProtection
No     4621
Yes    2422
Name: count, dtype: int64

Columna: TechSupport
Valores √∫nicos antes:
TechSupport
No     4999
Yes    2044
Name: count, dtype: int64
Valores √∫nicos despu√©s:
TechSupport
No     4999
Yes    2044
Name: count, dtype: 


### 1 Ingenier√≠a de Caracter√≠sticas (Feature Engineering)

En esta fase se optimizan y crean variables para mejorar la capacidad predictiva del modelo.

* **Creaci√≥n de `num_services`**: Variable que cuantifica la intensidad de uso del cliente. Un mayor n√∫mero de servicios puede reflejar mayor fidelizaci√≥n o mayor complejidad de abandono.
* **Variables derivadas**: Posible creaci√≥n de ratios como gasto promedio por servicio.
* **Eliminaci√≥n de variables irrelevantes o redundantes**:

  * `CustomerID` (identificador sin valor predictivo).
  * An√°lisis de variables altamente correlacionadas que puedan generar multicolinealidad.
* **An√°lisis de importancia preliminar** para validar aporte de nuevas variables.

---

In [5]:
# Creaci√≥n de la variable num_services
# 1. Definimos las columnas que representan servicios
service_cols = [
    'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity',
    'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies'
]

# 2. Funci√≥n para contar los servicios activos de cada cliente
def count_services(row):
    count = 0
    # InternetService: Si es 'DSL' o 'Fiber optic' cuenta como 1 (si es 'No', es 0)
    if row['InternetService'] != 'No':
        count += 1
    
    # Para el resto, sumamos 1 si el valor es 'Yes'
    for col in service_cols:
        if col != 'InternetService' and row[col] == 'Yes':
            count += 1
    return count

# Aplicamos la funci√≥n para crear la nueva columna
df['num_services'] = df.apply(count_services, axis=1)

print(f"‚úÖ Nueva columna creada: 'num_services' (Rango: {df['num_services'].min()} - {df['num_services'].max()} servicios)")



‚úÖ Nueva columna creada: 'num_services' (Rango: 1 - 9 servicios)


#### Creaci√≥n de la variable `num_services`

Se construy√≥ una nueva variable que cuantifica la cantidad de servicios activos contratados por cada cliente.

La l√≥gica aplicada fue:

- Si el cliente posee Internet (DSL o Fiber optic), se considera 1 servicio.
- Se suma 1 por cada servicio adicional activo (`Yes`).
- Servicios sin contrataci√≥n o con valor "No internet service" no se contabilizan.

Esta variable busca capturar la intensidad de uso del cliente, ya que un mayor n√∫mero de servicios puede estar asociado con mayor fidelizaci√≥n o mayor complejidad de abandono.

In [6]:
df = df.drop(columns=['CustomerID'])

KeyError: "['CustomerID'] not found in axis"

### Eliminaci√≥n de variable identificadora

Se elimin√≥ la columna `CustomerID` debido a que es un identificador √∫nico sin valor predictivo.

Mantenerla podr√≠a introducir ruido o sobreajuste en modelos basados en √°rboles.



### 2 Preprocesamiento de Datos (Data Preprocessing)

Preparaci√≥n t√©cnica de los datos para su uso en modelos de Machine Learning.

* **Codificaci√≥n de Variables Categ√≥ricas**:

  * One-Hot Encoding para variables nominales (ej. `PaymentMethod`).
  * Label Encoding para la variable objetivo (`Churn`: 0 = No, 1 = S√≠).

* **Escalado de Variables Num√©ricas**:

  * Estandarizaci√≥n (StandardScaler) o Normalizaci√≥n (MinMaxScaler).
  * Aplicado a variables como:

    * `Tenure`
    * `ChargesMonthly`
    * `num_services`



In [None]:


# 2. Codificaci√≥n de la variable objetivo (Churn: Yes/No -> 1/0)
df['Churn'] = df['Churn'].map({'Yes': 1, 'No': 0})

# 3. Identificaci√≥n de variables para el ColumnTransformer
numeric_cols = ['Tenure', 'ChargesMonthly', 'num_services']
categorical_cols = [col for col in df.columns if col not in numeric_cols + ['Churn']]

# 4. Simplificaci√≥n de valores en variables categ√≥ricas (No internet service -> No)

cols_to_fix = [
    'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
    'TechSupport', 'StreamingTV', 'StreamingMovies'
]

for col in cols_to_fix:
    df[col] = df[col].replace({'No internet service': 'No'})

# El siguiente paso ser√≠a aplicar el Pipeline con OneHotEncoder y MinMaxScaler
print("\n‚úÖ Columnas redundantes eliminadas y dataset listo para encoding/scaling.")

### Estandarizaci√≥n de categor√≠as

Se reemplazaron los valores "No internet service" por "No" en variables relacionadas con servicios adicionales.

Esto evita crear categor√≠as artificiales al aplicar One-Hot Encoding y simplifica la interpretaci√≥n del modelo.

In [None]:
df_numeric = df.select_dtypes(include=["int64", "float64"])

df_numeric["Churn"] = df["Churn"].map({"Yes": 1, "No": 0})

corr_matrix = df_numeric.corr()

# Visualizar heatmap
plt.figure(figsize=(10,6))
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de Correlaci√≥n - Vari√°bles Numericas")
plt.show()

### Matriz de correlaci√≥n

Se analiz√≥ la correlaci√≥n entre variables num√©ricas y la variable objetivo.

Este an√°lisis permite identificar:

- Variables con mayor asociaci√≥n lineal con churn.
- Posible multicolinealidad.
- Variables con bajo poder explicativo.