<a href="https://colab.research.google.com/github/Nataliahfk/TELECOM-X---PARTE-2/blob/main/TelecomX_SegundaParte.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**TELECOM X - PARTE 2: Previsión de cancelación en las suscripciones**

##**Descripción del proyecto:**

Desarrollo de modelos predictivos capaces de preveer que clientes tienen mayor probabilidad de cancelar sus suscripciones.

##**Objetivos:**

- Preparar los datos para el modelado (tratamiento, codificación, normalización).
- Realizar análisis de correlación y selección de variables.
- Entrenar dos o más modelos de clasificación.
- Evaluar el rendimiento de los modelos con métricas.
- Interpretar los resultados, incluyendo la importancia de las variables.
- Crear una conclusión estratégica señalando los principales factores que influyen en la cancelación.

#📊 **Preparar los datos para el modelado**

##1.1. Importando y conociendo los datos

In [61]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [62]:
#Importando datos
datos = pd.read_csv('/content/df_limpo.csv')
datos.head()

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,Total.Day,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,2.2,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,2.01,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,2.34,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,3.17,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,2.97,83.9,267.4


In [63]:
datos.columns

Index(['customerID', 'Churn', 'customer.gender', 'customer.SeniorCitizen',
       'customer.Partner', 'customer.Dependents', 'customer.tenure',
       'phone.PhoneService', 'phone.MultipleLines', 'internet.InternetService',
       'internet.OnlineSecurity', 'internet.OnlineBackup',
       'internet.DeviceProtection', 'internet.TechSupport',
       'internet.StreamingTV', 'internet.StreamingMovies', 'account.Contract',
       'account.PaperlessBilling', 'account.PaymentMethod', 'Total.Day',
       'account.Charges.Monthly', 'account.Charges.Total'],
      dtype='object')

In [64]:
# Cambiar el nombre de las columnas
datos.rename(columns={
    'customerID': 'id_cliente',
    'customer.gender': 'genero',
    'customer.SeniorCitizen': 'adulto_mayor',
    'customer.Partner': 'tiene_pareja',
    'customer.Dependents': 'tiene_dependientes',
    'customer.tenure': 'antiguedad_meses',
    'phone.PhoneService': 'servicio_telefonico',
    'phone.MultipleLines': 'lineas_multiples',
    'internet.InternetService': 'servicio_internet',
    'internet.OnlineSecurity': 'seguridad_en_linea',
    'internet.OnlineBackup': 'respaldo_en_linea',
    'internet.DeviceProtection': 'proteccion_dispositivo',
    'internet.TechSupport': 'soporte_tecnico',
    'internet.StreamingTV': 'streaming_tv',
    'internet.StreamingMovies': 'streaming_peliculas',
    'account.Contract': 'tipo_contrato',
    'account.PaperlessBilling': 'facturacion_electronica',
    'account.PaymentMethod': 'metodo_pago',
    'Total.Day': 'total_dia',
    'account.Charges.Monthly': 'cargo_mensual',
    'account.Charges.Total': 'cargo_total',
    'Churn': 'cancelacion'
}, inplace=True)

# 🛠️ Tratamiento de los Datos

✔️ Remover columnas irrelevantes

***Nota**: inicialmente, se eliminarán las varialbes id_cliente ya que esta no aporta poder predictivo debido a que es un simple identificador de cliente, y cuentas_diarias ya que esta variable fue agregada simplemente al dividir cargos_mensuales en 30 días, lo cual resulta redundante y no aporta ningun valor agregado al análisis.*

In [65]:
# Eliminación de Columnas Irrelevantes
datos.drop('id_cliente', axis=1, inplace=True)
datos.drop('total_dia', axis=1, inplace=True)
datos.head()

Unnamed: 0,cancelacion,genero,adulto_mayor,tiene_pareja,tiene_dependientes,antiguedad_meses,servicio_telefonico,lineas_multiples,servicio_internet,seguridad_en_linea,respaldo_en_linea,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,tipo_contrato,facturacion_electronica,metodo_pago,cargo_mensual,cargo_total
0,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [66]:
datos.shape[0]

7043

In [67]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   cancelacion              7043 non-null   object 
 1   genero                   7043 non-null   object 
 2   adulto_mayor             7043 non-null   int64  
 3   tiene_pareja             7043 non-null   object 
 4   tiene_dependientes       7043 non-null   object 
 5   antiguedad_meses         7043 non-null   int64  
 6   servicio_telefonico      7043 non-null   object 
 7   lineas_multiples         7043 non-null   object 
 8   servicio_internet        7043 non-null   object 
 9   seguridad_en_linea       7043 non-null   object 
 10  respaldo_en_linea        7043 non-null   object 
 11  proteccion_dispositivo   7043 non-null   object 
 12  soporte_tecnico          7043 non-null   object 
 13  streaming_tv             7043 non-null   object 
 14  streaming_peliculas     

In [68]:
print("\nEstadísticas Variables númericas:")
display(datos.describe())


Estadísticas Variables númericas:


Unnamed: 0,adulto_mayor,antiguedad_meses,cargo_mensual,cargo_total
count,7043.0,7043.0,7043.0,7032.0
mean,0.162147,32.371149,64.761692,2283.300441
std,0.368612,24.559481,30.090047,2266.771362
min,0.0,0.0,18.25,18.8
25%,0.0,9.0,35.5,401.45
50%,0.0,29.0,70.35,1397.475
75%,0.0,55.0,89.85,3794.7375
max,1.0,72.0,118.75,8684.8


In [69]:
columnas_categoricas = datos.select_dtypes(include='object').columns
print(columnas_categoricas)

Index(['cancelacion', 'genero', 'tiene_pareja', 'tiene_dependientes',
       'servicio_telefonico', 'lineas_multiples', 'servicio_internet',
       'seguridad_en_linea', 'respaldo_en_linea', 'proteccion_dispositivo',
       'soporte_tecnico', 'streaming_tv', 'streaming_peliculas',
       'tipo_contrato', 'facturacion_electronica', 'metodo_pago'],
      dtype='object')


#2. Tranformación de los datos

✔️ Agrupación de No y No service

✅ Resumen: Por qué agrupamos "No" y "No internet service"

🎯 Objetivo

Reducir multicolinealidad y simplificar los datos sin perder relevancia para el modelo predictivo.

---------------------------------------------------------------
⚠️ El problema original

   - Variables como OnlineSecurity, StreamingTV, etc., tenían tres categorías:

     - "Yes" → cliente usa el servicio
     - "No" → cliente tiene internet, pero no contrató el servicio
     - "No internet service" → cliente ni siquiera tiene internet, por lo tanto no puede usar el servicio

Esto generaba multicolinealidad perfecta al transformar estas categorías en dummies, lo que:
   - Creaba correlación 1.0 entre variables
   - Generaba VIF infinito
   - Comprometía la estabilidad y el rendimiento de los modelos

-----------------------------------------------------------------
✅ La solución: agrupar "No internet service" como "No"

  - Agrupamos "No internet service" como "No" para simplificar la variable:

   - "Yes" = significa que usa el servicio
   - "No" = significa que no usa el servicio
   
Esto reduce la dimensionalidad y evita multicolinealidad.

La información de que el cliente no tiene internet sigue estando en la variable InternetService.

In [70]:
datos.columns

Index(['cancelacion', 'genero', 'adulto_mayor', 'tiene_pareja',
       'tiene_dependientes', 'antiguedad_meses', 'servicio_telefonico',
       'lineas_multiples', 'servicio_internet', 'seguridad_en_linea',
       'respaldo_en_linea', 'proteccion_dispositivo', 'soporte_tecnico',
       'streaming_tv', 'streaming_peliculas', 'tipo_contrato',
       'facturacion_electronica', 'metodo_pago', 'cargo_mensual',
       'cargo_total'],
      dtype='object')

In [71]:
# para crear uno nuevo
datos_clean = datos.copy()

# === Etapa 1: Agrupar "No internet service" como "No"
cols_to_fix = ['servicio_internet', 'seguridad_en_linea',
               'respaldo_en_linea', 'proteccion_dispositivo', 'soporte_tecnico',
               'streaming_tv', 'streaming_peliculas']

for col in cols_to_fix:
    datos_clean[col] = datos_clean[col].replace('No internet service', 'No')

datos = datos_clean

In [72]:
# separo en variales explicativas que es la X y mi variable dependiente que es y
X = datos.drop('cancelacion', axis=1)
y = datos['cancelacion']

In [73]:
X

Unnamed: 0,genero,adulto_mayor,tiene_pareja,tiene_dependientes,antiguedad_meses,servicio_telefonico,lineas_multiples,servicio_internet,seguridad_en_linea,respaldo_en_linea,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,tipo_contrato,facturacion_electronica,metodo_pago,cargo_mensual,cargo_total
0,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.30
1,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.40
2,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7038,Female,0,No,No,13,Yes,No,DSL,Yes,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.90
7039,Male,0,Yes,No,22,Yes,Yes,Fiber optic,No,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.70
7040,Male,0,No,No,2,Yes,No,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7041,Male,0,Yes,Yes,67,Yes,No,DSL,Yes,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


In [74]:
y

Unnamed: 0,cancelacion
0,No
1,No
2,Yes
3,Yes
4,Yes
...,...
7038,No
7039,Yes
7040,No
7041,No


##**Encoding**

In [75]:
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder

In [76]:
columnas = X.columns

In [77]:
one_hot = make_column_transformer ((OneHotEncoder(drop = 'if_binary'),   # que no incluya las columnas binarias
                                  ['genero', 'tiene_pareja', 'tiene_dependientes',
                                   'servicio_telefonico', 'lineas_multiples', 'servicio_internet',
                                   'seguridad_en_linea', 'respaldo_en_linea', 'proteccion_dispositivo',
                                   'soporte_tecnico', 'streaming_tv', 'streaming_peliculas',
                                   'tipo_contrato', 'facturacion_electronica', 'metodo_pago']),  # escribo las columnas que quiero modificar / esto sera una tupla
                                   remainder= 'passthrough',         # las restantes columnas se las salta
                                   sparse_threshold=0,               # garantizar que no quiete información relevante
                                   force_int_remainder_cols=False )  # mantener el nombre de la columna como esta)


In [78]:
# colocando en X las variables explicativas la transformación
X = one_hot.fit_transform(X)

In [79]:
one_hot.get_feature_names_out(columnas)

array(['onehotencoder__genero_Male', 'onehotencoder__tiene_pareja_Yes',
       'onehotencoder__tiene_dependientes_Yes',
       'onehotencoder__servicio_telefonico_Yes',
       'onehotencoder__lineas_multiples_No',
       'onehotencoder__lineas_multiples_No phone service',
       'onehotencoder__lineas_multiples_Yes',
       'onehotencoder__servicio_internet_DSL',
       'onehotencoder__servicio_internet_Fiber optic',
       'onehotencoder__servicio_internet_No',
       'onehotencoder__seguridad_en_linea_Yes',
       'onehotencoder__respaldo_en_linea_Yes',
       'onehotencoder__proteccion_dispositivo_Yes',
       'onehotencoder__soporte_tecnico_Yes',
       'onehotencoder__streaming_tv_Yes',
       'onehotencoder__streaming_peliculas_Yes',
       'onehotencoder__tipo_contrato_Month-to-month',
       'onehotencoder__tipo_contrato_One year',
       'onehotencoder__tipo_contrato_Two year',
       'onehotencoder__facturacion_electronica_Yes',
       'onehotencoder__metodo_pago_Bank transfe

In [80]:
pd.DataFrame(X, columns=one_hot.get_feature_names_out(columnas))

Unnamed: 0,onehotencoder__genero_Male,onehotencoder__tiene_pareja_Yes,onehotencoder__tiene_dependientes_Yes,onehotencoder__servicio_telefonico_Yes,onehotencoder__lineas_multiples_No,onehotencoder__lineas_multiples_No phone service,onehotencoder__lineas_multiples_Yes,onehotencoder__servicio_internet_DSL,onehotencoder__servicio_internet_Fiber optic,onehotencoder__servicio_internet_No,...,onehotencoder__tipo_contrato_Two year,onehotencoder__facturacion_electronica_Yes,onehotencoder__metodo_pago_Bank transfer (automatic),onehotencoder__metodo_pago_Credit card (automatic),onehotencoder__metodo_pago_Electronic check,onehotencoder__metodo_pago_Mailed check,remainder__adulto_mayor,remainder__antiguedad_meses,remainder__cargo_mensual,remainder__cargo_total
0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,9.0,65.60,593.30
1,1.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,9.0,59.90,542.40
2,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,0.0,4.0,73.90,280.85
3,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,1.0,13.0,98.00,1237.85
4,0.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,...,0.0,1.0,0.0,0.0,0.0,1.0,1.0,3.0,83.90,267.40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7038,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,13.0,55.15,742.90
7039,1.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,0.0,22.0,85.10,1873.70
7040,1.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,2.0,50.30,92.75
7041,1.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,1.0,0.0,67.0,67.85,4627.65


#Transformando la variable respuesta

In [81]:
from sklearn.preprocessing import LabelEncoder

In [82]:
# LabelEncoder se usa para convertir variables categóricas (texto o etiquetas) en valores numéricos.
label_encoder = LabelEncoder()

In [83]:
y = label_encoder.fit_transform(y)

In [84]:
y

array([0, 0, 1, ..., 0, 0, 0])