<a href="https://colab.research.google.com/github/nxzK1/TelecomX_p2_Challenge/blob/Desarrollo/TelecomX_p2_Challenge.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px


# 📘 Diccionario de Datos

| **Nombre**               | **Descripción**                                                        |
|--------------------------|------------------------------------------------------------------------|
| `customerID`              | Número de identificación único de cada cliente                         |
| `Churn`                   | Si el cliente dejó o no la empresa.                                    |
| `gender`                  | Género (masculino o femenino).                                         |
| `SeniorCitizen`           | Cliente tiene o no una edad igual o mayor a 65 años.                   |
| `Partner`                 | Si el cliente tiene o no una pareja.                                   |
| `Dependents`              | Si el cliente tiene o no dependientes.                                 |
| `tenure`                  | Meses de contrato del cliente.                                         |
| `PhoneService`            | Suscripción al servicio telefónico.                                    |
| `MultipleLines`           | Suscripción a más de una línea telefónica.                             |
| `InternetService`         | Suscripción a un proveedor de internet.                                |
| `OnlineSecurity`          | Suscripción adicional de seguridad en línea.                           |
| `OnlineBackup`            | Suscripción adicional de respaldo en línea.                            |
| `DeviceProtection`        | Suscripción adicional de protección del dispositivo.                   |
| `TechSupport`             | Suscripción adicional de soporte técnico, menor tiempo de espera.     |
| `StreamingTV`             | Suscripción de televisión por cable.                                   |
| `StreamingMovies`         | Suscripción de streaming de películas.                                 |
| `Contract`                | Tipo de contrato.                                                      |
| `PaperlessBilling`        | Si el cliente prefiere recibir la factura en línea.                    |
| `PaymentMethod`           | Forma de pago.                                                         |
| `Charges.Monthly`         | Total de todos los servicios del cliente por mes.                      |
| `Charges.Total`           | Total gastado por el cliente.                                          

In [2]:
url = 'https://raw.githubusercontent.com/nxzK1/TelecomX_p2_Challenge/refs/heads/Desarrollo/TelecomX_p1_tratados.csv'

df = pd.read_csv(url)
df.head(5)

Unnamed: 0,ID_Cliente,Cancelacion_servicios,Genero,Adulto_mayor,Conyuge,Con_dependientes,Meses_contrato,Servicio_movil,MultiLinea,Servicio_Internet,...,Proteccion_dispositivo,Soporte_tecnico,Transmision_TV,Transmision_peliculas,Tipo_contrato,Factura_electronica,Metodo_pago,Factura_mensual,Facturacion_total,Cuentas_Diarias
0,0002-ORFBO,0,femenino,0,1,1,9,1,no,dsl,...,no,si,si,no,un año,1,cheque fisico,65.6,593.3,2.19
1,0003-MKNFE,0,masculino,0,0,0,9,1,si,dsl,...,no,no,no,si,mes a mes,0,cheque fisico,59.9,542.4,2.0
2,0004-TLHLJ,1,masculino,0,0,0,4,1,no,fibra optica,...,si,no,no,no,mes a mes,1,cheque electronico,73.9,280.85,2.46
3,0011-IGKFF,1,masculino,1,1,0,13,1,no,fibra optica,...,si,no,si,si,mes a mes,1,cheque electronico,98.0,1237.85,3.27
4,0013-EXCHZ,1,femenino,1,1,0,3,1,no,fibra optica,...,no,si,si,no,mes a mes,1,cheque fisico,83.9,267.4,2.8


In [3]:
df.shape

(7256, 22)

In [4]:
df.columns

Index(['ID_Cliente', 'Cancelacion_servicios', 'Genero', 'Adulto_mayor',
       'Conyuge', 'Con_dependientes', 'Meses_contrato', 'Servicio_movil',
       'MultiLinea', 'Servicio_Internet', 'Seguridad_Online',
       'Respaldo_Online', 'Proteccion_dispositivo', 'Soporte_tecnico',
       'Transmision_TV', 'Transmision_peliculas', 'Tipo_contrato',
       'Factura_electronica', 'Metodo_pago', 'Factura_mensual',
       'Facturacion_total', 'Cuentas_Diarias'],
      dtype='object')

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7256 entries, 0 to 7255
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ID_Cliente              7256 non-null   object 
 1   Cancelacion_servicios   7256 non-null   int64  
 2   Genero                  7256 non-null   object 
 3   Adulto_mayor            7256 non-null   int64  
 4   Conyuge                 7256 non-null   int64  
 5   Con_dependientes        7256 non-null   int64  
 6   Meses_contrato          7256 non-null   int64  
 7   Servicio_movil          7256 non-null   int64  
 8   MultiLinea              7256 non-null   object 
 9   Servicio_Internet       7256 non-null   object 
 10  Seguridad_Online        7256 non-null   object 
 11  Respaldo_Online         7256 non-null   object 
 12  Proteccion_dispositivo  7256 non-null   object 
 13  Soporte_tecnico         7256 non-null   object 
 14  Transmision_TV          7256 non-null   

In [6]:
df.isna().sum()

Unnamed: 0,0
ID_Cliente,0
Cancelacion_servicios,0
Genero,0
Adulto_mayor,0
Conyuge,0
Con_dependientes,0
Meses_contrato,0
Servicio_movil,0
MultiLinea,0
Servicio_Internet,0


In [7]:
df.isnull().sum()

Unnamed: 0,0
ID_Cliente,0
Cancelacion_servicios,0
Genero,0
Adulto_mayor,0
Conyuge,0
Con_dependientes,0
Meses_contrato,0
Servicio_movil,0
MultiLinea,0
Servicio_Internet,0


In [8]:
df_modelos = df.copy()
df_modelos.drop(columns=['ID_Cliente'], inplace=True)

df_modelos.head(5)

Unnamed: 0,Cancelacion_servicios,Genero,Adulto_mayor,Conyuge,Con_dependientes,Meses_contrato,Servicio_movil,MultiLinea,Servicio_Internet,Seguridad_Online,...,Proteccion_dispositivo,Soporte_tecnico,Transmision_TV,Transmision_peliculas,Tipo_contrato,Factura_electronica,Metodo_pago,Factura_mensual,Facturacion_total,Cuentas_Diarias
0,0,femenino,0,1,1,9,1,no,dsl,no,...,no,si,si,no,un año,1,cheque fisico,65.6,593.3,2.19
1,0,masculino,0,0,0,9,1,si,dsl,no,...,no,no,no,si,mes a mes,0,cheque fisico,59.9,542.4,2.0
2,1,masculino,0,0,0,4,1,no,fibra optica,no,...,si,no,no,no,mes a mes,1,cheque electronico,73.9,280.85,2.46
3,1,masculino,1,1,0,13,1,no,fibra optica,no,...,si,no,si,si,mes a mes,1,cheque electronico,98.0,1237.85,3.27
4,1,femenino,1,1,0,3,1,no,fibra optica,no,...,no,si,si,no,mes a mes,1,cheque fisico,83.9,267.4,2.8


In [9]:
df_modelos.columns

Index(['Cancelacion_servicios', 'Genero', 'Adulto_mayor', 'Conyuge',
       'Con_dependientes', 'Meses_contrato', 'Servicio_movil', 'MultiLinea',
       'Servicio_Internet', 'Seguridad_Online', 'Respaldo_Online',
       'Proteccion_dispositivo', 'Soporte_tecnico', 'Transmision_TV',
       'Transmision_peliculas', 'Tipo_contrato', 'Factura_electronica',
       'Metodo_pago', 'Factura_mensual', 'Facturacion_total',
       'Cuentas_Diarias'],
      dtype='object')

In [10]:
columnas_internet = [
    'Seguridad_Online', 'Respaldo_Online', 'Proteccion_dispositivo',
    'Soporte_tecnico', 'Transmision_TV', 'Transmision_peliculas'
]

for columnas in columnas_internet:
    df_modelos[columnas] = df_modelos[columnas].replace('sin servicio internet', 'no')

In [11]:
df_modelos['Seguridad_Online'].value_counts()

Unnamed: 0_level_0,count
Seguridad_Online,Unnamed: 1_level_1
no,5182
si,2074


In [12]:
df_modelos['MultiLinea'].value_counts()

Unnamed: 0_level_0,count
MultiLinea,Unnamed: 1_level_1
no,3490
si,3061
sin servicio movil,705


In [13]:
df_modelos['MultiLinea'] = df_modelos['MultiLinea'].replace('sin servicio movil', 'no')

In [17]:
df_modelos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7256 entries, 0 to 7255
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Cancelacion_servicios   7256 non-null   int64  
 1   Genero                  7256 non-null   object 
 2   Adulto_mayor            7256 non-null   int64  
 3   Conyuge                 7256 non-null   int64  
 4   Con_dependientes        7256 non-null   int64  
 5   Meses_contrato          7256 non-null   int64  
 6   Servicio_movil          7256 non-null   int64  
 7   MultiLinea              7256 non-null   object 
 8   Servicio_Internet       7256 non-null   object 
 9   Seguridad_Online        7256 non-null   object 
 10  Respaldo_Online         7256 non-null   object 
 11  Proteccion_dispositivo  7256 non-null   object 
 12  Soporte_tecnico         7256 non-null   object 
 13  Transmision_TV          7256 non-null   object 
 14  Transmision_peliculas   7256 non-null   

In [22]:
columnas_categoricas = ['Genero', 'MultiLinea', 'Servicio_Internet', 'Seguridad_Online', 'Respaldo_Online',
                        'Proteccion_dispositivo', 'Soporte_tecnico', 'Transmision_TV', 'Transmision_peliculas',
                        'Tipo_contrato', 'Metodo_pago']

In [24]:
df_codificada = pd.get_dummies(df_modelos, columns=columnas_categoricas, drop_first=True)
df_codificada

Unnamed: 0,Cancelacion_servicios,Adulto_mayor,Conyuge,Con_dependientes,Meses_contrato,Servicio_movil,Factura_electronica,Factura_mensual,Facturacion_total,Cuentas_Diarias,...,Respaldo_Online_si,Proteccion_dispositivo_si,Soporte_tecnico_si,Transmision_TV_si,Transmision_peliculas_si,Tipo_contrato_mes a mes,Tipo_contrato_un año,Metodo_pago_cheque fisico,Metodo_pago_tarjeta de credito,Metodo_pago_transferencia bancaria
0,0,0,1,1,9,1,1,65.60,593.30,2.19,...,True,False,True,True,False,False,True,True,False,False
1,0,0,0,0,9,1,0,59.90,542.40,2.00,...,False,False,False,False,True,True,False,True,False,False
2,1,0,0,0,4,1,1,73.90,280.85,2.46,...,False,True,False,False,False,True,False,False,False,False
3,1,1,1,0,13,1,1,98.00,1237.85,3.27,...,True,True,False,True,True,True,False,False,False,False
4,1,1,1,0,3,1,1,83.90,267.40,2.80,...,False,False,True,True,False,True,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7251,0,0,0,0,13,1,0,55.15,742.90,1.84,...,False,False,True,False,False,False,True,True,False,False
7252,1,0,1,0,22,1,1,85.10,1873.70,2.84,...,False,False,False,False,True,True,False,False,False,False
7253,0,0,0,0,2,1,1,50.30,92.75,1.68,...,True,False,False,False,False,True,False,True,False,False
7254,0,0,1,1,67,1,0,67.85,4627.65,2.26,...,False,True,True,False,True,False,False,True,False,False


In [25]:
df_codificada.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7256 entries, 0 to 7255
Data columns (total 25 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Cancelacion_servicios               7256 non-null   int64  
 1   Adulto_mayor                        7256 non-null   int64  
 2   Conyuge                             7256 non-null   int64  
 3   Con_dependientes                    7256 non-null   int64  
 4   Meses_contrato                      7256 non-null   int64  
 5   Servicio_movil                      7256 non-null   int64  
 6   Factura_electronica                 7256 non-null   int64  
 7   Factura_mensual                     7256 non-null   float64
 8   Facturacion_total                   7256 non-null   float64
 9   Cuentas_Diarias                     7256 non-null   float64
 10  Genero_masculino                    7256 non-null   bool   
 11  MultiLinea_si                       7256 no

In [26]:
conteo = df_codificada['Cancelacion_servicios'].value_counts()
print("Conteo:\n", conteo)

proporciones = df_codificada['Cancelacion_servicios'].value_counts(normalize=True)
print("\nProporciones:\n", proporciones)

# DESBALANCE MODERADO

Conteo:
 Cancelacion_servicios
0    5387
1    1869
Name: count, dtype: int64

Proporciones:
 Cancelacion_servicios
0    0.74242
1    0.25758
Name: proportion, dtype: float64
