# Antecedentes

Con el previo análisis de datos en Telecom X, donde se recopiló, procesó y analizaron los datos utilizando el lenguaje de programación Python junto con algunas de sus bibliotecas para la extracción de información. Obteniendo datos valiosos que ayudan al equipo de Data Science a desarrollar modelos de machine learning que resultarán en estrategias para evitar / reducir la evasión de clientes _churn_.



# [1] Importar bibliotecas

In [49]:
import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import json

# [2] Carga de datos

In [50]:
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json"
response = requests.get(url)
data = response.json()

df_TELECOMX = pd.DataFrame(data)
df_TELECOMX.head(10)


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
5,0013-MHZWF,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
6,0013-SMEOE,No,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Two year', 'PaperlessBilling': '..."
7,0014-BMAQU,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Two year', 'PaperlessBilling': '..."
8,0015-UOCOJ,No,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
9,0016-QLJIS,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


# [3] Transformar y limpiar datos

## Información de los datos

In [51]:
df_TELECOMX.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


## Normalizando


In [52]:
df_TELECOMX_norm = pd.json_normalize(data)

df_TELECOMX_norm.sample(5)

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
7251,9971-ZWPBF,No,Male,1,Yes,Yes,34,Yes,Yes,Fiber optic,...,Yes,Yes,Yes,Yes,Yes,Month-to-month,Yes,Electronic check,108.9,3625.2
5063,6917-IAYHD,No,Male,0,No,Yes,1,No,No phone service,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Mailed check,33.6,33.6
4962,6776-TLWOI,Yes,Male,0,No,No,3,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Month-to-month,No,Mailed check,19.85,64.55
3882,5312-IRCFR,No,Female,0,Yes,Yes,64,Yes,Yes,Fiber optic,...,Yes,Yes,No,No,Yes,One year,Yes,Electronic check,92.85,5980.75
6439,8849-GYOKR,Yes,Female,0,Yes,No,54,Yes,Yes,Fiber optic,...,Yes,No,No,Yes,Yes,One year,No,Bank transfer (automatic),106.55,5763.3


In [53]:
df_TELECOMX_norm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

## Valores únicos

In [54]:
for columna in df_TELECOMX_norm.columns:
    print(f"Valores únicos en la columna '{columna}': {df_TELECOMX_norm[columna].nunique()}")
    if df_TELECOMX_norm[columna].nunique() < 20:
        print(f"Valores únicos en la columna '{columna}': {df_TELECOMX_norm[columna].unique()}")
    print('\n'+'#' * 50 + '\n')

Valores únicos en la columna 'customerID': 7267

##################################################

Valores únicos en la columna 'Churn': 3
Valores únicos en la columna 'Churn': ['No' 'Yes' '']

##################################################

Valores únicos en la columna 'customer.gender': 2
Valores únicos en la columna 'customer.gender': ['Female' 'Male']

##################################################

Valores únicos en la columna 'customer.SeniorCitizen': 2
Valores únicos en la columna 'customer.SeniorCitizen': [0 1]

##################################################

Valores únicos en la columna 'customer.Partner': 2
Valores únicos en la columna 'customer.Partner': ['Yes' 'No']

##################################################

Valores únicos en la columna 'customer.Dependents': 2
Valores únicos en la columna 'customer.Dependents': ['Yes' 'No']

##################################################

Valores únicos en la columna 'customer.tenure': 73

######################

## Limpiar Nulls

In [55]:
df_TELECOMX_norm.isnull().sum()


Unnamed: 0,0
customerID,0
Churn,0
customer.gender,0
customer.SeniorCitizen,0
customer.Partner,0
customer.Dependents,0
customer.tenure,0
phone.PhoneService,0
phone.MultipleLines,0
internet.InternetService,0


## Limpiar duplicados

In [56]:
repetidos = df_TELECOMX_norm[df_TELECOMX_norm.duplicated()]
repetidos

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total


## Limpiar blanks

In [57]:
vacios = df_TELECOMX_norm.apply(lambda fila: fila.astype(str).str.strip().eq(''), axis=1).sum()
vacios

Unnamed: 0,0
customerID,0
Churn,224
customer.gender,0
customer.SeniorCitizen,0
customer.Partner,0
customer.Dependents,0
customer.tenure,0
phone.PhoneService,0
phone.MultipleLines,0
internet.InternetService,0


In [58]:
df_TELECOMX_norm[df_TELECOMX_norm['Churn'].astype(str).str.strip() == '']
df_TELECOMX_norm[df_TELECOMX_norm['account.Charges.Total'].astype(str).str.strip() == '']

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
975,1371-DWPAZ,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,
1775,2520-SGTTA,No,Female,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,
1955,2775-SEFEE,No,Male,0,No,Yes,0,Yes,Yes,DSL,...,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,
2075,2923-ARZLG,No,Male,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,
2232,3115-CZMZD,No,Male,0,No,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,
2308,3213-VVOLG,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,
2930,4075-WKNIU,No,Female,0,Yes,Yes,0,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,
3134,4367-NUYAO,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,
3203,4472-LVYGI,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,
4169,5709-LVOEQ,No,Female,0,Yes,Yes,0,Yes,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,


In [59]:
# Reemplazamos los valores vacios del campo churn
df_TELECOMX_norm['Churn'] = df_TELECOMX_norm['Churn'].replace('', -1)

# Checamos
display(pd.unique(df_TELECOMX_norm['Churn']))

array(['No', 'Yes', -1], dtype=object)

In [60]:
df_TELECOMX_norm[df_TELECOMX_norm['Churn'].astype(str).str.strip() == '-1']

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
30,0047-ZHDTW,-1,Female,0,No,No,11,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,-1,Male,0,No,No,71,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,-1,Male,0,No,No,29,Yes,No,DSL,...,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.2
98,0162-RZGMZ,-1,Female,1,No,No,5,Yes,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,-1,Male,1,Yes,No,65,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,-1,Female,0,No,No,14,Yes,Yes,DSL,...,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.2
7180,9872-RZQQB,-1,Female,0,Yes,No,49,No,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,-1,Male,0,No,No,9,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,-1,Female,0,Yes,Yes,67,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.9


In [61]:
# account.Carges.Total se cambia el blank por 0
df_TELECOMX_norm['account.Charges.Total'] = df_TELECOMX_norm['account.Charges.Total'].astype(str).str.strip().replace('', 0)

# Checamos
df_TELECOMX_norm[df_TELECOMX_norm['account.Charges.Total'].astype(str).str.strip() == '0']

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
975,1371-DWPAZ,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,0
1775,2520-SGTTA,No,Female,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,0
1955,2775-SEFEE,No,Male,0,No,Yes,0,Yes,Yes,DSL,...,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,0
2075,2923-ARZLG,No,Male,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,0
2232,3115-CZMZD,No,Male,0,No,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,0
2308,3213-VVOLG,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,0
2930,4075-WKNIU,No,Female,0,Yes,Yes,0,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,0
3134,4367-NUYAO,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,0
3203,4472-LVYGI,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,0
4169,5709-LVOEQ,No,Female,0,Yes,Yes,0,Yes,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,0


## Checamos los datos resultantes

In [62]:
for columna in df_TELECOMX_norm.columns:
    print(f"Valores únicos en la columna '{columna}': {df_TELECOMX_norm[columna].nunique()}")
    if df_TELECOMX_norm[columna].nunique() < 20:
        print(f"Valores únicos en la columna '{columna}': {df_TELECOMX_norm[columna].unique()}")
    print('\n'+'#' * 50 + '\n')

Valores únicos en la columna 'customerID': 7267

##################################################

Valores únicos en la columna 'Churn': 3
Valores únicos en la columna 'Churn': ['No' 'Yes' -1]

##################################################

Valores únicos en la columna 'customer.gender': 2
Valores únicos en la columna 'customer.gender': ['Female' 'Male']

##################################################

Valores únicos en la columna 'customer.SeniorCitizen': 2
Valores únicos en la columna 'customer.SeniorCitizen': [0 1]

##################################################

Valores únicos en la columna 'customer.Partner': 2
Valores únicos en la columna 'customer.Partner': ['Yes' 'No']

##################################################

Valores únicos en la columna 'customer.Dependents': 2
Valores únicos en la columna 'customer.Dependents': ['Yes' 'No']

##################################################

Valores únicos en la columna 'customer.tenure': 73

######################

In [63]:
# Pasar de object a float
df_TELECOMX_norm['account.Charges.Total'] = df_TELECOMX_norm['account.Charges.Total'].astype(float)

# Check
df_TELECOMX_norm['account.Charges.Total'].dtypes

dtype('float64')

## Cambiar valores booleanos a binarios (Y / N > 1 / 0)

In [64]:
columnas_Y_N = ['Churn', 'customer.Partner', 'customer.Dependents', 'phone.PhoneService', 'phone.MultipleLines', 'internet.OnlineSecurity', 'internet.OnlineBackup', 'internet.DeviceProtection', 'internet.TechSupport', 'internet.StreamingTV', 'internet.StreamingMovies', 'account.PaperlessBilling']

for columna in columnas_Y_N:
    df_TELECOMX_norm[columna] = [1 if x == 'Yes' else (0 if x == 'No' else -1) for x in df_TELECOMX_norm[columna]]
    df_TELECOMX_norm[columna] = df_TELECOMX_norm[columna].astype(int)

for columna in columnas_Y_N:
    print(f"Valores únicos en la columna '{columna}': {df_TELECOMX_norm[columna].unique()}")

Valores únicos en la columna 'Churn': [ 0  1 -1]
Valores únicos en la columna 'customer.Partner': [1 0]
Valores únicos en la columna 'customer.Dependents': [1 0]
Valores únicos en la columna 'phone.PhoneService': [1 0]
Valores únicos en la columna 'phone.MultipleLines': [ 0  1 -1]
Valores únicos en la columna 'internet.OnlineSecurity': [ 0  1 -1]
Valores únicos en la columna 'internet.OnlineBackup': [ 1  0 -1]
Valores únicos en la columna 'internet.DeviceProtection': [ 0  1 -1]
Valores únicos en la columna 'internet.TechSupport': [ 1  0 -1]
Valores únicos en la columna 'internet.StreamingTV': [ 1  0 -1]
Valores únicos en la columna 'internet.StreamingMovies': [ 0  1 -1]
Valores únicos en la columna 'account.PaperlessBilling': [1 0]


In [65]:
df_TELECOMX_norm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   int64  
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   int64  
 5   customer.Dependents        7267 non-null   int64  
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   int64  
 8   phone.MultipleLines        7267 non-null   int64  
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   int64  
 11  internet.OnlineBackup      7267 non-null   int64  
 12  internet.DeviceProtection  7267 non-null   int64  
 13  internet.TechSupport       7267 non-null   int64

## Renombrar cols

In [66]:
df_TELECOMX_norm.rename(columns={
    "customerID": "ID_Cliente",
    "Churn": "Cancelacion",
    "customer.gender": "Genero",
    "customer.SeniorCitizen": "Adulto_Mayor",
    "customer.Partner": "Tiene_Pareja",
    "customer.Dependents": "Tiene_Dependientes",
    "customer.tenure": "Meses_Contrato",
    "phone.PhoneService": "Servicio_Telefono",
    "phone.MultipleLines": "Multiples_Lineas",
    "internet.InternetService": "Servicio_Internet",
    "internet.OnlineSecurity": "Seguridad_En_Linea",
    "internet.OnlineBackup": "Respaldo_En_Linea",
    "internet.DeviceProtection": "Proteccion_Dispositivo",
    "internet.TechSupport": "Soporte_Técnico",
    "internet.StreamingTV": "TV_Streaming",
    "internet.StreamingMovies": "Películas_Streaming",
    "account.Contract": "Tipo_Contrato",
    "account.PaperlessBilling": "Factura_Electronica",
    "account.PaymentMethod": "Metodo_Pago",
    "account.Charges.Monthly": "Factura_Mensual",
    "account.Charges.Total": "Cargos_Totales"
}, inplace=True)

df_TELECOMX_norm.head(10)

Unnamed: 0,ID_Cliente,Cancelacion,Genero,Adulto_Mayor,Tiene_Pareja,Tiene_Dependientes,Meses_Contrato,Servicio_Telefono,Multiples_Lineas,Servicio_Internet,...,Respaldo_En_Linea,Proteccion_Dispositivo,Soporte_Técnico,TV_Streaming,Películas_Streaming,Tipo_Contrato,Factura_Electronica,Metodo_Pago,Factura_Mensual,Cargos_Totales
0,0002-ORFBO,0,Female,0,1,1,9,1,0,DSL,...,1,0,1,1,0,One year,1,Mailed check,65.6,593.3
1,0003-MKNFE,0,Male,0,0,0,9,1,1,DSL,...,0,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4
2,0004-TLHLJ,1,Male,0,0,0,4,1,0,Fiber optic,...,0,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85
3,0011-IGKFF,1,Male,1,1,0,13,1,0,Fiber optic,...,1,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85
4,0013-EXCHZ,1,Female,1,1,0,3,1,0,Fiber optic,...,0,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4
5,0013-MHZWF,0,Female,0,0,1,9,1,0,DSL,...,0,0,1,1,1,Month-to-month,1,Credit card (automatic),69.4,571.45
6,0013-SMEOE,0,Female,1,1,0,71,1,0,Fiber optic,...,1,1,1,1,1,Two year,1,Bank transfer (automatic),109.7,7904.25
7,0014-BMAQU,0,Male,0,1,0,63,1,1,Fiber optic,...,0,0,1,0,0,Two year,1,Credit card (automatic),84.65,5377.8
8,0015-UOCOJ,0,Female,1,0,0,7,1,0,DSL,...,0,0,0,0,0,Month-to-month,1,Electronic check,48.2,340.35
9,0016-QLJIS,0,Female,0,1,1,65,1,1,DSL,...,1,1,1,1,1,Two year,1,Mailed check,90.45,5957.9


## Añadir la cuenta diaria

In [67]:
df_TELECOMX_norm['Cargos_Diarios'] = round(df_TELECOMX_norm['Cargos_Totales'] / df_TELECOMX_norm['Factura_Mensual']/30, 1)
df_TELECOMX_norm['Cargos_Diarios'].dtype

dtype('float64')

# [4] Exploratory Data Analysis

## Datos númericos

In [68]:
df_TELECOMX_norm.describe()

Unnamed: 0,Cancelacion,Adulto_Mayor,Tiene_Pareja,Tiene_Dependientes,Meses_Contrato,Servicio_Telefono,Multiples_Lineas,Seguridad_En_Linea,Respaldo_En_Linea,Proteccion_Dispositivo,Soporte_Técnico,TV_Streaming,Películas_Streaming,Factura_Electronica,Factura_Mensual,Cargos_Totales,Cargos_Diarios
count,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0
mean,0.226366,0.162653,0.484106,0.300124,32.346498,0.902711,0.324481,0.068391,0.127013,0.125224,0.071969,0.166369,0.169946,0.59323,64.720098,2277.182035,1.075506
std,0.486627,0.369074,0.499782,0.458343,24.571773,0.296371,0.643295,0.706329,0.738968,0.738062,0.708503,0.757553,0.759119,0.491265,30.129572,2268.648587,0.823081
min,-1.0,0.0,0.0,0.0,0.0,0.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,0.0,18.25,0.0,0.0
25%,0.0,0.0,0.0,0.0,9.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,35.425,396.2,0.3
50%,0.0,0.0,0.0,0.0,29.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,70.3,1389.2,1.0
75%,1.0,0.0,1.0,1.0,55.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,89.875,3778.525,1.8
max,1.0,1.0,1.0,1.0,72.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,118.75,8684.8,2.6


## Datos con texto

In [69]:
text_data = df_TELECOMX_norm[['Genero', 'Servicio_Internet', 'Tipo_Contrato', 'Metodo_Pago']]
text_data.head()

Unnamed: 0,Genero,Servicio_Internet,Tipo_Contrato,Metodo_Pago
0,Female,DSL,One year,Mailed check
1,Male,DSL,Month-to-month,Mailed check
2,Male,Fiber optic,Month-to-month,Electronic check
3,Male,Fiber optic,Month-to-month,Electronic check
4,Female,Fiber optic,Month-to-month,Mailed check


## Distribución de churn

Se muestra la distribución de _churn_ (cancelación de cliente).

### Cancelación general

In [70]:
cancelacion_gral = df_TELECOMX_norm['Cancelacion'].value_counts()
cancelacion_gral_porcentaje = round(df_TELECOMX_norm['Cancelacion'].value_counts(normalize=True)*100, 2)

tasa_cancelacion_gral = pd.concat([cancelacion_gral, cancelacion_gral_porcentaje], axis=1)
tasa_cancelacion_gral.columns = ['Fecuencia absoluta', 'Frecuencia relativa (%)']
display(tasa_cancelacion_gral)

Unnamed: 0_level_0,Fecuencia absoluta,Frecuencia relativa (%)
Cancelacion,Unnamed: 1_level_1,Unnamed: 2_level_1
0,5174,71.2
1,1869,25.72
-1,224,3.08


In [71]:
figura = px.histogram(df_TELECOMX_norm, x='Cancelacion', title='Histograma de Cancelación', nbins=3, text_auto=True,
                       color='Cancelacion', color_discrete_map= {0: 'aquamarine', 1: 'violet', -1: 'salmon'})
figura.update_layout(title=dict(text='Histograma de Cancelación', font=dict(size=20)))
figura.update_xaxes(tickmode='array', tickvals=[-1, 0, 1], ticktext=['Sin definir', 'Activos', 'Cancelaron'])

figura.for_each_trace(lambda t: t.update(name=t.name.replace('-1', 'Sin definir').replace('0', 'Activos').replace('1', 'Cancelaron')))
figura.show()

Podemos visualizar la cantidad de clientes con los que cuenta TelecomX. Ahora buscamos ver el porcentaje de cada campo.

In [72]:
# Obtener los conteos
cancelacion_cont = df_TELECOMX_norm['Cancelacion'].value_counts().reset_index()
cancelacion_cont.columns = ['Cancelacion', 'Count']

# Mapear valores numéricos
etiquetas = {-1: 'Sin definir', 0: 'Activos', 1: 'Cancelaron'}
cancelacion_cont['Cancelacion_Text'] = cancelacion_cont['Cancelacion'].map(etiquetas)

# Ordenar por valor
cancelacion_cont = cancelacion_cont.sort_values('Cancelacion')


fig = px.pie(cancelacion_cont,
             values='Count',
             names='Cancelacion_Text',
             title='Distribución de Cancelación (%)',
             color='Cancelacion_Text',
             color_discrete_map={'Sin definir': 'salmon', 'Activos': 'aquamarine', 'Cancelaron': 'violet'})

# Mostrar el gráfico
fig.show()

In [73]:
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots
def crear_analisis_cancelacion(datos_df):
    """
    Crea un análisis visual de cancelación con histograma y gráfico de pastel.

    Args:
        datos_df: DataFrame con columna 'Cancelacion' que contiene valores -1, 0, 1

    Returns:
        figura: Figura de Plotly con subplots
    """

    # Configuración de mapeo y colores
    ETIQUETAS_CANCELACION = {
        -1: 'Sin definir',
        0: 'Activos',
        1: 'Cancelaron'
    }

    COLORES = {
        'Sin definir': 'salmon',
        'Activos': 'aquamarine',
        'Cancelaron': 'violet'
    }

    # Preparar datos
    conteos_cancelacion = preparar_datos_cancelacion(datos_df, ETIQUETAS_CANCELACION)

    # Crear subplots
    figura = make_subplots(
        rows=1, cols=2,
        specs=[[{'type': 'bar'}, {'type': 'domain'}]],
        subplot_titles=('Histograma de Cancelación', 'Distribución General de Cancelación (%)')
    )

    # Añadir gráfico de barras
    agregar_grafico_barras(figura, conteos_cancelacion, COLORES)

    # Añadir gráfico de pastel
    agregar_grafico_pastel(figura, datos_df, ETIQUETAS_CANCELACION, COLORES)

    # Configurar layout
    configurar_diseno(figura)

    return figura

def preparar_datos_cancelacion(datos_df, mapa_etiquetas):
    """
    Prepara los datos de cancelación para visualización.

    Args:
        datos_df: DataFrame con datos de cancelación
        mapa_etiquetas: Diccionario para mapear valores numéricos a etiquetas

    Returns:
        DataFrame con conteos y etiquetas de texto
    """
    # Obtener conteos de cada categoría
    conteos = datos_df['Cancelacion'].value_counts().reset_index()
    conteos.columns = ['Cancelacion', 'Conteo']

    # Mapear valores a etiquetas de texto
    conteos['Texto_Cancelacion'] = conteos['Cancelacion'].map(mapa_etiquetas)

    # Ordenar por valor numérico para consistencia
    conteos = conteos.sort_values('Cancelacion')

    return conteos

def agregar_grafico_barras(figura, datos, colores):
    """
    Añade el gráfico de barras al subplot.

    Args:
        figura: Figura de Plotly
        datos: DataFrame con datos preparados
        colores: Diccionario con colores para cada categoría
    """
    for _, fila in datos.iterrows():
        figura.add_trace(
            go.Bar(
                x=[fila['Texto_Cancelacion']],
                y=[fila['Conteo']],
                text=[fila['Conteo']],
                textposition='auto',
                marker_color=colores[fila['Texto_Cancelacion']],
                name=fila['Texto_Cancelacion'],
                showlegend=True,
                legendgroup=fila['Texto_Cancelacion']
            ),
            row=1, col=1
        )

def agregar_grafico_pastel(figura, datos_df, mapa_etiquetas, colores):
    """
    Añade el gráfico de pastel al subplot.

    Args:
        figura: Figura de Plotly
        datos_df: DataFrame original
        mapa_etiquetas: Mapeo de valores a etiquetas
        colores: Diccionario con colores para cada categoría
    """
    # Calcular porcentajes
    porcentajes = datos_df['Cancelacion'].value_counts(normalize=True) * 100
    porcentajes_ordenados = porcentajes.sort_index()

    # Preparar datos para el gráfico de pastel
    etiquetas = [mapa_etiquetas[indice] for indice in porcentajes_ordenados.index]
    valores = porcentajes_ordenados.values.tolist()
    colores_pastel = [colores[mapa_etiquetas[indice]] for indice in porcentajes_ordenados.index]

    figura.add_trace(
        go.Pie(
            labels=etiquetas,
            values=valores,
            textinfo='percent+label',
            name='Cancelación General',
            marker=dict(colors=colores_pastel),
            showlegend=False,
            legendgroup='grafico_pastel'
        ),
        row=1, col=2
    )

def configurar_diseno(figura):
    """
    Configura el layout general de la figura.

    Args:
        figura: Figura de Plotly
    """
    figura.update_layout(
        height=400,
        showlegend=True,
        title=dict(
            text='Análisis de Cancelación',
            font=dict(size=18),
            x=0.5,
            xanchor='center'
        ),
        legend=dict(
            x=100,
            y=0.5,
            xanchor='center',
            yanchor='middle'
        )
    )

def exportar_grafico_html(figura, nombre_archivo=str):
    """
    Exporta la figura como archivo HTML.

    Args:
        figura: Figura de Plotly
        nombre_archivo: Nombre del archivo de salida
    """
    figura.write_html(nombre_archivo)
    print(f"Gráfico exportado como '{nombre_archivo}'")

# Crear el análisis de cancelación
figura_cancelacion = crear_analisis_cancelacion(df_TELECOMX_norm)

# Mostrar la figura
figura_cancelacion.show()

# Exportar como HTML (opcional)
exportar_grafico_html(figura_cancelacion, "analisis_cancelacion.html")

Gráfico exportado como 'analisis_cancelacion.html'


### Cancelación (Adultos mayores, Parejas, Dependientes, Factura)

In [74]:
freq_abs = df_TELECOMX_norm['Adulto_Mayor'].value_counts()
freq_rel = df_TELECOMX_norm['Adulto_Mayor'].value_counts(normalize=True) * 100
tasa_am = pd.concat([freq_abs, freq_rel], axis=1)
tasa_am.columns = ['Frecuencia Absoluta', 'Frecuencia Relativa (%)']
display(tasa_am)

Unnamed: 0_level_0,Frecuencia Absoluta,Frecuencia Relativa (%)
Adulto_Mayor,Unnamed: 1_level_1,Unnamed: 2_level_1
0,6085,83.734691
1,1182,16.265309


In [75]:
canc_am = df_TELECOMX_norm.groupby('Adulto_Mayor')['Cancelacion'].value_counts()
canc_am_pct = df_TELECOMX_norm.groupby('Adulto_Mayor')['Cancelacion'].value_counts(normalize=True) * 100
tasa_canc_am = pd.concat([canc_am, canc_am_pct], axis=1)
tasa_canc_am.columns = ['Frecuencia Absoluta', 'Frecuencia Relativa (%)']
display(tasa_canc_am)

Unnamed: 0_level_0,Unnamed: 1_level_0,Frecuencia Absoluta,Frecuencia Relativa (%)
Adulto_Mayor,Cancelacion,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,4508,74.083813
0,1,1393,22.892358
0,-1,184,3.023829
1,0,666,56.345178
1,1,476,40.270728
1,-1,40,3.384095


In [76]:
def crear_grafico_cancelacion_categorica(df, col_cat):
    """
    Crea gráfico con histograma y pasteles de cancelación por categoría.

    Args:
        df: DataFrame con datos
        col_cat: Columna categórica a analizar

    Returns:
        Figura de Plotly
    """
    if col_cat not in df.columns:
        print(f"Error: Columna '{col_cat}' no existe")
        return None

    # Configuración
    mapa_canc = {-1: 'Sin definir', 0: 'Activos', 1: 'Cancelaron'}
    colores = {'Activos': 'aquamarine', 'Cancelaron': 'violet', 'Sin definir': 'salmon'}

    # Datos para histograma
    conteos = df.groupby([col_cat, 'Cancelacion']).size().reset_index(name='Count')
    conteos['Canc_Text'] = conteos['Cancelacion'].map(mapa_canc)

    # Datos para pasteles
    pct_cat = df.groupby(col_cat)['Cancelacion'].value_counts(normalize=True) * 100
    cats = [cat for cat in df[col_cat].unique() if pd.notna(cat)]

    # Crear subplots
    titulos = [
        f'Cancelación por {col_cat}',
        f'Cancelación en {cats[0]} (%)' if len(cats) > 0 else '',
        f'Cancelación en {cats[1]} (%)' if len(cats) > 1 else ''
    ]

    specs = [[{'type':'bar'}, {'type':'domain'}, {'type':'domain'}]]
    if len(cats) < 2:
        specs = [[{'type':'bar'}, {'type':'domain'}, {}]]

    fig = make_subplots(rows=1, cols=3, specs=specs, subplot_titles=titulos)

    # Agregar barras agrupadas
    for status, texto in mapa_canc.items():
        subset = conteos[conteos['Cancelacion'] == status]
        if not subset.empty:
            subset = subset.set_index(col_cat).reindex(cats).reset_index()
            fig.add_trace(go.Bar(
                x=subset[col_cat],
                y=subset['Count'],
                name=texto,
                text=subset['Count'],
                textposition='auto',
                marker_color=colores[texto]
            ), row=1, col=1)

    # Agregar pasteles
    if len(cats) >= 1:
        data1 = pct_cat.loc[cats[0]].sort_index()
        labels1 = data1.index.map(mapa_canc).tolist()
        values1 = data1.values.tolist()
        colors1 = [colores.get(mapa_canc.get(i), 'gray') for i in data1.index]

        fig.add_trace(go.Pie(
            labels=labels1,
            values=values1,
            textinfo='percent+label',
            name=f'Cancelación {cats[0]}',
            marker=dict(colors=colors1),
            showlegend=False
        ), row=1, col=2)

    if len(cats) >= 2:
        data2 = pct_cat.loc[cats[1]].sort_index()
        labels2 = data2.index.map(mapa_canc).tolist()
        values2 = data2.values.tolist()
        colors2 = [colores.get(mapa_canc.get(i), 'gray') for i in data2.index]

        fig.add_trace(go.Pie(
            labels=labels2,
            values=values2,
            textinfo='percent+label',
            name=f'Cancelación {cats[1]}',
            marker=dict(colors=colors2),
            showlegend=False
        ), row=1, col=3)

    # Layout
    fig.update_layout(
        height=400,
        showlegend=True,
        title=dict(
            text=f'Análisis de Cancelación por {col_cat}',
            font=dict(size=18),
            x=0.5,
            xanchor='center'
        ),
        barmode='group'
    )

    fig.update_xaxes(title_text=col_cat, row=1, col=1)
    fig.update_yaxes(title_text='Conteo de Clientes', row=1, col=1)

    return fig


# Uso
fig_am = crear_grafico_cancelacion_categorica(df_TELECOMX_norm, 'Adulto_Mayor')
if fig_am:
    fig_am.show()
    exportar_grafico_html(fig_am, "analisis_cancelacion_adultos_mayores.html")

fig_gen = crear_grafico_cancelacion_categorica(df_TELECOMX_norm, 'Genero')
if fig_gen:
    fig_gen.show()
    exportar_grafico_html(fig_gen, "analisis_cancelacion_genero.html")

Gráfico exportado como 'analisis_cancelacion_adultos_mayores.html'


Gráfico exportado como 'analisis_cancelacion_genero.html'


In [77]:
cols = ['Adulto_Mayor', 'Tiene_Pareja', 'Tiene_Dependientes', 'Factura_Electronica']

for col in cols:
    fig = crear_grafico_cancelacion_categorica(df_TELECOMX_norm, col)
    if fig:
        fig.show()

if fig:
    fig.write_html("analisis_vint.html")
    print("Gráfico exportado como analisis_vint.html")

Gráfico exportado como analisis_vint.html


#### Graficas con variables binarias


In [78]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configuración inicial
cols_binarias = ['Adulto_Mayor', 'Tiene_Pareja', 'Tiene_Dependientes', 'Factura_Electronica']
mapa_cancelacion = {-1: 'Sin definir', 0: 'Activos', 1: 'Cancelaron'}
colores = {'Activos': 'aquamarine', 'Cancelaron': 'violet', 'Sin definir': 'salmon'}

def calcular_conteos_cancelacion(df, columnas):
    """Calcula conteos de cancelación para cada columna binaria"""
    conteos_por_col = {}

    for col in columnas:
        # Agrupar por columna binaria y cancelación
        conteos = df.groupby([col, 'Cancelacion']).size().reset_index(name='Conteo')
        conteos['Estado_Cancelacion'] = conteos['Cancelacion'].map(mapa_cancelacion)
        conteos_por_col[col] = conteos

    return conteos_por_col

def crear_grafico_binarias(conteos_data):
    """Crea gráfico de subplots para variables binarias"""

    # Configurar subplots
    titulos_subplots = ['Adulto Mayor', 'Tiene Pareja', 'Tiene Dependientes', 'Factura Electrónica']
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=titulos_subplots
    )

    # Posiciones de subplots
    posiciones = [(1, 1), (1, 2), (2, 1), (2, 2)]
    estados_orden = ['Activos', 'Cancelaron', 'Sin definir']

    # Agregar trazas para cada columna
    for i, col in enumerate(cols_binarias):
        datos_col = conteos_data[col]
        fila, col_pos = posiciones[i]

        for estado in estados_orden:
            color = colores.get(estado, 'salmon')
            subset = datos_col[datos_col['Estado_Cancelacion'] == estado]

            if not subset.empty:
                fig.add_trace(
                    go.Bar(
                        x=subset[col],
                        y=subset['Conteo'],
                        name=estado,
                        text=subset['Conteo'],
                        textposition='auto',
                        marker_color=color,
                        showlegend=(i == 0)  # Solo mostrar leyenda en primer subplot
                    ),
                    row=fila, col=col_pos
                )

    return fig

def configurar_ejes(fig):
    """Configura etiquetas y rangos de los ejes"""

    # Mapeo de etiquetas para eje X
    etiquetas_x = {
        'Adulto_Mayor': ['No Adulto Mayor', 'Adulto Mayor'],
        'Tiene_Pareja': ['No Pareja', 'Tiene Pareja'],
        'Tiene_Dependientes': ['No Dependientes', 'Tiene Dependientes'],
        'Factura_Electronica': ['Factura Física', 'Factura Electrónica']
    }

    posiciones = [(1, 1), (1, 2), (2, 1), (2, 2)]

    for i, col in enumerate(cols_binarias):
        fila, col_pos = posiciones[i]

        # Configurar etiquetas X
        fig.update_xaxes(
            tickmode='array',
            tickvals=[0, 1],
            ticktext=etiquetas_x[col],
            row=fila, col=col_pos
        )

        # Configurar rango Y uniforme
        fig.update_yaxes(range=[0, 5000], row=fila, col=col_pos)

# Ejecución del análisis
# Calcular conteos de cancelación
conteos_cancelacion = calcular_conteos_cancelacion(df_TELECOMX_norm, cols_binarias)

# Crear gráfico
fig = crear_grafico_binarias(conteos_cancelacion)

# Configurar layout
fig.update_layout(
    height=800,
    width=1000,
    title=dict(
        text='Análisis de Cancelación por Variables Binarias',
        font=dict(size=20),
        x=0.5,
        xanchor='center'
    ),
    barmode='group'
)

# Configurar ejes
configurar_ejes(fig)

# Mostrar y exportar
fig.show()
exportar_grafico_html(fig, "analisis_cancelacion_binarias.html")

Gráfico exportado como 'analisis_cancelacion_binarias.html'


### Cancelacion en suscripciones

In [79]:
# Configuración inicial
cols_suscripciones = [
    'Servicio_Telefono',
    'Multiples_Lineas',
    'Seguridad_En_Linea',
    'Respaldo_En_Linea',
    'Proteccion_Dispositivo',
    'Soporte_Técnico',
    'TV_Streaming',
    'Películas_Streaming'
]

mapa_cancelacion = {-1: 'Sin definir', 0: 'Activos', 1: 'Cancelaron'}
colores = {'Activos': 'aquamarine', 'Cancelaron': 'violet', 'Sin definir': 'salmon'}

def crear_grafico_cancelacion_categorica(df, columna):
    """
    Crea gráfico de barras para análisis de cancelación por variable categórica
    """
    # Calcular conteos
    conteos = df.groupby([columna, 'Cancelacion']).size().reset_index(name='Conteo')
    conteos['Estado_Cancelacion'] = conteos['Cancelacion'].map(mapa_cancelacion)

    # Obtener valores únicos de la columna para el orden
    valores_unicos = sorted(df[columna].unique())

    # Crear gráfico
    fig = go.Figure()

    # Agregar barras por cada estado de cancelación
    for estado in ['Activos', 'Cancelaron', 'Sin definir']:
        datos_estado = conteos[conteos['Estado_Cancelacion'] == estado]

        if not datos_estado.empty:
            fig.add_trace(go.Bar(
                x=datos_estado[columna],
                y=datos_estado['Conteo'],
                name=estado,
                text=datos_estado['Conteo'],
                textposition='auto',
                marker_color=colores[estado]
            ))

    # Configurar layout
    titulo_limpio = columna.replace('Suscripcion_', '').replace('_', ' ')
    fig.update_layout(
        title=dict(
            text=f'Análisis de Cancelación - {titulo_limpio}',
            font=dict(size=16),
            x=0.5,
            xanchor='center'
        ),
        xaxis_title=titulo_limpio,
        yaxis_title='Cantidad de Clientes',
        barmode='group',
        height=500,
        width=800,
        showlegend=True
    )

    return fig

def procesar_todas_suscripciones(df, columnas):
    """
    Procesa todas las columnas de suscripción y genera gráficos
    """
    graficos_generados = []

    for col in columnas:
        print(f"Procesando: {col}")

        # Crear gráfico
        fig = crear_grafico_cancelacion_categorica(df, col)

        if fig:
            # Mostrar gráfico
            fig.show()

            # Exportar a HTML
            nombre_archivo = f"analisis_cancelacion_{col}.html"
            fig.write_html(nombre_archivo)
            print(f"Gráfico exportado como '{nombre_archivo}'")

            graficos_generados.append({
                'columna': col,
                'figura': fig,
                'archivo': nombre_archivo
            })

        print("-" * 50)

    return graficos_generados

def crear_grafico_resumen(df, columnas):
    """
    Crea un gráfico resumen con todas las suscripciones en subplots
    """
    num_cols = len(columnas)
    filas = (num_cols + 1) // 2  # Calcular filas necesarias para 2 columnas

    # Crear títulos para subplots
    titulos = [col.replace('Suscripcion_', '').replace('_', ' ') for col in columnas]

    fig = make_subplots(
        rows=filas,
        cols=2,
        subplot_titles=titulos,
        vertical_spacing=0.1,
        horizontal_spacing=0.1
    )

    for i, col in enumerate(columnas):
        fila = (i // 2) + 1
        col_pos = (i % 2) + 1

        # Calcular conteos
        conteos = df.groupby([col, 'Cancelacion']).size().reset_index(name='Conteo')
        conteos['Estado_Cancelacion'] = conteos['Cancelacion'].map(mapa_cancelacion)

        # Agregar barras por cada estado
        for estado in ['Activos', 'Cancelaron', 'Sin definir']:
            datos_estado = conteos[conteos['Estado_Cancelacion'] == estado]

            if not datos_estado.empty:
                fig.add_trace(
                    go.Bar(
                        x=datos_estado[col],
                        y=datos_estado['Conteo'],
                        name=estado,
                        text=datos_estado['Conteo'],
                        textposition='auto',
                        marker_color=colores[estado],
                        showlegend=(i == 0)  # Solo mostrar leyenda en primer subplot
                    ),
                    row=fila, col=col_pos
                )

    # Configurar layout
    fig.update_layout(
        title=dict(
            text='Resumen: Análisis de Cancelación por Suscripciones',
            font=dict(size=20),
            x=0.5,
            xanchor='center'
        ),
        height=300 * filas,
        width=1200,
        barmode='group'
    )

    return fig

# Ejecución del análisis
print("Iniciando análisis de cancelación por suscripciones...")
print("=" * 60)

# Generar gráficos individuales
graficos_individuales = procesar_todas_suscripciones(df_TELECOMX_norm, cols_suscripciones)

# Crear gráfico resumen
print("\nCreando gráfico resumen...")
fig_resumen = crear_grafico_resumen(df_TELECOMX_norm, cols_suscripciones)
fig_resumen.show()
fig_resumen.write_html("resumen_cancelacion_suscripciones.html")
print("Gráfico resumen exportado como 'resumen_cancelacion_suscripciones.html'")

print(f"\nAnálisis completado. Se generaron {len(graficos_individuales)} gráficos individuales + 1 resumen.")

Iniciando análisis de cancelación por suscripciones...
Procesando: Servicio_Telefono


Gráfico exportado como 'analisis_cancelacion_Servicio_Telefono.html'
--------------------------------------------------
Procesando: Multiples_Lineas


Gráfico exportado como 'analisis_cancelacion_Multiples_Lineas.html'
--------------------------------------------------
Procesando: Seguridad_En_Linea


Gráfico exportado como 'analisis_cancelacion_Seguridad_En_Linea.html'
--------------------------------------------------
Procesando: Respaldo_En_Linea


Gráfico exportado como 'analisis_cancelacion_Respaldo_En_Linea.html'
--------------------------------------------------
Procesando: Proteccion_Dispositivo


Gráfico exportado como 'analisis_cancelacion_Proteccion_Dispositivo.html'
--------------------------------------------------
Procesando: Soporte_Técnico


Gráfico exportado como 'analisis_cancelacion_Soporte_Técnico.html'
--------------------------------------------------
Procesando: TV_Streaming


Gráfico exportado como 'analisis_cancelacion_TV_Streaming.html'
--------------------------------------------------
Procesando: Películas_Streaming


Gráfico exportado como 'analisis_cancelacion_Películas_Streaming.html'
--------------------------------------------------

Creando gráfico resumen...


Gráfico resumen exportado como 'resumen_cancelacion_suscripciones.html'

Análisis completado. Se generaron 8 gráficos individuales + 1 resumen.


### Conteo de clientes por cancelacion y servicio


In [80]:
# Configuración inicial
cols_suscripciones = [
    'Servicio_Telefono',
    'Multiples_Lineas',
    'Seguridad_En_Linea',
    'Respaldo_En_Linea',
    'Proteccion_Dispositivo',
    'Soporte_Técnico',
    'TV_Streaming',
    'Películas_Streaming'
]

mapa_cancelacion = {-1: 'Sin definir', 0: 'Activos', 1: 'Cancelaron'}

mapa_nombres_servicios = {
    'Servicio_Telefono': 'Servicio Telefono',
    'Multiples_Lineas': 'Multiples Lineas',
    'Seguridad_En_Linea': 'Seguridad En Linea',
    'Respaldo_En_Linea': 'Respaldo En Linea',
    'Proteccion_Dispositivo': 'Proteccion Dispositivo',
    'Soporte_Técnico': 'Soporte Técnico',
    'TV_Streaming': 'TV Streaming',
    'Películas_Streaming': 'Películas Streaming'
}

colores_estados = {'Activos': 'aquamarine', 'Cancelaron': 'violet', 'Sin definir': 'salmon'}

def calcular_conteos_suscritos(df, columnas):
    """
    Calcula conteos de cancelación solo para clientes suscritos (valor = 1)
    """
    conteos_servicios = []

    for col in columnas:
        # Filtrar solo clientes suscritos al servicio
        suscritos = df[df[col] == 1].copy()

        # Contar cancelaciones para este subconjunto
        conteos = suscritos['Cancelacion'].value_counts().reset_index(name='Conteo')
        conteos.columns = ['Cancelacion', 'Conteo']

        # Agregar información del servicio
        conteos['Servicio'] = col
        conteos['Categoria_Servicio'] = 'Si'

        conteos_servicios.append(conteos)

    return conteos_servicios

def consolidar_datos(conteos_lista):
    """
    Consolida los datos de todos los servicios en un DataFrame único
    """
    # Concatenar todos los conteos
    datos_consolidados = pd.concat(conteos_lista, ignore_index=True)

    # Mapear estados de cancelación a texto
    datos_consolidados['Estado_Cancelacion'] = datos_consolidados['Cancelacion'].map(mapa_cancelacion)

    # Mapear nombres de servicios a etiquetas legibles
    datos_consolidados['Nombre_Servicio'] = datos_consolidados['Servicio'].map(mapa_nombres_servicios)

    return datos_consolidados

def obtener_orden_servicios(datos_consolidados):
    """
    Ordena los servicios por cantidad de clientes activos (mayor a menor)
    """
    # Contar clientes activos por servicio
    activos = datos_consolidados[datos_consolidados['Estado_Cancelacion'] == 'Activos']
    conteos_activos = activos.groupby('Nombre_Servicio')['Conteo'].sum().reset_index()

    # Ordenar por conteo descendente
    activos_ordenados = conteos_activos.sort_values('Conteo', ascending=False)

    return activos_ordenados['Nombre_Servicio'].tolist()

def crear_grafico_suscritos(datos_consolidados, orden_servicios):
    """
    Crea gráfico de barras agrupadas para clientes suscritos
    """
    fig = px.bar(
        datos_consolidados,
        x='Nombre_Servicio',
        y='Conteo',
        color='Estado_Cancelacion',
        barmode='group',
        title='Conteo de Clientes Suscritos por Servicio y Estado de Cancelación',
        labels={
            'Nombre_Servicio': 'Servicio de Suscripción',
            'Conteo': 'Conteo de Clientes',
            'Estado_Cancelacion': 'Estado de Cancelación'
        },
        category_orders={
            'Estado_Cancelacion': ['Activos', 'Cancelaron', 'Sin definir'],
            'Nombre_Servicio': orden_servicios
        },
        color_discrete_map=colores_estados,
        text='Conteo'
    )

    # Configurar layout
    fig.update_layout(
        legend_title='Estado de Cancelación',
        yaxis_title='Conteo de Clientes Suscritos',
        height=600,
        width=1000
    )

    # Mejorar posición del texto en barras
    fig.update_traces(textposition='auto')

    return fig

def mostrar_estadisticas(datos_consolidados):
    """
    Muestra estadísticas resumidas del análisis
    """
    print("=" * 60)
    print("ESTADÍSTICAS DEL ANÁLISIS")
    print("=" * 60)

    # Total de clientes suscritos por estado
    total_por_estado = datos_consolidados.groupby('Estado_Cancelacion')['Conteo'].sum()
    print("\nTotal de clientes suscritos por estado:")
    for estado, cantidad in total_por_estado.items():
        print(f"  {estado}: {cantidad:,}")

    # Servicio con más clientes activos
    activos = datos_consolidados[datos_consolidados['Estado_Cancelacion'] == 'Activos']
    servicio_top = activos.loc[activos['Conteo'].idxmax()]
    print(f"\nServicio con más clientes activos: {servicio_top['Nombre_Servicio']} ({servicio_top['Conteo']:,})")

    # Servicio con más bajas
    bajas = datos_consolidados[datos_consolidados['Estado_Cancelacion'] == 'De Baja']
    if not bajas.empty:
        servicio_bajas = bajas.loc[bajas['Conteo'].idxmax()]
        print(f"Servicio con más bajas: {servicio_bajas['Nombre_Servicio']} ({servicio_bajas['Conteo']:,})")

    print("=" * 60)

# Ejecución del análisis
print("Iniciando análisis de clientes suscritos...")

# Calcular conteos para clientes suscritos
conteos_suscritos = calcular_conteos_suscritos(df_TELECOMX_norm, cols_suscripciones)

# Consolidar datos
datos_consolidados = consolidar_datos(conteos_suscritos)

# Obtener orden de servicios por clientes activos
orden_servicios = obtener_orden_servicios(datos_consolidados)

# Crear gráfico
fig = crear_grafico_suscritos(datos_consolidados, orden_servicios)

# Mostrar estadísticas
mostrar_estadisticas(datos_consolidados)

# Mostrar gráfico
fig.show()

# Exportar gráfico
fig.write_html("analisis_suscritos_cancelacion.html")
print("\nGráfico exportado como 'analisis_suscritos_cancelacion.html'")

print("\nAnálisis completado exitosamente.")

Iniciando análisis de clientes suscritos...
ESTADÍSTICAS DEL ANÁLISIS

Total de clientes suscritos por estado:
  Activos: 17,831
  Cancelaron: 5,854
  Sin definir: 723

Servicio con más clientes activos: Servicio Telefono (4,662)



Gráfico exportado como 'analisis_suscritos_cancelacion.html'

Análisis completado exitosamente.


### Distribución de cancelación categorica

In [81]:
# Calcular frecuencias
cancelacion_por_genero = df_TELECOMX_norm.groupby('Genero')['Cancelacion'].value_counts()
cancelacion_por_genero_percentaje = df_TELECOMX_norm.groupby('Genero')['Cancelacion'].value_counts(normalize=True) * 100

# Renombrar columnas
cancelacion_por_genero.columns = ['No Cancelaron', 'Cancelaron', 'Cancelacion Desconocida']
cancelacion_por_genero_percentaje.columns = ['No Cancelacion (%)', 'Cancelacion (%)', 'Cancelacion Desconocida (%)']

# Combinar frecuencias
cancelacion_por_genero_resumen = pd.concat([cancelacion_por_genero, cancelacion_por_genero_percentaje], axis=1)

display(cancelacion_por_genero_resumen)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,proportion
Genero,Cancelacion,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,0,2549,70.963252
Female,1,939,26.141425
Female,-1,104,2.895323
Male,0,2625,71.428571
Male,1,930,25.306122
Male,-1,120,3.265306


In [82]:
# Configuración colores
colores_cancelacion = {
    0: 'aquamarine',    # No cancelaron
    1: 'violet',     # Cancelaron
    -1: 'salmon'    # Sin definir
}

# Etiquetas eje X
etiquetas_genero = ['Mujeres', 'Hombres']
valores_genero = [ 0, 1]

# Crear el histograma
figura_histograma = px.histogram(
    df_TELECOMX_norm,
    x='Genero',
    text_auto=True,
    color='Cancelacion',
    barmode='group',
    title='Histograma Cancelación por Género',
    color_discrete_map=colores_cancelacion
)

# Configurar formato
figura_histograma.update_layout(
    title=dict(
        text='Histograma Cancelación por Género',
        font=dict(size=18)
    ),
    showlegend=True  # leyenda
)

# Configurar etiquetas
figura_histograma.update_xaxes(
    tickmode='array',
    tickvals=valores_genero,
    ticktext=etiquetas_genero
)

# Actualizar leyenda
figura_histograma.for_each_trace(
    lambda trazo: trazo.update(
        name=trazo.name.replace('-1', 'Sin definir').replace('0', 'No Cancelaron').replace('1', 'Cancelaron')

    )
)

# Mostrar la gráfica
figura_histograma.show()

In [83]:
def crear_grafico_cancelacion_categorica(df, col_cat):
    """
    Crea gráfico con histograma y pasteles de cancelación por categoría.

    Args:
        df: DataFrame con datos
        col_cat: Columna categórica a analizar

    Returns:
        Figura de Plotly
    """
    if col_cat not in df.columns:
        print(f"Error: Columna '{col_cat}' no existe")
        return None

    # Configuración
    mapa_canc = {-1: 'Sin definir', 0: 'Activos', 1: 'Cancelaron'}
    colores = {'Activos': 'aquamarine', 'Cancelaron': 'violet', 'Sin definir': 'salmon'}

    # Datos para histograma
    conteos = df.groupby([col_cat, 'Cancelacion']).size().reset_index(name='Count')
    conteos['Canc_Text'] = conteos['Cancelacion'].map(mapa_canc)

    # Datos para pasteles
    pct_cat = df.groupby(col_cat)['Cancelacion'].value_counts(normalize=True) * 100
    cats = [cat for cat in df[col_cat].unique() if pd.notna(cat)]

    # Crear subplots
    titulos = [
        f'Cancelación por {col_cat}',
        f'Cancelación en {cats[0]} (%)' if len(cats) > 0 else '',
        f'Cancelación en {cats[1]} (%)' if len(cats) > 1 else ''
    ]

    specs = [[{'type':'bar'}, {'type':'domain'}, {'type':'domain'}]]
    if len(cats) < 2:
        specs = [[{'type':'bar'}, {'type':'domain'}, {}]]

    fig = make_subplots(rows=1, cols=3, specs=specs, subplot_titles=titulos)

    # Agregar barras agrupadas
    for status, texto in mapa_canc.items():
        subset = conteos[conteos['Cancelacion'] == status]
        if not subset.empty:
            subset = subset.set_index(col_cat).reindex(cats).reset_index()
            fig.add_trace(go.Bar(
                x=subset[col_cat],
                y=subset['Count'],
                name=texto,
                text=subset['Count'],
                textposition='auto',
                marker_color=colores[texto]
            ), row=1, col=1)

    # Agregar pasteles
    if len(cats) >= 1:
        data1 = pct_cat.loc[cats[0]].sort_index()
        labels1 = data1.index.map(mapa_canc).tolist()
        values1 = data1.values.tolist()
        colors1 = [colores.get(mapa_canc.get(i), 'gray') for i in data1.index]

        fig.add_trace(go.Pie(
            labels=labels1,
            values=values1,
            textinfo='percent+label',
            name=f'Cancelación {cats[0]}',
            marker=dict(colors=colors1),
            showlegend=False
        ), row=1, col=2)

    if len(cats) >= 2:
        data2 = pct_cat.loc[cats[1]].sort_index()
        labels2 = data2.index.map(mapa_canc).tolist()
        values2 = data2.values.tolist()
        colors2 = [colores.get(mapa_canc.get(i), 'gray') for i in data2.index]

        fig.add_trace(go.Pie(
            labels=labels2,
            values=values2,
            textinfo='percent+label',
            name=f'Cancelación {cats[1]}',
            marker=dict(colors=colors2),
            showlegend=False
        ), row=1, col=3)

    # Layout
    fig.update_layout(
        height=400,
        showlegend=True,
        title=dict(
            text=f'Análisis de Cancelación por {col_cat}',
            font=dict(size=18),
            x=0.5,
            xanchor='center'
        ),
        barmode='group'
    )

    fig.update_xaxes(title_text=col_cat, row=1, col=1)
    fig.update_yaxes(title_text='Conteo de Clientes', row=1, col=1)

    return fig

# Análisis por género
print("=== Análisis por Género ===")
figura_genero = crear_grafico_cancelacion_categorica(df_TELECOMX_norm, 'Genero')
if figura_genero:
    figura_genero.show()

# Análisis por suscripción de servicio de internet
print("=== Análisis por Suscripción de Servicio de Internet ===")
figura_internet = crear_grafico_cancelacion_categorica(df_TELECOMX_norm, 'Servicio_Internet')
if figura_internet:
    figura_internet.show()

# Análisis por tipo de contrato
print("=== Análisis por Tipo de Contrato ===")
figura_contrato = crear_grafico_cancelacion_categorica(df_TELECOMX_norm, 'Tipo_Contrato')
if figura_contrato:
    figura_contrato.show()

# Análisis por método de pago
print("=== Análisis por Método de Pago ===")
figura_pago = crear_grafico_cancelacion_categorica(df_TELECOMX_norm, 'Metodo_Pago')
if figura_pago:
    figura_pago.show()

=== Análisis por Género ===


=== Análisis por Suscripción de Servicio de Internet ===


=== Análisis por Tipo de Contrato ===


=== Análisis por Método de Pago ===


In [84]:
# Configuración columnas
columnas_categoricas = ['Genero', 'Servicio_Internet', 'Tipo_Contrato', 'Metodo_Pago']

# Mapeo valores
mapeo_cancelacion = {
    -1: 'Sin definir',
    0: 'Activos',
    1: 'Cancelaron'
}

# Configuración colores
colores_estados = {
    'Activos': 'aquamarine',
    'Cancelaron': 'violet',
    'Sin definir': 'salmon'
}

# Orden
orden_estados_cancelacion = ['Activos', 'Cancelaron', 'Sin definir']

# Títulos descriptivos para cada subplot
titulos_subplots = ['Género', 'Servicio de Internet', 'Tipo de Contrato', 'Método de Pago']

# Títulos para los ejes X de cada subplot
titulos_ejes_x = {
    'Genero': 'Género',
    'Servicio_Internet': 'Servicio de Internet',
    'Tipo_Contrato': 'Tipo de Contrato',
    'Metodo_Pago': 'Método de Pago'
}

# Diccionario
conteos_por_columna_categorica = {}

# Calcular conteos
for columna_actual in columnas_categoricas:
    # Agrupar
    conteos_columna = df_TELECOMX_norm.groupby([columna_actual, 'Cancelacion']).size().reset_index(name='Conteo')

    # Mapear valores
    conteos_columna['Estado_Cancelacion'] = conteos_columna['Cancelacion'].map(mapeo_cancelacion)

    # Almacenar
    conteos_por_columna_categorica[columna_actual] = conteos_columna

# Crear figura
figura_subplots_categoricos = make_subplots(
    rows=2,
    cols=2,
    subplot_titles=titulos_subplots
)

# Posiciones
posiciones_subplots = [(1, 1), (1, 2), (2, 1), (2, 2)]

# Agregar trazas
for indice, columna_actual in enumerate(columnas_categoricas):
    # Obtener DataFrame
    dataframe_conteos = conteos_por_columna_categorica[columna_actual]
    fila, posicion_columna = posiciones_subplots[indice]

    # Agregar barras
    for estado_actual in orden_estados_cancelacion:
        color_estado = colores_estados.get(estado_actual, 'gray')

        # Filtrar datos
        subset_datos = dataframe_conteos[dataframe_conteos['Estado_Cancelacion'] == estado_actual]

        if not subset_datos.empty:
            figura_subplots_categoricos.add_trace(
                go.Bar(
                    x=subset_datos[columna_actual],
                    y=subset_datos['Conteo'],
                    name=estado_actual,
                    text=subset_datos['Conteo'],
                    textposition='auto',
                    marker_color=color_estado,
                    showlegend=(indice == 0)  # Mostrar leyenda solo en el primer subplot
                ),
                row=fila,
                col=posicion_columna
            )

# Configurar layout general de la figura
figura_subplots_categoricos.update_layout(
    height=800,
    width=1000,
    title=dict(
        text='Análisis de Cancelación por Variables Categóricas',
        font=dict(size=20),
        x=0.5,
        xanchor='center'
    ),
    barmode='group'  # Mostrar barras lado a lado
)

# Actualizar títulos
for indice, columna_actual in enumerate(columnas_categoricas):
    fila, posicion_columna = posiciones_subplots[indice]

    # Configurar título
    titulo_eje_x = titulos_ejes_x.get(columna_actual, columna_actual)
    figura_subplots_categoricos.update_xaxes(
        title_text=titulo_eje_x,
        row=fila,
        col=posicion_columna
    )

    # Configurar límites del eje Y
    figura_subplots_categoricos.update_yaxes(
        range=[0, 3000],
        row=fila,
        col=posicion_columna
    )

# Mostrar la figura
figura_subplots_categoricos.show()

# Exportar la figura como archivo HTML
nombre_archivo_exportacion = "analisis_cancelacion_vcategoricas.html"
figura_subplots_categoricos.write_html(nombre_archivo_exportacion)
print(f"Gráfico exportado como '{nombre_archivo_exportacion}'")

Gráfico exportado como 'analisis_cancelacion_vcategoricas.html'


### Conteo de cancelacion numerica

In [85]:
def graficar_boxplot_vs_cancelacion(dataframe, columna_numerica, columna_cancelacion='Cancelacion'):
    """
    Genera un gráfico de caja de una columna numérica vs. estado de cancelación.

    Args:
        dataframe (pd.DataFrame): DataFrame de entrada con los datos.
        columna_numerica (str): Nombre de la columna numérica para el eje Y.
        columna_cancelacion (str): Nombre de la columna de cancelación (por defecto 'Cancelacion').

    Returns:
        go.Figure or None: Objeto figura de Plotly si es exitoso, None si hay un error.
    """

    # Validar si las columnas existen en el DataFrame
    if columna_numerica not in dataframe.columns:
        print(f"Error: La columna '{columna_numerica}' no existe en el DataFrame.")
        return None

    if columna_cancelacion not in dataframe.columns:
        print(f"Error: La columna de cancelación '{columna_cancelacion}' no existe en el DataFrame.")
        return None

    # Mapeo de valores numéricos a etiquetas descriptivas
    mapeo_estados_cancelacion = {
        -1: 'Sin definir',
        0: 'Activos',
        1: 'Cancelaron'
    }

    # Configuración de colores para cada estado
    colores_estados_cancelacion = {
        'Activos': 'aquamarine',
        'Cancelaron': 'violet',
        'Sin definir': 'salmon'
    }

    # Orden deseado para mostrar los estados
    orden_estados_cancelacion = ['Activos', 'Cancelaron', 'Sin definir']

    # Crear nombre de columna temporal para las etiquetas de texto
    nombre_columna_texto = f'{columna_cancelacion}_Text'

    # Crear serie temporal con las etiquetas de texto
    if nombre_columna_texto not in dataframe.columns:
        serie_estados_texto = dataframe[columna_cancelacion].map(mapeo_estados_cancelacion)
    else:
        serie_estados_texto = dataframe[nombre_columna_texto]

    # Crear título dinámico basado en la columna numérica
    titulo_grafica = f'Distribución de {columna_numerica.replace("_", " ")} por Estado de Cancelación'

    # Generar el gráfico de caja usando plotly.express
    figura_boxplot = px.box(
        dataframe,
        x=serie_estados_texto,
        y=columna_numerica,
        color=serie_estados_texto,
        category_orders={'x': orden_estados_cancelacion},
        color_discrete_map=colores_estados_cancelacion,
        title=titulo_grafica
    )

    # Configurar layout de la gráfica
    figura_boxplot.update_layout(
        xaxis_title='Estado de Cancelación',
        yaxis_title=columna_numerica.replace("_", " "),
        legend_title='Estado de Cancelación',
        showlegend=True  # Asegurar que se muestre una sola leyenda
    )

    return figura_boxplot

In [86]:
# Análisis de meses de contrato
print("=== Análisis: Meses de Contrato ===")
figura_meses_contrato = graficar_boxplot_vs_cancelacion(df_TELECOMX_norm, 'Meses_Contrato')
if figura_meses_contrato:
    figura_meses_contrato.show()

# Análisis de factura mensual
print("=== Análisis: Factura Mensual ===")
figura_factura_mensual = graficar_boxplot_vs_cancelacion(df_TELECOMX_norm, 'Factura_Mensual')
if figura_factura_mensual:
    figura_factura_mensual.show()

# Análisis de cargos totales
print("=== Análisis: Cargos Totales ===")
figura_cargos_totales = graficar_boxplot_vs_cancelacion(df_TELECOMX_norm, 'Cargos_Totales')
if figura_cargos_totales:
    figura_cargos_totales.show()

# Análisis de cuentas diarias
print("=== Análisis: Cuentas Diarias ===")
figura_cuentas_diarias = graficar_boxplot_vs_cancelacion(df_TELECOMX_norm, 'Cargos_Diarios')
if figura_cuentas_diarias:
    figura_cuentas_diarias.show()


=== Análisis: Meses de Contrato ===


=== Análisis: Factura Mensual ===


=== Análisis: Cargos Totales ===


=== Análisis: Cuentas Diarias ===


In [87]:
def analizar_variable_numerica_vs_cancelacion(dataframe, columna_numerica):
    """
    Genera un gráfico con dos subplots usando Plotly:
    1. Boxplot de una columna numérica vs. cancelación
    2. Gráfico de líneas mostrando el conteo de cada estado de cancelación
       a lo largo de los valores de la columna numérica.

    Args:
        dataframe (pd.DataFrame): DataFrame de entrada con los datos de clientes.
        columna_numerica (str): Nombre de la columna numérica a analizar.
    """

    # Validar
    if columna_numerica not in dataframe.columns:
        print(f"Error: La columna '{columna_numerica}' no existe en el DataFrame.")
        return

    # Mapeo
    mapeo_estados_cancelacion = {
        -1: 'Sin definir',
        0: 'Activos',
        1: 'Cancelaron'
    }

    # Configuración de colores
    colores_estados = {
        'Activos': 'aquamarine',
        'Cancelaron': 'violet',
        'Sin definir': 'salmon'
    }

    # Orden
    orden_estados = ['Activos', 'Cancelaron', 'Sin definir']

    # Crear columna
    nombre_columna_texto = 'Cancelacion_Text'
    if nombre_columna_texto not in dataframe.columns:
        dataframe_temporal = dataframe.copy()
        dataframe_temporal[nombre_columna_texto] = dataframe['Cancelacion'].map(mapeo_estados_cancelacion)
    else:
        dataframe_temporal = dataframe.copy()

    # Crear títulos
    titulo_columna_formateado = columna_numerica.replace("_", " ")

    # Crear figura
    figura_combinada = make_subplots(
        rows=1,
        cols=2,
        subplot_titles=[
            f'Distribución de {titulo_columna_formateado} por Estado de Cancelación',
            f'Conteo de Clientes por Estado a lo largo de {titulo_columna_formateado}'
        ],
        specs=[[{"secondary_y": False}, {"secondary_y": False}]]
    )

    # --- Primer Subplot: Boxplot ---
    for estado in orden_estados:
        datos_estado = dataframe_temporal[dataframe_temporal[nombre_columna_texto] == estado]

        if not datos_estado.empty:
            figura_combinada.add_trace(
                go.Box(
                    y=datos_estado[columna_numerica],
                    name=estado,
                    marker_color=colores_estados[estado],
                    boxpoints='outliers',
                    showlegend=True
                ),
                row=1, col=1
            )

    # --- Segundo Subplot: Gráfico de líneas ---
    # Calcular conteos
    conteos_por_valor = dataframe_temporal.groupby([columna_numerica, nombre_columna_texto]).size().unstack(fill_value=0).reset_index()

    # Agregar líneas
    for estado in orden_estados:
        if estado in conteos_por_valor.columns:
            figura_combinada.add_trace(
                go.Scatter(
                    x=conteos_por_valor[columna_numerica],
                    y=conteos_por_valor[estado],
                    mode='lines+markers',
                    name=estado,
                    line=dict(color=colores_estados[estado]),
                    marker=dict(color=colores_estados[estado], size=6),
                    showlegend=False  # No mostrar leyenda duplicada
                ),
                row=1, col=2
            )

    # Configurar layout
    figura_combinada.update_layout(
        height=600,
        width=1400,
        title=dict(
            text=f'Análisis Completo: {titulo_columna_formateado} vs Estado de Cancelación',
            font=dict(size=16),
            x=0.5,
            xanchor='center'
        ),
        showlegend=True  # Mostrar una sola leyenda
    )

    # Configurar ejes del primer subplot (boxplot)
    figura_combinada.update_xaxes(
        title_text='Estado de Cancelación',
        row=1, col=1
    )
    figura_combinada.update_yaxes(
        title_text=titulo_columna_formateado,
        row=1, col=1
    )

    # Configurar ejes del segundo subplot (líneas)
    figura_combinada.update_xaxes(
        title_text=titulo_columna_formateado,
        row=1, col=2
    )
    figura_combinada.update_yaxes(
        title_text='Conteo de Clientes',
        row=1, col=2
    )

    # Mostrar la figura
    figura_combinada.show()


# Lista de columnas numéricas a analizar
columnas_numericas_analizar = [
    'Meses_Contrato',
    'Factura_Mensual',
    'Cargos_Totales',
    'Cargos_Diarios'
]

# Generar análisis para cada columna numérica
print("=== Iniciando Análisis Numérico vs Cancelación ===")
for columna_actual in columnas_numericas_analizar:
    print(f"\nAnalizando: {columna_actual}")
    analizar_variable_numerica_vs_cancelacion(df_TELECOMX_norm, columna_actual)

print("\n=== Análisis Completado ===")
print(f"Total de variables analizadas: {len(columnas_numericas_analizar)}")

=== Iniciando Análisis Numérico vs Cancelación ===

Analizando: Meses_Contrato



Analizando: Factura_Mensual



Analizando: Cargos_Totales



Analizando: Cargos_Diarios



=== Análisis Completado ===
Total de variables analizadas: 4


## Análisis de correlación

Creamos una nueva columna del df normalizado que se llamará **Numero_Servicios** que será la cantidad de los servicios contratados. Sólo se contarán dónde el valor binario sea **1** _(Yes)_

In [88]:
# Definir lista de columnas que representan los servicios adicionales
columnas_servicios_adicionales = [
    'Servicio_Telefono',
    'Multiples_Lineas',
    'Seguridad_En_Linea',
    'Respaldo_En_Linea',
    'Proteccion_Dispositivo',
    'Soporte_Técnico',
    'TV_Streaming',
    'Películas_Streaming'
]

# Valores: 1 = Contratado, 0 = No contratado, -1 = Sin definir
df_TELECOMX_norm['Numero_Servicios'] = df_TELECOMX_norm[columnas_servicios_adicionales].apply(
    lambda fila: (fila == 1).sum(),
    axis=1
)

# Mostrar info
print("=== Resumen de la Columna 'Numero_Servicios' ===")
print(f"Total de servicios adicionales considerados: {len(columnas_servicios_adicionales)}")
print(f"Rango de servicios contratados: {df_TELECOMX_norm['Numero_Servicios'].min()} - {df_TELECOMX_norm['Numero_Servicios'].max()}")
print(f"Promedio de servicios por cliente: {df_TELECOMX_norm['Numero_Servicios'].mean():.2f}")

# Mostrar distr
print("\n=== Distribución del Número de Servicios ===")
distribucion_servicios = df_TELECOMX_norm['Numero_Servicios'].value_counts().sort_index()
for numero_servicios, cantidad_clientes in distribucion_servicios.items():
    print(f"{numero_servicios} servicios: {cantidad_clientes} clientes")

# Mostrar filas
print("\n=== Primeras Filas con la Nueva Columna ===")
columnas_mostrar = ['ID_Cliente'] + columnas_servicios_adicionales + ['Numero_Servicios']
display(df_TELECOMX_norm[columnas_mostrar].head())

# Verificar
valores_nulos = df_TELECOMX_norm['Numero_Servicios'].isnull().sum()
print(f"\nVerificación: {valores_nulos} valores nulos en la columna 'Numero_Servicios'")

# Crear resumen
print("\n=== Estadísticas Descriptivas de 'Numero_Servicios' ===")
print(df_TELECOMX_norm['Numero_Servicios'].describe())

=== Resumen de la Columna 'Numero_Servicios' ===
Total de servicios adicionales considerados: 8
Rango de servicios contratados: 0 - 8
Promedio de servicios por cliente: 3.36

=== Distribución del Número de Servicios ===
0 servicios: 81 clientes
1 servicios: 1765 clientes
2 servicios: 1227 clientes
3 servicios: 994 clientes
4 servicios: 950 clientes
5 servicios: 929 clientes
6 servicios: 699 clientes
7 servicios: 408 clientes
8 servicios: 214 clientes

=== Primeras Filas con la Nueva Columna ===


Unnamed: 0,ID_Cliente,Servicio_Telefono,Multiples_Lineas,Seguridad_En_Linea,Respaldo_En_Linea,Proteccion_Dispositivo,Soporte_Técnico,TV_Streaming,Películas_Streaming,Numero_Servicios
0,0002-ORFBO,1,0,0,1,0,1,1,0,4
1,0003-MKNFE,1,1,0,0,0,0,0,1,3
2,0004-TLHLJ,1,0,0,0,1,0,0,0,2
3,0011-IGKFF,1,0,0,1,1,0,1,1,5
4,0013-EXCHZ,1,0,0,0,0,1,1,0,3



Verificación: 0 valores nulos en la columna 'Numero_Servicios'

=== Estadísticas Descriptivas de 'Numero_Servicios' ===
count    7267.000000
mean        3.358745
std         2.062729
min         0.000000
25%         1.000000
50%         3.000000
75%         5.000000
max         8.000000
Name: Numero_Servicios, dtype: float64


### Matriz de correlación

In [89]:
# Seleccionar columnas numericas
dataframe_variables_numericas = df_TELECOMX_norm.select_dtypes(include=['int64', 'float64'])

# Calcular la matriz
matriz_correlacion = dataframe_variables_numericas.corr()

# Mostrar info
print("=== Análisis de Correlación - Variables Numéricas ===")
print(f"Total de variables numéricas analizadas: {len(dataframe_variables_numericas.columns)}")
print(f"Dimensiones de la matriz de correlación: {matriz_correlacion.shape}")

# Listar las variables
print("\n=== Variables Numéricas Incluidas ===")
for indice, columna in enumerate(dataframe_variables_numericas.columns, 1):
    print(f"{indice}. {columna}")

# Mostrar la matriz
print("\n=== Matriz de Correlación ===")
display(matriz_correlacion)

# Encontrar las correlaciones más fuertes (excluyendo la diagonal)
print("\n=== Correlaciones Más Fuertes (|r| > 0.5) ===")
correlaciones_fuertes = []

for i in range(len(matriz_correlacion.columns)):
    for j in range(i+1, len(matriz_correlacion.columns)):
        variable_1 = matriz_correlacion.columns[i]
        variable_2 = matriz_correlacion.columns[j]
        valor_correlacion = matriz_correlacion.iloc[i, j]

        if abs(valor_correlacion) > 0.5:
            correlaciones_fuertes.append({
                'Variable_1': variable_1,
                'Variable_2': variable_2,
                'Correlacion': valor_correlacion
            })

# Ordenar por valor absoluto
correlaciones_fuertes.sort(key=lambda x: abs(x['Correlacion']), reverse=True)

if correlaciones_fuertes:
    for correlacion in correlaciones_fuertes:
        print(f"{correlacion['Variable_1']} ↔ {correlacion['Variable_2']}: {correlacion['Correlacion']:.3f}")
else:
    print("No se encontraron correlaciones fuertes (|r| > 0.5)")

# Mostrar estadísticas
print("\n=== Estadísticas de la Matriz de Correlación ===")
# Obtener solo los valores del triángulo superior
valores_correlacion_unicos = []
for i in range(len(matriz_correlacion.columns)):
    for j in range(i+1, len(matriz_correlacion.columns)):
        valores_correlacion_unicos.append(matriz_correlacion.iloc[i, j])

if valores_correlacion_unicos:
    import numpy as np
    print(f"Correlación promedio: {np.mean(valores_correlacion_unicos):.3f}")
    print(f"Correlación máxima: {np.max(valores_correlacion_unicos):.3f}")
    print(f"Correlación mínima: {np.min(valores_correlacion_unicos):.3f}")
    print(f"Desviación estándar: {np.std(valores_correlacion_unicos):.3f}")

# Verificar valores
valores_nulos_matriz = matriz_correlacion.isnull().sum().sum()
print(f"\nVerificación: {valores_nulos_matriz} valores nulos en la matriz de correlación")

=== Análisis de Correlación - Variables Numéricas ===
Total de variables numéricas analizadas: 18
Dimensiones de la matriz de correlación: (18, 18)

=== Variables Numéricas Incluidas ===
1. Cancelacion
2. Adulto_Mayor
3. Tiene_Pareja
4. Tiene_Dependientes
5. Meses_Contrato
6. Servicio_Telefono
7. Multiples_Lineas
8. Seguridad_En_Linea
9. Respaldo_En_Linea
10. Proteccion_Dispositivo
11. Soporte_Técnico
12. TV_Streaming
13. Películas_Streaming
14. Factura_Electronica
15. Factura_Mensual
16. Cargos_Totales
17. Cargos_Diarios
18. Numero_Servicios

=== Matriz de Correlación ===


Unnamed: 0,Cancelacion,Adulto_Mayor,Tiene_Pareja,Tiene_Dependientes,Meses_Contrato,Servicio_Telefono,Multiples_Lineas,Seguridad_En_Linea,Respaldo_En_Linea,Proteccion_Dispositivo,Soporte_Técnico,TV_Streaming,Películas_Streaming,Factura_Electronica,Factura_Mensual,Cargos_Totales,Cargos_Diarios,Numero_Servicios
Cancelacion,1.0,0.129071,-0.137711,-0.147291,-0.307073,0.014353,0.033953,0.026225,0.069297,0.081239,0.029384,0.149081,0.147698,0.163576,0.173298,-0.171432,-0.30719,-0.05404
Adulto_Mayor,0.129071,1.0,0.02297,-0.212952,0.018187,0.01006,0.115623,0.082444,0.146275,0.140955,0.068386,0.166059,0.175919,0.157734,0.220388,0.104076,0.018282,0.097072
Tiene_Pareja,-0.137711,0.02297,1.0,0.4489,0.377551,0.018828,0.117067,0.090215,0.089499,0.0983,0.074163,0.079868,0.074049,-0.011201,0.097122,0.315409,0.377448,0.217196
Tiene_Dependientes,-0.147291,-0.212952,0.4489,1.0,0.159892,-0.003863,-0.023195,-0.029402,-0.064207,-0.070022,-0.04279,-0.087142,-0.103102,-0.111752,-0.115832,0.061474,0.159103,0.020755
Meses_Contrato,-0.307073,0.018187,0.377551,0.159892,1.0,0.010205,0.25934,0.231001,0.253037,0.253381,0.227794,0.200411,0.204225,0.007949,0.247982,0.825407,0.998329,0.523853
Servicio_Telefono,0.014353,0.01006,0.018828,-0.003863,0.010205,1.0,0.675964,-0.160843,-0.130208,-0.143747,-0.163279,-0.11057,-0.116135,0.013624,0.246709,0.113985,0.011274,0.125988
Multiples_Lineas,0.033953,0.115623,0.117067,-0.023195,0.25934,0.675964,1.0,0.068373,0.131296,0.123694,0.066823,0.163714,0.161845,0.13159,0.490385,0.412122,0.260384,0.471508
Seguridad_En_Linea,0.026225,0.082444,0.090215,-0.029402,0.231001,-0.160843,0.068373,1.0,0.706885,0.702443,0.736278,0.663421,0.668783,0.188463,0.637022,0.483112,0.230546,0.653647
Respaldo_En_Linea,0.069297,0.146275,0.089499,-0.064207,0.253037,-0.130208,0.131296,0.706885,1.0,0.713219,0.709105,0.704216,0.701708,0.265546,0.711359,0.538664,0.253045,0.691606
Proteccion_Dispositivo,0.081239,0.140955,0.0983,-0.070022,0.253381,-0.143747,0.123694,0.702443,0.713219,1.0,0.725487,0.750166,0.753714,0.249061,0.738,0.546512,0.253691,0.729579



=== Correlaciones Más Fuertes (|r| > 0.5) ===
Meses_Contrato ↔ Cargos_Diarios: 0.998
Cargos_Totales ↔ Cargos_Diarios: 0.825
Meses_Contrato ↔ Cargos_Totales: 0.825
TV_Streaming ↔ Factura_Mensual: 0.820
Películas_Streaming ↔ Factura_Mensual: 0.818
TV_Streaming ↔ Películas_Streaming: 0.807
Factura_Mensual ↔ Numero_Servicios: 0.803
Cargos_Totales ↔ Numero_Servicios: 0.797
Proteccion_Dispositivo ↔ Películas_Streaming: 0.754
Proteccion_Dispositivo ↔ TV_Streaming: 0.750
Proteccion_Dispositivo ↔ Factura_Mensual: 0.738
Seguridad_En_Linea ↔ Soporte_Técnico: 0.736
Películas_Streaming ↔ Numero_Servicios: 0.732
TV_Streaming ↔ Numero_Servicios: 0.731
Proteccion_Dispositivo ↔ Numero_Servicios: 0.730
Proteccion_Dispositivo ↔ Soporte_Técnico: 0.725
Respaldo_En_Linea ↔ Proteccion_Dispositivo: 0.713
Respaldo_En_Linea ↔ Factura_Mensual: 0.711
Respaldo_En_Linea ↔ Soporte_Técnico: 0.709
Seguridad_En_Linea ↔ Respaldo_En_Linea: 0.707
Soporte_Técnico ↔ Películas_Streaming: 0.706
Soporte_Técnico ↔ TV_Streaming

### Heatmap de la matriz

In [90]:
import plotly.graph_objects as go
import plotly.express as px

def crear_matriz_correlacion(matriz_correlacion):
    """
    Crea una matriz de correlación interactiva usando Plotly.

    Parámetros:
    matriz_correlacion: DataFrame con la matriz de correlación

    Temas de coloración disponibles para la matriz de correlación:
    - 'RdBu': Rojo-Azul (ideal para correlaciones positivas/negativas)
    - 'RdYlBu': Rojo-Amarillo-Azul (buena para rangos amplios)
    - 'coolwarm': Frío-Cálido (similar a seaborn)
    - 'balance': Balance (centrado en cero)
    - 'Spectral': Espectral (colorido, bueno para visualización)
    - 'PiYG': Rosa-Verde (alternativa elegante)
    - 'BrBG': Marrón-Verde (colores tierra)
    - 'PRGn': Púrpura-Verde (contraste suave)
    - 'RdGy': Rojo-Gris (minimalista)
    - 'PuOr': Púrpura-Naranja (moderno)
    """

    # Obtener los nombres de las variables
    nombres_variables = matriz_correlacion.columns.tolist()
    valores_correlacion = matriz_correlacion.values

    # Crear la matriz de correlación con Plotly
    figura_correlacion = go.Figure(data=go.Heatmap(
        z=valores_correlacion,
        x=nombres_variables,
        y=nombres_variables,
        colorscale='Spectral',  # Tema de colores rojo-azul
        zmid=0,  # Centrar la escala en cero
        text=valores_correlacion,
        texttemplate="%{text:.2f}",
        textfont={"size": 10},
        colorbar=dict(
            title="Correlación",
            titleside="right"
        ),
        hoverongaps=False,
        hovertemplate="<b>%{x}</b><br>" +
                      "<b>%{y}</b><br>" +
                      "Correlación: %{z:.3f}<br>" +
                      "<extra></extra>"
    ))

    # Configurar el diseño de la gráfica
    figura_correlacion.update_layout(
        title=dict(
            text='Matriz de Correlación de Variables Numéricas',
            x=0.5,
            font=dict(size=18)
        ),
        width=800,
        height=600,
        xaxis=dict(
            title="Variables",
            side="bottom",
            tickangle=90
        ),
        yaxis=dict(
            title="Variables",
            autorange="reversed"  # Invertir el eje Y para que coincida con la convención
        ),
        font=dict(size=12)
    )

    # Mostrar la gráfica
    figura_correlacion.show()

    return figura_correlacion

# Ejemplo de uso:
grafica_correlacion = crear_matriz_correlacion(matriz_correlacion)
grafica_correlacion.write_html("matriz_correlacion.html")

# Informe final

# 📊 Análisis de Evasión de Clientes - Telecom X

## 🎯 ¿Qué problema estamos resolviendo?

**La empresa Telecom X** tiene un problema: muchos clientes cancelan sus servicios. Nuestro objetivo es entender **por qué se van** y **cómo podemos retenerlos**.

## 📈 Situación Actual

De todos los clientes de Telecom X:
- **71.2%** siguen activos
- **25.7%** cancelaron su servicio
- **3.1%** situación desconocida

> ⚠️ **Dato importante**: 1 de cada 4 clientes se da de baja

## 🔍 ¿Quiénes son los clientes que más cancelan?

### Características personales que aumentan el riesgo:

| Característica | Grupo de mayor riesgo | Porcentaje de cancelación |
|---|---|---|
| **Edad** | Menores de 65 años | 40.3% |
| **Estado civil** | Sin pareja | 32% |
| **Dependientes** | Sin dependientes | 30.3% |
| **Tipo de factura** | Electrónica | 32.5% |

### Servicios y contratos:

| Aspecto | Mayor riesgo | Porcentaje |
|---|---|---|
| **Internet** | Fibra óptica | 40.6% |
| **Contrato** | Mensual | 41.3% |
| **Pago** | Cheque electrónico | 43.8% |

## 💡 Hallazgos Clave

### 1. Perfil de alto riesgo
Los clientes más propensos a cancelar son:
- Jóvenes (menores de 65 años)
- Solteros
- Sin dependientes
- Que prefieren servicios digitales

### 2. El tiempo importa
- Los clientes que cancelan lo hacen en los **primeros meses**
- Los contratos largos (1-2 años) tienen cancelaciones muy bajas:
  - Mensual: **41.3%** de cancelación
  - 1 año: **3%** de cancelación
  - 2 años: **1.9%** de cancelación

### 3. Patrones financieros
- Clientes que cancelan tienen facturas mensuales más altas
- Pero sus gastos totales son menores (porque cancelan pronto)
- El método de pago por cheque electrónico es problemático

## 📊 Análisis de Correlaciones

El estudio mostró que:
- **Más meses de contrato** = **Menos probabilidad de cancelar**
- **Más servicios contratados** = **Menor riesgo de cancelación**
- **Mayor compromiso** = **Mayor retención**

## 🚀 Recomendaciones para Telecom X

### 1. Promocionar contratos largos
- Ofrecer descuentos por contratos anuales o bianuales
- Crear beneficios exclusivos para contratos largos

### 2. Mejorar la experiencia de pago
- Revisar y optimizar el sistema de cheque electrónico
- Ofrecer métodos de pago más cómodos

### 3. Campañas de retención personalizadas
- Identificar clientes de alto riesgo tempranamente
- Crear ofertas especiales para el perfil: jóvenes, solteros, sin dependientes

### 4. Estrategia de los primeros meses
- Crear programas de bienvenida
- Ofrecer soporte adicional en los primeros 6 meses
- Verificar satisfacción regularmente

## 🎯 Conclusión

**¿Por qué se van los clientes?**
- Falta de compromiso a largo plazo
- Experiencia de pago problemática
- Perfil demográfico específico (jóvenes, solteros)

**¿Cómo retenerlos?**
- Incentivar contratos largos
- Mejorar la experiencia de pago
- Atención especial en los primeros meses

Este análisis nos da las herramientas para **reducir la cancelación** y **construir estrategias de retención más efectivas**.

---
*Análisis realizado por: Alberto Daniel Gutiérrez Ramos*  
*Programa: ONE + Alura LATAM - Ciencia de Datos*