# üìä Telecom X - An√°lisis de Evasi√≥n de Clientes

## Introducci√≥n

A continuaci√≥n, se presenta un an√°lisis sobre la problem√°tica de la fuga de clientes en la empresa Telecom X. Este estudio ha sido elaborado con el m√°ximo rigor profesional, aplicando los conocimientos y las t√©cnicas adquiridas durante mi formaci√≥n en Alura Latam.

Este notebook documenta cada paso de mi proceso, desde la configuraci√≥n inicial del proyecto y la carga de datos, hasta la limpieza profunda, el an√°lisis exploratorio y, finalmente, la s√≠ntesis de insights accionables. Para darle un enfoque did√°ctico y para transparentar mi razonamiento aplicado, cada una de mis acciones/decisiones; las presentare detallando su: 

1) **Objetivo**, 
2) **M√©todo** y 
3) **Justificaci√≥n.**

El objetivo final es proporcionar al equipo de negocio recomendaciones estrat√©gicas basadas en evidencia y, al mismo tiempo, entregar al equipo de Data Science un dataset preparado para la construcci√≥n de modelos predictivos.

## üìå 1. Configuraci√≥n y Extracci√≥n (**E**)

### üéØ 1.1. Importaci√≥n de Librer√≠as

**Objetivo**: Cargar todas las herramientas (librer√≠as de Python) que necesitaremos para el an√°lisis.

**M√©todo**: Importar√© las librer√≠as est√°ndar para manipulaci√≥n de datos, operaciones num√©ricas y visualizaci√≥n.

**Justificaci√≥n**:
* *Pandas*: Es la herramienta fundamental en Python para la manipulaci√≥n y el an√°lisis de datos tabulares.
* *NumPy*: Proporciona soporte para operaciones num√©ricas eficientes.
* *Plotly*: Mi librer√≠a de visualizaci√≥n principal para generar gr√°ficos interactivos, lo cual es invaluable durante la fase de exploraci√≥n.
* *Seaborn/Matplotlib*: Excelentes para ciertos tipos de gr√°ficos est√°ticos, como matrices de correlaci√≥n (heatmaps).

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
# import seaborn as sns # al final no se utilizo pero lo agregue al inicio por si lo llegaba a ocupar
# import matplotlib.pyplot as plt # igual no se utilizo

# Configuraciones adicionales para una mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
print("Librer√≠as importadas exitosamente.")

Librer√≠as importadas exitosamente.


### üéØ 1.2. Extracci√≥n de Datos y Perfilamiento Inicial

**Objetivo**: Cargar los datos desde la fuente y realizar una primera validaci√≥n de su estructura y contenido. 

**M√©todo**: Utilizar√© la funci√≥n read_json de Pandas para cargar los datos directamente desde la URL. Inmediatamente despu√©s verificar√© las dimensiones del dataset, los tipos de datos y la presencia inicial de valores nulos.

**Justificaci√≥n**: *Nunca debemos asumir que los datos est√°n listos para el an√°lisis.* Este primer vistazo es crucial para detectar problemas estructurales de inmediato. Por ejemplo, los datos en formato JSON a menudo contienen estructuras anidadas que deben ser aplanadas (**"normalizadas"**) antes de que podamos analizarlas eficazmente.

In [2]:
# URL de los datos en formato JSON proporcionado por Alura Latam
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json'

# Se obtienen los datos y se convierten a un DataFrame de Pandas
try:
    df_raw = pd.read_json(url)
    print("¬°Datos cargados exitosamente!")
except Exception as e:
    print(f"Error al cargar los datos: {e}")

# Visualizamos las primeras 5 filas para una primera impresi√≥n
df_raw.head()

¬°Datos cargados exitosamente!


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


In [3]:
# Realizando el perfilamiento inicial
print("Dimensiones del DataFrame (Filas, Columnas):")
print(df_raw.shape)
print("\n" + "="*50 + "\n") # (barra) solo estilizando
print("Informaci√≥n general y tipos de datos:")
df_raw.info()

Dimensiones del DataFrame (Filas, Columnas):
(7267, 6)


Informaci√≥n general y tipos de datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


#### üí° Primeras Observaciones

Basado en el perfilamiento inicial, he descubierto lo siguiente:

1. **Dimensiones**: El dataset contiene **7267 filas** y **6 columnas**. Esto es muy sospechoso. porque supongo que un an√°lisis de clientes deber√≠a tener muchas m√°s de cuatro caracter√≠sticas.

2. **Estructura Anidada**: Al ver mas detalladamente, noto que todas las columnas son de tipo object. La vista previa con .head() sugiere que contienen estructuras JSON anidadas. Asi que mi primer paso de transformaci√≥n deber√° ser **normalizar** o aplanar estos datos para que cada caracter√≠stica tenga su propia columna.

3. **Valores Nulos**: `df.info()` indica que no hay valores nulos. Sin embargo, no debo hacer este tipo de conclusiones aun, ya que los valores nulos podr√≠an estar ocultos dentro de las estructuras JSON anidadas. Deber√© reevaluar la presencia de nulos despu√©s de **normalizar**.

## üîß 2. Transformaci√≥n y Limpieza (**T**)

### üéØ 2.1. Normalizaci√≥n de Datos (Aplanamiento)

**Objetivo**: Transformar el dataset de su formato anidado a un formato tabular plano, donde cada pieza de informaci√≥n tenga su propia columna.

**M√©todo**: Utilizar√© la funci√≥n `pd.json_normalize()` de Pandas. La aplicar√© a cada una de las columnas complejas (`customer`, `account`, `phone`, `internet`) y luego unir√© los resultados.

**Justificaci√≥n**: Sin este paso, no podr√≠amos calcular correlaciones, crear visualizaciones efectivas.

In [4]:
from pandas import json_normalize

# Normalizar las columnas anidadas en sus propios DataFrames
df_customer = json_normalize(df_raw['customer'])
df_account = json_normalize(df_raw['account'])
df_phone = json_normalize(df_raw['phone'])
df_internet = json_normalize(df_raw['internet'])

# Unir los nuevos DataFrames con las columnas originales que queremos conservar
df_normalized = pd.concat([
    df_raw[['customerID', 'Churn']],
    df_customer,
    df_account,
    df_phone,
    df_internet
], axis=1)

print("Datos normalizados exitosamente.")
print("Nuevas dimensiones del DataFrame (Filas, Columnas):", df_normalized.shape)
df_normalized.head()

Datos normalizados exitosamente.
Nuevas dimensiones del DataFrame (Filas, Columnas): (7267, 21)


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,0002-ORFBO,No,Female,0,Yes,Yes,9,One year,Yes,Mailed check,65.6,593.3,Yes,No,DSL,No,Yes,No,Yes,Yes,No
1,0003-MKNFE,No,Male,0,No,No,9,Month-to-month,No,Mailed check,59.9,542.4,Yes,Yes,DSL,No,No,No,No,No,Yes
2,0004-TLHLJ,Yes,Male,0,No,No,4,Month-to-month,Yes,Electronic check,73.9,280.85,Yes,No,Fiber optic,No,No,Yes,No,No,No
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Month-to-month,Yes,Electronic check,98.0,1237.85,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Month-to-month,Yes,Mailed check,83.9,267.4,Yes,No,Fiber optic,No,No,No,Yes,Yes,No


### üéØ 2.2. Segundo Perfilamiento

**Objetivo**: Ahora con los datos aplanados, debo realizar una nueva y m√°s profunda verificaci√≥n de su calidad.

**M√©todo**: Volver√© a usar `.info()` y, de manera crucial, `.isnull().sum()` para obtener un recuento exacto de los valores faltantes por columna.

**Justificaci√≥n**: Al haber **nomralizado** los datos, ahora puedo ver ampliamente posibles problemas que antes estaban ocultos.

In [5]:
# Obtener informaci√≥n detallada del nuevo DataFrame
df_normalized.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   Contract          7267 non-null   object 
 8   PaperlessBilling  7267 non-null   object 
 9   PaymentMethod     7267 non-null   object 
 10  Charges.Monthly   7267 non-null   float64
 11  Charges.Total     7267 non-null   object 
 12  PhoneService      7267 non-null   object 
 13  MultipleLines     7267 non-null   object 
 14  InternetService   7267 non-null   object 
 15  OnlineSecurity    7267 non-null   object 
 16  OnlineBackup      7267 non-null   object 


#### ‚úã Alto

Aunque el an√°lisis preliminar no arroja valores nulos (NaN), la inspecci√≥n de los tipos de datos podr√≠a revelar una inconsistencia. Esta situaci√≥n sugiere la presencia de valores vac√≠os que fueron interpretados como cadenas de texto ("") en lugar de nulos, lo cual explicar√≠a el tipado incorrecto en las columnas afectadas. Aqu√≠ me enfrento a la primera decisi√≥n de abordaje, ya que me imagino varias maneras de dar soluci√≥n.

##### üéØ 2.2.1. Manejo de Inconsistencias: Strings Vac√≠os

**Objetivo**: Identificar y estandarizar todos los valores que vac√≠os o representados como "", para que sean reconocidos como valores NaN.

**M√©todo**: Utilizar√© el m√©todo `.replace()` de Pandas con una **expresi√≥n regular** `(r'^\s*$')` para buscar en todo el DataFrame cualquier celda que contenga √∫nicamente espacios en blanco (o que est√© completamente vac√≠a) y reemplazarla con `np.nan`.

**Justificaci√≥n**: Al convertir todos los tipos de "vac√≠os" a NaN, podre utilizar de manera fiable las funciones de Pandas como `.isnull().sum()`, `.fillna()` y `.dropna()` para manejar los datos faltantes.

In [6]:
# Crear una copia para el proceso de limpieza
df_clean = df_normalized.copy()

# Reemplazar strings vac√≠os o con solo espacios en blanco por NaN en todo el DataFrame
df_clean.replace(r'^\s*$', np.nan, regex=True, inplace=True)

print("Strings vac√≠os reemplazados por NaN.")

Strings vac√≠os reemplazados por NaN.


### üéØ 2.3. Tercer Perfilamiento

**Objetivo**: Con los valores vac√≠os estandarizados, vamos a re-evaluar la calidad de los datos.

**M√©todo**: Ejecutar√© `.isnull().sum()`.

**Justificaci√≥n**: Se espera que el resultado de este comando nos dar√° ahora s√≠ el panorama real de los datos faltantes.

In [7]:
# Verificar de nuevo la cantidad de valores nulos por columna
print("Conteo de valores nulos por columna:")
df_clean.isnull().sum()

Conteo de valores nulos por columna:


customerID            0
Churn               224
gender                0
SeniorCitizen         0
Partner               0
Dependents            0
tenure                0
Contract              0
PaperlessBilling      0
PaymentMethod         0
Charges.Monthly       0
Charges.Total        11
PhoneService          0
MultipleLines         0
InternetService       0
OnlineSecurity        0
OnlineBackup          0
DeviceProtection      0
TechSupport           0
StreamingTV           0
StreamingMovies       0
dtype: int64

#### üéØ 2.3.1. Investigaci√≥n de Nulos en la Columna Churn

**Objetivo**: Perfilar los 224 clientes con datos de Churn nulos para determinar si constituyen un subgrupo con caracter√≠sticas espec√≠ficas. El fin es tomar una decisi√≥n informada sobre c√≥mo manejarlos, en lugar de simplemente eliminarlos.

**M√©todo**: Creare dos DataFrames temporales: uno con los 224 clientes con Churn nulo (`df_null_churn`) y otro con el resto de los clientes (`df_known_churn`). Realizare un an√°lisis comparativo entre ambos grupos. Espec√≠ficamente, comparare:
* Las estad√≠sticas descriptivas de las variables num√©ricas.
* La distribuci√≥n de variables categ√≥ricas clave.

**Justificaci√≥n**: La eliminaci√≥n de datos es el √∫ltimo recurso. Si estos 224 clientes pertenecen a un grupo espec√≠fico (por ejemplo, todos son clientes corporativos, todos tienen un tipo de contrato especial, o todos son registros de prueba), eliminarlos podr√≠a sesgar mi an√°lisis general. 

In [8]:
# 1. Crear los dos DataFrames para la comparaci√≥n
df_null_churn = df_clean[df_clean['Churn'].isnull()]
df_known_churn = df_clean[df_clean['Churn'].notnull()]

print("--- Perfil de Clientes con Churn NULO ---")
print(f"N√∫mero de clientes: {df_null_churn.shape[0]}")
print("\nAn√°lisis Num√©rico:")
print(df_null_churn[['tenure', 'Charges.Monthly', 'Charges.Total']].describe())
print("\nAn√°lisis Categ√≥rico (Tipo de Contrato):")
print(df_null_churn['Contract'].value_counts(normalize=True))

print("\n" + "="*50 + "\n") # barra de apoyo visual

print("--- Perfil de Clientes con Churn CONOCIDO ---")
print(f"N√∫mero de clientes: {df_known_churn.shape[0]}")
print("\nAn√°lisis Num√©rico:")
print(df_known_churn[['tenure', 'Charges.Monthly', 'Charges.Total']].describe())
print("\nAn√°lisis Categ√≥rico (Tipo de Contrato):")
print(df_known_churn['Contract'].value_counts(normalize=True))

--- Perfil de Clientes con Churn NULO ---
N√∫mero de clientes: 224

An√°lisis Num√©rico:
           tenure  Charges.Monthly
count  224.000000       224.000000
mean    31.571429        63.412277
std     24.998552        31.388712
min      1.000000        18.750000
25%      7.000000        28.425000
50%     29.000000        69.100000
75%     56.000000        90.412500
max     72.000000       115.550000

An√°lisis Categ√≥rico (Tipo de Contrato):
Contract
Month-to-month    0.580357
Two year          0.214286
One year          0.205357
Name: proportion, dtype: float64


--- Perfil de Clientes con Churn CONOCIDO ---
N√∫mero de clientes: 7043

An√°lisis Num√©rico:
            tenure  Charges.Monthly
count  7043.000000      7043.000000
mean     32.371149        64.761692
std      24.559481        30.090047
min       0.000000        18.250000
25%       9.000000        35.500000
50%      29.000000        70.350000
75%      55.000000        89.850000
max      72.000000       118.750000

An√°lisis

üí° Interpretaci√≥n de la Evidencia

Al comparar los dos perfiles, observo:

**Variables Num√©ricas**: La antig√ºedad media (`tenure`), los cargos mensuales (`Charges.Monthly`) y los cargos totales (`Charges.Total`) son estad√≠sticamente muy similares en ambos grupos. Por ejemplo, la antig√ºedad media es de ~32 meses en ambos casos, y los cargos mensuales promedian ~$64.

**Variables Categ√≥ricas**: La distribuci√≥n de los tipos de contrato es casi id√©ntica. En ambos grupos, el ~55% de los clientes tienen contratos mes a mes, el ~24% tienen contratos de dos a√±os y el ~21% de un a√±o.

**Conclusi√≥n**: El an√°lisis demuestra que los 224 clientes con `Churn` nulo **no forman un grupo distinto**. Sus caracter√≠sticas demogr√°ficas, de uso y de contrataci√≥n **son representativas de la poblaci√≥n general de clientes**. Esto me sugiere que la falta de datos de `Churn` es un **problema aleatorio** (posiblemente un error de registro o un fallo en la recolecci√≥n de datos), y no se debe a que estos clientes pertenezcan a una categor√≠a especial. Mi teoria fue erronea, pero ahora puedo avanzar con m√°s confianza.

#### üéØ 2.3.2. Acci√≥n Final sobre Nulos en `Churn`

**Objetivo**: Tomar una acci√≥n final y justificada sobre los 224 registros con `Churn` nulo.

**M√©todo**: AHora que confirme que estos registros no representan un subgrupo √∫nico y que la informaci√≥n faltante es la variable objetivo misma, procedo con la eliminaci√≥n de estas filas.

**Justificaci√≥n**: Mi investigaci√≥n ha descartado la posibilidad de que los nulos en `Churn` identifiquen a un segmento de clientes particular. Su eliminaci√≥n es, por tanto, la acci√≥n metodol√≥gicamente m√°s s√≥lida, asegurando que el an√°lisis se base √∫nicamente en datos completos y verificables.

In [9]:
print(f"N√∫mero de filas ANTES de la eliminaci√≥n: {df_clean.shape[0]}")

# Eliminamos las filas donde 'Churn' es nulo
df_clean.dropna(subset=['Churn'], inplace=True)

print(f"N√∫mero de filas DESPU√âS de la eliminaci√≥n: {df_clean.shape[0]}")

N√∫mero de filas ANTES de la eliminaci√≥n: 7267
N√∫mero de filas DESPU√âS de la eliminaci√≥n: 7043


#### üéØ 2.3.3. Investigaci√≥n de Nulos en Charges.Total

**Objetivo**: Investigar las 11 filas restantes donde la columna Charges.Total es nula.

**M√©todo**: Mi hip√≥tesis de que estos nulos est√°n directamente relacionados con la antig√ºedad (tenure) del cliente y para verificarlo, filtrare el DataFrame `df_clean` para aislar y examinar √∫nicamente estas 11 filas.

**Justificaci√≥n**: En los datos de facturaci√≥n por suscripci√≥n, es com√∫n que los valores totales faltantes correspondan a **clientes nuevos** que a√∫n no han cumplido su primer ciclo de facturaci√≥n, por lo que si confirmo esta relaci√≥n me permitira aplicar una imputaci√≥n basada en la l√≥gica del negocio en lugar de una suposici√≥n estad√≠stica (como la media o la mediana), lo cual es considerablemente m√°s preciso.

In [10]:
# Filtramos el dataframe para ver las filas con Charges.Total nulo y seleccionamos columnas clave para el an√°lisis.
df_clean[df_clean['Charges.Total'].isnull()][['tenure', 'Charges.Monthly', 'Charges.Total']]

Unnamed: 0,tenure,Charges.Monthly,Charges.Total
975,0,56.05,
1775,0,20.0,
1955,0,61.9,
2075,0,19.7,
2232,0,20.25,
2308,0,25.35,
2930,0,73.35,
3134,0,25.75,
3203,0,52.55,
4169,0,80.85,


üí° Interpretaci√≥n de la Evidencia

***¬°Eureka!*** en las 11 filas donde `Charges.Total` es nulo, el valor en la columna `tenure` (**antig√ºedad**) es 0. Por lo tanto mi hip√≥tesis queda confirmada. estos registros **pertenecen a clientes nuevos** que, al tener 0 meses de antig√ºedad, l√≥gicamente a√∫n no han acumulado ning√∫n cargo total, asi que El valor nulo representa un **0**.

#### üéØ 2.3.4. Acci√≥n Final sobre Nulos en Charges.Total

**Objetivo**: Imputar los 11 valores nulos en `Charges.Total` con un valor que refleje la situaci√≥n comercial de estos clientes.

**M√©todo**: Se rellenar√°n con el n√∫mero 0.0 utilizando el m√©todo `.fillna()`, para despu√©s, convertir toda la columna a tipo float.

**Justificaci√≥n**: Habiendo probado que estos nulos corresponden a clientes con 0 meses de antig√ºedad, imputarlos con 0.0 es la √∫nica acci√≥n l√≥gicamente correcta, ya que esto reflejar√≠a su estado de facturaci√≥n real.



In [11]:
# Rellenamos los valores nulos en 'Charges.Total' con 0
df_clean['Charges.Total'] = df_clean['Charges.Total'].fillna(0)

# Verificamos que ya no quedan nulos en la columna
print(f"Nulos restantes en 'Charges.Total': {df_clean['Charges.Total'].isnull().sum()}")

# Ahora convertimos la columna a un tipo de dato num√©rico
df_clean['Charges.Total'] = pd.to_numeric(df_clean['Charges.Total'])

print(f"Nuevo tipo de dato de 'Charges.Total': {df_clean['Charges.Total'].dtype}")

Nulos restantes en 'Charges.Total': 0
Nuevo tipo de dato de 'Charges.Total': float64


### üéØ 2.4 Optimizaci√≥n de Tipos de Datos

#### üéØ 2.4.1 Exploraci√≥n de Columnas de Tipo Object

**Objetivo**: Investigar sistem√°ticamente todas las columnas de tipo object restantes para clasificar su contenido y determinar el tipo de dato m√°s √≥ptimo para cada una.

**M√©todo**: Creare un bucle que itere a trav√©s de todas las columnas del DataFrame `df_clean`. Para cada columna de tipo `object`, se imprimir√° su nombre, el n√∫mero de valores √∫nicos que contiene y una muestra de esos valores √∫nicos.

**Justificaci√≥n**: Este an√°lisis exploratorio es crucial para tomar decisiones informadas sobre la ***optimizaci√≥n de tipos de datos***.

In [12]:
print("--- An√°lisis de Cardinalidad de Columnas 'object' ---")

# Iteramos sobre cada columna del DataFrame
for col in df_clean.columns:
    # Verificamos si la columna es de tipo 'object'
    if df_clean[col].dtype == 'object':
        unique_count = df_clean[col].nunique()
        print(f"\nColumna: '{col}'")
        print(f"  - N√∫mero de valores √∫nicos: {unique_count}")
        print(f"  - Muestra de valores: {df_clean[col].unique()[:5]}") # Mostramos hasta 5 valores √∫nicos como ejemplo

--- An√°lisis de Cardinalidad de Columnas 'object' ---

Columna: 'customerID'
  - N√∫mero de valores √∫nicos: 7043
  - Muestra de valores: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' '0011-IGKFF' '0013-EXCHZ']

Columna: 'Churn'
  - N√∫mero de valores √∫nicos: 2
  - Muestra de valores: ['No' 'Yes']

Columna: 'gender'
  - N√∫mero de valores √∫nicos: 2
  - Muestra de valores: ['Female' 'Male']

Columna: 'Partner'
  - N√∫mero de valores √∫nicos: 2
  - Muestra de valores: ['Yes' 'No']

Columna: 'Dependents'
  - N√∫mero de valores √∫nicos: 2
  - Muestra de valores: ['Yes' 'No']

Columna: 'Contract'
  - N√∫mero de valores √∫nicos: 3
  - Muestra de valores: ['One year' 'Month-to-month' 'Two year']

Columna: 'PaperlessBilling'
  - N√∫mero de valores √∫nicos: 2
  - Muestra de valores: ['Yes' 'No']

Columna: 'PaymentMethod'
  - N√∫mero de valores √∫nicos: 4
  - Muestra de valores: ['Mailed check' 'Electronic check' 'Credit card (automatic)'
 'Bank transfer (automatic)']

Columna: 'PhoneService'
  - N

#### üéØ 2.4.2 Transformaci√≥n de Tipos de Datos

**Objetivo**: Convertir las columnas de tipo object a tipos de datos m√°s espec√≠ficos y eficientes, bas√°ndonos en la clasificaci√≥n obtenida en el paso exploratorio anterior.

**M√©todo**:

* ***Variables Binarias***: Identificare expl√≠citamente todas las columnas que contienen √∫nicamente valores `'Yes'/'No'` (o `'Male'/'Female'`) y se mapear√°n a `1` y `0` respectivamente. Esto incluye la variable objetivo Churn.

* ***Variables Categ√≥ricas***: Las columnas con un n√∫mero limitado de categor√≠as de texto (ej. `'Contract'`, `'InternetService'`, y las que incluyen `'No internet service'`) se convertir√°n directamente al tipo category de Pandas.

* ***Identificadores***: La columna customerID, al ser un identificador √∫nico, la mantendre como tipo object.

**Justificaci√≥n**: Esta transformaci√≥n esta justificada por la exploraci√≥n previa, y se espera reducir dr√°sticamente el uso de memoria, la conversi√≥n de variables binarias a n√∫meros (`0` y `1`) es un paso de preprocesamiento est√°ndar y esencial para el modelado, por otro lado el tipo category es mucho m√°s eficiente en memoria y rendimiento que object para columnas con texto repetido. Segun la documentacion, internamente `Pandas` almacena las categor√≠as una sola vez y luego usa c√≥digos enteros para referenciarse a ellas, lo que acelera las operaciones de agrupaci√≥n y uni√≥n.

In [13]:
# Hacemos una copia para trabajar de forma segura
df_final = df_clean.copy()

# 1. Mapeo de columnas estrictamente binarias a 1/0
binary_cols_yes_no = ['Partner', 'Dependents', 'PaperlessBilling', 'PhoneService']
for col in binary_cols_yes_no:
    df_final[col] = df_final[col].map({'Yes': 1, 'No': 0})

# Mapeo espec√≠fico para 'gender' y la variable objetivo 'Churn'
df_final['gender'] = df_final['gender'].map({'Male': 0, 'Female': 1})
df_final['Churn'] = df_final['Churn'].map({'Yes': 1, 'No': 0})

# 2. Conversi√≥n a tipo 'category' para columnas con m√∫ltiples categor√≠as de texto.
# Este enfoque es el correcto para manejar valores como 'No phone service' o 
# 'No internet service' sin generar valores nulos.
categorical_cols = [
    'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup',
    'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies',
    'Contract', 'PaymentMethod'
]
for col in categorical_cols:
    df_final[col] = df_final[col].astype('category')

# Verificamos el resultado. Ahora no deber√≠an aparecer nulos nuevos.
print("Tipos de datos optimizados. Verificando el nuevo estado del DataFrame:")
df_final.info()

Tipos de datos optimizados. Verificando el nuevo estado del DataFrame:
<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   customerID        7043 non-null   object  
 1   Churn             7043 non-null   int64   
 2   gender            7043 non-null   int64   
 3   SeniorCitizen     7043 non-null   int64   
 4   Partner           7043 non-null   int64   
 5   Dependents        7043 non-null   int64   
 6   tenure            7043 non-null   int64   
 7   Contract          7043 non-null   category
 8   PaperlessBilling  7043 non-null   int64   
 9   PaymentMethod     7043 non-null   category
 10  Charges.Monthly   7043 non-null   float64 
 11  Charges.Total     7043 non-null   float64 
 12  PhoneService      7043 non-null   int64   
 13  MultipleLines     7043 non-null   category
 14  InternetService   7043 non-null   category
 15  Online

### üéØ 2.5. Creaci√≥n de Nuevas Caracter√≠sticas (Feature Engineering)

**Objetivo**: Crear la columna `Cuentas_Diarias` para obtener una m√©trica de gasto m√°s granular que los cargos mensuales.

**M√©todo**: Se calcular√° el cargo diario dividiendo la columna de cargos mensuales (`Charges.Monthly`) entre 30.44, que es el promedio de d√≠as en un mes. El resultado se redondear√° a 2 decimales.

**Justificaci√≥n**: Esta nueva caracter√≠stica normaliza el gasto en una escala diaria, por lo que nos proporciona una variable adicional que puede tener una correlaci√≥n diferente con la evasi√≥n (`Churn`) y nos da una perspectiva m√°s detallada para el an√°lisis.

In [14]:
# Calculamos los cargos diarios
avg_days_in_month = 30.44
df_final['Cuentas_Diarias'] = (df_final['Charges.Monthly'] / avg_days_in_month).round(2)

# Verificamos la creaci√≥n de la nueva columna
print("Columna 'Cuentas_Diarias' creada exitosamente. Aqu√≠ una muestra:")
df_final[['Charges.Monthly', 'Cuentas_Diarias']].head()

Columna 'Cuentas_Diarias' creada exitosamente. Aqu√≠ una muestra:


Unnamed: 0,Charges.Monthly,Cuentas_Diarias
0,65.6,2.16
1,59.9,1.97
2,73.9,2.43
3,98.0,3.22
4,83.9,2.76


## üìä 3. Carga y An√°lisis Exploratorio (**L & A**)

Hemos llegado a una etapa emocionante y **muy grafica** üòÅ, el dataset est√° limpio, es coherente y est√° optimizado. En esta fase, dejaremos que los datos nos hablen, mi objetivo sera utilizar estad√≠sticas descriptivas y, sobre todo, visualizaciones para descubrir patrones, identificar relaciones entre variables y empezar a formular hip√≥tesis sobre qu√© factores influyen en la evasi√≥n de clientes.

### üéØ 3.1. An√°lisis Descriptivo General

**Objetivo**: Obtener un resumen estad√≠stico de las variables num√©ricas clave en nuestro dataset `df_final`.

**M√©todo**: Utilizare el m√©todo `.describe()` de `Pandas`, como ya lo hice anteriormente calcular autom√°ticamente las estad√≠sticas descriptivas m√°s importantes.

**Justificaci√≥n**: El m√©todo `.describe()` es el punto de partida fundamental para cualquier an√°lisis num√©rico ya que nos proporcionara una visi√≥n panor√°mica instant√°nea de la distribuci√≥n de nuestros datos, incluyendo la **tendencia central (media)**, la **mediana**, la **dispersi√≥n** y el **rango (m√≠nimo y m√°ximo)**.

In [15]:
# Generamos las estad√≠sticas descriptivas para las columnas num√©ricas
# Usamos .T para transponer el resultado para una mejor legibilidad
df_final.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Churn,7043.0,0.26537,0.441561,0.0,0.0,0.0,1.0,1.0
gender,7043.0,0.495244,0.500013,0.0,0.0,0.0,1.0,1.0
SeniorCitizen,7043.0,0.162147,0.368612,0.0,0.0,0.0,0.0,1.0
Partner,7043.0,0.483033,0.499748,0.0,0.0,0.0,1.0,1.0
Dependents,7043.0,0.299588,0.45811,0.0,0.0,0.0,1.0,1.0
tenure,7043.0,32.371149,24.559481,0.0,9.0,29.0,55.0,72.0
PaperlessBilling,7043.0,0.592219,0.491457,0.0,0.0,1.0,1.0,1.0
Charges.Monthly,7043.0,64.761692,30.090047,18.25,35.5,70.35,89.85,118.75
Charges.Total,7043.0,2279.734304,2266.79447,0.0,398.55,1394.55,3786.6,8684.8
PhoneService,7043.0,0.903166,0.295752,0.0,1.0,1.0,1.0,1.0


#### üí° Primeras Observaciones Num√©ricas

Del resumen estad√≠stico, puedo extraer algunas ideas iniciales:

* **Antig√ºedad (tenure)**: El cliente **promedio** tiene una antig√ºedad de aproximadamente `32 meses` y la distribuci√≥n es amplia, desde `0 meses` (los que acabamos de corregir) hasta `72 meses` (6 a√±os).

* **Cargos Mensuales (Charges.Monthly)**: El cargo mensual **promedio** es de `$64.76` por lo que considerando que la mediana (el valor del 50%) es de `$70.35`, me sugiere que hay una ligera concentraci√≥n de clientes con cargos m√°s altos.

* **Cargos Totales (Charges.Total)**: Aqu√≠ comprabamos una vez mas el punto de arriba, vemos una gran variabilidad, con un valor m√°ximo de `$8684.80`, un media  de `~$2280` que es significativamente m√°s alta que la mediana `~$1395`, lo cual me indicaria una **distribuci√≥n sesgada a la derecha**; es decir, hay algunos **clientes con gastos totales muy altos** que tiran del promedio hacia arriba.

### üéØ 3.2. Distribuci√≥n de la Evasi√≥n de Clientes (Churn)

**Objetivo**: Cuantificar y visualizar la proporci√≥n exacta de clientes que han cancelado el servicio (`Churn=1`) frente a los que han permanecido (`Churn=0`).

**M√©todo**:

* Utilizare el m√©todo `.value_counts()` para obtener el n√∫mero exacto de clientes en cada categor√≠a y el argumento `normalize=True` para obtener el desglose porcentual.

* Creare un **gr√°fico de pastel** interactivo utilizando `Plotly` ya que es ideal para mostrar la proporci√≥n de cada categor√≠a como parte de un todo.

**Justificaci√≥n**: Este sera mi punto de partida para el an√°lisis de evasi√≥n. Antes de investigar por qu√© los clientes se van, debo entender la magnitud del problema, y un **gr√°fico de pastel** es una de las formas m√°s claras y universalmente entendidas de comunicar una **distribuci√≥n porcentual**, y hacerlo interactivo permitira a los usuarios explorar los datos por s√≠ mismos.

In [16]:
# 1. Calculamos los conteos y porcentajes
churn_counts = df_final['Churn'].value_counts()
churn_percentage = df_final['Churn'].value_counts(normalize=True) * 100

print("Conteo de Evasi√≥n de Clientes:")
print(churn_counts)
print("\nPorcentaje de Evasi√≥n de Clientes:")
print(round(churn_percentage, 2))

# 2. Creamos la visualizaci√≥n
fig = px.pie(
    names=['Permanecen (No Churn)', 'Evadieron (Churn)'],
    values=churn_counts.values,
    title='Proporci√≥n de Evasi√≥n de Clientes (Churn)',
    hole=0.3, # Para un efecto de dona (donut chart)
    color_discrete_sequence=px.colors.qualitative.Pastel # Paleta de colores suaves
)

fig.update_traces(
    textinfo='percent+label',
    hovertemplate='<b>%{label}</b><br>Clientes: %{value}<br>Porcentaje: %{percent}'
)

fig.show()

Conteo de Evasi√≥n de Clientes:
Churn
0    5174
1    1869
Name: count, dtype: int64

Porcentaje de Evasi√≥n de Clientes:
Churn
0    73.46
1    26.54
Name: proportion, dtype: float64


#### üí° An√°lisis de la Tasa de Evasi√≥n

Tenemo datos claros y directos:

* `1,869` clientes han cancelado su servicio.

* `5,174` clientes permanecen activos.

Esto se traduce en una **tasa de evasi√≥n** (churn rate) general del `26.54%`.

En t√©rminos de negocio, esto significa que m√°s de uno de cada cuatro clientes ha abandonado la compa√±√≠a. Esta es una cifra significativa y justifica plenamente la necesidad de este an√°lisis para identificar los factores que impulsan este comportamiento y proponer estrategias de retenci√≥n.

### üéØ 3.3. An√°lisis de Evasi√≥n por Variables Demogr√°ficas

**Objetivo**: Analizar c√≥mo la tasa de evasi√≥n (`Churn`) var√≠a entre diferentes segmentos demogr√°ficos de clientes, espec√≠ficamente por g√©nero, si es adulto mayor, si tiene pareja y si tiene dependientes.

**M√©todo**:

* Para cada variable demogr√°fica, agrupare los datos y calculare la tasa de evasi√≥n promedio de cada grupo, dado que he codificado Churn como `1` (`S√≠`) y `0` (`No`), la media de la columna Churn nos dara directamente la tasa de evasi√≥n (hermoso!!).

* Utilizare `Plotly` para crear gr√°ficos de barras que comparen visualmente estas tasas, esto permitir√° identificar r√°pidamente qu√© segmentos tienen tasas de evasi√≥n m√°s altas o m√°s bajas que el promedio general.

**Justificaci√≥n**: El an√°lisis demogr√°fico es un pilar en la estrategia de negocio, e identificar si ciertos grupos (por ejemplo, adultos mayores o personas sin dependientes) son m√°s propensos a irse, permite a la empresa dirigir campa√±as de retenci√≥n y comunicaci√≥n mucho m√°s espec√≠ficas y, por lo tanto, m√°s efectivas

In [17]:
# Lista de columnas demogr√°ficas que ya est√°n en formato num√©rico/binario
demographic_cols = ['gender', 'SeniorCitizen', 'Partner', 'Dependents']

# Creamos una figura con subplots para mostrar todos los gr√°ficos juntos
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=('Evasi√≥n por G√©nero', 'Evasi√≥n por Adulto Mayor', 'Evasi√≥n por Pareja', 'Evasi√≥n por Dependientes')
)

# Mapeo de etiquetas para los gr√°ficos
labels_map = {
    'gender': {0: 'Masculino', 1: 'Femenino'},
    'SeniorCitizen': {0: 'No', 1: 'S√≠'},
    'Partner': {0: 'No', 1: 'S√≠'},
    'Dependents': {0: 'No', 1: 'S√≠'}
}

# Iteramos para crear cada gr√°fico y a√±adirlo a la figura
row, col = 1, 1
for column in demographic_cols:
    # Agrupamos y calculamos la tasa de churn
    churn_rate = df_final.groupby(column)['Churn'].mean().reset_index()

    # Mapeamos los valores num√©ricos a etiquetas de texto para mayor claridad
    churn_rate[column] = churn_rate[column].map(labels_map[column])

    # Creamos el gr√°fico de barras
    bar_fig = px.bar(
        churn_rate,
        x=column,
        y='Churn',
        text=churn_rate['Churn'].apply(lambda x: f'{x:.2%}'), # Formato de porcentaje
        color=column,
        color_discrete_sequence=px.colors.qualitative.Pastel
    )

    # A√±adimos las barras a nuestra figura de subplots
    for trace in bar_fig.data:
        fig.add_trace(trace, row=row, col=col)

    # Actualizamos la posici√≥n para el siguiente gr√°fico
    col += 1
    if col > 2:
        col = 1
        row += 1

fig.update_layout(
    title_text='An√°lisis de Evasi√≥n por Perfil Demogr√°fico',
    height=600,
    showlegend=False
)
fig.update_yaxes(title_text='Tasa de Evasi√≥n (Churn Rate)')
fig.show()

#### üí° An√°lisis del Perfil Demogr√°fico

Los gr√°ficos revelan algunos patrones:

* **G√©nero**: No existe una diferencia significativa en la tasa de evasi√≥n entre **clientes masculinos y femeninos**. Ambas tasas rondan el promedio general del `~26.5%`, por lo que este factor no parece ser un diferenciador clave.

* **Adulto Mayor (SeniorCitizen)**: Aqu√≠ encontramos la primera gran se√±al de alerta, ya que los adultos mayores tienen una tasa de evasi√≥n del `41.68%`, muy por encima del promedio.

* **Pareja (Partner)**: Los clientes que no tienen pareja muestran una tasa de evasi√≥n del 32.98%, mientras que aquellos con pareja tienen una tasa mucho menor (19.66%), parce que la estabilidad de tener una pareja influye en la permanencia.

* **Dependientes (Dependents)**: Los clientes sin dependientes tienen una tasa de evasi√≥n del `~31.28%`, casi el doble que la de los clientes con dependientes `~15.45%`).

***Conclusi√≥n Inicial***: He identificado un perfil demogr√°fico de alto riesgo. Un cliente `adulto mayor`, `soltero` y `sin dependientes` es significativamente m√°s propenso a cancelar el servicio.

### üéØ 3.4. An√°lisis de Evasi√≥n por Variables de Contrataci√≥n

**Objetivo**: Determinar c√≥mo las caracter√≠sticas del `contrato` y la `facturaci√≥n` del cliente se relacionan con la tasa de evasi√≥n.

**M√©todo**: Al igual que en el paso anterior, calculare la tasa de evasi√≥n promedio para cada categor√≠a de estas variables.

**Justificaci√≥n**: A diferencia de los datos demogr√°ficos, **estas variables representan decisiones y procesos que la empresa controla directamente** por lo que descubrir que un tipo de contrato o un m√©todo de pago tiene una tasa de evasi√≥n masiva es un **insight** de negocio extremadamente **accionable**, ya que puede inspirar **cambios inmediatos** en la oferta de productos, los procesos de facturaci√≥n o las estrategias de fidelizaci√≥n.

In [18]:
# Lista de columnas relacionadas con la contrataci√≥n
account_cols = ['Contract', 'PaperlessBilling', 'PaymentMethod']

# Creamos una figura con subplots
fig = make_subplots(
    rows=1, cols=3,
    subplot_titles=('Evasi√≥n por Tipo de Contrato', 'Evasi√≥n por Facturaci√≥n sin Papel', 'Evasi√≥n por M√©todo de Pago')
)

# Mapeo de etiquetas para PaperlessBilling
paperless_labels = {0: 'No', 1: 'S√≠'}

# Gr√°fico para 'Contract'
churn_rate_contract = df_final.groupby('Contract', observed=False )['Churn'].mean().reset_index() # el valor por default para observed=False sera removido 
fig.add_trace(
    go.Bar(
        x=churn_rate_contract['Contract'],
        y=churn_rate_contract['Churn'],
        text=churn_rate_contract['Churn'].apply(lambda x: f'{x:.2%}'),
        name='Contract'
    ), row=1, col=1
)

# Gr√°fico para 'PaperlessBilling'
churn_rate_paperless = df_final.groupby('PaperlessBilling', observed=False)['Churn'].mean().reset_index()
churn_rate_paperless['PaperlessBilling'] = churn_rate_paperless['PaperlessBilling'].map(paperless_labels)
fig.add_trace(
    go.Bar(
        x=churn_rate_paperless['PaperlessBilling'],
        y=churn_rate_paperless['Churn'],
        text=churn_rate_paperless['Churn'].apply(lambda x: f'{x:.2%}'),
        name='PaperlessBilling'
    ), row=1, col=2
)

# Gr√°fico para 'PaymentMethod'
churn_rate_payment = df_final.groupby('PaymentMethod', observed=False)['Churn'].mean().reset_index()
fig.add_trace(
    go.Bar(
        x=churn_rate_payment['PaymentMethod'],
        y=churn_rate_payment['Churn'],
        text=churn_rate_payment['Churn'].apply(lambda x: f'{x:.2%}'),
        name='PaymentMethod'
    ), row=1, col=3
)

fig.update_layout(
    title_text='An√°lisis de Evasi√≥n por Condiciones de la Cuenta',
    height=500,
    showlegend=False
)
fig.update_yaxes(title_text='Tasa de Evasi√≥n (Churn Rate)')
fig.update_xaxes(tickangle=15) # Inclinamos las etiquetas del eje X para mejor legibilidad
fig.show()

#### üí° An√°lisis de las Condiciones de Contrataci√≥n

Esta visualizaci√≥n nos ofrece algunos de los insights m√°s potentes hasta ahora:

* **Tipo de Contrato**: Este es, posiblemente, el factor m√°s predictivo que he encontrado, al parecer los clientes con un contrato Mes a mes tienen una tasa de evasi√≥n del `42.71%`, una cifra astron√≥micamente alta en comparaci√≥n con los contratos de Un a√±o (`11.27%`) y Dos a√±os (`2.83%`). La falta de un compromiso a largo plazo es un factor de riesgo cr√≠tico.

* **Facturaci√≥n sin Papel (PaperlessBilling)**: Los clientes que optan por la facturaci√≥n sin papel tienen una tasa de evasi√≥n del `33.57%`, mientras que los que reciben factura f√≠sica solo tienen una tasa del `16.33%`, este resultado es contraintuitivo, podr√≠a sugerirnos que el proceso de pago en l√≠nea es confuso, que los clientes pierden la noci√≥n de sus facturas, o que este servicio es m√°s com√∫n entre clientes menos leales.

* **M√©todo de Pago (PaymentMethod)**: Los clientes que pagan con `Cheque electr√≥nico` se van a una tasa del `45.26%` mientras que los clientes que usan m√©todos de pago autom√°ticos como `transferencia` o `tarjeta de cr√©dito` tienen tasas mucho m√°s bajas. El pago manual y electr√≥nico parece estar asociado a una menor permanencia.

***Conclusi√≥n Inicial***: Un cliente con un contrato Mes a mes, que usa Facturaci√≥n sin Papel y paga con Cheque electr√≥nico tiene, potencialmente, el mayor riesgo de evasi√≥n.



### üéØ 3.5. An√°lisis de Evasi√≥n por Servicios Contratados

**Objetivo**: Investigar c√≥mo los diferentes servicios que un cliente ha contratado (tanto de telefon√≠a como de internet) se correlacionan con su probabilidad de evasi√≥n.

**M√©todo**: Dividire el an√°lisis en dos partes: **servicios telef√≥nicos** y **servicios de internet**. Para cada servicio, agrupare los datos, calculare la tasa de evasi√≥n y creare gr√°ficos de barras para visualizar los resultados.

**Justificaci√≥n**: Mi hip√≥tesis es que los clientes con m√°s servicios, especialmente aquellos que a√±aden valor y protecci√≥n (como el soporte t√©cnico o la seguridad en l√≠nea), estar√°n m√°s satisfechos y, por lo tanto, ser√°n menos propensos a irse.

#### üìû Servicios Telef√≥nicos

In [19]:
# Lista de columnas de servicios telef√≥nicos
phone_cols = ['PhoneService', 'MultipleLines']

# Mapeo de etiquetas
phone_service_labels = {0: 'No', 1: 'S√≠'}
multiple_lines_labels = {0: 'No', 1: 'S√≠', 'No phone service': 'Sin Serv. Tel.'}


# Creamos figura con subplots
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=('Evasi√≥n por Tener Servicio Telef√≥nico', 'Evasi√≥n por M√∫ltiples L√≠neas')
)

# Gr√°fico para PhoneService
churn_rate_phone = df_final.groupby('PhoneService', observed=False)['Churn'].mean().reset_index()
churn_rate_phone['PhoneService'] = churn_rate_phone['PhoneService'].map(phone_service_labels)
fig.add_trace(go.Bar(x=churn_rate_phone['PhoneService'], y=churn_rate_phone['Churn'], text=churn_rate_phone['Churn'].apply(lambda x: f'{x:.2%}')), row=1, col=1)

# Gr√°fico para MultipleLines
churn_rate_lines = df_final.groupby('MultipleLines', observed=False)['Churn'].mean().reset_index()

# churn_rate_lines['MultipleLines'] = churn_rate_lines['MultipleLines'].map(multiple_lines_labels) # El mapeo ya no es necesario con la √∫ltima limpieza
fig.add_trace(go.Bar(x=churn_rate_lines['MultipleLines'], y=churn_rate_lines['Churn'], text=churn_rate_lines['Churn'].apply(lambda x: f'{x:.2%}')), row=1, col=2)


fig.update_layout(title_text='An√°lisis de Evasi√≥n por Servicios Telef√≥nicos', showlegend=False)
fig.update_yaxes(title_text='Tasa de Evasi√≥n (Churn Rate)')
fig.show()

#### üõú Servicios de Internet

In [20]:
# Lista de columnas de servicios de internet
internet_cols = [
    'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
    'TechSupport', 'StreamingTV', 'StreamingMovies'
]

# Creamos una figura con subplots para todos los gr√°ficos de internet
fig = make_subplots(
    rows=3, cols=3,
    subplot_titles=internet_cols
)

# Iteramos para crear cada gr√°fico
row, col = 1, 1
for column in internet_cols:
    churn_rate = df_final.groupby(column, observed=False)['Churn'].mean().reset_index()
    bar_fig = px.bar(churn_rate, x=column, y='Churn', text=churn_rate['Churn'].apply(lambda x: f'{x:.2%}'))
    
    for trace in bar_fig.data:
        fig.add_trace(trace, row=row, col=col)
    
    col += 1
    if col > 3:
        col = 1
        row += 1

fig.update_layout(
    title_text='An√°lisis de Evasi√≥n por Servicios de Internet',
    height=800,
    showlegend=False
)
fig.update_yaxes(title_text='Tasa de Evasi√≥n')
fig.show()

#### üí° An√°lisis de los Servicios Contratados

Este an√°lisis es extremadamente revelador y me dio pistas muy claras sobre la retenci√≥n de clientes:

##### Servicios Telef√≥nicos:

* **Servicio Telef√≥nico General**: No hay una diferencia notable. La gran mayor√≠a de los clientes tiene servicio telef√≥nico, y la tasa de evasi√≥n entre los que no lo tienen es similar.

* **M√∫ltiples L√≠neas**: Los clientes con m√∫ltiples l√≠neas tienen una tasa de evasi√≥n ligeramente m√°s alta (`28.61%`) que aquellos con una sola l√≠nea (`25.04%`), esto es algo inesperado, pero la diferencia no es masiva.

#### Servicios de Internet:

* **Tipo de Conexi√≥n (InternetService)**: Los clientes con Fibra √ìptica tienen una tasa de evasi√≥n del `41.89%`, mucho m√°s alta que los clientes con DSL `18.96%`. Esto podr√≠a deberse a precios m√°s altos, mayor competencia en √°reas de fibra, o problemas de estabilidad del servicio a pesar de la mayor velocidad. Los clientes sin internet, como es l√≥gico, tienen una tasa de evasi√≥n muy baja `7.40%`, ya que suelen ser clientes de solo telefon√≠a, muy posiblemente `con contratos largos`.

* **Servicios de Protecci√≥n y Soporte (Clave)**: Los clientes que NO tienen los siguientes servicios son mucho m√°s propensos a irse:

    * **Seguridad en L√≠nea (OnlineSecurity)**: `41.77%` de evasi√≥n sin el servicio vs. `14.61%` con el servicio.

    * **Respaldo en L√≠nea (OnlineBackup)**: `39.93%` vs. `21.53%`.

    * **Protecci√≥n de Dispositivo (DeviceProtection)**: `39.13%` vs. `22.50%`.

    * **Soporte T√©cnico (TechSupport)**: `41.64%` de evasi√≥n sin soporte vs. solo `15.17%` con soporte.

* **Servicios de Streaming**: Los clientes sin estos servicios tienen tasas de evasi√≥n de alrededor del `33-34%`.

***Conclusi√≥n Inicial***: Los servicios adicionales no son solo una fuente de ingresos, parece ser **herramientas de retenci√≥n**, un cliente de Fibra √ìptica sin Soporte T√©cnico y sin Seguridad en L√≠nea presenta un perfil de riesgo de evasi√≥n extremadamente alto.

### üéØ 3.6. An√°lisis de Evasi√≥n por Variables Num√©ricas

**Objetivo**: Entender c√≥mo las variables num√©ricas continuas (`antig√ºedad`, `cargos mensuales` y `cargos totales`) se distribuyen entre los clientes que cancelaron el servicio y los que no.

**M√©todo**: La mejor manera de comparar distribuciones entre dos grupos son los diagramas de caja (box plots). Creare un box plot para cada variable num√©rica, mostrando lado a lado la distribuci√≥n para los clientes que se fueron y los que se quedaron, Esto nos permitir√° comparar f√°cilmente sus **medianas**, **rangos** y **dispersi√≥n**.

**Justificaci√≥n**: Este an√°lisis nos ayudara a responder preguntas como: **"¬øLos clientes que se van suelen tener una antig√ºedad menor?"** o **"¬øLos clientes con facturas m√°s altas son m√°s propensos a la evasi√≥n?"**.

In [21]:
# Lista de variables num√©ricas a analizar
numeric_cols = ['tenure', 'Charges.Monthly', 'Charges.Total', 'Cuentas_Diarias']

# Creamos una figura con subplots
fig = make_subplots(
    rows=1, cols=4,
    subplot_titles=('Antig√ºedad (meses)', 'Cargos Mensuales', 'Cargos Totales', 'Cargos Diarios')
)

# Iteramos para crear cada box plot
for i, col in enumerate(numeric_cols):
    fig.add_trace(
        go.Box(
            y=df_final[col],
            x=df_final['Churn'],
            name=col,
            boxpoints='outliers' # Muestra los valores at√≠picos
        ),
        row=1, col=i+1
    )

fig.update_layout(
    title_text='Distribuci√≥n de Variables Num√©ricas por Estado de Evasi√≥n (Churn)',
    height=500,
    showlegend=False
)
fig.update_xaxes(title_text='Churn (0 = No, 1 = S√≠)')
fig.show()

#### üí° An√°lisis de las Variables Num√©ricas

Los diagramas de caja nos muestran diferencias muy claras y significativas:

* **Antig√ºedad (tenure)**: La **mediana** de la antig√ºedad de los clientes que **se quedan** es de unos `38 meses`, mientras que para los que **se van** es de solo unos `10 meses`. por lo que podria decir que los clientes nuevos son mucho m√°s vulnerables a la evasi√≥n.

* **Cargos Mensuales (Charges.Monthly)**: Los clientes que **se van** tienden a tener **cargos mensuales** m√°s altos `mediana de ~$80` en comparaci√≥n con los que **se quedan** `mediana de ~$65`, entonces esto sumado a nuestro hallazgo sobre **la Fibra √ìptica**, refuerza la idea de que los planes m√°s caros est√°n asociados a una mayor tasa de cancelaci√≥n.

* **Cargos Totales (Charges.Total)**: Los clientes que se quedan tienen cargos totales acumulados mucho m√°s altos, aunque esto es una consecuencia l√≥gica de su mayor antig√ºedad. Lo **interesante** es que la dispersi√≥n es muy grande, indicando **una amplia variedad de perfiles de clientes leales**.

* **Cargos Diarios (Cuentas_Diarias)**: Como era de esperar, sigue el mismo patr√≥n que los cargos mensuales. Los clientes que cancelan tienden a tener un costo diario percibido m√°s alto.

***Conclusi√≥n Final del EDA***: Hemos identificado un perfil de cliente de alto riesgo muy consistente a trav√©s de todas nuestras variables, **clientes con poca antig√ºedad pero con cargos mensuales elevados, especialmente si tienen contratos mes a mes, pagan con cheque electr√≥nico y no contratan servicios clave de soporte o seguridad**.

### üéØ 3.8. S√≠ntesis y Creaci√≥n de Perfiles de Cliente de Alto Riesgo

**Objetivo**: Sintetizar los hallazgos de todo el an√°lisis exploratorio para construir un perfil detallado del segmento de clientes con la mayor probabilidad de evasi√≥n.

**M√©todo**: Se identificar√°n las caracter√≠sticas que, de forma individual, mostraron la mayor correlaci√≥n con una alta tasa de evasi√≥n, estas son:

* Tener un contrato Mes a mes.

* Tener un servicio de internet de Fibra √ìptica.

* No tener contratado el servicio de Soporte T√©cnico.

Utilizare el filtrado de Pandas para aislar a este grupo espec√≠fico de clientes que cumplen con todas estas condiciones simult√°neamente, y  analizare este nuevo segmento (df_high_risk), calculare su tama√±o, su tasa de evasi√≥n real, y tal vez otras caracter√≠sticas comunes.

**Justificaci√≥n**: Este an√°lisis de segmentaci√≥n es la culminaci√≥n de nuestro EDA, consider que en lugar de dar recomendaciones generales, me permitira identificar un arquetipo de cliente muy espec√≠fico al que el negocio puede dirigir campa√±as de retenci√≥n ultra-focalizadas.

In [22]:
# --- Primer perfil ---
high_risk_segment = df_final[
    (df_final['Contract'] == 'Month-to-month') &
    (df_final['InternetService'] == 'Fiber optic')
]

# An√°lisis del segmento
high_risk_count = len(high_risk_segment)
high_risk_churn_rate = high_risk_segment['Churn'].mean() * 100

print(f"--- An√°lisis del Segmento de Clientes de Alto Riesgo ---")
print(f"Definici√≥n: Contrato 'Mes a Mes' + Internet de 'Fibra √ìptica'")
print(f"N√∫mero de clientes en este segmento: {high_risk_count}")
print(f"Tasa de evasi√≥n para este grupo: {high_risk_churn_rate:.2f}%")
print("\n" + "="*60 + "\n")


# --- Segundo perfil (CORREGIDO) ---
# Filtramos sobre el segmento que ya ten√≠amos, buscando el valor de texto 'No'
ultra_high_risk_segment = high_risk_segment[
    high_risk_segment['TechSupport'] == 'No'  # ¬°CORRECCI√ìN CLAVE! Se busca el string 'No'
]

# An√°lisis del segmento
ultra_high_risk_count = len(ultra_high_risk_segment)
ultra_high_risk_churn_rate = ultra_high_risk_segment['Churn'].mean() * 100

print(f"--- An√°lisis del Segmento de Clientes de Ultra Alto Riesgo ---")
print(f"Definici√≥n: Perfil anterior + Sin 'Soporte T√©cnico'")
print(f"N√∫mero de clientes en este segmento: {ultra_high_risk_count}")
print(f"Tasa de evasi√≥n para este grupo: {ultra_high_risk_churn_rate:.2f}%")

# Analicemos su m√©todo de pago preferido
payment_method_risk = high_risk_segment['PaymentMethod'].value_counts(normalize=True) * 100
print("\nM√©todo de pago m√°s com√∫n en este segmento:")
print(round(payment_method_risk, 2))

--- An√°lisis del Segmento de Clientes de Alto Riesgo ---
Definici√≥n: Contrato 'Mes a Mes' + Internet de 'Fibra √ìptica'
N√∫mero de clientes en este segmento: 2128
Tasa de evasi√≥n para este grupo: 54.61%


--- An√°lisis del Segmento de Clientes de Ultra Alto Riesgo ---
Definici√≥n: Perfil anterior + Sin 'Soporte T√©cnico'
N√∫mero de clientes en este segmento: 1796
Tasa de evasi√≥n para este grupo: 57.52%

M√©todo de pago m√°s com√∫n en este segmento:
PaymentMethod
Electronic check             61.42
Bank transfer (automatic)    15.37
Credit card (automatic)      13.77
Mailed check                  9.45
Name: proportion, dtype: float64


#### üí° Conclusi√≥n Final y Perfil Definitivo

El an√°lisis de segmentaci√≥n ha revelado un perfil de cliente con una tasa de evasi√≥n alarmante, y que incluso se podria aislar mas esos perfieles son:

1. **Perfil de Alto Riesgo**: Clientes que tienen simult√°neamente:

    * **Contrato**: `Month-to-month`
    * **Servicio de Internet**: `Fiber optic`
***An√°lisis***: Este grupo consta de `2,128` clientes, y su tasa de evasi√≥n es del `54.61%`.

2. **Perfil de Ultra Alto Riesgo**: Clientes que cumplen con este y el perfil anterior:

    * No tienen Soporte T√©cnico (`TechSupport` = No)

***An√°lisis***: Este subgrupo, a√∫n m√°s espec√≠fico, consta de `1,796` clientes, y su tasa de evasi√≥n se eleva al `57.52%`.

#### Insight Final para el Negocio:

He identificado un segmento muy grande (`2,128` clientes) que tiene una probabilidad de m√°s del `50%` de abandonar la compa√±√≠a, y dentro de ese grupo, un subconjunto casi igual de grande (`1,796` clientes) tiene un riesgo a√∫n mayor, por lo que una estrategia de retenci√≥n dirigida a ofrecer **contratos a m√°s largo plazo** o a incentivar la **contrataci√≥n de Soporte T√©cnico** para este segmento podr√≠a tener un impacto masivo y medible en la reducci√≥n de la evasi√≥n general.

### üíæ Guardado de DB Final

In [23]:
# Guardar el DataFrame final en un archivo CSV
df_final.to_csv('telecom_churn_cleaned_data.csv', index=False)

## üìÑ 4. Informe final

### Introducci√≥n
El presente an√°lisis se llev√≥ a cabo con el objetivo de identificar los factores clave que impulsan la evasi√≥n de clientes (`Churn`) en **Telecom X**. La compa√±√≠a enfrenta una tasa de evasi√≥n general del `26.54%`, lo que significa que m√°s de uno de cada cuatro clientes ha optado por cancelar su servicio. Esta cifra representa una p√©rdida significativa de ingresos y una oportunidad cr√≠tica para mejorar la retenci√≥n.

Este informe resume el proceso de an√°lisis de datos, presenta los hallazgos m√°s relevantes y concluye con una serie de recomendaciones estrat√©gicas basadas en evidencia para mitigar el problema.

### 1. Limpieza y Tratamiento de Datos

Para asegurar la fiabilidad de nuestras conclusiones, se realiz√≥ un exhaustivo proceso de preparaci√≥n de datos, que incluy√≥:

* **Extracci√≥n y Normalizaci√≥n**: Se cargaron los datos desde su formato original **JSON** y se transformaron de una estructura anidada a un formato tabular plano.

* **Limpieza de Datos**: Se identificaron y estandarizaron valores vac√≠os que estaban representados como texto. Se manejaron los registros con datos faltantes, eliminando aquellos donde la informaci√≥n de evasi√≥n era irrecuperable (`224` registros) e imputando otros bas√°ndonos en la l√≥gica del negocio (ej. clientes nuevos con gasto total cero).

* **Optimizaci√≥n de Tipos de Datos**: Se convirtieron las columnas de texto a formatos num√©ricos y categ√≥ricos m√°s eficientes, reduciendo el uso de memoria y preparando el dataset para el an√°lisis y modelado.

* **Ingenier√≠a de Caracter√≠sticas (Feature Engineering)**: Se cre√≥ la columna Cuentas_Diarias para proporcionar una m√©trica adicional sobre el comportamiento de gasto del cliente.

El resultado es un dataset robusto, limpio y coherente, listo para la anal√≠tica avanzada.

### 2. An√°lisis Exploratorio y Hallazgos Clave

El an√°lisis de los datos revel√≥ que la evasi√≥n no es un fen√≥meno aleatorio, sino que se concentra fuertemente en segmentos de clientes con caracter√≠sticas muy espec√≠ficas.

**A.** El **Contrato** es el Factor M√°s Determinante

* Los clientes con contratos Mes a mes tienen una tasa de evasi√≥n del `42.71%`, mientras que esta cifra se desploma al `11.27%` para contratos de Un a√±o y a un m√≠nimo del `2.83%` para los de Dos a√±os. ***La falta de un compromiso a largo plazo es el principal factor de riesgo.***

**B.** El Perfil de **Servicios** Contratados Revela Riesgos y Oportunidades

* **Internet de Fibra √ìptica**: Este servicio premium est√° asociado a una alta tasa de evasi√≥n (`41.89%`). Esto sugiere que, a pesar de la calidad del servicio, factores como el precio o la competencia est√°n provocando la p√©rdida de estos clientes.
* **Servicios de Soporte y Seguridad como Anclas de Retenci√≥n**: Los servicios adicionales no son solo una fuente de ingresos, sino herramientas de retenci√≥n cruciales. Clientes sin Soporte T√©cnico tienen una tasa de evasi√≥n del `41.64%` (vs. `15.17%` para los que s√≠ lo tienen). De igual manera, clientes sin Seguridad en L√≠nea se van a una tasa del `41.76%` (vs. `14.61%`).

**C.** Procesos de **Facturaci√≥n** y Pagos como Puntos de Fricci√≥n

* Los clientes que pagan con Cheque electr√≥nico presentan una alarmante tasa de evasi√≥n del `45.26%`.

* Aquellos con Facturaci√≥n sin Papel tambi√©n muestran una mayor propensi√≥n a irse (`33.59%` vs. `16.33%`).

Estos hallazgos sugieren que los m√©todos de pago manuales y los procesos de facturaci√≥n digital pueden estar generando una mala experiencia de cliente.

**D.** **S√≠ntesis**: Identificaci√≥n de Segmentos de "***Ultra Alto Riesgo***"

Al combinar los factores anteriores, identificamos dos perfiles de clientes cuya probabilidad de evasi√≥n es dram√°ticamente alta:

* **Perfil de Alto Riesgo** (`54.61%` de Evasi√≥n): Clientes con *Contrato Mes a Mes* y servicio de *Fibra √ìptica*. Este grupo representa a `2,128` clientes.

* **Perfil de Ultra Alto Riesgo** (`57.52%` de Evasi√≥n): Si al perfil anterior le sumamos la falta de *Soporte T√©cnico*, nos quedamos con un segmento de `1,796` clientes cuya probabilidad de abandono es m√°s del doble de la media de la empresa.

### 3. Conclusiones e Insights

**El `Churn` est√° Concentrado**: La p√©rdida de clientes no es generalizada, sino que est√° impulsada por perfiles de clientes claramente identificables y predecibles.

**La Flexibilidad Mata la Lealtad**: El contrato mes a mes, si bien es atractivo para los clientes, es el principal veh√≠culo de la evasi√≥n.

**Los Servicios Adicionales son Herramientas de Retenci√≥n**: Servicios como el *Soporte T√©cnico* y la *Seguridad en L√≠nea* crean "pegajosidad" (**stickiness**), haciendo que los clientes est√©n m√°s integrados y satisfechos con el ecosistema de la empresa.

**La Experiencia de Pago es Cr√≠tica**: Un proceso de pago engorroso o poco fiable (como el cheque electr√≥nico) es un fuerte repelente de clientes.

### 4. Recomendaciones Estrat√©gicas

Basado en los hallazgos, se proponen las siguientes acciones para reducir la tasa de evasi√≥n:

* Implementar **Campa√±as** de Migraci√≥n de Contrato:

    * *Acci√≥n*: Dise√±ar y ejecutar campa√±as de **marketing proactivas dirigidas al "Perfil de Alto Riesgo"** para incentivarlos a *migrar de un contrato Mes a Mes a uno de Un A√±o*, ofreciendo un descuento en la tarifa mensual o un servicio adicional gratuito durante los primeros meses, empresas como Canva y Microsoft las promocionan constantemente.

* Crear **Paquetes** de "Retenci√≥n y Protecci√≥n":

    * *Acci√≥n*: Para los clientes de *Fibra √ìptica* (especialmente los nuevos), **empaquetar de forma atractiva el Soporte T√©cnico y la Seguridad en L√≠nea**. Se podr√≠a ofrecer el primer a√±o de estos servicios con un descuento significativo para aumentar su adopci√≥n y, por ende, la retenci√≥n.

* Optimizar la **Experiencia de Pago**:

    * *Acci√≥n*: Investigar y mejorar el flujo de pago con Cheque electr√≥nico y el sistema de Facturaci√≥n sin Papel. Simult√°neamente, **crear incentivos** (ej. un peque√±o descuento √∫nico) para que los clientes cambien a **m√©todos de pago autom√°ticos** y m√°s fiables como la **domiciliaci√≥n** bancaria o la tarjeta de cr√©dito.

* Desarrollar un **Modelo Predictivo** de Churn:

    * *Acci√≥n*: Utilizar este informe como la base para que el equipo de Data Science construya un modelo de machine learning, este modelo podr√° asignar una "**puntuaci√≥n de riesgo de evasi√≥n**" a cada cliente mensualmente, permitiendo al equipo de retenci√≥n actuar de forma preventiva y personalizada antes de que el cliente decida irse.