# Telecom X – Análisis de Evasión de Clientes (Churn)

## 1. Contexto del proyecto
## 2. Extracción de datos (API)
## 3. Inspección inicial del dataset
## 4. Limpieza y transformación (ETL)
## 5. Análisis Exploratorio de Datos (EDA)
## 6. Conclusiones e insights


In [68]:
import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


## 2. Extracción de datos (API)


In [69]:
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json"


In [70]:
response = requests.get(url)
response.status_code


200

In [71]:
data = response.json()
type(data)


list

In [72]:
data[:2]


[{'customerID': '0002-ORFBO',
  'Churn': 'No',
  'customer': {'gender': 'Female',
   'SeniorCitizen': 0,
   'Partner': 'Yes',
   'Dependents': 'Yes',
   'tenure': 9},
  'phone': {'PhoneService': 'Yes', 'MultipleLines': 'No'},
  'internet': {'InternetService': 'DSL',
   'OnlineSecurity': 'No',
   'OnlineBackup': 'Yes',
   'DeviceProtection': 'No',
   'TechSupport': 'Yes',
   'StreamingTV': 'Yes',
   'StreamingMovies': 'No'},
  'account': {'Contract': 'One year',
   'PaperlessBilling': 'Yes',
   'PaymentMethod': 'Mailed check',
   'Charges': {'Monthly': 65.6, 'Total': '593.3'}}},
 {'customerID': '0003-MKNFE',
  'Churn': 'No',
  'customer': {'gender': 'Male',
   'SeniorCitizen': 0,
   'Partner': 'No',
   'Dependents': 'No',
   'tenure': 9},
  'phone': {'PhoneService': 'Yes', 'MultipleLines': 'Yes'},
  'internet': {'InternetService': 'DSL',
   'OnlineSecurity': 'No',
   'OnlineBackup': 'No',
   'DeviceProtection': 'No',
   'TechSupport': 'No',
   'StreamingTV': 'No',
   'StreamingMovies': 

In [73]:
df = pd.json_normalize(data)
df.head()


Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [74]:
df.tail()



Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.1,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.3,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65
7266,9995-HOTOH,No,Male,0,Yes,Yes,63,No,No phone service,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Electronic check,59.0,3707.6


In [75]:
df = pd.json_normalize(data)


In [76]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

# 3. Comprensión del dataset y diccionario de datos (resumen)

Con el fin de comprender la estructura del dataset y el significado de sus variables, se revisó el diccionario de datos proporcionado junto a la API. A continuación, se describen las principales columnas relevantes para el análisis de evasión de clientes (churn):

- **customerID**: Identificador único de cada cliente.
- **Churn**: Indica si el cliente canceló el servicio (`Yes`) o continúa activo (`No`).
- **customer.gender**: Género del cliente.
- **customer.SeniorCitizen**: Indica si el cliente es adulto mayor (1 = sí, 0 = no).
- **customer.Partner**: Indica si el cliente tiene pareja.
- **customer.Dependents**: Indica si el cliente tiene dependientes.
- **customer.tenure**: Cantidad de meses que el cliente ha permanecido con la empresa.
- **phone.PhoneService**: Indica si el cliente cuenta con servicio telefónico.
- **internet.InternetService**: Tipo de servicio de internet contratado (DSL, Fibra óptica o ninguno).
- **account.Contract**: Tipo de contrato del cliente (mensual, anual, etc.).
- **account.PaperlessBilling**: Indica si el cliente utiliza facturación electrónica.
- **account.PaymentMethod**: Método de pago utilizado por el cliente.
- **account.Charges.Monthly**: Cargo mensual asociado al servicio.
- **account.Charges.Total**: Total facturado al cliente durante toda su permanencia en la empresa.

Esta comprensión es fundamental para interpretar correctamente los análisis posteriores y evitar supuestos incorrectos sobre los datos.


### Variables relevantes para el análisis de evasión de clientes (churn)

A partir de la revisión del dataset y del diccionario de datos, se identifican las siguientes variables como potencialmente relevantes para explicar la evasión de clientes:

- **customer.tenure**: La antigüedad del cliente suele estar fuertemente relacionada con la probabilidad de cancelación.
- **account.Contract**: Los contratos mensuales suelen presentar mayores tasas de churn en comparación con contratos de mayor duración.
- **account.Charges.Monthly**: Cargos mensuales elevados pueden influir en la decisión de abandono del servicio.
- **internet.InternetService**: El tipo de servicio de internet contratado puede afectar la satisfacción del cliente.
- **account.PaymentMethod**: Algunos métodos de pago se asocian a mayor evasión (por ejemplo, pagos manuales).
- **internet.TechSupport** y **internet.OnlineSecurity**: La ausencia de servicios adicionales de soporte o seguridad puede aumentar el riesgo de churn.
- **customer.SeniorCitizen**: El comportamiento de evasión puede diferir según el grupo etario.
- **customer.Partner** y **customer.Dependents**: Variables familiares que pueden influir en la estabilidad del cliente.

Estas variables serán consideradas prioritarias en el análisis exploratorio de datos (EDA) y servirán como base para futuros modelos predictivos de churn.


# 4. Limpieza y transformación (ETL)

## Copia de seguridad

In [77]:
df_limpio = df.copy()


## Revisión de valores únicos

In [78]:
df_limpio['Churn'].unique()


array(['No', 'Yes', ''], dtype=object)

In [79]:
df_limpio['internet.InternetService'].unique()


array(['DSL', 'Fiber optic', 'No'], dtype=object)

In [80]:
df_limpio['phone.MultipleLines'].unique()


array(['No', 'Yes', 'No phone service'], dtype=object)

## Normalización de strings

In [81]:
columnas_texto = df_limpio.select_dtypes(include='object').columns

df_limpio[columnas_texto] = df_limpio[columnas_texto].apply(
    lambda col: col.str.strip().str.lower()
)


## Corrección de categorías especiales

In [82]:
df_limpio = df_limpio.replace({
    'no phone service': 'no',
    'no internet service': 'no'
})


## Manejo del Churn vacío

In [83]:
df_limpio['Churn'].value_counts(dropna=False)


Unnamed: 0_level_0,count
Churn,Unnamed: 1_level_1
no,5174
yes,1869
,224


In [84]:
df_limpio = df_limpio[df_limpio['Churn'] != '']


In [85]:
df_limpio['Churn'].value_counts()


Unnamed: 0_level_0,count
Churn,Unnamed: 1_level_1
no,5174
yes,1869


### Crear columna cuentas_diarias

In [86]:
df_limpio.loc[:, 'cuentas_diarias'] = df_limpio['account.Charges.Monthly'] / 30


In [87]:
df_limpio[['account.Charges.Monthly', 'cuentas_diarias']].head()


Unnamed: 0,account.Charges.Monthly,cuentas_diarias
0,65.6,2.186667
1,59.9,1.996667
2,73.9,2.463333
3,98.0,3.266667
4,83.9,2.796667


In [88]:
[col for col in df_limpio.columns if 'charges' in col.lower()]


['account.Charges.Monthly', 'account.Charges.Total']

### Estandarización de Churn (binaria)

In [89]:
df_limpio['churn_binario'] = df_limpio['Churn'].map({
    'yes': 1,
    'no': 0
})


In [90]:
df_limpio[['Churn', 'churn_binario']].value_counts()


Unnamed: 0_level_0,Unnamed: 1_level_0,count
Churn,churn_binario,Unnamed: 2_level_1
no,0,5174
yes,1,1869


#### Estandarización y transformación de datos (opcional)

Como parte de una estandarización mínima orientada al análisis, se transformó la variable objetivo Churn a formato binario (1 = evasión, 0 = permanencia), facilitando su uso en análisis estadísticos y futuros modelos predictivos.

Si bien existen otras variables categóricas que podrían binarizarse o renombrarse para mejorar la interpretabilidad (por ejemplo, customer.Partner, customer.Dependents, phone.PhoneService o account.PaperlessBilling), se optó por mantenerlas en formato original para preservar la legibilidad del dataset y evitar una transformación innecesaria en esta etapa exploratoria.

In [91]:
df_limpio['churn_binario'] = df_limpio['churn_binario'].astype(int)


# 5  EDA: Conteo de evasión por variables numéricas

## Chequeo rápido de base

In [92]:
df_limpio[['churn_binario', 'customer.tenure', 'account.Charges.Monthly', 'account.Charges.Total', 'cuentas_diarias']].head()


Unnamed: 0,churn_binario,customer.tenure,account.Charges.Monthly,account.Charges.Total,cuentas_diarias
0,0,9,65.6,593.3,2.186667
1,0,9,59.9,542.4,1.996667
2,1,4,73.9,280.85,2.463333
3,1,13,98.0,1237.85,3.266667
4,1,3,83.9,267.4,2.796667


## Conteo base de churn

In [93]:
df_limpio['churn_binario'].value_counts()


Unnamed: 0_level_0,count
churn_binario,Unnamed: 1_level_1
0,5174
1,1869


## Resumen estadístico por churn

In [94]:
cols_numericas = ['customer.tenure', 'account.Charges.Monthly', 'account.Charges.Total', 'cuentas_diarias']

df_limpio.groupby('churn_binario')[cols_numericas].describe()


Unnamed: 0_level_0,customer.tenure,customer.tenure,customer.tenure,customer.tenure,customer.tenure,customer.tenure,customer.tenure,customer.tenure,account.Charges.Monthly,account.Charges.Monthly,account.Charges.Monthly,account.Charges.Monthly,account.Charges.Monthly,cuentas_diarias,cuentas_diarias,cuentas_diarias,cuentas_diarias,cuentas_diarias,cuentas_diarias,cuentas_diarias,cuentas_diarias
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
churn_binario,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
0,5174.0,37.569965,24.113777,0.0,15.0,38.0,61.0,72.0,5174.0,61.265124,...,88.4,118.75,5174.0,2.042171,1.036422,0.608333,0.836667,2.1475,2.946667,3.958333
1,1869.0,17.979133,19.531123,1.0,2.0,10.0,29.0,72.0,1869.0,74.441332,...,94.2,118.35,1869.0,2.481378,0.822202,0.628333,1.871667,2.655,3.14,3.945


## Resumen  ejecutivo (media y mediana)

In [95]:
# df_limpio.groupby('churn_binario')[cols_numericas].agg(['mean', 'median'])


TypeError: agg function failed [how->mean,dtype->object]

### Solucionando este Error

In [96]:
df_limpio[cols_numericas].dtypes


Unnamed: 0,0
customer.tenure,int64
account.Charges.Monthly,float64
account.Charges.Total,object
cuentas_diarias,float64


In [97]:
df_limpio['account.Charges.Total'] = pd.to_numeric(
    df_limpio['account.Charges.Total'],
    errors='coerce'
)


In [98]:
df_limpio[cols_numericas].dtypes


Unnamed: 0,0
customer.tenure,int64
account.Charges.Monthly,float64
account.Charges.Total,float64
cuentas_diarias,float64


In [99]:
df_limpio.groupby('churn_binario')[cols_numericas].agg(['mean', 'median'])


Unnamed: 0_level_0,customer.tenure,customer.tenure,account.Charges.Monthly,account.Charges.Monthly,account.Charges.Total,account.Charges.Total,cuentas_diarias,cuentas_diarias
Unnamed: 0_level_1,mean,median,mean,median,mean,median,mean,median
churn_binario,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
0,37.569965,38.0,61.265124,64.425,2555.344141,1683.6,2.042171,2.1475
1,17.979133,10.0,74.441332,79.65,1531.796094,703.55,2.481378,2.655


# ACTIVIDAD EXTRA:

## Selección de variables numéricas

In [None]:
cols_corr = [
    'churn_binario',
    'customer.tenure',
    'account.Charges.Monthly',
    'account.Charges.Total',
    'cuentas_diarias'
]

df_corr = df_limpio[cols_corr]
df_corr.head()


## Matriz de correlación

In [None]:
matriz_corr = df_corr.corr()
matriz_corr


## Visualización

In [None]:
plt.figure(figsize=(8,6))
sns.heatmap(
    matriz_corr,
    annot=True,
    fmt=".2f",
    cmap="coolwarm",
    linewidths=0.5
)
plt.title("Matriz de correlación entre variables numéricas")
plt.show()


## Relación directa: cuentas_diarias vs churn

In [None]:
plt.figure(figsize=(6,4))
sns.boxplot(
    x='churn_binario',
    y='cuentas_diarias',
    data=df_limpio
)
plt.title("Relación entre cuentas_diarias y churn")
plt.xlabel("Churn (0 = No, 1 = Sí)")
plt.ylabel("Cuentas diarias")
plt.show()


## Relación directa: tenure vs churn

In [None]:
plt.figure(figsize=(6,4))
sns.boxplot(
    x='churn_binario',
    y='customer.tenure',
    data=df_limpio
)
plt.title("Relación entre antigüedad del cliente y churn")
plt.xlabel("Churn (0 = No, 1 = Sí)")
plt.ylabel("Antigüedad (meses)")
plt.show()


##

# Sobre los Insights

### Sobre los Insights: El análisis de variables numéricas evidencia diferencias significativas entre clientes que cancelan y los que permanecen. Los clientes con churn presentan una menor antigüedad promedio, pero mayores cargos mensuales y diarios, lo que sugiere que el abandono ocurre principalmente en etapas tempranas del ciclo de vida del cliente y está asociado a planes de mayor costo. En contraste, los clientes con mayor permanencia muestran un gasto mensual más moderado, pero un mayor gasto total acumulado.

 # INFORME FINAL


> Agregar bloque entrecomillado



## 📊 Telecom X – Análisis de Evasión de Clientes (Churn)

---

### 1. Introducción

El objetivo de este proyecto es analizar el fenómeno de **evasión de clientes (churn)** en Telecom X, entendido como la cancelación del servicio por parte de los clientes.  
La evasión representa un problema estratégico para las empresas de telecomunicaciones, ya que impacta directamente en los ingresos, los costos de adquisición de nuevos clientes y la estabilidad del negocio.

A través del análisis de datos históricos de clientes, se busca identificar **patrones y variables asociadas al churn**, con el fin de generar **insights accionables** que permitan apoyar futuras estrategias de retención.

---

### 2. Limpieza y Tratamiento de Datos (ETL)

Los datos fueron extraídos directamente desde una **API en formato JSON** y transformados a un **DataFrame de Pandas** para facilitar su análisis.

Las principales etapas de limpieza y tratamiento fueron:

- Normalización de la estructura del JSON utilizando `pd.json_normalize`.
- Revisión de la estructura general y tipos de datos del dataset.
- Normalización de variables categóricas (uso de `lower()` y eliminación de espacios).
- Corrección de categorías especiales como `"no phone service"` y `"no internet service"`.
- Identificación y eliminación de registros con valor vacío en la variable objetivo `Churn`.
- Creación de la variable binaria `churn_binario`:
  - `1`: Cliente que canceló el servicio.
  - `0`: Cliente que permanece activo.
- Conversión explícita de variables numéricas para evitar errores en cálculos estadísticos.
- Creación de la variable derivada **`cuentas_diarias`**, calculada a partir del cargo mensual, para obtener una visión más granular del gasto del cliente.

Estas transformaciones permitieron asegurar la **consistencia, calidad y confiabilidad** de los datos antes del análisis exploratorio.

---

### 3. Análisis Exploratorio de Datos (EDA)

El análisis exploratorio se centró en comparar el comportamiento de las **variables numéricas clave** entre clientes que cancelaron el servicio y aquellos que permanecen activos.

Variables analizadas:
- Antigüedad del cliente (`customer.tenure`)
- Cargo mensual (`account.Charges.Monthly`)
- Total facturado (`account.Charges.Total`)
- Gasto diario estimado (`cuentas_diarias`)

Principales hallazgos:

- **Antigüedad (tenure):**  
  Los clientes que presentan churn tienen, en promedio, una antigüedad significativamente menor, lo que indica que la evasión ocurre principalmente en las primeras etapas de la relación con la empresa.

- **Cargo mensual:**  
  Los clientes que cancelan muestran cargos mensuales promedio más altos, lo que sugiere una posible sensibilidad al precio o percepción de bajo valor recibido.

- **Total facturado:**  
  El total acumulado facturado es menor en clientes con churn, coherente con su menor permanencia en el servicio.

- **Gasto diario:**  
  El gasto diario promedio es mayor en clientes que cancelan, reforzando la relación entre mayor costo percibido y probabilidad de evasión.

Estas diferencias permiten identificar **patrones claros** entre ambos grupos de clientes.

---

### 4. Complicaciones y Desafíos Durante el Desarrollo del Challenge

Durante el desarrollo del challenge se presentaron diversas dificultades técnicas y analíticas, las cuales fueron abordadas progresivamente como parte del proceso de aprendizaje:

- **Estructura anidada del JSON:**  
  La información proveniente de la API presentaba múltiples niveles anidados, lo que requirió un uso cuidadoso de `pd.json_normalize` para obtener un DataFrame plano y analizable.

- **Inconsistencias en variables categóricas:**  
  Se detectaron valores como cadenas vacías (`''`) y categorías especiales (`"no phone service"`), lo que obligó a realizar revisiones exhaustivas de valores únicos y normalización de strings.

- **Errores de tipo de datos:**  
  Algunas variables numéricas, como `account.Charges.Total`, estaban inicialmente almacenadas como texto, generando errores en cálculos estadísticos y agregaciones. Esto requirió una conversión explícita de tipos.

- **Advertencias de Pandas (`SettingWithCopyWarning`):**  
  Al trabajar con subconjuntos del DataFrame, se debió ajustar la asignación de columnas utilizando `.loc` para asegurar modificaciones seguras.

- **Errores en agregaciones estadísticas:**  
  Durante el cálculo de medias y medianas por grupo, se identificaron errores derivados de tipos incorrectos, lo que llevó a una validación sist
