# üì° TelecomX ‚Äî An√°lisis de Evasi√≥n de Clientes (Churn)

**Objetivo:** Identificar los factores que explican la alta tasa de evasi√≥n de clientes en Telecom X, limpiar y transformar los datos para entregarlos listos al equipo de ciencia de datos.

**Herramientas:** Python ¬∑ Pandas ¬∑ Matplotlib ¬∑ Seaborn

# üìå Extracci√≥n

In [None]:
# Importaci√≥n de librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
import requests

print('‚úÖ Librer√≠as importadas correctamente')

In [None]:
# Extracci√≥n de datos desde la API (JSON)
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json'
response = requests.get(url)
data = response.json()

print(f'‚úÖ Datos extra√≠dos: {len(data)} registros')
print(f'Ejemplo de registro:')
print(json.dumps(data[0], indent=2))

In [None]:
# Normalizar el JSON anidado a un DataFrame plano
df = pd.json_normalize(data)

print(f'Shape del DataFrame: {df.shape}')
df.head(3)

In [None]:
# Vista general de los datos
print('üìã Tipos de datos:')
print(df.dtypes)
print()
print('üìã Valores nulos por columna:')
print(df.isnull().sum())

# üîß Transformaci√≥n

In [None]:
# ‚îÄ‚îÄ 1. Renombrar columnas para mayor claridad ‚îÄ‚îÄ
df.columns = [
    'customerID', 'Churn',
    'gender', 'SeniorCitizen', 'Partner', 'Dependents', 'tenure',
    'PhoneService', 'MultipleLines',
    'InternetService', 'OnlineSecurity', 'OnlineBackup',
    'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies',
    'Contract', 'PaperlessBilling', 'PaymentMethod',
    'MonthlyCharges', 'TotalCharges'
]

print('‚úÖ Columnas renombradas')
print(df.columns.tolist())

In [None]:
# ‚îÄ‚îÄ 2. Corregir tipos de datos ‚îÄ‚îÄ

# TotalCharges: contiene espacios vac√≠os, convertir a num√©rico
df['TotalCharges'] = df['TotalCharges'].replace(' ', np.nan)
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# SeniorCitizen: de 0/1 a Yes/No para consistencia
df['SeniorCitizen'] = df['SeniorCitizen'].map({0: 'No', 1: 'Yes'})

print('‚úÖ Tipos de datos corregidos')
print(df[['TotalCharges', 'SeniorCitizen']].dtypes)

In [None]:
# ‚îÄ‚îÄ 3. Tratar valores nulos ‚îÄ‚îÄ
print(f'Nulos en TotalCharges: {df["TotalCharges"].isna().sum()}')

# Clientes con tenure=0 tienen TotalCharges nulo ‚Äî se imputa con 0
df['TotalCharges'] = df['TotalCharges'].fillna(0)

print(f'Nulos tras imputaci√≥n: {df["TotalCharges"].isna().sum()}')

In [None]:
# ‚îÄ‚îÄ 4. Tratar columna Churn (espacios vac√≠os) ‚îÄ‚îÄ
print('Valores √∫nicos en Churn:', df['Churn'].unique())

# Eliminar filas con Churn vac√≠o
df = df[df['Churn'].isin(['Yes', 'No'])].copy()
df['Churn'] = df['Churn'].map({'Yes': 1, 'No': 0})

print(f'‚úÖ Churn limpio. Registros restantes: {len(df)}')
print(df['Churn'].value_counts())

In [None]:
# ‚îÄ‚îÄ 5. Eliminar duplicados ‚îÄ‚îÄ
print(f'Duplicados encontrados: {df.duplicated().sum()}')
df = df.drop_duplicates()
print(f'‚úÖ Shape final del DataFrame: {df.shape}')

In [None]:
# ‚îÄ‚îÄ 6. Crear columna de gasto diario (feature engineering) ‚îÄ‚îÄ
df['DailyCharges'] = (df['MonthlyCharges'] / 30).round(2)

print('‚úÖ Columna DailyCharges creada')
df[['MonthlyCharges', 'TotalCharges', 'DailyCharges']].describe()

In [None]:
# Resumen del DataFrame limpio
print('üìã DataFrame listo para an√°lisis:')
df.info()
df.head()

# üìä Carga y an√°lisis

In [None]:
# Configuraci√≥n visual
sns.set_theme(style='whitegrid', palette='Set2')
plt.rcParams['figure.figsize'] = (10, 5)
CHURN_PALETTE = {0: '#2ecc71', 1: '#e74c3c'}
print('‚úÖ Configuraci√≥n visual lista')

In [None]:
# ‚îÄ‚îÄ Gr√°fico 1: Distribuci√≥n general del Churn ‚îÄ‚îÄ
churn_counts = df['Churn'].value_counts()
labels = ['No Churn', 'Churn']
colors = ['#2ecc71', '#e74c3c']

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Pastel
axes[0].pie(churn_counts, labels=labels, autopct='%1.1f%%',
            colors=colors, startangle=90, wedgeprops={'edgecolor': 'white'})
axes[0].set_title('Distribuci√≥n de Churn', fontsize=14, fontweight='bold')

# Barras
axes[1].bar(labels, churn_counts, color=colors, edgecolor='white')
axes[1].set_title('Cantidad de Clientes por Churn', fontsize=14, fontweight='bold')
axes[1].set_ylabel('Cantidad de clientes')
for i, v in enumerate(churn_counts):
    axes[1].text(i, v + 30, str(v), ha='center', fontweight='bold')

plt.suptitle('An√°lisis General de Evasi√≥n de Clientes', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

tasa = df['Churn'].mean() * 100
print(f'üìä Tasa de evasi√≥n: {tasa:.1f}%')

In [None]:
# ‚îÄ‚îÄ Gr√°fico 2: Churn por variables demogr√°ficas ‚îÄ‚îÄ
demograficas = ['gender', 'SeniorCitizen', 'Partner', 'Dependents']
titulos = ['G√©nero', 'Adulto Mayor', 'Tiene Pareja', 'Tiene Dependientes']

fig, axes = plt.subplots(1, 4, figsize=(18, 5))

for ax, col, titulo in zip(axes, demograficas, titulos):
    churn_rate = df.groupby(col)['Churn'].mean() * 100
    bars = ax.bar(churn_rate.index, churn_rate.values,
                  color=['#3498db', '#e74c3c'], edgecolor='white')
    ax.set_title(titulo, fontsize=12, fontweight='bold')
    ax.set_ylabel('Tasa de Churn (%)')
    ax.set_ylim(0, 50)
    for bar in bars:
        ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                f'{bar.get_height():.1f}%', ha='center', fontweight='bold')

plt.suptitle('Tasa de Churn por Variables Demogr√°ficas', fontsize=15, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# ‚îÄ‚îÄ Gr√°fico 3: Churn por tipo de contrato ‚îÄ‚îÄ
fig, ax = plt.subplots(figsize=(10, 5))

churn_contrato = df.groupby('Contract')['Churn'].mean().sort_values(ascending=False) * 100
colores = ['#e74c3c', '#f39c12', '#2ecc71']

bars = ax.barh(churn_contrato.index, churn_contrato.values, color=colores, edgecolor='white')
ax.set_xlabel('Tasa de Churn (%)')
ax.set_title('Tasa de Churn por Tipo de Contrato', fontsize=14, fontweight='bold')
for bar in bars:
    ax.text(bar.get_width() + 0.5, bar.get_y() + bar.get_height()/2,
            f'{bar.get_width():.1f}%', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# ‚îÄ‚îÄ Gr√°fico 4: Churn por servicio de internet ‚îÄ‚îÄ
fig, ax = plt.subplots(figsize=(8, 5))

churn_internet = df.groupby('InternetService')['Churn'].mean().sort_values(ascending=False) * 100

bars = ax.bar(churn_internet.index, churn_internet.values,
              color=['#e74c3c', '#f39c12', '#2ecc71'], edgecolor='white')
ax.set_ylabel('Tasa de Churn (%)')
ax.set_title('Tasa de Churn por Servicio de Internet', fontsize=14, fontweight='bold')
for bar in bars:
    ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
            f'{bar.get_height():.1f}%', ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# ‚îÄ‚îÄ Gr√°fico 5: Distribuci√≥n de tenure (meses) por Churn ‚îÄ‚îÄ
fig, ax = plt.subplots(figsize=(10, 5))

for churn_val, label, color in [(0, 'No Churn', '#2ecc71'), (1, 'Churn', '#e74c3c')]:
    subset = df[df['Churn'] == churn_val]['tenure']
    ax.hist(subset, bins=30, alpha=0.6, label=label, color=color, edgecolor='white')

ax.set_xlabel('Meses de permanencia (tenure)')
ax.set_ylabel('Cantidad de clientes')
ax.set_title('Distribuci√≥n de Permanencia por Churn', fontsize=14, fontweight='bold')
ax.legend()
plt.tight_layout()
plt.show()

print(df.groupby('Churn')['tenure'].describe())

In [None]:
# ‚îÄ‚îÄ Gr√°fico 6: Cargos mensuales por Churn ‚îÄ‚îÄ
fig, ax = plt.subplots(figsize=(10, 5))

for churn_val, label, color in [(0, 'No Churn', '#2ecc71'), (1, 'Churn', '#e74c3c')]:
    subset = df[df['Churn'] == churn_val]['MonthlyCharges']
    ax.hist(subset, bins=30, alpha=0.6, label=label, color=color, edgecolor='white')

ax.set_xlabel('Cargo Mensual ($)')
ax.set_ylabel('Cantidad de clientes')
ax.set_title('Distribuci√≥n de Cargos Mensuales por Churn', fontsize=14, fontweight='bold')
ax.legend()
plt.tight_layout()
plt.show()

print(df.groupby('Churn')['MonthlyCharges'].describe())

In [None]:
# ‚îÄ‚îÄ Gr√°fico 7: M√©todo de pago vs Churn ‚îÄ‚îÄ
fig, ax = plt.subplots(figsize=(12, 5))

churn_pago = df.groupby('PaymentMethod')['Churn'].mean().sort_values(ascending=False) * 100
colores = ['#e74c3c', '#f39c12', '#3498db', '#2ecc71']

bars = ax.barh(churn_pago.index, churn_pago.values, color=colores, edgecolor='white')
ax.set_xlabel('Tasa de Churn (%)')
ax.set_title('Tasa de Churn por M√©todo de Pago', fontsize=14, fontweight='bold')
for bar in bars:
    ax.text(bar.get_width() + 0.3, bar.get_y() + bar.get_height()/2,
            f'{bar.get_width():.1f}%', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# ‚îÄ‚îÄ Gr√°fico 8: Heatmap de correlaciones ‚îÄ‚îÄ
cols_numericas = ['Churn', 'tenure', 'MonthlyCharges', 'TotalCharges', 'DailyCharges']
corr = df[cols_numericas].corr()

fig, ax = plt.subplots(figsize=(8, 6))
sns.heatmap(corr, annot=True, fmt='.2f', cmap='RdYlGn',
            vmin=-1, vmax=1, ax=ax, linewidths=0.5)
ax.set_title('Mapa de Correlaciones', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# ‚îÄ‚îÄ Gr√°fico 9: Servicios adicionales vs Churn ‚îÄ‚îÄ
servicios = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
             'TechSupport', 'StreamingTV', 'StreamingMovies']

churn_servicios = {}
for s in servicios:
    churn_servicios[s] = df[df[s] == 'Yes']['Churn'].mean() * 100

fig, ax = plt.subplots(figsize=(12, 5))
colors = ['#e74c3c' if v > 25 else '#3498db' for v in churn_servicios.values()]
bars = ax.bar(churn_servicios.keys(), churn_servicios.values(), color=colors, edgecolor='white')
ax.axhline(df['Churn'].mean() * 100, color='black', linestyle='--', label='Tasa global')
ax.set_ylabel('Tasa de Churn (%)')
ax.set_title('Tasa de Churn entre Clientes CON cada Servicio', fontsize=14, fontweight='bold')
ax.legend()
plt.xticks(rotation=15)
for bar in bars:
    ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.3,
            f'{bar.get_height():.1f}%', ha='center', fontweight='bold')
plt.tight_layout()
plt.show()

# üìÑ Informe Final

## üîç Conclusiones del An√°lisis de Churn ‚Äî TelecomX

---

### 1. Tasa de Evasi√≥n General
TelecomX presenta una tasa de churn de aproximadamente **26.5%**, lo que significa que 1 de cada 4 clientes abandona la empresa. Esta cifra es considerablemente alta para el sector de telecomunicaciones.

---

### 2. Factores con Mayor Impacto en el Churn

#### üìã Tipo de Contrato ‚Äî **Factor m√°s determinante**
- Clientes con contrato **mes a mes** tienen una tasa de churn superior al **40%**.
- Clientes con contrato de **1 a√±o** rondan el 11%.
- Clientes con contrato de **2 a√±os** tienen menos del 3%.
- **Conclusi√≥n:** la falta de compromiso a largo plazo es el predictor m√°s fuerte de abandono.

#### üåê Servicio de Internet
- Clientes con **Fibra √ìptica** presentan la mayor tasa de churn (~42%).
- Esto puede indicar que el precio o la calidad del servicio de fibra no cumple las expectativas.

#### ‚è≥ Tiempo de permanencia (tenure)
- Los clientes que abandonan tienen una permanencia promedio de solo **~18 meses**, frente a **~37 meses** de los que se quedan.
- El **primer a√±o** es el per√≠odo m√°s cr√≠tico de retenci√≥n.

#### üí∞ Cargos Mensuales
- Los clientes que hacen churn pagan en promedio **m√°s por mes** (~$74 vs $61).
- Los clientes perciben que no reciben valor suficiente por el precio pagado.

#### üí≥ M√©todo de Pago
- El **cheque electr√≥nico** tiene la tasa de churn m√°s alta (~45%).
- Los pagos autom√°ticos (tarjeta o d√©bito) tienen tasas significativamente menores.

#### üë§ Variables Demogr√°ficas
- Los **adultos mayores** (SeniorCitizen) presentan una tasa de churn m√°s alta (~41%).
- Clientes **sin pareja** ni **dependientes** tienen mayor propensi√≥n a abandonar.

---

### 3. Recomendaciones para el Equipo de Ciencia de Datos

1. **Priorizar** las variables `Contract`, `tenure`, `MonthlyCharges` e `InternetService` como predictores principales en el modelo.
2. **Segmentar** clientes de alto riesgo: mes a mes + fibra √≥ptica + cheque electr√≥nico.
3. Considerar campa√±as de **incentivos para migrar** a contratos anuales en los primeros 6 meses.
4. Revisar la **propuesta de valor del servicio de fibra √≥ptica**.
5. Promover m√©todos de pago autom√°tico como mecanismo de retenci√≥n.

---

*An√°lisis realizado como parte del desaf√≠o TelecomX ‚Äî Alura LATAM*

In [None]:
# Exportar el DataFrame limpio para el equipo de ciencia de datos
df.to_csv('TelecomX_clean.csv', index=False)
print('‚úÖ Dataset limpio exportado como TelecomX_clean.csv')
print(f'Shape final: {df.shape}')
df.describe()