# An√°lisis de Evasi√≥n de Clientes (Churn) - TelecomX

Este notebook explora y analiza los factores que influyen en la evasi√≥n de clientes (churn) en una empresa de telecomunicaciones. Se abordan todas las etapas del proceso de ciencia de datos: extracci√≥n, limpieza, transformaci√≥n, an√°lisis exploratorio y visualizaci√≥n, con el objetivo de identificar patrones y proponer estrategias de retenci√≥n.

---

In [None]:
# Importaci√≥n de librer√≠as principales
# ----------------------------------
# pandas: manipulaci√≥n y an√°lisis de datos
# matplotlib y seaborn: visualizaci√≥n de datos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


: 

## 1. Extracci√≥n de Datos

En esta secci√≥n se importan los datos originales y se realiza una primera inspecci√≥n para conocer la estructura y el contenido del dataset.

In [None]:
# Cargar los datos desde el archivo JSON
# Aseg√∫rate de que la ruta sea correcta seg√∫n tu entorno
# El archivo debe estar en la carpeta notebooks/
df = pd.read_json('TelecomX_Data.json')

# Vista r√°pida de los primeros registros para validar la carga
df.head()

In [None]:
df = pd.read_json('/content/TelecomX_Data.json')
df.head()

## 2. Transformaci√≥n de Datos

Se realiza limpieza, normalizaci√≥n y transformaci√≥n de las variables para preparar el dataset para el an√°lisis. Incluye manejo de valores nulos, duplicados, creaci√≥n de nuevas variables y estandarizaci√≥n de nombres.

### Conoce el cojunto de datos

In [None]:
# Inspecci√≥n general de la estructura del DataFrame
# Muestra informaci√≥n sobre columnas, tipos de datos y valores nulos
df.info()

In [None]:
# Visualizar los tipos de datos de cada columna
# √ötil para identificar variables categ√≥ricas y num√©ricas
df.dtypes

### Valores nulos

In [None]:
# Detecci√≥n de valores nulos en cada columna
# Importante para decidir estrategias de limpieza de datos
df.isnull().sum()

In [None]:
# Verificar si existen IDs de cliente duplicados
# Un ID duplicado puede indicar un problema de integridad en los datos
df['customerID'].duplicated().sum()

### Normalizamos todas las columnas

In [None]:
# Normalizaci√≥n de sub-diccionarios y uni√≥n al DataFrame principal
# Cada secci√≥n (customer, phone, internet, account) se expande a columnas propias

df_customer = pd.json_normalize(df['customer'])  # Datos personales

df_phone = pd.json_normalize(df['phone'])        # Servicios telef√≥nicos

df_internet = pd.json_normalize(df['internet'])  # Servicios de internet

df_account = pd.json_normalize(df['account'])    # Informaci√≥n de cuenta

# Unir todas las columnas relevantes en un solo DataFrame
# Se conservan las columnas clave y se eliminan duplicados

df = pd.concat([df[['customerID', 'Churn']], df_customer, df_phone, df_internet, df_account], axis=1)

df.duplicated().sum()  # Verificar duplicados en el DataFrame final

### Manejo de inconsistencias

In [None]:
# Limpieza de la columna 'Churn'
# Se eliminan espacios y se estandariza el formato (primera letra may√∫scula)
df['Churn'] = df['Churn'].str.strip().str.capitalize()

In [None]:
# Visualizar los primeros registros tras la limpieza y transformaci√≥n
df.head()

In [None]:
df_customer.describe()

In [None]:
df[df['tenure'] == 0].groupby('Churn').size()

In [None]:
median_tenure = df[df['tenure'] > 0]['tenure'].median()
df.loc[(df['tenure'] == 0) & (df['Churn'] == 'No'), 'tenure'] = median_tenure


### Columna de cuentas diarias

In [None]:
df.columns

In [None]:

df['Cuentas_Diarias'] = df['Charges.Monthly'].fillna(0) / 30


In [None]:
df[['Charges.Monthly', 'Cuentas_Diarias']].head()


In [None]:
# Crear copia para seguridad (opcional)
df = df.copy()

# Convertir columnas de S√≠/No a binario
cols_binarias = ['Churn', 'Partner', 'Dependents', 'PaperlessBilling']

for col in cols_binarias:
    df[col + '_Binario'] = df[col].map({'Yes': 1, 'No': 0})

# Renombrar columnas para mayor claridad
df.rename(columns={
    'Charges.Monthly': 'Facturacion_Mensual',
    'Charges.Total': 'Facturacion_Total',
    'tenure': 'Meses_Cliente'
}, inplace=True)

# Revisar c√≥mo qued√≥
print(df.head())


## 3. An√°lisis y Carga de Datos

En esta etapa se exploran los datos transformados, se generan estad√≠sticas descriptivas y se visualizan patrones relevantes para el churn.

### Analisis descritivo

In [None]:
# Estad√≠sticas descriptivas para todas las columnas num√©ricas
print(df.describe())


### Distribucion de evasion

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo
sns.set(style="whitegrid", font_scale=1.1)
custom_palette = ['#4F8EF7', '#F76E6E']  # Azul y rojo suave

# Contar valores √∫nicos de Churn
churn_counts = df['Churn'].value_counts()

# Mostrar tabla de proporciones
print("Conteo de clientes por Churn:\n", churn_counts)
print("\nProporci√≥n:\n", churn_counts / len(df))

# üìä 1Ô∏è‚É£ Gr√°fico de barras personalizado
plt.figure(figsize=(7,5))
ax = sns.countplot(data=df, x='Churn', palette=custom_palette, edgecolor='black', linewidth=2)
plt.title('Distribuci√≥n de Evasi√≥n de Clientes (Churn)', fontsize=15, fontweight='bold')
plt.xlabel('Churn', fontsize=12)
plt.ylabel('N√∫mero de Clientes', fontsize=12)
for p in ax.patches:
    ax.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', fontsize=11, color='black', xytext=(0, 10), textcoords='offset points')
plt.tight_layout()
plt.show()

# ü•ß 2Ô∏è‚É£ Gr√°fico de pastel personalizado
plt.figure(figsize=(7,7))
wedges, texts, autotexts = plt.pie(
    churn_counts,
    labels=churn_counts.index,
    autopct='%1.1f%%',
    colors=custom_palette,
    startangle=120,
    textprops={'fontsize': 13},
    wedgeprops={'edgecolor': 'white', 'linewidth': 2}
)
plt.setp(autotexts, weight='bold', color='white')
plt.title('Proporci√≥n de Clientes que se Van vs. se Quedan', fontsize=15, fontweight='bold')
plt.tight_layout()
plt.show()


### Recuento de evasi√≥n por variables categ√≥ricas

#### Distribuci√≥n de Churn por G√©nero

In [None]:
# Gr√°fico de barras: Evasi√≥n de Clientes por G√©nero
plt.figure(figsize=(8,5))
ax = sns.countplot(data=df, x='gender', hue='Churn', palette=custom_palette, edgecolor='black', linewidth=2)
plt.title('Evasi√≥n de Clientes por G√©nero', fontsize=14, fontweight='bold')
plt.xlabel('G√©nero', fontsize=12)
plt.ylabel('N√∫mero de Clientes', fontsize=12)
plt.legend(title='Churn', fontsize=11, title_fontsize=12)
for p in ax.patches:
    height = int(p.get_height())
    if height > 0:
        ax.annotate(f'{height}', (p.get_x() + p.get_width() / 2., height),
                    ha='center', va='center', fontsize=10, color='black', xytext=(0, 8), textcoords='offset points')
plt.tight_layout()
plt.show()

# Tabla de proporci√≥n por g√©nero y churn
print(df.groupby(['gender', 'Churn']).size().unstack())


#### Distribuci√≥n de Churn por Tipo de Contrato

In [None]:
# Gr√°fico de barras: Evasi√≥n de Clientes por Tipo de Contrato
plt.figure(figsize=(10,5))
ax = sns.countplot(data=df, x='Contract', hue='Churn', palette=custom_palette, edgecolor='black', linewidth=2)
plt.title('Evasi√≥n de Clientes por Tipo de Contrato', fontsize=14, fontweight='bold')
plt.xlabel('Tipo de Contrato', fontsize=12)
plt.ylabel('N√∫mero de Clientes', fontsize=12)
plt.xticks(rotation=15)
plt.legend(title='Churn', fontsize=11, title_fontsize=12)
for p in ax.patches:
    height = int(p.get_height())
    if height > 0:
        ax.annotate(f'{height}', (p.get_x() + p.get_width() / 2., height),
                    ha='center', va='center', fontsize=10, color='black', xytext=(0, 8), textcoords='offset points')
plt.tight_layout()
plt.show()

# Tabla de proporci√≥n por tipo de contrato y churn
print(df.groupby(['Contract', 'Churn']).size().unstack())


#### Distribuci√≥n de Churn por M√©todo de Pago

In [None]:
# Gr√°fico de barras: Evasi√≥n de Clientes por M√©todo de Pago
plt.figure(figsize=(12,5))
ax = sns.countplot(data=df, x='PaymentMethod', hue='Churn', palette=custom_palette, edgecolor='black', linewidth=2)
plt.title('Evasi√≥n de Clientes por M√©todo de Pago', fontsize=14, fontweight='bold')
plt.xlabel('M√©todo de Pago', fontsize=12)
plt.ylabel('N√∫mero de Clientes', fontsize=12)
plt.xticks(rotation=30)
plt.legend(title='Churn', fontsize=11, title_fontsize=12)
for p in ax.patches:
    height = int(p.get_height())
    if height > 0:
        ax.annotate(f'{height}', (p.get_x() + p.get_width() / 2., height),
                    ha='center', va='center', fontsize=10, color='black', xytext=(0, 8), textcoords='offset points')
plt.tight_layout()
plt.show()

# Tabla de proporci√≥n por m√©todo de pago y churn
print(df.groupby(['PaymentMethod', 'Churn']).size().unstack())


#### Conteo de evasi√≥n por variables num√©ricas

In [None]:
import seaborn as sns

##### Boxplot: Total Gastado vs Churn

In [None]:
print(df.columns)


In [None]:
plt.figure(figsize=(8,5))
ax = sns.boxplot(data=df, x='Churn', y='Facturacion_Total', hue='Churn', palette=custom_palette, linewidth=2, fliersize=3, legend=False)
plt.title('Distribuci√≥n de Total Gastado seg√∫n Evasi√≥n', fontsize=14, fontweight='bold')
plt.xlabel('Churn', fontsize=12)
plt.ylabel('Facturaci√≥n Total', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.legend([],[], frameon=False)  # Oculta la leyenda duplicada
plt.tight_layout()
plt.show()


##### Boxplot: Meses como cliente vs. Evasi√≥n

In [None]:
plt.figure(figsize=(8,5))
ax = sns.boxplot(data=df, x='Churn', y='Meses_Cliente', palette=custom_palette, linewidth=2, fliersize=3)
plt.title('Distribuci√≥n de Meses como Cliente seg√∫n Evasi√≥n', fontsize=14, fontweight='bold')
plt.xlabel('Churn', fontsize=12)
plt.ylabel('Meses Cliente', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


##### Histograma: Facturaci√≥n Total segmentada por Evasi√≥n

In [None]:
plt.figure(figsize=(8,5))
ax = sns.histplot(data=df, x='Facturacion_Total', hue='Churn', bins=30, kde=True, palette=custom_palette, alpha=0.7, edgecolor='black')
plt.title('Histograma de Facturaci√≥n Total seg√∫n Evasi√≥n', fontsize=14, fontweight='bold')
plt.xlabel('Facturaci√≥n Total', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.legend(title='Churn', fontsize=11, title_fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


## INFORME FINAL

## 4. Informe Final y Conclusiones

Resumen de hallazgos, insights clave y recomendaciones estrat√©gicas basadas en el an√°lisis realizado. Esta secci√≥n sintetiza los resultados y sugiere acciones para reducir la evasi√≥n de clientes.

# Informe Final: An√°lisis de Evasi√≥n de Clientes (Churn)

---

## 1. Introducci√≥n
En este proyecto se analiz√≥ un conjunto de datos de clientes de una empresa de telecomunicaciones con el objetivo principal de identificar patrones asociados a la evasi√≥n de clientes (**churn**). Entender por qu√© los clientes cancelan el servicio permite dise√±ar estrategias para reducir la deserci√≥n y fidelizar usuarios.

---

## 2. Limpieza y Tratamiento de Datos
**Principales pasos realizados:**
- Importaci√≥n de datos y revisi√≥n de estructura.
- Eliminaci√≥n de registros duplicados y valores nulos, asegurando consistencia.
- Conversi√≥n de variables categ√≥ricas a variables binarias para facilitar el an√°lisis (S√≠ / No ‚Üí 1 / 0).
- Creaci√≥n de nuevas columnas derivadas como:
  - **Cuentas_Diarias:** Facturaci√≥n mensual dividida por 30 para estimar gasto diario.
  - **Meses_Cliente:** Ajustando el nombre de tenure.
- Estandarizaci√≥n de nombres de columnas para mejor legibilidad.

---

## 3. An√°lisis Exploratorio de Datos
**Visualizaciones y hallazgos:**
- **Distribuci√≥n general de churn:**
  - Proporci√≥n de clientes que permanecen vs. clientes que abandonan.
- **Churn vs. variables categ√≥ricas:**
  - Comparativas de churn por g√©nero, tipo de contrato, m√©todo de pago, etc.
  - Revelan diferencias clave entre perfiles de clientes.
- **Churn vs. variables num√©ricas:**
  - An√°lisis de Facturacion_Total, Facturacion_Mensual y Meses_Cliente.
  - Boxplots, violinplots e histogramas evidencian c√≥mo se comportan los montos gastados y el tiempo de permanencia respecto a la evasi√≥n.

---

## 4. Conclusiones e Insights

- **Clientes con menor tiempo de permanencia tienen mayor tendencia a cancelar.**
- **Clientes con facturaci√≥n mensual m√°s baja muestran una tasa de churn ligeramente mayor.**
- **Contratos de tipo mes a mes est√°n m√°s asociados con churn que contratos a largo plazo.**
- **M√©todos de pago autom√°ticos tienden a retener mejor a los clientes que pagos manuales.**

Estos patrones permiten perfilar grupos de riesgo y focalizar estrategias.

---

## 5. Recomendaciones

- Incentivar contratos de mayor plazo mediante descuentos o beneficios exclusivos.
- Dise√±ar programas de fidelizaci√≥n para clientes con baja facturaci√≥n, fomentando la venta cruzada de servicios.
- Promover m√©todos de pago autom√°ticos mediante campa√±as de concienciaci√≥n o bonificaciones.
- Implementar un seguimiento proactivo a clientes con pocos meses de servicio para aumentar la retenci√≥n desde el inicio.

---

##  Cierre
Este an√°lisis es un primer paso hacia la reducci√≥n de la evasi√≥n de clientes. Implementar estrategias basadas en estos hallazgos puede traducirse en mayor lealtad, ingresos sostenibles y crecimiento empresarial.

## Extra

### Calcular matriz de correlaci√≥n

In [None]:
# Solo columnas num√©ricas
corr_matrix = df.select_dtypes(include=['int64', 'float64']).corr()

# Visualizar la matriz
print(corr_matrix)


### Visualizar la matriz con un mapa de calor

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('üìä Matriz de Correlaci√≥n')
plt.show()


### Visualizar relaciones espec√≠ficas

In [None]:
# Revisar correlaci√≥n espec√≠fica
print(corr_matrix['Churn_Binario'].sort_values(ascending=False))


# üìä An√°lisis de Evasi√≥n de Clientes (Churn) - Telco

Este proyecto tiene como objetivo analizar y comprender los factores que influyen en la **evasi√≥n de clientes** (*churn*) en una empresa de telecomunicaciones. Se realiza un an√°lisis exploratorio completo, limpieza de datos, visualizaciones y correlaciones para identificar patrones clave.

---

## üöÄ Contenido

- [Descripci√≥n](#descripci√≥n)
- [Estructura del Proyecto](#estructura-del-proyecto)
- [Requisitos](#requisitos)
- [Instalaci√≥n](#instalaci√≥n)
- [Uso](#uso)
- [Resultados](#resultados)
- [Autor](#autor)
- [Contacto](#contacto)
- [Licencia](#licencia)

---

## üìå Descripci√≥n

El problema de **evasi√≥n de clientes** es uno de los principales retos de las empresas de servicios. Este an√°lisis busca identificar caracter√≠sticas comunes entre clientes que se dan de baja y generar *insights* para tomar decisiones estrat√©gicas y reducir la tasa de churn.

El proyecto incluye:
- Limpieza y tratamiento de datos.
- Estandarizaci√≥n y transformaci√≥n de variables.
- Creaci√≥n de nuevas variables (e.g., cuentas diarias, binarizaci√≥n).
- An√°lisis exploratorio con estad√≠sticas descriptivas.
- Visualizaci√≥n de patrones de evasi√≥n por variables categ√≥ricas y num√©ricas.
- An√°lisis de correlaci√≥n entre variables clave.
- Conclusiones y recomendaciones estrat√©gicas.

---

## üìÇ Estructura del Proyecto

üìÅ churn-analysis/
‚îÇ
‚îú‚îÄ‚îÄ README.md
‚îú‚îÄ‚îÄ churn_analysis.ipynb
‚îú‚îÄ‚îÄ üìÅ data/
‚îÇ ‚îî‚îÄ‚îÄ telco_churn.csv
‚îî‚îÄ‚îÄ üìÅ images/
‚îî‚îÄ‚îÄ (gr√°ficos generados)

yaml
Copiar
Editar

---

## ‚öôÔ∏è Requisitos

- Python >= 3.8
- Pandas
- Matplotlib
- Seaborn
- Jupyter Notebook o Google Colab

---

## ‚úÖ Instalaci√≥n

1Ô∏è‚É£ Clona este repositorio:  
```bash
git clone https://github.com/tuusuario/churn-analysis.git
cd churn-analysis
2Ô∏è‚É£ Instala las dependencias necesarias:

bash
Copiar
Editar
pip install pandas matplotlib seaborn
3Ô∏è‚É£ Abre el notebook:

bash
Copiar
Editar
jupyter notebook churn_analysis.ipynb
‚ñ∂Ô∏è Uso
Ejecuta el notebook paso a paso.

Sigue cada secci√≥n: limpieza, an√°lisis exploratorio, visualizaciones y conclusiones.

Personaliza el an√°lisis cambiando par√°metros o columnas seg√∫n tus necesidades.

üìà Resultados
Los principales resultados incluyen:

Distribuci√≥n general de clientes que permanecen y clientes que se dan de baja.

Relaci√≥n entre churn y variables categ√≥ricas (g√©nero, tipo de contrato, m√©todo de pago).

Relaci√≥n entre churn y variables num√©ricas como facturaci√≥n mensual, facturaci√≥n total y duraci√≥n del contrato.

Identificaci√≥n de correlaciones clave que pueden apoyar modelos predictivos.

Conclusiones claras y recomendaciones accionables para reducir la evasi√≥n.

‚úèÔ∏è Autor
Jorge Henriquez Novoa
Ingeniero Electr√≥nico con √©nfasis en an√°lisis de datos
üìç Barranquilla, Colombia

üì¨ Contacto
Email: tu_email@example.com

LinkedIn: Tu perfil de LinkedIn