In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# Cargar datos
df = pd.read_csv('../data/raw/WA_Fn-UseC_-Telco-Customer-Churn.csv')

# Mostrar información básica
print("Forma del dataset:", df.shape)
print("\nPrimeras 5 filas:")
df.head()

In [None]:
# Reemplazar espacios vacíos en 'TotalCharges' por NaN y convertir a numérico
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# Verificar valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum())

# Imputar TotalCharges con 0 (es razonable: clientes nuevos con 0 cargos totales)
df['TotalCharges'].fillna(0, inplace=True)

# Verificar tipos de datos
print("\nTipos de datos:")
print(df.dtypes)

In [None]:
# Distribución de Churn
plt.figure(figsize=(6, 4))
sns.countplot(data=df, x='Churn')
plt.title('Distribución de Churn')
plt.show()

# Porcentajes
churn_counts = df['Churn'].value_counts(normalize=True) * 100
print("Porcentaje de Churn:")
print(churn_counts)

In [None]:
# Variables numéricas
numeric_cols = ['tenure', 'MonthlyCharges', 'TotalCharges']

plt.figure(figsize=(15, 5))
for i, col in enumerate(numeric_cols, 1):
    plt.subplot(1, 3, i)
    sns.histplot(df[col], kde=True)
    plt.title(f'Distribución de {col}')
plt.tight_layout()
plt.show()

# Boxplots por Churn
plt.figure(figsize=(15, 5))
for i, col in enumerate(numeric_cols, 1):
    plt.subplot(1, 3, i)
    sns.boxplot(data=df, x='Churn', y=col)
    plt.title(f'{col} vs Churn')
plt.tight_layout()
plt.show()

In [None]:
# Variables categóricas importantes
cat_cols = ['Contract', 'InternetService', 'PaymentMethod', 'SeniorCitizen', 'Partner']

plt.figure(figsize=(18, 10))
for i, col in enumerate(cat_cols, 1):
    plt.subplot(2, 3, i)
    sns.countplot(data=df, x=col, hue='Churn')
    plt.xticks(rotation=45)
    plt.title(f'Churn por {col}')
plt.tight_layout()
plt.show()

In [None]:
# Correlación entre numéricas
corr = df[numeric_cols].corr()
plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlación (Variables Numéricas)')
plt.show()