## Instalación de dependencias

In [None]:
pip install pandas pandas-profiling 

## Importar librerías

In [1]:
import pandas as pd                                # Para manipulación de datos
from pandas_profiling import ProfileReport         # Para exploración automática
import matplotlib.pyplot as plt

  from pandas_profiling import ProfileReport         # Para exploración automática


## Descargar y cargar el dataset

In [2]:
df = pd.read_csv("WA_Fn-UseC_-Telco-Customer-Churn.csv")

# 1. Verificar dimensiones
print(f"Dataset cargado con {df.shape[0]} filas y {df.shape[1]} columnas.")


Dataset cargado con 7043 filas y 21 columnas.


## Duplicados

In [3]:
# Contamos registros duplicados exactos
num_duplicados = df.duplicated().sum()
print(f"Duplicados encontrados: {num_duplicados}")

# Eliminarlos y actualizar el DataFrame
# df = df.drop_duplicates()


Duplicados encontrados: 0


## Valores nulos

In [4]:
# Sumamos nulos por columna
nulos = df.isnull().sum()

# Mostramos solo las columnas que tienen al menos 1 nulo
print("Columnas con valores nulos:\n", nulos[nulos > 0])

Columnas con valores nulos:
 Series([], dtype: int64)


## Tipos de datos y conversiones

In [None]:
# 1. Revisar tipos actuales
print("Tipos de datos originales:\n", df.dtypes)

# 2. Convertir TotalCharges de object a numérico (puede haber strings vacíos)
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors="coerce")

# 3. Convertir SeniorCitizen a categórico
df["SeniorCitizen"] = df["SeniorCitizen"].astype("category")

# 4. Confirmar cambios
print("\nTipos de datos tras conversión:\n", df.dtypes)

## Distribuciones

In [None]:
# Distribuciones de variables numéricas

# Seleccionar sólo las columnas numéricas
num_cols = df.select_dtypes(include=['float64', 'int64']).columns

# Plotear histogramas
for col in num_cols:
    plt.figure()
    df[col].hist(bins=30)
    plt.title(f'Distribución de {col}')
    plt.xlabel(col)
    plt.ylabel('Frecuencia')
    plt.show()
    
# Resumen rápido en texto
    q25, q50, q75 = df[col].quantile([0.25,0.5,0.75])
    print(f"{col}: media={df[col].mean():.2f}, mediana={q50:.2f}, 25%={q25:.2f}, 75%={q75:.2f}\n")

## Correlaciones

In [None]:
# Matriz de correlación numérica
corr_matrix = df[num_cols].corr(method='pearson')

# Mostrar la tabla
print("Correlaciones (Pearson) entre variables numéricas:\n", corr_matrix)

# Heatmap para ver las más altas/bajas
import seaborn as sns

plt.figure(figsize=(8,6))
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm')
plt.title("Mapa de calor de correlaciones")
plt.show()


## Resumen estadístico

In [None]:
# Resumen estadístico de columnas numéricas
desc_num = df[num_cols].describe()
print("Resumen estadístico (numérico):\n", desc_num)

# Para variables categóricas, ver conteos
cat_cols = df.select_dtypes(include=['object', 'category']).columns
desc_cat = df[cat_cols].describe()
print("\nResumen estadístico (categórico):\n", desc_cat)

## Generar reporte con pandas_profiling

In [None]:
profile = ProfileReport(
    df,
    title="Telco Customer Churn — Exploración Automática",
    explorative=True,
    correlations={
        "pearson": {"calculate": True},
        "spearman": {"calculate": True},
        "phi_k": {"calculate": False}
    }
)

# Mostrar dentro del notebook
profile.to_notebook_iframe()

# Guardar en disco para compartir
profile.to_file("reports/telco_churn_profile.html")