In [1]:
# -----------------------------
# 🔹 1. Librerías necesarias
# -----------------------------
import pandas as pd
import requests
import plotly.express as px

ModuleNotFoundError: No module named 'pandas'

In [None]:
# -----------------------------
# 🔹 2. Extracción de datos desde JSON (vía URL)
# -----------------------------
url = "https://raw.githubusercontent.com/sthemonica/alura-voz/refs/heads/main/Dados/Telco-Customer-Churn.json"
response = requests.get(url)
data = response.json()



In [None]:
# Cargar a DataFrame plano
df_plano = pd.json_normalize(data)
print("✅ Datos cargados exitosamente")

# -----------------------------
# 🔹 3. Exploración inicial
# -----------------------------
# Información general
df_plano.info()



In [None]:
# Duplicados
print(f"🔍 Número de duplicados: {df_plano.duplicated().sum()}")


In [None]:
# Nulos por columna
print("🔍 Nulos por columna:\n", df_plano.isnull().sum())

In [None]:
# Vacíos o blancos
print("🔍 Valores en blanco por columna:\n", df_plano.apply(lambda x: x.astype(str).str.strip() == '').sum())

# Valores únicos por columna
for col in df_plano.columns:
    print(f"\n🧠 Columna: {col}")
    print(f"Valores únicos: {df_plano[col].nunique()}")
    if df_plano[col].nunique() < 50:
        print(df_plano[col].unique())
        print('-' * 50)



In [None]:
# -----------------------------
# 🔹 4. Transformación de columnas
# -----------------------------
# Convertir 'account.Charges.Total' a numérico
df_plano['account.Charges.Total'] = pd.to_numeric(df_plano['account.Charges.Total'], errors='coerce')
print(f"Tipo de dato de 'account.Charges.Total': {df_plano['account.Charges.Total'].dtype}")

# Eliminar filas sin valor en 'Churn'
df_plano = df_plano[df_plano['Churn'].str.strip() != '']
print(f"✅ Filas después de limpiar 'Churn': {len(df_plano)}")



In [None]:
# -----------------------------
# 🔹 5. Estadísticas y limpieza extra
# -----------------------------
# Estadísticas básicas
print(df_plano.describe(include='all'))

# Si creaste una columna temporal, elimínala (seguridad)
df_plano = df_plano.drop('Cuentas_Diarias', errors='ignore')

# -----------------------------
# 🔹 6. Visualización con Plotly
# -----------------------------
# Histograma: Género vs Cancelación
fig = px.histogram(
    df_plano,
    x='customer.gender',
    color='Churn',
    barmode='group',
    text_auto=True,
    title='📊 Cancelaciones por Género'
)
fig.update_layout(xaxis_title='Género', yaxis_title='Cantidad de Clientes')
fig.show()