In [3]:
# 📌 Importar librerías
import pandas as pd

# 📌 Ruta del dataset limpio
clean_path = "C:/Users/pmate/OneDrive - Universidad San Francisco de Quito/8 SEMESTRE/DataMining/Examanes/Proyecto_Megaline/data/clean/"

# 📌 Cargar los datasets
df_users = pd.read_csv(clean_path + "usuarios_consumo_limpio.csv")

# ✅ **1️⃣ Crear la Dimensión de Usuarios**
dim_usuarios = df_users[["user_id", "first_name", "last_name", "age", "city", "reg_date", "churn_date", "plan"]].copy()

# ✅ **2️⃣ Crear la Dimensión de Planes**
dim_planes = df_users[["plan", "usd_monthly_pay", "minutes_included", "messages_included",
                       "mb_per_month_included", "usd_per_minute", "usd_per_message", "usd_per_gb"]].drop_duplicates().copy()
dim_planes.rename(columns={"plan": "plan_id"}, inplace=True)

# ✅ **3️⃣ Crear la Dimensión de Consumo Agregado**
dim_consumo_agregado = df_users[["user_id", "total_minutos", "exceso_minutos", "total_sms", "exceso_sms",
                                 "total_mb", "exceso_mb", "costo_extra_minutos", "costo_extra_sms", "costo_extra_mb"]].copy()

# ✅ **4️⃣ Corregir la Tabla de Hechos - Incluir toda la información necesaria**
fact_consumo = df_users[["user_id", "total_minutos", "total_sms", "total_mb", "costo_total", "plan",
                         "exceso_minutos", "exceso_sms", "exceso_mb", "costo_extra_minutos",
                         "costo_extra_sms", "costo_extra_mb", "age", "city"]].copy()  # 🔹 Agregamos `age` y `city`

# 🔹 Agregar los valores del plan a `fact_consumo`
fact_consumo = fact_consumo.merge(dim_planes, left_on="plan", right_on="plan_id", how="left")

# ✅ **5️⃣ Guardamos las Tablas en Data/Clean**
dim_usuarios.to_csv(clean_path + "dim_usuarios.csv", index=False)
dim_planes.to_csv(clean_path + "dim_planes.csv", index=False)
dim_consumo_agregado.to_csv(clean_path + "dim_consumo_agregado.csv", index=False)
fact_consumo.to_csv(clean_path + "fact_consumo.csv", index=False)

print("\n✅ Modelado de Datos (Star Schema) corregido. `fact_consumo.csv` ahora contiene todas las columnas necesarias.")



✅ Modelado de Datos (Star Schema) corregido. `fact_consumo.csv` ahora contiene todas las columnas necesarias.


In [2]:
# Se diseñó un esquema en estrella (Star Schema) para modelar los datos sin redundancia, 
# creando una tabla de hechos `fact_consumo` con el total de consumo (minutos, SMS, MB) 
# y el costo total por usuario y periodo. Se generaron tres dimensiones: 
# `dim_usuarios` con datos personales y plan asociado, `dim_planes` con la información 
# detallada de cada plan y sus costos, y `dim_consumo_agregado` con el consumo total, 
# excesos y costos adicionales de cada usuario. Se aseguraron las relaciones entre tablas 
# a través de `user_id` y `plan_id`, permitiendo consultas eficientes. Todas las tablas 
# fueron guardadas en `data/clean/` y están listas para análisis y predicción en la 
# siguiente fase de Feature Engineering.
