
# 📘 Predicción del Consumo de un Hogar  

En este cuaderno trabajaremos con la base `datos_hogar.csv` para **analizar y predecir el consumo mensual de un hogar** 
en función de variables socioeconómicas.  

El ejercicio sigue los pasos de minería de datos: exploración, visualización, modelado y evaluación.


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score


In [None]:

# Cargar la base de datos
df = pd.read_csv("datos_hogar.csv")

# Vista previa
df.head()


In [None]:

# Información de la base
df.info()

# Estadísticas descriptivas
df.describe(include="all")


In [None]:

# Histograma del consumo mensual
plt.figure(figsize=(8,5))
sns.histplot(df["consumo_mensual"], bins=30, kde=True)
plt.title("Distribución del consumo mensual")
plt.xlabel("Consumo mensual")
plt.ylabel("Frecuencia")
plt.show()


In [None]:

plt.figure(figsize=(8,5))
sns.scatterplot(x="ingreso", y="consumo_mensual", data=df)
plt.title("Relación entre ingreso y consumo")
plt.xlabel("Ingreso del hogar")
plt.ylabel("Consumo mensual")
plt.show()


In [None]:

# Convertir variable categórica 'educacion' a dummies
df = pd.get_dummies(df, columns=["educacion"], drop_first=True)

# Definir variable objetivo y predictores
X = df.drop("consumo_mensual", axis=1)
y = df["consumo_mensual"]

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:

# Ajustar regresión lineal
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

# Predicciones
y_pred_lr = lin_reg.predict(X_test)

# Métricas
mse_lr = mean_squared_error(y_test, y_pred_lr)
rmse_lr = np.sqrt(mse_lr)
mae_lr = mean_absolute_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)

print("Regresión Lineal:")
print(f"RMSE: {rmse_lr:.2f}")
print(f"MAE: {mae_lr:.2f}")
print(f"R²: {r2_lr:.4f}")


In [None]:

# Ajustar Random Forest
rf = RandomForestRegressor(n_estimators=200, random_state=42)
rf.fit(X_train, y_train)

# Predicciones
y_pred_rf = rf.predict(X_test)

# Métricas
mse_rf = mean_squared_error(y_test, y_pred_rf)
rmse_rf = np.sqrt(mse_rf)
mae_rf = mean_absolute_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print("Random Forest:")
print(f"RMSE: {rmse_rf:.2f}")
print(f"MAE: {mae_rf:.2f}")
print(f"R²: {r2_rf:.4f}")


In [None]:

# Comparar predicciones reales vs estimadas
plt.figure(figsize=(10,5))

plt.scatter(y_test, y_pred_lr, alpha=0.6, label="Regresión Lineal")
plt.scatter(y_test, y_pred_rf, alpha=0.6, label="Random Forest")
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], "k--", lw=2)

plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.title("Comparación de modelos: Real vs Predicho")
plt.legend()
plt.show()



## 🔎 Discusión de resultados  

- La **Regresión Lineal** permite interpretar coeficientes y relaciones directas entre las variables.  
- El **Random Forest** captura relaciones no lineales y puede mejorar la precisión predictiva.  
- Se deben analizar las métricas (RMSE, MAE, R²) para comparar cuál modelo se ajusta mejor.  
- Reflexiona: ¿qué variables resultan más influyentes en la predicción del consumo?  
