# Caso de Uso: Predicción de Precios de Casas en California
### Objetivo
Desarrollar un modelo de regresión lineal para predecir el precio medio de las casas en California, 
utilizando características como ingresos medios, número de habitaciones, etc.

### Dataset
Usaremos el **California Housing Dataset**, un conjunto de datos público que contiene información sobre:
- Características como ingreso medio, edad media de las casas, latitud y longitud.
- Precio medio de las casas (variable objetivo).


### Paso 1: Cargar el Dataset y Librerías
Importaremos las librerías necesarias y cargaremos el dataset.


In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Cargar el dataset
california = fetch_california_housing(as_frame=True)
df = california.frame
print(df.head())

### Paso 2: Exploración de Datos (EDA)
Realizaremos una inspección inicial de los datos para entender su distribución y relaciones entre variables.


In [None]:
# Resumen estadístico
print(df.describe())

# Matriz de correlación
correlation_matrix = df.corr()
plt.figure(figsize=(10, 8))
plt.imshow(correlation_matrix, cmap='coolwarm', interpolation='none')
plt.colorbar()
plt.title('Matriz de Correlación')
plt.show()

### Paso 3: Selección de Características
Para simplificar, seleccionaremos las características con mayor correlación con la variable objetivo ('MedHouseVal').


In [None]:
# Seleccionar características relevantes
correlaciones = df.corr()['MedHouseVal'].sort_values(ascending=False)
print(correlaciones)

# Usaremos 'MedInc' (ingreso medio) como predictor principal
X = df[['MedInc']]
y = df['MedHouseVal']

# Visualizar relación entre MedInc y MedHouseVal
plt.scatter(X, y, alpha=0.5)
plt.title('Relación entre ingreso medio y precio medio de las casas')
plt.xlabel('Ingreso Medio (MedInc)')
plt.ylabel('Precio Medio de la Vivienda (MedHouseVal)')
plt.show()

### Paso 4: División de Datos en Entrenamiento y Prueba
Dividiremos los datos en conjuntos de entrenamiento y prueba (80%-20%).


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]} ejemplos")
print(f"Tamaño del conjunto de prueba: {X_test.shape[0]} ejemplos")

### Paso 5: Entrenar el Modelo de Regresión Lineal
Usaremos `LinearRegression` de Scikit-learn para entrenar el modelo.


In [None]:
# Entrenar el modelo
model = LinearRegression()
model.fit(X_train, y_train)

print(f"Pendiente (coeficiente): {model.coef_[0]:.2f}")
print(f"Intercepto: {model.intercept_:.2f}")

### Paso 6: Evaluar el Modelo
Evaluaremos el modelo utilizando el Error Cuadrático Medio (MSE) y el Coeficiente de Determinación ($R^2$).


In [None]:
# Realizar predicciones y calcular métricas
y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Error Cuadrático Medio (MSE): {mse:.2f}")
print(f"Coeficiente de Determinación ($R^2$): {r2:.2f}")

### Paso 7: Visualizar los Resultados
Graficaremos las predicciones del modelo en comparación con los valores reales.


In [None]:
# Gráfico de predicciones vs valores reales
plt.scatter(y_test, y_pred, alpha=0.5)
plt.title('Predicciones vs Valores Reales')
plt.xlabel('Valores Reales (y_test)')
plt.ylabel('Predicciones (y_pred)')
plt.plot([0, 5], [0, 5], '--', color='red')
plt.show()

### Paso 8: Conclusión
1. El modelo captura la relación entre el ingreso medio y el precio medio de las casas.
2. Aunque simple, este modelo demuestra la relación lineal entre estas variables.
3. Los siguientes pasos podrían incluir la incorporación de más características relevantes y la optimización del modelo.
