# Ejercicio: Regresión Lineal Simple con el Dataset California Housing

## Instrucciones
Este cuaderno inicia un ejercicio práctico de **regresión lineal simple** usando el dataset **California Housing** de Scikit-learn, que contiene datos de precios de viviendas en California (20,640 muestras, 8 features). Para mantenerlo simple, usaremos solo la feature **MedInc** (ingreso mediano, en decenas de miles de USD) para predecir el **precio mediano de la vivienda** (en cientos de miles de USD).

**Tarea**: Completar los pasos restantes (exploración, visualización, división de datos, modelado, predicciones, evaluación y visualización) siguiendo la **receta** de los ejercicios anteriores. Usa la ecuación de regresión lineal:
\[ y = \beta_0 + \beta_1 x + \epsilon \]

- **x**: MedInc (ingreso mediano).
- **y**: MedHouseVal (precio mediano de vivienda).

**Objetivo**: Obtener un R² aproximado de 0.6 y comparar con el ejercicio de Diabetes.

**Pasos sugeridos** (basados en la receta):
1. Explorar el dataset con un DataFrame.
2. Visualizar la relación x-y (scatter plot).
3. Dividir datos en train/test.
4. Crear y entrenar el modelo.
5. Hacer predicciones.
6. Evaluar con R².
7. Visualizar la línea de regresión.
8. Probar otra feature (e.g., AveRooms, índice 5) y comparar.

¡Usa los ejercicios anteriores como guía y completa el código!

## Glosario
| Término | Definición |
|---------|------------|
| **MedInc** | Ingreso mediano del bloque (x, en decenas de miles de USD). |
| **MedHouseVal** | Precio mediano de vivienda (y, en cientos de miles de USD). |
| **Regresión Lineal Simple** | Predice y con una sola x. |
| **R²** | Métrica de ajuste (0-1). |
| **OLS** | Mínimos cuadrados ordinarios. |

## Paso 1: Importar Librerías
**Explicación**: Importamos las herramientas necesarias para el análisis y modelado.

In [None]:
# Librerías para datos, modelado y visualización.
# fetch_california_housing: Carga el dataset (descarga si es la primera vez).

import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

## Paso 2: Cargar el Dataset
**Explicación**: Cargamos el dataset y seleccionamos MedInc (índice 0) como feature.

In [None]:
# Carga el dataset California Housing.
# X: Feature MedInc (índice 0), en formato 2D.
# y: Target (precio mediano de vivienda).

housing = fetch_california_housing()
X = housing.data[:, np.newaxis, 0]  # MedInc
y = housing.target  # MedHouseVal

# Nota: feature_names[0] = 'MedInc'. Usa esto para nombrar columnas.
# Completa los pasos restantes siguiendo la receta.

## Tarea para los Estudiantes
1. Crea un DataFrame y explora los datos (`head`, `describe`).
2. Visualiza la relación entre MedInc y MedHouseVal (scatter plot).
3. Divide los datos en train/test (80/20).
4. Entrena un modelo de regresión lineal.
5. Haz predicciones y calcula R².
6. Grafica la línea de regresión.
7. **Extra**: Prueba con otra feature (e.g., AveRooms, índice 5) y compara R².

**Descarga**: File > Download > .ipynb.

¡Sigue la receta y completa el ejercicio! 😊