<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/03machinelearning/clase_9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 📊 Clase de Regresión Lineal con Scikit-Learn

## 1. ¿Qué es la regresión lineal?

La regresión lineal es una técnica de aprendizaje supervisado que predice un valor continuo a partir de una o más variables independientes. Se basa en encontrar la mejor línea recta (modelo) que se ajuste a los datos.

**Ejemplo típico:** Predecir el precio de una casa según su tamaño.

---

## 2. Importar librerías

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score


## 3. Crear un dataset sintético

Creamos un conjunto de datos artificial para ilustrar cómo funciona la regresión lineal.

```python
import numpy as np
import matplotlib.pyplot as plt

# Generamos datos aleatorios
np.random.seed(0)
X = 2.5 * np.random.rand(100, 1)
y = 3 + 2 * X + np.random.randn(100, 1)

# Visualización de los datos
plt.scatter(X, y)
plt.xlabel("X")
plt.ylabel("y")
plt.title("Datos sintéticos para regresión lineal")
plt.show()


## 4. Entrenar un modelo de regresión lineal

Utilizamos `train_test_split` para dividir los datos en entrenamiento y prueba, y luego entrenamos un modelo usando `LinearRegression` de Scikit-Learn.

```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# División en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Hacer predicciones sobre los datos de prueba
y_pred = model.predict(X_test)


## 5. Evaluar el modelo

Una vez entrenado el modelo, podemos revisar los parámetros que ha aprendido (coeficiente y bias) y evaluar su desempeño usando métricas como:

- **Error Cuadrático Medio (MSE):** qué tan lejos están las predicciones de los valores reales.
- **R² (R cuadrado):** qué porcentaje de la variabilidad de los datos explica el modelo (1 es ideal).

```python
from sklearn.metrics import mean_squared_error, r2_score

# Mostrar coeficientes del modelo
print("Coeficiente (pendiente):", model.coef_)
print("Intersección (bias):", model.intercept_)

# Evaluar el desempeño del modelo
print("Error Cuadrático Medio (MSE):", mean_squared_error(y_test, y_pred))
print("Coeficiente de Determinación (R²):", r2_score(y_test, y_pred))


## 6. Visualizar la línea de regresión

Después de entrenar y evaluar el modelo, es útil visualizar cómo se ajusta la línea de regresión a los datos. Esto nos ayuda a ver gráficamente la relación entre la variable independiente y la variable dependiente.

```python
import matplotlib.pyplot as plt

# Visualización de los datos de prueba y la línea de predicción
plt.scatter(X_test, y_test, color='blue', label='Datos reales')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Línea de regresión')
plt.title("Regresión lineal - Predicción vs Datos reales")
plt.xlabel("X")
plt.ylabel("y")
plt.legend()
plt.show()


## 7. Usar un dataset real: California Housing (opcional)

Scikit-Learn ofrece un conjunto de datos reales llamado `California Housing`, que contiene información sobre viviendas en California. Vamos a utilizar una sola variable independiente (`MedInc`, ingreso medio) para realizar una regresión lineal simple.

```python
from sklearn.datasets import fetch_california_housing
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt

# Cargar el dataset
data = fetch_california_housing()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['Price'] = data.target

# Seleccionar una sola variable (Ingreso medio)
X = df[['MedInc']]
y = df['Price']

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
print("R²:", r2_score(y_test, y_pred))


# Visualización del modelo

```python

# Graficar los resultados
plt.scatter(X_test, y_test, alpha=0.3, label='Datos reales')
plt.plot(X_test, y_pred, color='red', label='Línea de regresión')
plt.xlabel("Ingreso Medio (MedInc)")
plt.ylabel("Precio de la Vivienda")
plt.title("Regresión lineal - California Housing")
plt.legend()
plt.show()
