# Informe sobre la Regresión Lineal con Gradiente Descendente en el Boston Housing Dataset

**Nombre**: Damian Danilo Naranjo Perilla
**Materia**: Ciencia de Datos  
**Salón**: TS7A

En este informe se implementa un modelo de regresión lineal simple usando el algoritmo de **gradiente descendente**. El dataset utilizado es el **Boston Housing**, y la variable independiente seleccionada es el número de habitaciones (`RM`) para predecir el valor medio de las viviendas (`MEDV`).


In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_openml
import matplotlib.pyplot as plt

# Cargar el dataset de Boston Housing desde openml
boston = fetch_openml(name='boston', version=1, as_frame=True)

# Datos de características (X) y objetivo (y)
X = boston.data  # Variables independientes
y = boston.target.values  # Convertir y a un array de numpy

# Mostrar las primeras filas del dataset
X.head()


## Descripción del Dataset

El dataset de **Boston Housing** contiene información de precios de viviendas en varios suburbios de Boston. La característica principal que utilizamos en este análisis es el número promedio de habitaciones por vivienda (`RM`), y el objetivo es predecir el valor medio de las casas (`MEDV`), medido en miles de dólares.

Este análisis se centra en la relación entre `RM` y `MEDV`, utilizando un modelo de regresión lineal simple.


In [None]:
# Seleccionamos la característica 'RM' (número de habitaciones) para la regresión
X_rm = X['RM'].values.reshape(-1, 1)  # Reformateamos los datos para el modelo

# Mostrar las primeras filas de RM
X_rm[:5]


## Algoritmo de Gradiente Descendente

El **gradiente descendente** es un algoritmo iterativo utilizado para minimizar la función de error de nuestro modelo, ajustando los parámetros de la pendiente (`m`) y el intercepto (`b`) de la recta de regresión. En cada iteración, el algoritmo ajusta estos parámetros para minimizar la diferencia entre los valores predichos y los reales.

En este análisis:
- Inicializamos los valores de la pendiente (`m = 0`) y el intercepto (`b = 0`).
- Utilizamos una tasa de aprendizaje (`L = 0.01`).
- Iteramos el proceso 1000 veces (`epochs = 1000`).


In [None]:
# Inicialización de parámetros
m = 0  # Pendiente
b = 0  # Intercepto
L = 0.01  # Tasa de aprendizaje
epochs = 1000  # Número de iteraciones

n = float(len(X_rm))  # Número de datos

# Implementación del algoritmo de gradiente descendente
for i in range(epochs):
    y_pred = m * X_rm + b  # Predicción actual
    error = y - y_pred.flatten()  # Error actual, aplanar y_pred para que tenga la misma dimensión que y
    D_m = (-2/n) * np.dot(X_rm.T, error)  # Derivada parcial con respecto a m
    D_b = (-2/n) * np.sum(error)  # Derivada parcial con respecto a b
    m = m - L * D_m  # Actualización de m
    b = b - L * D_b  # Actualización de b

# Predicción final con los parámetros ajustados
y_pred = m * X_rm + b


## Resultados

Después de 1000 iteraciones del algoritmo de gradiente descendente, se obtuvieron los parámetros óptimos para la pendiente (`m`) y el intercepto (`b`). Estos parámetros definen la línea de regresión que mejor ajusta los datos, prediciendo el valor medio de las casas en función del número de habitaciones.

La ecuación de la regresión ajustada es:
\[
\hat{y} = m \cdot RM + b
\]


In [None]:
# Visualización de la regresión lineal
plt.scatter(X_rm, y, color='green')  # Gráfico de dispersión de los datos reales
plt.plot(X_rm, y_pred, color='Black')  # Línea de regresión
plt.xlabel('Número de habitaciones (RM)')
plt.ylabel('Valor medio de las casas (MEDV)')
plt.title('Regresión Lineal de Boston Housing')
plt.show()


## Conclusión

El modelo de regresión lineal ajustado muestra una relación positiva entre el número de habitaciones (`RM`) y el valor medio de las viviendas (`MEDV`). A medida que aumenta el número de habitaciones, también lo hace el valor medio de las casas.

Este modelo es una simplificación, ya que solo utiliza una variable (`RM`), pero el dataset de Boston Housing contiene muchas otras características que podrían incorporarse para mejorar la precisión del modelo. Un análisis más completo incluiría variables como la ubicación, la tasa de criminalidad, entre otras, que también influyen en el valor de las viviendas.
