<a href="https://colab.research.google.com/github/HyEd-Aprendizaje-Maquina/3-regresion-lineal-y-logistica-seminario/blob/main/LinearRegression_BikeSharing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Entrenamiento de un modelo de regresión lineal
Este notebook demostrará cómo descargar y procesar un conjunto de datos, preparar las características, entrenar un modelo de regresión lineal y evaluar su desempeño. Utilizaremos el conjunto de datos "Bike Sharing Dataset" disponible en el repositorio de aprendizaje automático de la UCI.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from zipfile import ZipFile
import requests
import io

Ahora descargamos el conjunto de datos comprimido desde el repositorio UCI y cargamos el archivo `day.csv` que contiene información diaria sobre el uso compartido de bicicletas.

In [None]:
# Descargar el archivo zip desde la URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike-Sharing-Dataset.zip"
response = requests.get(url)
zip_file = ZipFile(io.BytesIO(response.content))

# Extraer y cargar el archivo "day.csv"
with zip_file.open("day.csv") as file:
    df = pd.read_csv(file)

df.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600


**Preprocesamiento de datos**

Eliminamos columnas irrelevantes que no aportan información útil para el modelo. Luego, separamos las características (X) de la variable objetivo (y).

In [None]:
# Eliminar columnas irrelevantes para el modelo
df = df.drop(columns=["instant", "dteday", "casual", "registered"], axis=1)

# Separar las características (X) y la variable objetivo (y)
X = df.drop(columns=["cnt"])  # Características
y = df["cnt"]  # Variable objetivo

Dividimos el conjunto de datos en un conjunto de entrenamiento (80%) y uno de prueba (20%) para evaluar el desempeño del modelo en datos no vistos.

Agregamos el random_state de 42 para garantizar reproducibilidad.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**Escalamiento**

Normalizamos las características para que todas tengan una escala similar, mejorando el rendimiento del modelo.

In [None]:
# Escalar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

**Entrenamiento**

Entrenamos un modelo de regresión lineal utilizando los datos normalizados del conjunto de entrenamiento.

In [None]:
# Entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train_scaled, y_train)

**Predicciones**

Generamos predicciones para los conjuntos de entrenamiento y prueba.

In [None]:
# Predicciones
y_pred_train = model.predict(X_train_scaled)
y_pred_test = model.predict(X_test_scaled)

**Evaluación**

Calculamos las métricas de evaluación para entender el rendimiento del modelo. El RMSE mide el error medio cuadrático en la escala de la variable objetivo, mientras que el R² mide la proporción de la varianza explicada por el modelo.

In [None]:
# Evaluar el modelo
rmse_train = np.sqrt(mean_squared_error(y_train, y_pred_train))
rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
r2_test = r2_score(y_test, y_pred_test)

# Resultados
print(f"RMSE (Entrenamiento): {rmse_train:.2f}")
print(f"RMSE (Prueba): {rmse_test:.2f}")
print(f"R2 Score (Prueba): {r2_test:.2f}")

RMSE (Entrenamiento): 875.11
RMSE (Prueba): 831.29
R2 Score (Prueba): 0.83


# Conclusión
El modelo de regresión lineal entrenado muestra un rendimiento razonable en los datos de prueba, como se observa en las métricas RMSE y R². Este análisis puede extenderse agregando nuevas características, realizando más visualizaciones o utilizando otros modelos para mejorar el desempeño.