# 📘 Flujo completo — Regresión Lineal paso a paso

A continuación se describe el proceso completo para construir un modelo de regresión lineal con scikit-learn, explicando cada parte del código de forma detallada.

---

Primero importamos todas las librerías necesarias:
from sklearn.linear_model import LinearRegression  
from sklearn.metrics import mean_squared_error  
from sklearn.model_selection import train_test_split, cross_val_score  
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  

Estas librerías se usan así:
- LinearRegression permite crear el modelo de regresión.
- mean_squared_error calcula el error cuadrático medio (MSE) para evaluar el rendimiento del modelo.
- train_test_split divide los datos en entrenamiento y prueba.
- cross_val_score evalúa el modelo mediante validación cruzada.
- pandas, numpy y matplotlib se usan para manejar datos, cálculos y gráficos.

---

Ahora cargamos el conjunto de datos en un DataFrame de pandas:
df_data = pd.read_excel(r'C:\Users\Ivan\Dropbox\Creación de MOCs\UOC Machine Learning con Python\Casos Prácticos ML\Regresion_Lineal.xlsx')  
df_data.head()

Esto carga los datos desde un archivo Excel y muestra las primeras filas del conjunto. La columna “Precio” será la variable que queremos predecir (nuestra variable objetivo o target).

---

El siguiente paso consiste en eliminar la columna objetivo para quedarnos con las variables independientes (características o features):
df_x = df_data.drop('Precio', axis=1)

Aquí usamos drop para eliminar la columna Precio (axis=1 indica que eliminamos una columna). El DataFrame resultante df_x contendrá únicamente las variables que servirán para entrenar el modelo.

---

Convertimos las variables categóricas (como tipo de combustible o fabricante) en variables numéricas utilizando One Hot Encoding:
df_x = pd.get_dummies(df_x)  
df_x.head()

Con get_dummies, pandas crea nuevas columnas para cada categoría posible y coloca 1 si la fila pertenece a esa categoría y 0 en caso contrario. Así el modelo puede trabajar con los datos correctamente.

---

Definimos nuestras variables de entrada (X) y de salida (y):
X = df_x.values  
y = df_data['Precio'].values

En este caso, X es la matriz que contiene todas las variables de entrada (features) y y es el vector que contiene los valores que queremos predecir (Precio). Con .values transformamos los datos del DataFrame a un formato numérico (numpy array) que scikit-learn entiende.

---

Dividimos el conjunto de datos en dos partes: entrenamiento y prueba.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Esto significa que el 80 % de los datos se usará para entrenar el modelo y el 20 % se reserva para probarlo. El random_state garantiza que la división siempre será la misma si ejecutamos el código varias veces.

---

Creamos el modelo de regresión lineal:
reg = LinearRegression()

Esto crea un objeto de tipo LinearRegression, que aplicará el método de mínimos cuadrados ordinarios para encontrar la mejor línea o plano que se ajuste a los datos.

---

Entrenamos el modelo con los datos de entrenamiento:
reg.fit(X_train, y_train)

Aquí el modelo aprende los coeficientes que mejor explican la relación entre las variables independientes y la variable dependiente (Precio).

---

Validamos el modelo utilizando validación cruzada (Cross-Validation):
cv_scores = cross_val_score(reg, X_train, y_train, cv=5)  
print(cv_scores)  
print("Average 5-fold CV Score: {:.2f}".format(np.mean(cv_scores)))

La validación cruzada divide el conjunto de entrenamiento en 5 subconjuntos y evalúa el modelo 5 veces, cada vez con una combinación diferente de entrenamiento y validación. Esto nos da una idea de qué tan estable es el modelo. Cuanto mayor sea el promedio del CV Score (cercano a 1), mejor rendimiento tiene el modelo.

---

Realizamos predicciones con los datos de prueba (que el modelo no ha visto antes):
y_pred = reg.predict(X_test)  
y_pred

Aquí generamos las predicciones para el conjunto de prueba, lo que nos permitirá comparar los valores reales del Precio (y_test) con los valores estimados (y_pred).

---

Evaluamos el rendimiento del modelo usando R² y el RMSE (Root Mean Squared Error):
print("R^2: {}".format(reg.score(X_test, y_test)))  
rmse = np.sqrt(mean_squared_error(y_test, y_pred))  
print("Root Mean Squared Error: {}".format(rmse))

El R² indica qué porcentaje de la variabilidad de los datos puede explicar el modelo (1 es perfecto, 0 significa que no explica nada). El RMSE muestra el error promedio en las mismas unidades que el Precio, por lo que cuanto más bajo sea, mejor será el modelo.

---

Interpretación general:
- Un R² alto (mayor que 0.8) significa que el modelo explica bien los datos.
- Un RMSE bajo indica que las predicciones son cercanas a los valores reales.
- Si el R² es bajo o el RMSE es muy alto, puede ser que falten variables relevantes o que la relación no sea lineal.

Posibles mejoras:
- Incluir nuevas variables relevantes.
- Aplicar transformaciones logarítmicas o polinómicas.
- Usar modelos de regularización (Ridge o Lasso) si hay demasiadas variables correlacionadas.
- Probar modelos no lineales como Random Forest o Gradient Boosting.

---

✅ Resumen del flujo completo:
1. Importar librerías necesarias.  
2. Cargar datos y definir la variable objetivo.  
3. Preparar variables independientes.  
4. Convertir categóricas en numéricas.  
5. Definir X (entrada) e y (salida).  
6. Dividir en entrenamiento y prueba.  
7. Crear y entrenar el modelo.  
8. Validar con cross-validation.  
9. Predecir valores con los datos de test.  
10. Evaluar con R² y RMSE.  
11. Interpretar resultados y buscar mejoras.

---


In [1]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.model_selection import cross_val_score
import numpy as np
import matplotlib.pyplot as plt


In [3]:
df_data = pd.read_excel(r'Precio_coches.xlsx')

df_data.head()  # Variable output --> "Precio"


Unnamed: 0,Fabricante,Combustible,Longitud,Ancho,Altura,Numero_cilindros,Potencia,RPM_pico,Precio
0,alfa-romero,gas,168.8,64.1,48.8,4,111,5000,13495
1,alfa-romero,gas,168.8,64.1,48.8,4,111,5000,16500
2,alfa-romero,gas,171.2,65.5,52.4,6,154,5000,16500
3,audi,gas,176.6,66.2,54.3,4,102,5500,13950
4,audi,gas,176.6,66.4,54.3,5,115,5500,17450


In [4]:
df_x = df_data.drop('Precio', axis=1)

df_x = pd.get_dummies(df_x)

df_x.head()


Unnamed: 0,Longitud,Ancho,Altura,Numero_cilindros,Potencia,RPM_pico,Fabricante_alfa-romero,Fabricante_audi,Fabricante_bmw,Fabricante_chevrolet,...,Fabricante_peugot,Fabricante_plymouth,Fabricante_porsche,Fabricante_saab,Fabricante_subaru,Fabricante_toyota,Fabricante_volkswagen,Fabricante_volvo,Combustible_diesel,Combustible_gas
0,168.8,64.1,48.8,4,111,5000,True,False,False,False,...,False,False,False,False,False,False,False,False,False,True
1,168.8,64.1,48.8,4,111,5000,True,False,False,False,...,False,False,False,False,False,False,False,False,False,True
2,171.2,65.5,52.4,6,154,5000,True,False,False,False,...,False,False,False,False,False,False,False,False,False,True
3,176.6,66.2,54.3,4,102,5500,False,True,False,False,...,False,False,False,False,False,False,False,False,False,True
4,176.6,66.4,54.3,5,115,5500,False,True,False,False,...,False,False,False,False,False,False,False,False,False,True


In [12]:
x = df_x.values
y = df_data['Precio'].values
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)


In [13]:
reg = LinearRegression()
reg.fit(X_train, y_train)


In [15]:
# Compute 5-fold cross-validation scores (cv_scores)
cv_scores = cross_val_score(reg, X_train, y_train, cv=5)

# Print the 5-fold cross-validation scores
print(cv_scores)

print("Average 5-fold CV Score: {:.2f}".format(np.mean(cv_scores)))
y_pred = reg.predict(X_test)
y_pred



print("R^2: {}".format(reg.score(X_test, y_test)))
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("Root Mean Squared Error: {}".format(rmse))


[0.56837164 0.80633888 0.76104556 0.77054998 0.89253416]
Average 5-fold CV Score: 0.76
R^2: 0.9125460025421428
Root Mean Squared Error: 3144.4819091407107
