----
# Cuaderno 5 - Regresi√≥n lineal y m√©tricas de evaluaci√≥n
## Ariel Palazzesi - 2026
----

En este cuaderno vamos a construir, entrenar y evaluar un modelo de **regresi√≥n lineal** utilizando un dataset real.

Vamos a trabajar paso a paso con el conjunto de datos del Titanic, aplicando lo aprendido en la clase te√≥rica:

- ¬øQu√© es la regresi√≥n lineal y cu√°ndo se utiliza?
- ¬øC√≥mo se entrena un modelo utilizando Scikit-learn?
- ¬øQu√© m√©tricas se utilizan para evaluar un modelo de regresi√≥n?
- ¬øC√≥mo interpretar los resultados?

Este cuaderno est√° dise√±ado para ayudarte a unir estos conceptos con la pr√°ctica, y al mismo tiempo desarrollar criterio para analizar la calidad de un modelo predictivo.


## Carga del dataset

Vamos a seguir trabajando con el dataset del **Titanic**, que ya utilizamos en cuadernos anteriores. Para poder usarlo en este cuaderno, deb√©s subir el archivo `Titanic-Dataset.csv` al entorno de ejecuci√≥n de Colab.

1. Hac√© clic en el √≠cono de carpeta (üìÅ) en el panel izquierdo.
2. Sub√≠ el archivo `Titanic-Dataset.csv` desde tu computadora.
3. Verific√° que aparezca en la ruta `/`.

Luego, ejecut√° el siguiente bloque de c√≥digo para importar las librer√≠as necesarias y cargar el archivo.


In [1]:
# Importamos las librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

# Estilo para gr√°ficos
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 5)

# Cargamos el dataset
ruta = "Titanic-Dataset.csv"
df = pd.read_csv(ruta)

# Mostramos las primeras filas
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Selecci√≥n de variables y preparaci√≥n del dataset

Para aplicar un modelo de regresi√≥n lineal necesitamos una variable objetivo **num√©rica y continua**. En este caso, vamos a predecir el valor de la columna `Fare`, que representa la tarifa que pag√≥ cada pasajero del Titanic.

Para eso, vamos a utilizar como variables predictoras las siguientes columnas:
- `Pclass` (clase del pasajero)
- `Sex` (g√©nero, codificado)
- `Age` (edad)
- `SibSp` (cantidad de hermanos o c√≥nyuges a bordo)
- `Parch` (cantidad de padres o hijos a bordo)

Antes de entrenar el modelo, tenemos que:
- Codificar la variable `Sex`, que es categ√≥rica.
- Tratar los valores faltantes en `Age`.
- Verificar que no haya valores nulos en las columnas seleccionadas.


In [2]:
# Creamos una copia del dataset original
df_modelo = df.copy()

# Codificamos la variable 'Sex' (male = 0, female = 1)
df_modelo['Sex_encoded'] = df_modelo['Sex'].map({'male': 0, 'female': 1})

# Seleccionamos las columnas que vamos a usar
columnas = ['Fare', 'Pclass', 'Sex_encoded', 'Age', 'SibSp', 'Parch']
df_modelo = df_modelo[columnas]

# Eliminamos filas con valores faltantes
df_modelo = df_modelo.dropna()

# Verificamos que no queden valores nulos
df_modelo.isna().sum()


Fare           0
Pclass         0
Sex_encoded    0
Age            0
SibSp          0
Parch          0
dtype: int64

## Divisi√≥n del dataset y entrenamiento del modelo

Ahora que ya tenemos nuestros datos limpios y listos, vamos a dividir el conjunto en dos partes: una para **entrenar** el modelo (80%) y otra para **evaluarlo** (20%). Esta divisi√≥n nos permitir√° comprobar qu√© tan bien funciona el modelo con datos que nunca vio durante el entrenamiento.

Luego, entrenaremos un modelo de **regresi√≥n lineal** utilizando `Scikit-learn`(*). Este modelo ajustar√° una recta multidimensional que intentar√° predecir el valor de la tarifa (`Fare`) a partir de las dem√°s variables.

Finalmente, veremos qu√© coeficiente asign√≥ el modelo a cada variable, lo cual nos permitir√° interpretar la influencia que tiene cada una en la predicci√≥n.

---

*`¬®Scikit-learn` es una biblioteca especializada en **aprendizaje autom√°tico cl√°sico** que ofrece herramientas simples y consistentes para construir, entrenar y evaluar modelos de Machine Learning. Re√∫ne en una misma librer√≠a algoritmos de clasificaci√≥n, regresi√≥n, clustering y reducci√≥n de dimensionalidad, junto con utilidades para preparar datos, dividir conjuntos, aplicar validaci√≥n cruzada y medir el rendimiento de los modelos. Todos los modelos siguen una interfaz com√∫n (m√©todos como `fit`, `predict` y `score`), lo que facilita aprender, comparar algoritmos y experimentar r√°pidamente. Es una de las bibliotecas m√°s usadas tanto en el √°mbito acad√©mico como profesional para prototipar soluciones de Machine Learning y establecer modelos base antes de pasar a enfoques m√°s complejos.*


In [3]:
# Definimos las variables predictoras (X) y la variable objetivo (y)
X = df_modelo[['Pclass', 'Sex_encoded', 'Age', 'SibSp', 'Parch']]
y = df_modelo['Fare']

# Dividimos el conjunto de datos en entrenamiento y prueba (80/20)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Creamos y entrenamos el modelo de regresi√≥n lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Mostramos los coeficientes de cada variable
coeficientes = pd.DataFrame({
    'Variable': X.columns,
    'Coeficiente': modelo.coef_
})
print("Intercepto:", modelo.intercept_)
coeficientes


Intercepto: 111.12250139059563


Unnamed: 0,Variable,Coeficiente
0,Pclass,-36.587785
1,Sex_encoded,4.315933
2,Age,-0.153418
3,SibSp,6.648888
4,Parch,11.593018


## MAE - Error Absoluto Medio

El **MAE** (*Mean Absolute Error* o Error Absoluto Medio) es una m√©trica utilizada en problemas de **regresi√≥n** para medir, en promedio, cu√°nto se equivoca un modelo en sus predicciones respecto de los valores reales. Su principal ventaja es que se expresa en las **mismas unidades que la variable objetivo** que estamos prediciendo (en este caso, `Fare`), lo que hace que su interpretaci√≥n sea directa e intuitiva.

El MAE se calcula tomando la diferencia absoluta entre cada valor real y su predicci√≥n, y luego promediando todas esas diferencias. Al usar el valor absoluto, no importa si el error es positivo o negativo: todos los errores se consideran por igual. Esto significa que **cada error aporta el mismo peso al resultado final**, independientemente de su magnitud.

Esta caracter√≠stica hace que el MAE sea una m√©trica **estable y robusta**, √∫til cuando no queremos que unos pocos errores muy grandes influyan de manera desproporcionada en la evaluaci√≥n del modelo. A diferencia de otras m√©tricas, el MAE refleja de forma clara el error promedio esperado en una predicci√≥n individual.

En el c√≥digo, la funci√≥n `mean_absolute_error()` compara los valores reales del conjunto de prueba (`y_test`) con las predicciones generadas por el modelo mediante `modelo.predict(X_test)`. El resultado se almacena en la variable `mae` y luego se imprime en pantalla, mostrando el error promedio con dos decimales para facilitar su lectura.

El MAE nos permite as√≠ responder a una pregunta clave: **en promedio, ¬øcu√°nto se equivoca el modelo cada vez que hace una predicci√≥n?**

In [4]:
mae = mean_absolute_error(y_test, modelo.predict(X_test))
print(f"MAE: {mae:.2f}")


MAE: 25.34


## Interpretaci√≥n de resultados

El modelo entrenado muestra un **MAE de 25.34**, lo que significa que, en promedio, se equivoca por unos 25 unidades monetarias (en este caso, probablemente libras o d√≥lares) al predecir el valor de la tarifa (`Fare`). El **MSE** es m√°s alto, como era de esperarse, ya que penaliza los errores grandes.


## MSE - Error Cuadr√°tico Medio

El **MSE** (*Mean Squared Error* o Error Cuadr√°tico Medio) es una m√©trica utilizada en problemas de **regresi√≥n** que mide el promedio de los errores al cuadrado entre los valores reales y las predicciones del modelo. A diferencia del MAE, en este caso las diferencias no solo se consideran en valor absoluto, sino que adem√°s se **elevan al cuadrado** antes de promediarse.

Elevar los errores al cuadrado tiene un efecto importante: los **errores grandes pesan mucho m√°s** que los errores peque√±os. Esto hace que el MSE sea muy √∫til cuando queremos que el modelo sea muy sensible a predicciones con grandes desv√≠os, penalizando fuertemente esos casos.

Sin embargo, esta misma caracter√≠stica tambi√©n representa una desventaja. Al elevar los errores al cuadrado, la m√©trica queda expresada en **unidades cuadr√°ticas** (por ejemplo, pesos¬≤ o d√≥lares¬≤), lo que hace que su interpretaci√≥n sea menos intuitiva que la del MAE. Por esta raz√≥n, el valor del MSE suele utilizarse m√°s para **comparar modelos entre s√≠** que para interpretar el error en t√©rminos directos.

En el c√≥digo, la funci√≥n `mean_squared_error()` compara los valores reales del conjunto de prueba (`y_test`) con las predicciones generadas por el modelo mediante `modelo.predict(X_test)`. El resultado se guarda en la variable `mse` y luego se imprime en pantalla con dos decimales para facilitar su lectura.

El MSE nos permite evaluar no solo cu√°nto se equivoca el modelo en promedio, sino tambi√©n **cu√°n graves son los errores grandes**.

In [5]:
mse = mean_squared_error(y_test, modelo.predict(X_test))
print(f"MSE: {mse:.2f}")


MSE: 3420.38


## ¬øQu√© significa un MSE de 3420,38?

El valor de **MSE = 3420,38** indica que el promedio de los **errores al cuadrado** entre las predicciones del modelo y los valores reales de la tarifa (`Fare`) es de 3.420,38.

Esto significa que el modelo est√° cometiendo errores de magnitud considerable, y que algunos de esos errores probablemente son bastante grandes. Como el MSE **penaliza m√°s fuerte los errores grandes** (al elevarlos al cuadrado), este valor sugiere que hay casos en los que el modelo se aleja bastante de la realidad.

Si el rango de valores de `Fare` incluye montos bajos (como 7 u 8) y tambi√©n montos muy altos (como 200 o m√°s), este valor puede estar siendo afectado por **outliers** o casos extremos. Para interpretarlo mejor, conviene compararlo con el RMSE, que devuelve una medida m√°s intuitiva en las mismas unidades que `Fare`.


## RMSE - Ra√≠z del Error Cuadr√°tico Medio

El **RMSE** (*Root Mean Squared Error* o Ra√≠z del Error Cuadr√°tico Medio) es una m√©trica utilizada en problemas de **regresi√≥n** que se obtiene tomando la ra√≠z cuadrada del MSE. Al hacer esto, el error vuelve a expresarse en las **mismas unidades que la variable objetivo** que estamos prediciendo (en este caso, `Fare`), lo que facilita su interpretaci√≥n.

Al igual que el MSE, el RMSE **penaliza con mayor fuerza los errores grandes**, ya que parte de los errores elevados al cuadrado antes de promediarlos. Sin embargo, al aplicar la ra√≠z cuadrada, el valor final resulta m√°s intuitivo y comparable con el MAE, ya que ambos se expresan en la misma escala que la variable original.

Por este motivo, el RMSE suele considerarse una **m√©trica intermedia** entre MAE y MSE: conserva la sensibilidad del MSE frente a grandes desv√≠os, pero evita el problema de las unidades cuadr√°ticas. En muchos contextos pr√°cticos, el RMSE se utiliza como una m√©trica principal para evaluar el rendimiento de modelos de regresi√≥n.

En el c√≥digo, primero se calcula el MSE utilizando la funci√≥n `mean_squared_error()`, comparando los valores reales del conjunto de prueba (`y_test`) con las predicciones del modelo (`modelo.predict(X_test)`). Luego, se aplica `np.sqrt()` para obtener la ra√≠z cuadrada de ese valor. El resultado se almacena en la variable `rmse` y se muestra en pantalla con dos decimales.

El RMSE permite responder a una pregunta importante: **¬øcu√°l es el error t√≠pico del modelo, penalizando especialmente los errores grandes, pero expresado en unidades comprensibles?**

In [6]:
# Calculamos RMSE tomando la ra√≠z cuadrada del MSE
rmse = np.sqrt(mean_squared_error(y_test, modelo.predict(X_test)))
print(f"RMSE: {rmse:.2f}")


RMSE: 58.48


## ¬øQu√© significa un RMSE de 58,48?

El valor de **RMSE = 58,48** nos indica que, en promedio, el modelo se desv√≠a unos **58 unidades monetarias** al predecir el valor de la tarifa (`Fare`) de un pasajero.

Como esta m√©trica se expresa en las mismas unidades que la variable objetivo, es f√°cil de interpretar: si muchas tarifas en el Titanic oscilaban entre 7 y 80, este error puede considerarse **moderado**, pero sugiere que a√∫n hay margen para mejorar la precisi√≥n del modelo.

El RMSE tambi√©n nos permite comparar distintos modelos de forma directa: cuanto **m√°s bajo sea este valor**, mejor ser√° la capacidad del modelo para hacer predicciones cercanas a los valores reales, especialmente cuando se combinan varias variables predictoras.


## R¬≤ - Coeficiente de Determinaci√≥n

El **R¬≤** (*coeficiente de determinaci√≥n*) es una m√©trica utilizada en problemas de **regresi√≥n** que indica qu√© proporci√≥n de la variabilidad de la variable objetivo puede ser explicada por el modelo. En otras palabras, mide **qu√© tan bien el modelo logra capturar la relaci√≥n entre las variables de entrada y el valor que se desea predecir**.

El valor de R¬≤ suele tomar valores entre 0 y 1. Un valor cercano a 1 indica que el modelo explica gran parte de la variabilidad de los datos, mientras que un valor cercano a 0 indica que el modelo explica muy poco, funcionando apenas mejor que una predicci√≥n basada en el promedio. En algunos casos, el R¬≤ puede ser negativo, lo que significa que el modelo se desempe√±a peor que una predicci√≥n constante basada en la media de la variable objetivo.

A diferencia de m√©tricas como MAE, MSE o RMSE, el R¬≤ **no mide el tama√±o del error**, sino la capacidad explicativa del modelo. Por este motivo, se utiliza principalmente para tener una **visi√≥n global del ajuste del modelo**, m√°s que para interpretar errores individuales.

En el c√≥digo, la funci√≥n `r2_score()` compara los valores reales del conjunto de prueba (`y_test`) con las predicciones generadas por el modelo (`modelo.predict(X_test)`). El resultado se almacena en la variable `r2` y se imprime con cuatro decimales para facilitar la comparaci√≥n entre modelos.

El R¬≤ permite responder a la pregunta: **¬øqu√© porcentaje de la variaci√≥n observada en los datos logra explicar el modelo?**
Por esta raz√≥n, suele utilizarse junto con otras m√©tricas de error, ya que por s√≠ sola no brinda una evaluaci√≥n completa del rendimiento del modelo.

In [7]:
r2 = r2_score(y_test, modelo.predict(X_test))
print(f"R¬≤: {r2:.4f}")


R¬≤: 0.1784


## ¬øQu√© significa un R¬≤ de 0.1784?

El valor de **R¬≤ = 0.1784** indica que el modelo de regresi√≥n lineal logra explicar aproximadamente el **17,84% de la variabilidad** en las tarifas (`Fare`) pagadas por los pasajeros del Titanic.

Esto significa que el modelo **no est√° captando con demasiada eficacia** las relaciones entre las variables predictoras y el valor objetivo. Si bien no es un valor nulo, sigue siendo bajo: hay una gran parte del comportamiento de la variable `Fare` que no est√° siendo explicada por el modelo.

Esto puede deberse a varias razones: tal vez las variables utilizadas no son las m√°s representativas para predecir la tarifa, o quiz√°s la relaci√≥n entre las variables y el precio no es lineal. Este valor nos invita a revisar el conjunto de variables elegidas, incorporar nuevas fuentes de informaci√≥n o considerar modelos m√°s complejos.

El R¬≤ no mide el error en s√≠ mismo, sino **cu√°nto del fen√≥meno estamos siendo capaces de explicar**. En este caso, el modelo capta una parte, pero deja bastante afuera.



## Comparaci√≥n de m√©tricas: MAE, MSE, RMSE y R¬≤

Al evaluar modelos de regresi√≥n, no existe una √∫nica m√©trica ‚Äúcorrecta‚Äù. Cada m√©trica aporta una mirada distinta sobre el rendimiento del modelo, y su utilidad depende del tipo de problema que se est√© resolviendo y de qu√© aspectos del error sean m√°s relevantes.

El **MAE** (Error Absoluto Medio) mide el error promedio en las mismas unidades que la variable objetivo. Es f√°cil de interpretar y trata a todos los errores por igual, por lo que resulta especialmente √∫til cuando se busca una medida clara del error t√≠pico del modelo y no se desea penalizar en exceso los errores grandes.

El **MSE** (Error Cuadr√°tico Medio) eleva los errores al cuadrado antes de promediarlos, lo que hace que los errores grandes tengan un peso mucho mayor. Esta m√©trica es √∫til cuando los desv√≠os importantes son especialmente problem√°ticos y se quiere que el modelo sea muy sensible a ellos, aunque su interpretaci√≥n es menos intuitiva debido a que queda expresada en unidades cuadr√°ticas.

El **RMSE** (Ra√≠z del Error Cuadr√°tico Medio) combina caracter√≠sticas del MAE y del MSE. Al aplicar la ra√≠z cuadrada al MSE, recupera las unidades originales de la variable objetivo, lo que facilita su interpretaci√≥n, pero conserva la penalizaci√≥n fuerte de los errores grandes. Por este motivo, es una de las m√©tricas m√°s utilizadas en la pr√°ctica para evaluar modelos de regresi√≥n.

El **R¬≤** (Coeficiente de Determinaci√≥n) no mide el error en s√≠, sino la proporci√≥n de la variabilidad de la variable objetivo que el modelo logra explicar. Es √∫til para tener una visi√≥n global del ajuste del modelo, pero no indica cu√°nto se equivoca en t√©rminos absolutos. Por esta raz√≥n, suele usarse como complemento de otras m√©tricas y no como √∫nica medida de desempe√±o.

### ¬øQu√© m√©trica elegir?

* Si busc√°s **una interpretaci√≥n simple y directa del error**, el MAE es una buena opci√≥n.

* Si quer√©s **penalizar fuertemente los errores grandes**, el MSE o el RMSE son m√°s adecuados.

* Si necesit√°s una m√©trica **interpretables en las mismas unidades que la variable**, el RMSE suele ser preferible al MSE.

* Si quer√©s evaluar **qu√© tan bien el modelo explica los datos en general**, el R¬≤ aporta una visi√≥n complementaria.

En la pr√°ctica, lo m√°s recomendable es **utilizar varias m√©tricas en conjunto**, ya que cada una revela un aspecto distinto del comportamiento del modelo.

## Conclusi√≥n y cierre

Construimos nuestro primer modelo de regresi√≥n lineal completo: desde la selecci√≥n de variables hasta la evaluaci√≥n con distintas m√©tricas. Utilizamos el conjunto de datos del Titanic para predecir la tarifa (`Fare`) que pag√≥ cada pasajero en funci√≥n de sus caracter√≠sticas.

Los resultados obtenidos nos dejan un aprendizaje valioso. Con un **MAE de 25,34**, podemos decir que el modelo se equivoca en promedio unos 25 unidades monetarias, lo cual es razonable en algunos contextos. Sin embargo, un **MSE de 3420,38** y un **RMSE de 58,48** nos advierten que existen errores considerables en ciertas predicciones, lo que podr√≠a estar influenciado por valores at√≠picos o relaciones no capturadas por un modelo lineal.

Finalmente, el valor de **R¬≤ = 0,1784** nos confirma que el modelo solo logra explicar una peque√±a parte de la variabilidad de la tarifa: el 17,84%.

Esto no significa que el modelo sea in√∫til, sino que **hay margen de mejora**, ya sea mediante la selecci√≥n de otras variables, la incorporaci√≥n de nuevas fuentes de datos o el uso de algoritmos m√°s complejos. La regresi√≥n lineal es un excelente punto de partida para comprender c√≥mo se entrena, interpreta y eval√∫a un modelo de predicci√≥n num√©rica.