
# Mini-Proyecto de **Regresión** — Base con TODOs (Fish Market)
**Objetivo:** Predecir el **peso** (`Weight`) de los peces a partir de dimensiones físicas.

**Dataset:** *Fish Market* (público).  
URL sugerida: `https://raw.githubusercontent.com/selva86/datasets/master/Fish.csv`

**Modelos a usar (regresión):**
- **KNNRegressor**
- **SVR**
- **DecisionTreeRegressor**
- **RandomForestRegressor**

> ⚠️ Qué debes completar (TODOs):
> 1) **Train/Test split** y **normalización estándar** (cuando aplique).  
> 2) **GridSearchCV** para cada modelo (4), **predicciones** y **métricas** (MSE, MAE, RMSE, MAPE, R²).  
> 3) **Comparativa final** de modelos.
>
> Debajo de cada bloque tienes una **SOLUCIÓN comentada** (`# SOLUCIÓN`) que luego puedes borrar.



## 1) Imports y configuración


In [1]:

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (mean_absolute_error, mean_squared_error, r2_score, 
                             mean_absolute_percentage_error, root_mean_squared_error)

# Modelos de regresión (los 4 pedidos)
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

import warnings
warnings.filterwarnings("ignore")


In [3]:

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (mean_absolute_error, mean_squared_error, r2_score, 
                             mean_absolute_percentage_error, root_mean_squared_error)

# Modelos de regresión (los 4 pedidos)
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

import warnings
warnings.filterwarnings("ignore")



## 2) Carga de datos


In [4]:
url = "https://raw.githubusercontent.com/Ankit152/Fish-Market/refs/heads/main/Fish.csv"
df = pd.read_csv(url)
df.head()

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,Bream,242.0,23.2,25.4,30.0,11.52,4.02
1,Bream,290.0,24.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961
3,Bream,363.0,26.3,29.0,33.5,12.73,4.4555
4,Bream,430.0,26.5,29.0,34.0,12.444,5.134



## 3) EDA mínima


In [5]:
print("Shape:", df.shape)
print("\nTipos:\n", df.dtypes)
print("\nNulos por columna:\n", df.isna().sum())
display(df.describe().T)

print("\nClases de 'Species':")
print(df['Species'].value_counts())

Shape: (159, 7)

Tipos:
 Species     object
Weight     float64
Length1    float64
Length2    float64
Length3    float64
Height     float64
Width      float64
dtype: object

Nulos por columna:
 Species    0
Weight     0
Length1    0
Length2    0
Length3    0
Height     0
Width      0
dtype: int64


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Weight,159.0,398.326415,357.978317,0.0,120.0,273.0,650.0,1650.0
Length1,159.0,26.24717,9.996441,7.5,19.05,25.2,32.7,59.0
Length2,159.0,28.415723,10.716328,8.4,21.0,27.3,35.5,63.4
Length3,159.0,31.227044,11.610246,8.8,23.15,29.4,39.65,68.0
Height,159.0,8.970994,4.286208,1.7284,5.9448,7.786,12.3659,18.957
Width,159.0,4.417486,1.685804,1.0476,3.38565,4.2485,5.5845,8.142



Clases de 'Species':
Species
Perch        56
Bream        35
Roach        20
Pike         17
Smelt        14
Parkki       11
Whitefish     6
Name: count, dtype: int64



## 4) Selección de variables
- **y (target):** `Weight`
- **X (features):** `Length1`, `Length2`, `Length3`, `Height`, `Width`  
(Dejamos fuera `Species` para centrarnos en un flujo de regresión con numéricas.)


In [6]:
target = "Weight"
features = ["Length1", "Length2", "Length3", "Height", "Width"]

X = df[features].copy()
y = df[target].copy()

X.head(), y.head()

(   Length1  Length2  Length3   Height   Width
 0     23.2     25.4     30.0  11.5200  4.0200
 1     24.0     26.3     31.2  12.4800  4.3056
 2     23.9     26.5     31.1  12.3778  4.6961
 3     26.3     29.0     33.5  12.7300  4.4555
 4     26.5     29.0     34.0  12.4440  5.1340,
 0    242.0
 1    290.0
 2    340.0
 3    363.0
 4    430.0
 Name: Weight, dtype: float64)


## 5) **TODO** — Train/Test split + Normalización
1. Divide en train/test (por ejemplo `test_size=0.2`, `random_state=42`).  
2. Aplica **StandardScaler** ajustando SOLO con `X_train` y transformando `X_train` y `X_test`.

> ℹ️ **Nota:** KNN y SVR requieren **escalado** para funcionar bien. Para **DT** y **RF**, usaremos los datos **sin escalar**.


In [7]:

# =============
# TODO: Split
# =============
# X_train, X_test, y_train, y_test = ...

# =============
# TODO: Escalado
# =============
# scaler = escalado estandar
# X_train_scaled = ...fit y transform de X_train
# X_test_scaled = ... transform de X_test




## PREGUNTAS PARA RESPONDER:

1. Aparte del StandardScaler, ¿qué otros tipos de escalado conoces?
2. Que diferencias hay entre ellos?
3. ¿Por qué es importante ajustar el escalador solo con los datos de entrenamiento? 
4. Para que sirve la semilla aleatoria? 


## 6) Utilidad para métricas (MSE, MAE, RMSE, MAPE, R²)


In [8]:

def regression_metrics(y_true, y_pred):
    """
    TODO prepara una funcion que calcule las metricas de regresion:
    MAE, MSE, RMSE, MAPE, R2 
    """

    return {"MAE": mae, "MSE": mse, "RMSE": rmse, "MAPE": mape, "R2": r2}


### MAS PREGUNTAS PARA RESPONDER:
1. Que aporta cada metrica?
2. Cual es la mas importante?


## 7) Entrenamiento de modelos
Iremos acumulando resultados en una lista `results` para la comparativa final.


In [9]:

results = []



## 7) KNNRegressor

https://www.ibm.com/es-es/think/topics/knn

Instancia proporcionada. **Completa**: GridSearchCV (parrilla típica), `fit`, `predict`, métricas y guarda en `results` para comparar al final.


In [10]:

# =====================
# Instanciación del modelo
# =====================
model = KNeighborsRegressor()

# =====================
# TODO: GridSearchCV
# =====================
# PISTA de param_grid (ajusta si lo ves):
## {'n_neighbors': [3,5,7,9,15], 'weights': ['uniform','distance'], 'p': [1,2]}  # ejemplo
# param_grid = ...
# gsearch = GridSearchCV...
# hacemos el fit del gsearch

# =====================
# TODO: Predicción y métricas
# =====================
# y_pred = ... obtenemos prediciones 
# mets = usamos la funcion de metricas para obtener metricas

# print("KNNRegressor -> ...hacemos un print con las metricas
# best_knnregressor = ...guardamos el mejor predictor

results.append({"modelo": "KNNRegressor", **mets}) # guardamos los resultados de las metricas por si queremos comparar


NameError: name 'mets' is not defined

### MAS PREGUNTAS PARA RESPONDER:
1. ¿Que hiperparametros son los más importantes en KNNRegressor?
2. Dice el profe que este modelo realmente no tiene un entrenamiento como tal, ¿a qué se refiere?
3. ¿que otras distancias aparte de la euclidea conoces? ¿porque pueden ser interesantes?


## 7) SVR

https://www.ibm.com/es-es/think/topics/support-vector-machine

Instancia proporcionada. **Completa**: GridSearchCV (parrilla típica), `fit`, `predict`, métricas y guarda en `results` para comparar al final.


In [None]:

# =====================
# Instanciación del modelo
# =====================
model = SVR()

# =====================
# TODO: GridSearchCV
# =====================
# PISTA de param_grid :
# # {'kernel': ..., 'C': ..., 'epsilon':..., 'gamma': ...}  # ejemplo


# =====================
# TODO: Predicción y métricas
# =====================


### PREGUNTAS PARA RESPONDER:
1. ¿Qué papel juega el parámetro `C` en SVR?
2. ¿Y el parámetro `epsilon`?
3. ¿Qué diferencias hay entre los kernels `linear`, `poly` y `rbf`?

## 7) DecisionTreeRegressor

https://www.ibm.com/es-es/think/topics/decision-trees

Instancia proporcionada. **Completa**: GridSearchCV (parrilla típica), `fit`, `predict`, métricas y guarda en `results` para comparar al final.

In [None]:

# =====================
# Instanciación del modelo
# =====================
model = DecisionTreeRegressor(random_state=42)

# =====================
# TODO: GridSearchCV
# =====================
# PISTA de param_grid:
# # {'max_depth': ..., 'min_samples_split': ..., 'min_samples_leaf': ...}  # ejemplo


# =====================
# TODO: Predicción y métricas
# =====================



### PREGUNTAS PARA RESPONDER:
1.- El profe dice que los árboles no necesitan escalado, ¿por qué?
2.- ¿Qué papel juega el parámetro `max_depth`?

## 7) RandomForestRegressor

https://www.ibm.com/es-es/think/topics/random-forest

Instancia proporcionada. **Completa**: GridSearchCV (parrilla típica), `fit`, `predict`, métricas y guarda en `results` para comparar al final.

In [None]:

# =====================
# Instanciación del modelo
# =====================
model = RandomForestRegressor(random_state=42)

# =====================
# TODO: GridSearchCV
# =====================
# PISTA de param_grid:
# # {'n_estimators': ..., 'max_depth': ..., 'min_samples_split': ...}  # ejemplo


# =====================
# TODO: Predicción y métricas
# =====================


### PREGUNTAS PARA RESPONDER:
1. ¿por que 100 o 200 o 500 arboles son mejor que 1?
2. ¿Qué condicion deben cumplir los arboles para que el conjunto funcione bien?


## 8) **TODO** — Comparativa final
Ordena por **RMSE** (menor es mejor) y/o muestra todas las métricas.


In [None]:

# =============
# TODO: Comparativa
# =============
# import pandas as pd
# df_res = pd.DataFrame(results).sort_values(by="RMSE", ascending=True)
# display(df_res)

# =====================
# SOLUCIÓN (comentada)
# =====================
# import pandas as pd
# df_res = pd.DataFrame(results).sort_values(by="RMSE", ascending=True)
# display(df_res)


## 9) Comenta la jugada

1) Hablame de que significa cada metrica, que historia cuenta cada metrica en conjunto, como comparan unas metricas con otras.
2) Que modelo es mejor y por qué. 
3) Que otras coonsideraciones podriamos tener en cuenta a la hora de elegir el modelo mas alla de las metricas.
4) Que info util nos ofrecen los modelos entrenados. 


## 10) Extensiones
- Añadir `Species` con One-Hot Encoding y comparar.
- Que columnas podriamos crear/eliminar... feature engineering?
- Sabrias dibujar un decission tree?



In [None]:
# from sklearn.tree import DecisionTreeRegressor, plot_tree
# plt.figure(figsize=(18, 10), dpi=120)
# plot_tree(
#     dt,
#     feature_names=features,
#     filled=True,          # colorea por valor
#     rounded=True,         # nodos con bordes redondeados
#     fontsize=10
# )
# plt.title("Decision Tree Regressor (max_depth=3, min_samples_leaf=5)")
# plt.show()