# Abalone Dataset: Predicción de Edad con Machine Learning

En este notebook aprenderemos cómo predecir la edad de un abulón usando sus características físicas y prácticas con modelos de regresión lineal y avanzados como Random Forest.

## Conceptos principales
- **Regresión**: Técnica de machine learning supervisado para predecir una variable continua (por ejemplo, edad).
- **EDA (Análisis exploratorio de datos)**: Primer paso para conocer, visualizar y comprender los datos.
- **Preprocesamiento**: Transformar variables categóricas a numéricas para el modelo.
- **Modelo básico vs avanzado**: Compararemos el desempeño de una regresión lineal simple contra un Random Forest.


In [None]:
# Librerías y carga de datos
import pandas as pd  # Para manejar tablas de datos
import matplotlib.pyplot as plt  # Para hacer gráficos
import seaborn as sns  # Para gráficos estadísticos

# Cargamos el archivo CSV con los datos de abulones
df = pd.read_csv('abalone.csv')

# Mostramos las primeras filas para ver cómo son los datos
print(df.head())


### ¿Qué estamos viendo?
Las primeras filas del dataframe muestran las variables disponibles. La variable objetivo aquí es **"Rings"**, que representa la edad del abulón (edad ≈ Rings + 1.5).


In [None]:
# EDA básica: exploramos la estructura y la estadística del dataset
print(df.describe())  # Estadísticas básicas de cada columna
print(df.info())     # Tipos de datos y si hay valores nulos


### ¿Por qué hacer EDA?
Nos permite saber rangos, valores faltantes, tipo de variables y hacernos una idea para elegir los mejores modelos o preprocesamientos.


In [None]:
# Visualización de la relación entre Shell weight y Rings
# Esto nos ayuda a ver si hay relación entre el peso del caparazón y la edad
sns.scatterplot(x='Shell weight', y='Rings', data=df)
plt.title('Relación entre peso del caparazón y edad (número de anillos)')
plt.show()


#### Reflexión:  
¿Crees que el peso del caparazón es buen predictor de la edad? ¿Por qué?


In [None]:
# Preprocesamiento: convertir la columna 'Sex' en variables dummy
# Los modelos solo entienden números, así que convertimos 'Sex' en varias columnas 0/1
df = pd.get_dummies(df, columns=['Sex'], drop_first=True)

# Mostramos cómo queda la tabla después de convertir a dummies
print(df.head())


**¿Por qué usar dummies?**  
Los algoritmos de ML requieren variables numéricas. Las dummies convierten categorías en columnas con valores 0/1.


In [None]:
# División en features y target + split entre entrenamiento y test
from sklearn.model_selection import train_test_split  # Para separar los datos

# X son las columnas que usaremos para predecir, y es la edad (Rings)
X = df.drop(columns=['Rings'])
y = df['Rings']

# Separamos el 80% para entrenar y el 20% para probar
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)


**División de datos**
Separar datos de entrenamiento y test ayuda a medir si nuestro modelo generaliza bien y no sólo aprende de memoria.


In [None]:
# Regresión lineal simple
from sklearn.linear_model import LinearRegression  # Importamos el modelo

# Creamos el modelo de regresión lineal
lr = LinearRegression()

# Entrenamos el modelo con los datos de entrenamiento
lr.fit(X_train, y_train)

# Hacemos predicciones con los datos de test
y_pred = lr.predict(X_test)


**Regresión lineal:**  
Es la técnica más sencilla de regresión: ajusta una línea para aproximar los datos.


In [None]:
# Evaluación del resultado
from sklearn.metrics import mean_squared_error, r2_score  # Métricas de evaluación

# Calculamos el error medio cuadrático y el R²
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f'MSE: {mse:.2f}, R²: {r2:.2f}')

# Gráfico para comparar edad real vs edad predicha
plt.scatter(y_test, y_pred)
plt.xlabel('Edad real')
plt.ylabel('Edad predicha')
plt.title('Predicción vs Edad real')
plt.show()


**¿Qué significan MSE y R²?**  
- El MSE (Error medio cuadrático) nos dice cuánto se equivoca el modelo en promedio.
- El R² indica qué porcentaje de la variabilidad de la edad explica el modelo.


In [None]:
# Random Forest: comparación con un modelo más avanzado
# Un Random Forest es como un "equipo" de muchos árboles de decisión.
# Cada árbol hace una predicción y el modelo final toma el promedio de todas.
# Esto suele dar mejores resultados que una sola línea (regresión lineal),
# especialmente cuando la relación entre variables no es tan simple.

from sklearn.ensemble import RandomForestRegressor  # Importamos el modelo avanzado

# Creamos el modelo Random Forest (no hace falta ajustar parámetros para empezar)
rf = RandomForestRegressor()

# Entrenamos el modelo con los datos de entrenamiento
rf.fit(X_train, y_train)

# Hacemos predicciones con los datos de test
y_pred_rf = rf.predict(X_test)

# Calculamos el error medio cuadrático (MSE) y el R² para ver qué tan bien predice
print(f'Random Forest MSE: {mean_squared_error(y_test, y_pred_rf):.2f}')
print(f'Random Forest R²: {r2_score(y_test, y_pred_rf):.2f}')

# Puedes comparar estos resultados con los de la regresión lineal.
# Si el R² es más alto y el MSE más bajo, el Random Forest está prediciendo mejor.


**Random Forest:**  
Permite ajustar modelos mucho más complejos ("conjuntos de árboles") y generalmente predice mejor en casos no lineales.

#### Espacio para tu análisis:
- ¿Cómo cambian las métricas cuando usas Random Forest versus la regresión lineal?
- ¿Existen variables que influyen más? Prueba cambiar las features y observa el impacto.
