# Modelo de regresión para predecir edades de moluscos 

1. Plantear bien la pregunta. 

   * ¿Regresión o clasificación?
   * ¿Tipo de regresión y tipo de clasificación?

En este caso tenemos un dataset con el que se desea predecir la edad del Abulón, por lo tanto, es un problema de **regresión lineal**. 

2. Exploración inicial.

   * Indicar la fuente de dónde se toman los datos.

Dataset tomado de: https://archive.ics.uci.edu/ml/datasets/abalone

Este dataset contiene información de Abulones como el sexo, el peso, la cantidad de anillos y algunas medidas de longitud, diámetro y altura.

La edad de estos abulones es el valor a predecir como un valor continuo y se calcula sumando 1.5 a la variable Anillos.

   * Hacer explícita la función objetivo.

$$ h = \mathbb{R} ^ {9} \longrightarrow \mathbb{R}$$
$$ h(X_{nxm}) = y $$
Donde $X$ es una matriz de 4177 filas por 9 columnas y $y$ es un vector con los valores de las edades de los Abulones.

$$h(X_i) = y_i \ \ \in \ \ \mathbb{R}$$

   * Decir cuáles son los atributos (descripción breve de cada uno)

   
**Nombre: Tipo de datos - Unidad de medida - Descripción**

Sexo: nominal -  - M, F e I (infante)\
Longitud: continua - mm - Medida de la carcasa más larga\
Diámetro: continuo - mm - perpendicular a la longitud\
Altura: continuo - mm - con carne con cáscara\
Peso entero: continuo - gramos - abulón entero\
Peso desbullado: continuo - gramos - peso de carne\
Peso de vísceras: continuo - gramos - peso intestinal (después del sangrado)\
Peso de la cáscara: continuo - gramos - después de secarse\
Anillos: entero - - +1.5 da la edad en años (Por tanto, la variable objetivo es discreta)

  * Practicar una primera exploración gráfica de los datos.

In [1]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 

In [12]:
# para separar entrenamiento y testeo:
from sklearn.model_selection import train_test_split 
# para llenar datos faltantes (mediana)
from sklearn.impute import SimpleImputer

from sklearn.base import BaseEstimator, TransformerMixin 
# Para estandarizar los datos (media 0 y varianza 1):
from sklearn.preprocessing import StandardScaler 
# Tratamiento de variables categóricas:
from sklearn.preprocessing import OneHotEncoder 
# Secuencia de imputació n, automatización del proceso:
from sklearn.pipeline import Pipeline 
from sklearn.compose import ColumnTransformer

# Construcción del modelo predictivo 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error  
# otros modelos:
from sklearn.tree import DecisionTreeRegressor 
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV

In [14]:
data = pd.read_csv('abalone_1.csv')  
data.rename(columns = {'Sex':'sexo','Length':'longitud',\
                           'Diameter':'diametro','Height':'altura',\
                           'Whole weight':'peso_entero',\
                           'Shucked weight':'peso_desbullado','Viscera weight':'peso_visceras',\
                           'Shell weight':'peso_cascara','Rings':'anillos'}, inplace = True)
data['edad'] = data['anillos'] + 1.5
data.drop('anillos', axis = 1, inplace = True)
data.head()

Unnamed: 0,sexo,longitud,diametro,altura,peso_entero,peso_desbullado,peso_visceras,peso_cascara,edad
0,M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,16.5
1,M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,8.5
2,F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,10.5
3,M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,11.5
4,I,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,8.5


In [15]:
# Datos de entrenamiento
d_train, d_test = train_test_split(data, test_size = 0.2, random_state = 42)

### Dividimos las variables predictoras de la variable objetivo

In [18]:
d_train_predict = d_train.drop('edad', axis=1)
d_train_labels = d_train.edad
d_test_predict = d_test.drop('edad', axis=1)
d_test_labels = d_test.edad

### Se construye la canalización para los atributos numéricos

In [17]:
# Este pipeline ejecuta el método que nos rellena los datos faltantes y el que nos estandariza los datos
# todo en un solo paso 
pipeline_num = Pipeline([
    ('imputar', SimpleImputer(strategy='median')),
    ('Estandarizar', StandardScaler())
])

Sería bueno justificar la metodología de imputación de datos y la estrategia de escalamiento de los mismos. 

In [None]:
d_train_predict_num = d_train_predict.drop('sexo', axis = 1)
lista_atrub_num = list(d_train_predict_num.columns)
lista_atrub_cat = ['sexo']

In [None]:
# Este transformador ejecuta, en un solo paso, los métodos para las variables numéricas y las categóricas
transformador_completo = ColumnTransformer([
    ('num', pipeline_num, lista_atrub_num),
    ('cat', OneHotEncoder(), lista_atrub_cat)
])

In [None]:
# obtenemos los datos listos para hacer el entrenamiento
X_preparado = transformador_completo.fit_transform(data)

In [None]:
# Datos antes del proceso
data.head()

In [None]:
# Datos después de proceso
''' 
Los nuevos datos preparados tienen más columnas ya que la variable sexo
se convirtió en 3 nuevas columnas, una para cada genero.
'''
X_preparado.shape

4. Entrenamiento y selección de modelo.

* Instanciar varios modelos y entrenarlos sobre datos de entrenamiento
preparados.

In [None]:
Regresor_l = LinearRegression()
Regresor_l.fit(X_preparado, d_labels.values.reshape(-1,1))

### Evaluamos el modelo en el conjunto de entrenamiento

Veamos ahora la predicción en todo el conjunto de entrenamiento y evaluamos el desempeño de este modelo.

In [None]:
predicciones = Regresor_l.predict(X_preparado)
predicciones

In [None]:
# Error cuadrático medio
np.sqrt(mean_squared_error(predicciones, d_labels))

Con este modelo, tenemos un error promedio de 2 años entre el valor predicho y el valor real de la edad de los Abulones.

### Probemos con un regresor de arbol de decisión 

In [None]:
Regresor_arbol = DecisionTreeRegressor()
Regresor_arbol.fit(X_preparado,d_labels)

Vemos la predicción en todo el conjunto de entrenamiento y evaluamos el desempeño de este modelo.

In [None]:
predicciones_arbol = Regresor_arbol.predict(X_preparado)

# Error cuadrático medio
np.sqrt(mean_squared_error(predicciones_arbol, d_labels))

En este caso, el error promedio nos da cero, pero esto sospechosamente parece un sobreajuste por lo que posiblemente este modelo no funcione para nuevos datos.

### Ahora, evaluemos el modelo de Bosques Aleatorios

In [None]:
Regresor_bosque = RandomForestRegressor()
Regresor_bosque.fit(X_preparado,d_labels)

In [None]:
predicciones_bosque = Regresor_bosque.predict(X_preparado)

# Error cuadrático medio
np.sqrt(mean_squared_error(predicciones_bosque, d_labels))

Este modelo nos arroja un error de tan solo 0.8 años.

### Ahora, evaluemos el desempeño de estos tres modelos con la metodología de validación cruzada
Lo que hace esta metodología es partir la muestra de entrenamiento en partes, entrenar el modelo en una de las partes y testear en el complemento

Evaluamos primero el regresor de árbol ya que fue el que 'mejor' predicción arrojó.

In [None]:
puntajes = cross_val_score(Regresor_arbol, X_preparado, d_labels.values.reshape(-1,1),\
                           scoring = 'neg_mean_squared_error', cv = 10)

In [None]:
puntajes_rmse_arbol = np.sqrt(-puntajes)

In [None]:
def mostrar_puntajes(puntajes):
    print("Puntajes:", puntajes)
    print("Madia:", puntajes.mean())
    print("Desviación estandar:", puntajes.std())

mostrar_puntajes(puntajes_rmse_arbol) 

El regresor de árboles nos daba un error de cero, lo cual no es algo bueno ya que esto puede representar un sobreajustarse, pero lo que vemos con esta metodología de validación cruzada es que realmente el modelo no funciona muy bien porque tiene un error medio del 3 años, incluso más alto que el que arrojó el regresor lineal. 

### Realicemos esta misma metodología para el Regresor lineal

In [None]:
puntajes_lineal = cross_val_score(Regresor_l, X_preparado, d_labels.values.reshape(-1,1),\
                           scoring = 'neg_mean_squared_error', cv = 10)
puntajes_rmse_lineal = np.sqrt(-puntajes_lineal)
mostrar_puntajes(puntajes_rmse_lineal) 

Vemos, con esta metodología, que el Regresor Lineal tiene un mejor desempeño que el Regresor de árboles, con un erro medio de 2.2 años.

### Por último, evaluemos el Regresor de Bosques Aleatorios

In [None]:
puntajes_bosque = cross_val_score(Regresor_bosque, X_preparado, d_labels.values.reshape(-1,1),\
                           scoring = 'neg_mean_squared_error', cv = 10)
puntajes_rmse_bosque = np.sqrt(-puntajes_bosque)
mostrar_puntajes(puntajes_rmse_bosque) 

La media de error para el modelo de Bosques Aleatorios tiene un mejor desempeño que los dos modelos anteriores con un error medio de 2.15 años con una variabilidad de tan solo 0.10

5. Afinar el modelo
   * Crear cuadrícula (de búsqueda) de hiperparámetros
   
Una vez decidido con cual modelo nos quedamos por mejor desempeño, el siguiente paso es afinarlo.

In [None]:
param_grid = [
            {'n_estimators': [3, 10, 30, 40, 60], 'max_features': [2, 4, 6, 8, 10]},
            {'bootstrap': [False], 'n_estimators': [3, 10, 30], 'max_features': [2, 3, 4, 6]},
             ]
forest_reg = RandomForestRegressor()
cuadricula = GridSearchCV(forest_reg, param_grid, cv=5, scoring='neg_mean_squared_error',\
                           return_train_score=True)
cuadricula.fit(X_preparado, d_labels.values.ravel())

In [None]:
cuadricula.best_params_

In [None]:
mejor_regresor_bosque = RandomForestRegressor(max_features=4, n_estimators=60)

In [None]:
mejor_regresor_bosque.fit(X_preparado, d_labels)

In [None]:
predicciones_finales = mejor_regresor_bosque.predict(X_preparado)
np.sqrt(mean_squared_error(predicciones_finales, d_labels))

In [None]:
puntajes_final = cross_val_score(mejor_regresor_bosque, X_preparado, d_labels.values.reshape(-1,1),\
                           scoring = 'neg_mean_squared_error', cv = 10)
puntajes_rmse_final = np.sqrt(-puntajes_final)
mostrar_puntajes(puntajes_rmse_final) 

6. Presentar la solución.
   * Mostrar el desempeño sobre los datos para testear.

In [None]:
d_test.head()

Preparamos los datos de testeo para evaluar el modelo con ellos

In [None]:
data_test = d_test.drop('edad', axis=1)
d_labels_test = d_test.edad

In [None]:
X_test_prep = transformador_completo.transform(data_test)
X_test_prep.shape

Obtenemos las predicciones del modelo ganador con los datos de testeo ya preparados y lo evaluamos con el error medio.

In [None]:
predicciones_test = mejor_regresor_bosque.predict(X_test_prep)
np.sqrt(mean_squared_error(predicciones_test, d_labels_test))

Con los datos de testeo, obtenemos un error medio de 2.2 años lo cual no está muy alejado del error medio de 2.15 con los datos de entrenamiento.

* Gráfico intuitivo para representar el modelo

In [None]:
import matplotlib.pyplot as plt
'''
Sacado de: https://www.kaggle.com/code/apurvasharma866/abalone
'''

def grafico(y_test, y_predic):
    fig, ax = plt.subplots(figsize=(8, 8))
    ax.plot(y_test, y_predic, '.k')
    
    ax.plot([0, 30], [0, 30], '--k')
    ax.plot([0, 30], [2, 32], ':k')
    ax.plot([2, 32], [0, 30], ':k')
    
    rms = (y_test - y_predic).std()
    
    ax.text(25, 3,
            "Root Mean Square Error = %.2g" % rms,
            ha='right', va='bottom')

    ax.set_xlim(0, 30)
    ax.set_ylim(0, 30)
    
    ax.set_xlabel('Edad real')
    ax.set_ylabel('Edad predicha')
    return rms
    
grafico(d_labels, predicciones_finales)
plt.title("Datos de entrenamiento")
grafico(d_labels_test, predicciones_test)
plt.title("Datos de testeo")

## Conclusiones del gráfico 