# Elegir el estimador/algoritmo adecuado para nuestros datos

In [1]:
import pandas as pd
import numpy as np
import sklearn

In [2]:
workflow = [
    "1. Obtener y preparar los datos",
    "2. Dividir los datos",
    "3. Elegir el mejor modelo/estimador/algoritmo para nuestro problema y sus hiperparámetros**",
    "4. Ajustar el modelo/algoritmo a los datos de entrenamiento",
    "5. Hacer predicciones",
    "6. Evaluar el modelo",
    "7. Mejorar el modelo",
    "8. Guardar y cargar el modelo"
]

In [3]:
workflow

['1. Obtener y preparar los datos',
 '2. Dividir los datos',
 '3. Elegir el mejor modelo/estimador/algoritmo para nuestro problema y sus hiperparámetros**',
 '4. Ajustar el modelo/algoritmo a los datos de entrenamiento',
 '5. Hacer predicciones',
 '6. Evaluar el modelo',
 '7. Mejorar el modelo',
 '8. Guardar y cargar el modelo']

## Elegir el estimador/algoritmo adecuado para nuestro problema

Algunas cosas a tener en cuenta:

* Sklearn se refiere a modelos de aprendizaje automático, algoritmos como estimadores.
* **Problema de clasificación** - predecir una categoría (enfermedad cardíaca o no)
    * A veces verás clf (abreviatura de clasificador) utilizado como un estimador de clasificación.
* **Problema de regresión** - predecir un número (precio de venta de un coche).

Si estás trabajando en un problema de ML y buscas usar Sklearn y no estás seguro de qué modelo deberías usar, consulta [el mapa de aprendizaje automático de sklearn](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)

<img src="../../assets/section-7/ml_map.svg" width=900/>

### Elegir un modelo de aprendizaje automático para un **problema de regresión**

Utilicemos el [conjunto de datos de vivienda de California](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html) 📊

In [4]:
# Regression data
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing() # cargar como diccionario
housing.data.shape, housing.target.shape

((20640, 8), (20640,))

In [5]:
# housing # observar la estructura del conjunto de datos

In [6]:
# Convertir el diccionario en DataFrame
housing_df = pd.DataFrame(housing["data"], columns=housing["feature_names"])

# Obtener la variable objetivo
housing_df["target"] = pd.Series(housing["target"])

housing_df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [7]:
# Importar algoritmo
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge

# Configurar random seed
np.random.seed(42)

# Dividir los datos en características y etiquetas (X & y)
X = housing_df.drop("target", axis=1)
y = housing_df["target"]

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Instanciar y ajustar el modelo (con los datos de entramiento)
model = Ridge()
model.fit(X_train, y_train)

# Evaluar la puntuación del modelo (con los datos de prueba)
model.score(X_test, y_test)

0.5758549611440126

El `.score()` devuelve el **[coeficiente de determinación](https://scikit-learn.org/1.5/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge.score)** de la predicción.

El mejor puntaje posible es **1.0**, y puede ser negativo (porque el modelo puede ser arbitrariamente peor). Un modelo constante que siempre predice el valor esperado de \( y \), sin tener en cuenta las características de entrada, obtendría un puntaje \( R^2 \) de 0.0.

***¿Qué pasa si Ridge no funcionara o la puntuación no se ajustara a nuestras necesidades? ¿Cómo podríamos mejorar la puntuación anterior?***

*¿agregar más datos, usar un modelo/algoritmo diferente? ...*

¿Qué tal si probamos un **modelo de ensamblado** *(ensemble model)* (un ensamblado es una combinación de modelos más pequeños para intentar hacer mejores predicciones que solo un modelo individual)?

Modelos de ensamblado de Sklearn: https://scikit-learn.org/stable/modules/ensemble.html

In [8]:
# Importar la clase del modelo RandomForestRegressor del módulo ensemble
from sklearn.ensemble import RandomForestRegressor

# Configurar la semilla aleatoria
np.random.seed(42)

# Crear los datos
X = housing_df.drop("target", axis=1)
y = housing_df["target"]

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Crear el modelo de bosque aleatorio
model = RandomForestRegressor()
model.fit(X_train, y_train)

# Verificar la puntuación del modelo (en el conjunto de prueba)
model.score(X_test, y_test)

0.8059809073051385

### Elegir un modelo de aprendizaje automático para un **problema de clasificación**

Vamos al mapa... https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

<img src="../../assets/section-7/ml_map.svg" width=900/>

In [9]:
# Importar dataset con valores faltantes
data = pd.read_csv("../../data/raw/scikit-learn-data/car-sales-extended-missing-data.csv")
car_sales_missing = pd.DataFrame(data)
car_sales_missing.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Honda,White,35431.0,4.0,15323.0
1,BMW,Blue,192714.0,5.0,19943.0
2,Honda,White,84714.0,4.0,28343.0
3,Toyota,White,154365.0,4.0,13434.0
4,Nissan,Blue,181577.0,3.0,14043.0


In [10]:
heart_disease = pd.read_csv("../../data/raw/heart-disease.csv")
heart_disease.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [11]:
len(heart_disease)

303

Consultamos el mapa y dice que probemos [`LinearSVC`](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html) 🔗

In [12]:
# Importar la clase estimadora LinearSVC
from sklearn.svm import LinearSVC

# Configurar semilla aleatoria
np.random.seed(42)

# Crear los datos
X = heart_disease.drop("target", axis=1)
y = heart_disease["target"]

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Instanciar LinearSVC
clf = LinearSVC(max_iter=10000)
clf.fit(X_train, y_train)

# Evaluar el LinearSVC
clf.score(X_test, y_test)

0.8688524590163934

In [13]:
heart_disease["target"].value_counts()

target
1    165
0    138
Name: count, dtype: int64

In [14]:
# Importar la clase estimadora RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

# Configurar semilla aleatoria
np.random.seed(42)

# Crear los datos
X = heart_disease.drop("target", axis=1)
y = heart_disease["target"]

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Instanciar RandomForestClassifier
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

# Evaluar el RandomForestClassifier
rfc.score(X_test, y_test)

0.8524590163934426

Dato curioso:

1. Si tienes datos **estructurados**, utiliza **métodos de ensamblaje**.
2. Si tienes datos **no estructurados**, utiliza **deep learning o transfer learning**.

## Ajustar el modelo a los datos

Diferentes nombres para:
* `X` = features, features variables, data
* `y` = labels, targets, target variables

In [15]:
car_sales_missing.isna().sum() # ver valores faltantes

Make             49
Colour           50
Odometer (KM)    50
Doors            50
Price            50
dtype: int64

In [16]:
# Importar la clase estimadora RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

# Configurar semilla aleatoria
np.random.seed(42)

# Crear los datos
X = heart_disease.drop("target", axis=1)
y = heart_disease["target"]

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Instanciar RandomForestClassifier
rfc = RandomForestClassifier()

# Ajustar el modelo a los datos (entrenar un modelo de ML)
rfc.fit(X_train, y_train)

# Evaluar el RandomForestClassifier
rfc.score(X_test, y_test)

0.8524590163934426

In [17]:
X.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2


## Hacer predicciones

2 formas de hacer predicciones:
1. `predict()`
2. `predict_proba()`

### Hacer predicciones en modelos de clasificación

In [18]:
rfc.predict(X_test)

array([0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0])

Hay 3 formas de hacer lo mismo:

In [19]:
# Comparar las predicciones con las etiquetas verdades utilizando operadores lógicos
y_preds = rfc.predict(X_test)
np.mean(y_preds == y_test)

0.8524590163934426

In [20]:
rfc.score(X_test, y_test)

0.8524590163934426

`.score()` calcula una métrica de desempeño estándar:
* precisión para clasificación
* R² para regresión

In [21]:
# Métricas específicas de Scikit-Learn (módulo 'metrics')
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_preds)

0.8524590163934426

In [22]:
car_sales_missing["Doors"].value_counts()

Doors
4.0    811
5.0     75
3.0     64
Name: count, dtype: int64

In [23]:
rfc.predict_proba(X_test[:5]) # Devuelve una matriz donde cada fila es una instancia y cada columna es la probabilidad de una clase

array([[0.89, 0.11],
       [0.49, 0.51],
       [0.43, 0.57],
       [0.84, 0.16],
       [0.18, 0.82]])

Haz predicciones con `predict_proba()`:
- usa esto si alguien te pregunta *"¿cuál es la probabilidad que tu modelo asigna a cada predicción?"*

In [24]:
rfc.predict(X_test[:5]) # Genera predicciones concretas basadas en el modelo ajustado

array([0, 1, 1, 0, 1])

`predict()` también puede usarse en modelos de regresión.

In [25]:
heart_disease["target"].value_counts()

target
1    165
0    138
Name: count, dtype: int64

### Hacer predicciones en modelos de regresión

In [26]:
from sklearn.ensemble import RandomForestRegressor

np.random.seed(42)

# Crear los datos
X = housing_df.drop("target", axis=1)
y = housing_df["target"]

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Crear la instancia del modelo
model = RandomForestRegressor()

# Ajustar modelo
model.fit(X_train, y_train)

# Hacer predicciones
y_preds = model.predict(X_test)

In [27]:
y_preds[:10]

array([0.49058  , 0.75989  , 4.9350165, 2.55864  , 2.33461  , 1.6580801,
       2.34237  , 1.66708  , 2.5609601, 4.8519781])

In [28]:
np.array(y_test[:10])

array([0.477  , 0.458  , 5.00001, 2.186  , 2.78   , 1.587  , 1.982  ,
       1.575  , 3.4    , 4.466  ])

In [29]:
# Comparar las predicciones con los valores verdades
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_preds)

0.3270458119670544

In [30]:
len(y_test)

4128

In [31]:
from sklearn.ensemble import RandomForestClassifier

np.random.seed(42)

# Crear X & y
X = heart_disease.drop("target", axis=1)
y = heart_disease["target"]

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Crear instancia del modelo
rfc = RandomForestClassifier()

# Ajustar el modelo
rfc.fit(X_train, y_train)

In [32]:
rfc.score(X_train, y_train) # El valor más alto del método .score() es 1.0

1.0

In [33]:
rfc.score(X_test, y_test)

0.8524590163934426

Vamos a usar `score()` en nuestro problema de regresión:

In [34]:
from sklearn.ensemble import RandomForestRegressor

np.random.seed(42)

# Crear los datos
X = housing_df.drop("target", axis=1)
y = housing_df["target"]

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Crear la instancia del modelo
model = RandomForestRegressor()

# Ajustar modelo
model.fit(X_train, y_train)

In [35]:
# La métrica de evaluación score() predeterminada es r_cuadrado para algoritmos de regresión
# Más alto = 1.0, más bajo = 0.0
model.score(X_test, y_test)

0.8059809073051385