### Entrenamiento de Modelos de Machine Learning

#### 1. Importación de librerías

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
import joblib


#### 2. Lectura de los datos
leemos los dos archivos CSV proporcionados:
- `penguins_lter.csv`
- `penguins_size.csv`

In [2]:
df_lter = pd.read_csv('data/penguins_lter.csv')
df_size = pd.read_csv('data/penguins_size.csv')

print("Dimensiones df_lter:", df_lter.shape)
print("Columnas df_lter:", df_lter.columns.tolist(), "\n")

print("Dimensiones df_size:", df_size.shape)
print("Columnas df_size:", df_size.columns.tolist(), "\n")

Dimensiones df_lter: (344, 17)
Columnas df_lter: ['studyName', 'Sample Number', 'Species', 'Region', 'Island', 'Stage', 'Individual ID', 'Clutch Completion', 'Date Egg', 'Culmen Length (mm)', 'Culmen Depth (mm)', 'Flipper Length (mm)', 'Body Mass (g)', 'Sex', 'Delta 15 N (o/oo)', 'Delta 13 C (o/oo)', 'Comments'] 

Dimensiones df_size: (344, 7)
Columnas df_size: ['species', 'island', 'culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g', 'sex'] 



#### 3. Exploración y Análisis Inicial (EDA)

In [3]:
# Información del dataframe df_size
df_size.info()
print("\nValores nulos en df_size:\n", df_size.isnull().sum())
df_size.head(3)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   culmen_length_mm   342 non-null    float64
 3   culmen_depth_mm    342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                334 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB

Valores nulos en df_size:
 species               0
island                0
culmen_length_mm      2
culmen_depth_mm       2
flipper_length_mm     2
body_mass_g           2
sex                  10
dtype: int64


Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE


In [4]:
print("Distribución 'island':\n", df_size['island'].value_counts(), "\n")
print("Distribución 'sex':\n", df_size['sex'].value_counts(dropna=False), "\n")

Distribución 'island':
 island
Biscoe       168
Dream        124
Torgersen     52
Name: count, dtype: int64 

Distribución 'sex':
 sex
MALE      168
FEMALE    165
NaN        10
.           1
Name: count, dtype: int64 



In [5]:
# Información del dataframe df_lter
df_lter.info()
print("\nValores nulos en df_lter:\n", df_lter.isnull().sum())
df_size.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 17 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   studyName            344 non-null    object 
 1   Sample Number        344 non-null    int64  
 2   Species              344 non-null    object 
 3   Region               344 non-null    object 
 4   Island               344 non-null    object 
 5   Stage                344 non-null    object 
 6   Individual ID        344 non-null    object 
 7   Clutch Completion    344 non-null    object 
 8   Date Egg             344 non-null    object 
 9   Culmen Length (mm)   342 non-null    float64
 10  Culmen Depth (mm)    342 non-null    float64
 11  Flipper Length (mm)  342 non-null    float64
 12  Body Mass (g)        342 non-null    float64
 13  Sex                  334 non-null    object 
 14  Delta 15 N (o/oo)    330 non-null    float64
 15  Delta 13 C (o/oo)    331 non-null    flo

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE


#### 4. Selección del dataframe y Limpieza de Datos

Tras inspeccionar ambos conjuntos de datos, podemos observar lo siguiente:

1. **`df_size` es más condensado y limpio**: contiene solo las columnas esenciales para el análisis (especie, isla, longitud y profundidad del culmen, longitud de la aleta, masa corporal y sexo).  
2. **Menos columnas, menos ruido**: el uso de un número reducido de variables puede evitar introducir información irrelevante o redundante que termine afectando el rendimiento del modelo de clasificación.  
3. **Enfoque en variables fisiológicas clave**: para predecir la especie de un pingüino, las medidas morfológicas y el sexo son muy relevantes. Muchas de las columnas adicionales en `df_lter` (como fechas, etapas de desarrollo, etc.) pueden no ser necesarias para el objetivo actual.  
4. **Facilidad de tratamiento**: `df_size` es más directo para entrenar un modelo de clasificación con menor necesidad de limpieza o preprocesamiento.  

Por estas razones, **`df_size`** se ajusta mejor a nuestro objetivo de predecir la especie de los pingüinos y será el principal dataframe que utilizaremos para esta tarea.  

In [6]:
df = df_size.copy()  # Copiamos df_size (Dataframe seleccionado)

# Eliminamos filas donde existan nulos en las columnas relevantes
df.dropna(subset=[
    'culmen_length_mm',
    'culmen_depth_mm',
    'flipper_length_mm',
    'body_mass_g',
    'sex'
], inplace=True)

print("Dimensiones del df después de dropna:", df.shape)
df.head()

Dimensiones del df después de dropna: (334, 7)


Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,MALE


#### 5. Análisis de variables categóricas
Principalmente nos interesan 'island' (3 categorías: Biscoe, Dream, Torgersen) y 'sex' (MALE, FEMALE, y algunos nulos).

Revisamos su distribución con value_counts().


In [7]:
print("Distribución 'island':\n", df_size['island'].value_counts(), "\n")
print("Distribución 'sex':\n", df_size['sex'].value_counts(dropna=False), "\n")

Distribución 'island':
 island
Biscoe       168
Dream        124
Torgersen     52
Name: count, dtype: int64 

Distribución 'sex':
 sex
MALE      168
FEMALE    165
NaN        10
.           1
Name: count, dtype: int64 



#### 6. Definición de X (características) ,  Y (objetivo)

La variable objetivo será 'species' (Adelie, Gentoo, Chinstrap).
Las características de interés:
   - island (categórica)
   - culmen_length_mm, culmen_depth_mm, flipper_length_mm, body_mass_g (numéricas)
   - sex (categórica binaria, MALE/FEMALE)


In [8]:
X = df[['island', 'culmen_length_mm', 'culmen_depth_mm',
        'flipper_length_mm', 'body_mass_g', 'sex']]
y = df['species']

print("X shape:", X.shape)
print("y shape:", y.shape)

X shape: (334, 6)
y shape: (334,)


#### 7. División en entrenamiento y prueba

Separamos en train y test con test_size=0.2 (80% / 20%). Usamos stratify=y para mantener la distribución de especies.


In [9]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

print("Tamaño de X_train:", X_train.shape, "| X_test:", X_test.shape)

Tamaño de X_train: (267, 6) | X_test: (67, 6)


#### 8. Creación de transformaciones (One-Hot, Scaling)

- 'island' (3 categorías) -> One-Hot

- 'sex' (2 categorías)    -> Si queremos, podemos usar One-Hot con drop='if_binary'
                         o dejarlo en One-Hot "normal" (generará una o dos columnas).

 - Columnas numéricas: culmen_length_mm, culmen_depth_mm, flipper_length_mm, body_mass_g
 -> StandardScaler

 - Definimos un ColumnTransformer que haga todo esto de una sola vez.


In [10]:
numeric_cols = ['culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g']
cat_cols_island = ['island']
cat_cols_sex = ['sex']

transformer = ColumnTransformer([
    ('onehot_island', OneHotEncoder(drop='first'), cat_cols_island),
    ('onehot_sex', OneHotEncoder(drop='if_binary'), cat_cols_sex),
    ('scaler', StandardScaler(), numeric_cols)
], remainder='drop')


#### 9. Definir Pipelines para cada Modelo

Creamos 3 pipelines, cada uno con la misma transformación, pero con un modelo distinto al final:
-   1) RandomForestClassifier (RF)
-   2) LogisticRegression (LR)
-   3) SVC (SVM)

Todos tendrán hiperparámetros por defecto (modelos "base").


In [11]:
# 1. RandomForest
pipeline_rf = Pipeline([
    ('preprocessor', transformer),
    ('classifier', RandomForestClassifier(random_state=42))
])

# 2. LogisticRegression
pipeline_lr = Pipeline([
    ('preprocessor', transformer),
    ('classifier', LogisticRegression(random_state=42, max_iter=1000))
])

# 3. SVC (SVM)
pipeline_svm = Pipeline([
    ('preprocessor', transformer),
    ('classifier', SVC(random_state=42))
])

#### 10. Entrenamiento y Evaluación de cada Modelo

Entrenamos cada pipeline con X_train, y_train, luego predecimos en X_test y calculamos accuracy y classification_report.


In [12]:
# ------ RandomForest --------
pipeline_rf.fit(X_train, y_train)
y_pred_rf = pipeline_rf.predict(X_test)
acc_rf = accuracy_score(y_test, y_pred_rf)
print("== Random Forest ==")
print("Accuracy:", acc_rf)
print(classification_report(y_test, y_pred_rf))

# ------ Logistic Regression --------
pipeline_lr.fit(X_train, y_train)
y_pred_lr = pipeline_lr.predict(X_test)
acc_lr = accuracy_score(y_test, y_pred_lr)
print("\n== Logistic Regression ==")
print("Accuracy:", acc_lr)
print(classification_report(y_test, y_pred_lr))

# ------ SVM (SVC) --------
pipeline_svm.fit(X_train, y_train)
y_pred_svm = pipeline_svm.predict(X_test)
acc_svm = accuracy_score(y_test, y_pred_svm)
print("\n== SVM (SVC) ==")
print("Accuracy:", acc_svm)
print(classification_report(y_test, y_pred_svm))


== Random Forest ==
Accuracy: 1.0
              precision    recall  f1-score   support

      Adelie       1.00      1.00      1.00        29
   Chinstrap       1.00      1.00      1.00        14
      Gentoo       1.00      1.00      1.00        24

    accuracy                           1.00        67
   macro avg       1.00      1.00      1.00        67
weighted avg       1.00      1.00      1.00        67


== Logistic Regression ==
Accuracy: 0.9850746268656716
              precision    recall  f1-score   support

      Adelie       1.00      0.97      0.98        29
   Chinstrap       0.93      1.00      0.97        14
      Gentoo       1.00      1.00      1.00        24

    accuracy                           0.99        67
   macro avg       0.98      0.99      0.98        67
weighted avg       0.99      0.99      0.99        67


== SVM (SVC) ==
Accuracy: 1.0
              precision    recall  f1-score   support

      Adelie       1.00      1.00      1.00        29
   Chins

#### 11. Comparar Modelos y Seleccionar el Mejor

Revisamos los accuracies y decidimos cuál modelo se desempeña mejor. Podríamos fijarnos en otras métricas, pero la más simple es la exactitud (accuracy).


In [13]:
print("Accuracy RF: ", acc_rf)
print("Accuracy LR: ", acc_lr)
print("Accuracy SVM:", acc_svm)

models_accuracies = {
    "RandomForest": acc_rf,
    "LogisticRegression": acc_lr,
    "SVM": acc_svm
}

best_model_name = max(models_accuracies, key=models_accuracies.get)
best_accuracy = models_accuracies[best_model_name]

print(f"\nEl mejor modelo es {best_model_name} con accuracy de {best_accuracy:.4f}")

Accuracy RF:  1.0
Accuracy LR:  0.9850746268656716
Accuracy SVM: 1.0

El mejor modelo es RandomForest con accuracy de 1.0000


#### 12. Guardar los Modelos (Bonus: guardar todos para la API)

Dado el enunciado, podríamos tener múltiples modelos con buenos resultados.
Para el "bono" del taller (metodo en la API que permita elegir el modelo), guardamos cada pipeline en un archivo .pkl separado.

Así, la API puede cargar cada uno de ellos y decidir cuál usar en inferencia según la petición del usuario.


In [14]:
# Guardar los modelos en la carpeta 'models'
#joblib.dump(pipeline_rf, "models/model_rf.pkl")
#joblib.dump(pipeline_lr, "models/model_lr.pkl")
#joblib.dump(pipeline_svm, "models/model_svm.pkl")

#print("Modelos guardados exitosamente en la carpeta 'models'")

Modelos guardados exitosamente en la carpeta 'models'


In [None]:
# Guardar los modelos en la carpeta 'models'
joblib.dump(pipeline_rf, \"models/model_rf.pkl\")
joblib.dump(pipeline_lr, \"models/model_lr.pkl\")
joblib.dump(pipeline_svm, \"models/model_svm.pkl\")

print(\"\\nModelos guardados exitosamente en la carpeta 'models'\")

#### 13. Conclusiones

- Se importaron y limpiaron los datos, descartando filas con valores nulos.
- Se preparó la columna 'island' con One-Hot (3 categorías), y 'sex' con One-Hot de 2 categorías (drop='if_binary').
- Se estandarizaron las variables numéricas con StandardScaler.
- Se entrenaron 3 modelos base: RandomForest, LogisticRegression y SVM.
- Se compararon los resultados en el set de prueba.
- Se determinó el mejor modelo según accuracy, aunque también se tienen los classification reports para un análisis más profundo.
- Finalmente, se guardan los 3 pipelines en archivos .pkl, de modo que la futura API pueda cargarlos y permitir la selección de uno de ellos para la inferencia.