# <center>Optimizar Modelos de Machine Learning<center>

Este programa es un análisis usando el modelo de Bosques Aleatorios en un dataset de Sickit-Learn sobre registros médicos con pacientes con diabetes

- Preprocesamiento de datos con StandarScaler
- Selección de mejores categorías 
- Pipelines
- Evaluación del modelo

### Código brindado

In [1]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

diabetes = datasets.load_diabetes()

diabetes_df = pd.DataFrame(data=np.c_[diabetes['data'], diabetes['target']],
                           columns=diabetes['feature_names'] + ['target'])

diabetes_df['target'] = (diabetes_df['target'] > diabetes_df['target'].mean()).astype(int)

X = diabetes_df.drop('target', axis=1)
y = diabetes_df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

predicciones = modelo.predict(X_test)

puntaje = modelo.score(X_test, y_test)
print(f'Precisión: {puntaje:.2f}')

Precisión: 0.73


### Código Optimizado

In [2]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest, f_classif

diabetes = datasets.load_diabetes()

diabetes_df = pd.DataFrame(data=np.c_[diabetes['data'], diabetes['target']],
                           columns=diabetes['feature_names'] + ['target'])

diabetes_df['target'] = (diabetes_df['target'] > diabetes_df['target'].mean()).astype(int)

# División de datos en conjuntos de entrenamiento y prueba
X = diabetes_df.drop('target', axis=1)
y = diabetes_df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Selección de características
selector = SelectKBest(f_classif, k=4)
X_train_selected = selector.fit_transform(X_train, y_train)
X_test_selected = selector.transform(X_test)

# Creación del pipeline sin la selección de características
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])

# Entrenamiento del modelo usando pipeline
pipeline.fit(X_train_selected, y_train)

predicciones = pipeline.predict(X_test_selected)

puntaje = pipeline.score(X_test_selected, y_test)
print(f'Precisión: {puntaje:.2f}')

Precisión: 0.74


### Evaluación del Modelo

In [4]:
puntajes_validacion_cruzada = cross_val_score(pipeline, selector.transform(X), y, cv=5)
print(f'Precisión validación cruzada: {puntajes_validacion_cruzada}')
print(f'Promedio de puntuación de validación cruzada: {puntajes_validacion_cruzada.mean():.2f}')

Precisión validación cruzada: [0.73033708 0.69662921 0.68181818 0.70454545 0.69318182]
Promedio de puntuación de validación cruzada: 0.70
