# Después del preprocesado: Resumen
1. División de datos: Separar datos de entrenamiento y prueba.
2. Creación y entrenamiento de modelos: Entrenar varios modelos.
3. Evaluación de modelos: Evaluar el rendimiento de cada modelo.
4. Uso de pipelines: Implementar pipelines para mantener la consistencia.
5. Optimización de hiperparámetros: Utilizar técnicas de búsqueda de hiperparámetros.
6. Validación cruzada: Realizar validación cruzada para evaluar la generalización.

## 1. División de Datos
Antes de entrenar cualquier modelo, es crucial dividir tus datos en conjuntos de entrenamiento y prueba (y opcionalmente, validación). Esto te permitirá evaluar el rendimiento de tu modelo de manera objetiva.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## 2. Creación y Entrenamiento de Modelos
Luego, puedes crear y entrenar tus modelos. Si tienes varios modelos en mente, podrías entrenarlos y compararlos para ver cuál tiene el mejor rendimiento.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# Ejemplo con modelos de clasificación
models = {
    'Logistic Regression': LogisticRegression(),
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC()
}

for name, model in models.items():
    model.fit(X_train, y_train)
    print(f"{name} trained.")


## 3. Evaluación de Modelos
Una vez entrenados los modelos, es importante evaluarlos utilizando tus datos de prueba.

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

for name, model in models.items():
    y_pred = model.predict(X_test)
    print(f"Metrics for {name}:")
    print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
    print(f"Precision: {precision_score(y_test, y_pred, average='weighted')}")
    print(f"Recall: {recall_score(y_test, y_pred, average='weighted')}")
    print(f"F1 Score: {f1_score(y_test, y_pred, average='weighted')}\n")


## 4. Uso de Pipelines
Si has identificado una serie de pasos de preprocesamiento que consistentemente mejoran tus métricas, puedes usar pipelines para simplificar tu flujo de trabajo y asegurarte de que todos los pasos se apliquen de manera consistente.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# Ejemplo de un pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier())
])

pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)

print(f"Pipeline Accuracy: {accuracy_score(y_test, y_pred)}")


## 5. Optimización de Hiperparámetros
Después de seleccionar algunos modelos prometedores, puedes proceder a optimizar sus hiperparámetros utilizando técnicas como GridSearchCV o RandomizedSearchCV.

In [None]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'classifier__n_estimators': [100, 200, 300],
    'classifier__max_features': ['auto', 'sqrt', 'log2']
}

grid_search = GridSearchCV(pipeline, param_grid, cv=5)
grid_search.fit(X_train, y_train)

print(f"Best params: {grid_search.best_params_}")
print(f"Best score: {grid_search.best_score_}")


## 6. Validación Cruzada y Evaluación Final
Finalmente, realiza validación cruzada para asegurarte de que tu modelo generalice bien a datos no vistos.

In [None]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(grid_search.best_estimator_, X, y, cv=5)
print(f"Cross-validation scores: {scores}")
print(f"Mean cross-validation score: {scores.mean()}")
