In [14]:
import pandas as pd
from sklearn import svm
from sklearn.utils import shuffle
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, GridSearchCV
import joblib

In [12]:
data = pd.read_csv("..\\Base de datos\\Feature_extraction_extended.csv")

In [13]:
X = data.drop(['Image ID', 'Label'], axis=1)
y = data['Label']

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Crear los modelos iniciales
rf_model = RandomForestClassifier(random_state=42)
knn_model = KNeighborsClassifier()
svm_model = SVC(random_state=42)

# Definir los hiperparámetros a optimizar para cada modelo
rf_params = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 5, 10]
}

knn_params = {
    'n_neighbors': [3, 5, 7],
    'weights': ['uniform', 'distance']
}

svm_params = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf']
}

# Realizar la optimización de hiperparámetros para cada modelo
rf_grid = GridSearchCV(rf_model, rf_params, cv=5)
knn_grid = GridSearchCV(knn_model, knn_params, cv=5)
svm_grid = GridSearchCV(svm_model, svm_params, cv=5)

# Entrenar los modelos optimizados
rf_grid.fit(X_train, y_train)
knn_grid.fit(X_train, y_train)
svm_grid.fit(X_train, y_train)

# Obtener las mejores configuraciones de hiperparámetros y los mejores modelos
best_rf_model = rf_grid.best_estimator_
best_knn_model = knn_grid.best_estimator_
best_svm_model = svm_grid.best_estimator_

# Predecir las etiquetas para el conjunto de validación
rf_val_predictions = best_rf_model.predict(X_val)
knn_val_predictions = best_knn_model.predict(X_val)
svm_val_predictions = best_svm_model.predict(X_val)

# Calcular la precisión en el conjunto de validación
rf_val_accuracy = accuracy_score(y_val, rf_val_predictions)
knn_val_accuracy = accuracy_score(y_val, knn_val_predictions)
svm_val_accuracy = accuracy_score(y_val, svm_val_predictions)

# Imprimir la precisión en el conjunto de validación
print("Random Forest Accuracy (Validation):", rf_val_accuracy)
print("kNN Accuracy (Validation):", knn_val_accuracy)
print("SVM Accuracy (Validation):", svm_val_accuracy)

# Predecir las etiquetas para el conjunto de prueba
rf_test_predictions = best_rf_model.predict(X_test)
knn_test_predictions = best_knn_model.predict(X_test)
svm_test_predictions = best_svm_model.predict(X_test)

# Calcular la precisión en el conjunto de prueba
rf_test_accuracy = accuracy_score(y_test, rf_test_predictions)
knn_test_accuracy = accuracy_score(y_test, knn_test_predictions)
svm_test_accuracy = accuracy_score(y_test, svm_test_predictions)

# Imprimir la precisión en el conjunto de prueba
print("Random Forest Accuracy (Test):", rf_test_accuracy)
print("kNN Accuracy (Test):", knn_test_accuracy)
print("SVM Accuracy (Test):", svm_test_accuracy)

# Imprimir los mejores hiperparámetros para cada modelo
print("Mejores hiperparámetros para Random Forest:", rf_grid.best_params_)
print("Mejores hiperparámetros para kNN:", knn_grid.best_params_)
print("Mejores hiperparámetros para SVM:", svm_grid.best_params_)

Random Forest Accuracy (Validation): 0.9197530864197531
kNN Accuracy (Validation): 0.8148148148148148
SVM Accuracy (Validation): 0.9691358024691358
Random Forest Accuracy (Test): 0.9135802469135802
kNN Accuracy (Test): 0.7839506172839507
SVM Accuracy (Test): 0.9320987654320988
Mejores hiperparámetros para Random Forest: {'max_depth': 10, 'n_estimators': 200}
Mejores hiperparámetros para kNN: {'n_neighbors': 7, 'weights': 'distance'}
Mejores hiperparámetros para SVM: {'C': 1, 'kernel': 'linear'}


In [16]:

# Guardar los modelos entrenados en archivos
joblib.dump(best_rf_model, 'best_rf_model.pkl')
joblib.dump(best_knn_model, 'best_knn_model.pkl')
joblib.dump(best_svm_model, 'best_svm_model.pkl')

# # Cargar los modelos guardados desde archivos
# best_rf_model = joblib.load('best_rf_model.pkl')
# best_knn_model = joblib.load('best_knn_model.pkl')
# best_svm_model = joblib.load('best_svm_model.pkl')

['best_svm_model.pkl']