### Carga de datos, etc

In [1]:
import os
import re

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import cv2
import PIL.Image as Image

from skimage import io, color, transform
from skimage.feature import hog

import time

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, classification_report

In [2]:
gray_matrix = np.load('DatosDF\gray_matrix.npy', allow_pickle=True)
hog = np.load('DatosDF\hog.npy', allow_pickle=True)
estados = np.load('DatosDF\estados.npy', allow_pickle=True)
label = np.load('DatosDF\labels.npy', allow_pickle=True)

In [3]:
df = pd.DataFrame({'gray_matrix': gray_matrix,'hog': hog,'estados': estados,'label': label})

In [4]:
dfxusar = df[df['estados'] == 1]
elresto = df[df['estados'] == 0]
dfxusar

Unnamed: 0,gray_matrix,hog,estados,label
16,"[[175, 166, 185, 198, 202, 213, 212, 209, 210,...","[0.20444939, 0.034390625, 0.026585897, 0.01487...",1,angry
23,"[[26, 29, 30, 35, 45, 60, 108, 145, 161, 161, ...","[0.46974203, 0.15378156, 0.0056655, 0.0, 0.002...",1,angry
30,"[[17, 18, 19, 19, 17, 15, 16, 17, 18, 20, 18, ...","[0.16117984, 0.10060929, 0.12280247, 0.0026138...",1,angry
31,"[[0, 0, 0, 0, 0, 0, 0, 0, 2, 3, 0, 1, 13, 37, ...","[0.17848918, 0.014774916, 0.0, 0.0, 0.0, 0.0, ...",1,angry
45,"[[254, 254, 254, 254, 254, 254, 254, 254, 254,...","[0.025827257, 0.01296422, 0.020755643, 0.0, 0....",1,angry
...,...,...,...,...
35863,"[[9, 38, 69, 99, 86, 102, 111, 105, 65, 58, 64...","[0.23134665, 0.3235038, 0.13396424, 0.05265233...",1,surprise
35869,"[[253, 253, 254, 253, 170, 101, 105, 102, 85, ...","[0.4190711, 0.32569548, 0.0045682807, 0.002312...",1,surprise
35875,"[[252, 247, 146, 93, 94, 89, 99, 94, 93, 83, 9...","[0.32172725, 0.29283354, 0.09000543, 0.0720573...",1,surprise
35878,"[[33, 44, 49, 40, 35, 28, 23, 14, 9, 16, 17, 5...","[0.20763314, 0.31089163, 0.1581842, 0.02511550...",1,surprise


In [5]:
X = np.array(dfxusar['hog'].values.tolist())
y = dfxusar['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=19011)

## RandomForest

In [None]:
%%time
# Crear el modelo
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

# Entrenar el modelo
rf_classifier.fit(X_train, y_train)

In [None]:
%%time
y_pred_e= rf_classifier.predict(X_train)
accuracy = accuracy_score(y_train, y_pred_e)
print(f'Precisión del modelo: {accuracy}')

print(classification_report(y_train, y_pred_e))

In [None]:
%%time
# Realizar predicciones en el conjunto de prueba
y_pred = rf_classifier.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy}')

print(classification_report(y_test, y_pred))

Precisión del modelo: 0.8039003250270856
              precision    recall  f1-score   support

       angry       0.84      0.68      0.75       101
     disgust       0.81      0.57      0.67       112
        fear       0.75      0.71      0.73       156
       happy       0.83      0.99      0.90       149
     neutral       0.79      0.89      0.84       153
         sad       0.73      0.80      0.76       119
    surprise       0.90      0.90      0.90       133

    accuracy                           0.80       923
   macro avg       0.81      0.79      0.79       923\
weighted avg       0.80      0.80      0.80       923\

CPU times: total: 46.9 ms\
Wall time: 55.9 ms


## [Conjunto Pequeño] GridSearch - Optimizacion de parametros

### Primero

In [None]:
%%time

# Define el modelo de Random Forest
rf_classifier = RandomForestClassifier()

# Define una cuadrícula de hiperparámetros que deseas explorar
param_grid = {
    'n_estimators': [150,200,250,300],        # Número de árboles en el bosque
    'max_depth': [10,20,30],      # Profundidad máxima de los árboles
    'min_samples_split': [10,20,30],     # Mínimo de muestras requeridas para dividir un nodo
    'min_samples_leaf': [10,20,30]       # Mínimo de muestras requeridas en una hoja
}

# Realiza la búsqueda en cuadrícula con validación cruzada
grid_search = GridSearchCV(estimator=rf_classifier, param_grid=param_grid, cv=5, scoring='accuracy', verbose=10,n_jobs=8)
grid_search.fit(X_train, y_train)

# Muestra los mejores hiperparámetros encontrados
best_params = grid_search.best_params_
print(f"Mejores hiperparámetros: {best_params}")

# Entrena el modelo con los mejores hiperparámetros en todo el conjunto de entrenamiento
best_rf_classifier = grid_search.best_estimator_
best_rf_classifier.fit(X_train, y_train)

# Evalúa el modelo en el conjunto de prueba
y_pred = best_rf_classifier.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy}')

print(classification_report(y_test, y_pred))

Fitting 5 folds for each of 108 candidates, totalling 540 fits\
Mejores hiperparámetros: {'max_depth': 30, 'min_samples_leaf': 10, 'min_samples_split': 20, 'n_estimators': 300}\
Precisión del modelo: 0.7963163596966414\
              precision    recall  f1-score   support

       angry       0.89      0.69      0.78       101
     disgust       0.83      0.45      0.58       112
        fear       0.77      0.71      0.74       156
       happy       0.79      1.00      0.88       149
     neutral       0.75      0.89      0.81       153
         sad       0.72      0.79      0.76       119
    surprise       0.89      0.95      0.92       133

    accuracy                           0.80       923
   macro avg       0.81      0.78      0.78       923\
weighted avg       0.80      0.80      0.79       923

CPU times: total: 2min 29s\
Wall time: 54min 49s

Resultados: 
- 'max_depth': 30
- 'min_samples_leaf': 10
- 'min_samples_split': 20
- 'n_estimators': 300


### Segundo

In [None]:
#'max_depth': 30, 'min_samples_leaf': 10, 'min_samples_split': 20, 'n_estimators': 300

%%time
# Define el modelo de Random Forest
rf_classifier = RandomForestClassifier(n_estimators=300)

# Define una cuadrícula de hiperparámetros que deseas explorar
param_grid = {
    'max_depth': [25,30,45,60,75,90, None],      # Profundidad máxima de los árboles
    'min_samples_split': [14,16,18,20,22,24,26],     # Mínimo de muestras requeridas para dividir un nodo
    'min_samples_leaf': [4,6,8,10,12,14,16]       # Mínimo de muestras requeridas en una hoja
}

# Realiza la búsqueda en cuadrícula con validación cruzada
grid_search = GridSearchCV(estimator=rf_classifier, param_grid=param_grid, cv=5, scoring='accuracy', verbose=10,n_jobs=8)
grid_search.fit(X_train, y_train)

# Muestra los mejores hiperparámetros encontrados
best_params = grid_search.best_params_
print(f"Mejores hiperparámetros: {best_params}")

# Entrena el modelo con los mejores hiperparámetros en todo el conjunto de entrenamiento
best_rf_classifier = grid_search.best_estimator_
best_rf_classifier.fit(X_train, y_train)

# Evalúa el modelo en el conjunto de prueba
y_pred = best_rf_classifier.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy}')

print(classification_report(y_test, y_pred))

Fitting 5 folds for each of 343 candidates, totalling 1715 fits
Mejores hiperparámetros: {'max_depth': None, 'min_samples_leaf': 4, 'min_samples_split': 14}
Precisión del modelo: 0.8049837486457205
              precision    recall  f1-score   support

       angry       0.85      0.70      0.77       101
     disgust       0.76      0.48      0.59       112
        fear       0.80      0.73      0.76       156
       happy       0.84      0.99      0.90       149
     neutral       0.76      0.90      0.83       153
         sad       0.72      0.80      0.76       119
    surprise       0.91      0.93      0.92       133

    accuracy                           0.80       923
   macro avg       0.80      0.79      0.79       923\
weighted avg       0.80      0.80      0.80       923\


**Resultados**
- 'max_depth': None
- 'min_samples_leaf': 4
- 'min_samples_split': 14

## [Conjunto Grande] GridSearch - Optimizacion de parametros

Modelo aplicando los parametros optimizados


In [6]:
X_g = np.array(df['hog'].values.tolist())
y_g = df['label']
X_traing, X_testg, y_traing, y_testg = train_test_split(X_g, y_g, test_size=0.2, random_state=19011)

In [7]:
%%time
# Crear el modelo
rf_classifier = RandomForestClassifier(n_estimators=300,max_depth=None,min_samples_leaf=4,min_samples_split=14, random_state=42)

# Entrenar el modelo
rf_classifier.fit(X_traing, y_traing)

KeyboardInterrupt: 

In [None]:
%%time
y_pred_eg= rf_classifier.predict(X_traing)
accuracy = accuracy_score(y_traing, y_pred_eg)
print(f'Precisión del modelo: {accuracy}')

print(classification_report(y_traing, y_pred_eg))

In [None]:
%%time
# Realizar predicciones en el conjunto de prueba
y_predg = rf_classifier.predict(X_testg)

# Evaluar el modelo
accuracy = accuracy_score(y_testg, y_predg)
print(f'Precisión del modelo: {accuracy}')

print(classification_report(y_testg, y_predg))

### Primero


In [None]:
rf_classifier = RandomForestClassifier(n_estimators=300)

# Define una cuadrícula de hiperparámetros que deseas explorar
param_grid = {
    'max_depth': [25,30,45,60,75,90, None],      # Profundidad máxima de los árboles
    'min_samples_split': [14,16,18,20,22,24,26],     # Mínimo de muestras requeridas para dividir un nodo
    'min_samples_leaf': [4,6,8,10,12,14,16]       # Mínimo de muestras requeridas en una hoja
}

# Realiza la búsqueda en cuadrícula con validación cruzada
grid_search = GridSearchCV(estimator=rf_classifier, param_grid=param_grid, cv=5, scoring='accuracy', verbose=10,n_jobs=8)
grid_search.fit(X_traing, y_traing)

# Muestra los mejores hiperparámetros encontrados
best_params = grid_search.best_params_
print(f"Mejores hiperparámetros: {best_params}")


In [None]:
# Entrena el modelo con los mejores hiperparámetros en todo el conjunto de entrenamiento
best_rf_classifier = grid_search.best_estimator_
best_rf_classifier.fit(X_traing, y_traing)

# Evalúa el modelo en el conjunto de prueba
y_predg = best_rf_classifier.predict(X_testg)

# Evaluar el modelo
accuracy = accuracy_score(y_testg, y_predg)
print(f'Precisión del modelo: {accuracy}')

print(classification_report(y_testg, y_predg))