In [15]:
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import classification_report, confusion_matrix
from imblearn.over_sampling import RandomOverSampler

# Carga de datos
data = pd.read_csv('conjunto_datos_tareas_complejo.csv')
X_complejo = data[['urgencia', 'importancia', 'prioridad_externa', 'bloqueo', 
                   'impacto_en_otros', 'valor_agregado', 'responsabilidad', 'dias_restantes']].values
y_complejo = data['urgencia'].values  # Usamos 'urgencia' para la clasificación binaria

# Función para mapear urgencia a binario según un umbral
def map_to_binary(priority, threshold=25):
    return 1 if priority >= threshold else 0

# Probar con diferentes umbrales
thresholds = [5, 10, 15, 20, 25]
for threshold in thresholds:
    y_complejo_binario = [map_to_binary(priority, threshold) for priority in y_complejo]
    
    # Verificar distribución de clases
    unique, counts = np.unique(y_complejo_binario, return_counts=True)
    print(f"Distribución de clases para umbral {threshold}: {dict(zip(unique, counts))}")
    
    if len(unique) > 1:  # Continuar solo si hay más de una clase
        print(f"Entrenando modelo con umbral {threshold}.\n")
        
        # Balanceo de clases
        ros = RandomOverSampler(random_state=42)
        X_balanced, y_balanced = ros.fit_resample(X_complejo, y_complejo_binario)

        # División de datos
        X_train, X_test, y_train, y_test = train_test_split(X_balanced, y_balanced, test_size=0.2, random_state=42)

        # Configuración de búsqueda de hiperparámetros
        param_dist = {
            'n_estimators': [50, 100, 150],
            'max_depth': [10, 15, 20],
            'min_samples_split': [5, 10],
            'min_samples_leaf': [1, 2, 3],
            'class_weight': [None, 'balanced']
        }

        # Búsqueda aleatoria con RandomizedSearchCV
        rf = RandomForestClassifier(random_state=42)
        random_search = RandomizedSearchCV(rf, param_distributions=param_dist, n_iter=20, cv=3, n_jobs=-1, scoring='f1', random_state=42)
        random_search.fit(X_train, y_train)

        # Evaluación del modelo
        best_model = random_search.best_estimator_
        y_pred = best_model.predict(X_test)

        # Mostrar resultados
        print(f"Resultados para umbral = {threshold}")
        print("Mejores parámetros:", random_search.best_params_)
        print("Reporte de Clasificación:\n", classification_report(y_test, y_pred))
        print("Matriz de Confusión:\n", confusion_matrix(y_test, y_pred))
        print("\n" + "="*50 + "\n")
        
        break  # Salir del bucle si encuentra un umbral adecuado
    else:
        print(f"Umbral {threshold} no es adecuado, probando otro.\n")


Distribución de clases para umbral 5: {0: 143, 1: 57}
Entrenando modelo con umbral 5.

Resultados para umbral = 5
Mejores parámetros: {'n_estimators': 150, 'min_samples_split': 10, 'min_samples_leaf': 1, 'max_depth': 15, 'class_weight': 'balanced'}
Reporte de Clasificación:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        27
           1       1.00      1.00      1.00        31

    accuracy                           1.00        58
   macro avg       1.00      1.00      1.00        58
weighted avg       1.00      1.00      1.00        58

Matriz de Confusión:
 [[27  0]
 [ 0 31]]




In [16]:
from sklearn.model_selection import cross_val_score

# Definir el clasificador con los mejores parámetros encontrados
rf_best = RandomForestClassifier(
    n_estimators=150, 
    min_samples_split=10, 
    min_samples_leaf=1, 
    max_depth=15, 
    class_weight='balanced', 
    random_state=42
)

# Ejecutar validación cruzada de 5 pliegues
scores = cross_val_score(rf_best, X_balanced, y_balanced, cv=5, scoring='f1')

# Mostrar los resultados de cada pliegue y el promedio
print("Resultados de F1 por pliegue:", scores)
print("Promedio de F1 en 5 pliegues:", scores.mean())


Resultados de F1 por pliegue: [1. 1. 1. 1. 1.]
Promedio de F1 en 5 pliegues: 1.0


In [18]:
from sklearn.model_selection import cross_val_score

# Definir el rango de hiperparámetros ajustados para reducir la complejidad
param_dist = {
    'n_estimators': [50, 100],
    'max_depth': [10, 12],
    'min_samples_split': [15, 20],
    'min_samples_leaf': [2, 3],
    'class_weight': ['balanced']
}

# Ejecutar RandomizedSearchCV con los nuevos parámetros de menor complejidad
rf_simple = RandomForestClassifier(random_state=42)
random_search_simple = RandomizedSearchCV(
    rf_simple, param_distributions=param_dist, n_iter=10, cv=3, n_jobs=-1, scoring='f1'
)
random_search_simple.fit(X_balanced, y_balanced)

# Evaluar el mejor modelo encontrado
best_model_simple = random_search_simple.best_estimator_

# Validación cruzada con el modelo de menor complejidad
scores_simple = cross_val_score(best_model_simple, X_balanced, y_balanced, cv=5, scoring='f1')

# Mostrar resultados
print("Mejores parámetros (menor complejidad):", random_search_simple.best_params_)
print("Resultados de F1 por pliegue con menor complejidad:", scores_simple)
print("Promedio de F1 en 5 pliegues (menor complejidad):", scores_simple.mean())


Mejores parámetros (menor complejidad): {'n_estimators': 100, 'min_samples_split': 15, 'min_samples_leaf': 2, 'max_depth': 12, 'class_weight': 'balanced'}
Resultados de F1 por pliegue con menor complejidad: [1. 1. 1. 1. 1.]
Promedio de F1 en 5 pliegues (menor complejidad): 1.0


In [19]:
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split

# División en entrenamiento+validación y prueba (80%-20%)
X_train_val, X_test_final, y_train_val, y_test_final = train_test_split(X_balanced, y_balanced, test_size=0.2, random_state=42)

# Definir el modelo con los mejores parámetros encontrados
rf_best_simple = RandomForestClassifier(
    n_estimators=100,
    min_samples_split=15,
    min_samples_leaf=2,
    max_depth=12,
    class_weight='balanced',
    random_state=42
)

# Entrenar el modelo en el conjunto de entrenamiento+validación
rf_best_simple.fit(X_train_val, y_train_val)

# Evaluar en el conjunto de prueba
y_pred_final = rf_best_simple.predict(X_test_final)

# Mostrar resultados en el conjunto de prueba
print("Reporte de Clasificación en Conjunto de Prueba:\n", classification_report(y_test_final, y_pred_final))
print("Matriz de Confusión en Conjunto de Prueba:\n", confusion_matrix(y_test_final, y_pred_final))


Reporte de Clasificación en Conjunto de Prueba:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        27
           1       1.00      1.00      1.00        31

    accuracy                           1.00        58
   macro avg       1.00      1.00      1.00        58
weighted avg       1.00      1.00      1.00        58

Matriz de Confusión en Conjunto de Prueba:
 [[27  0]
 [ 0 31]]


In [20]:
import joblib

# Guarda el modelo en un archivo
joblib.dump(best_model, 'modelo_clasificacion_tareas.pkl')


['modelo_clasificacion_tareas.pkl']

In [22]:
import joblib

# Suponiendo que `best_model` es tu modelo entrenado y optimizado
joblib.dump(best_model, 'modelo_clasificacion_tareas.pkl')

['modelo_clasificacion_tareas.pkl']