## BUSQUE ALEATORIO

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
from itertools import combinations
import warnings

# Cargar datos
df_datos = pd.read_csv("datos/credit_risk_dataset.csv")

# Imputar datos faltantes
numeric_features = ['person_age', 'person_income', 'loan_status', 'cb_person_cred_hist_length']
categorical_features = ['loan_grade']
numeric_imputer = SimpleImputer(strategy='median')
categorical_imputer = SimpleImputer(strategy='most_frequent')
df_datos[numeric_features] = numeric_imputer.fit_transform(df_datos[numeric_features])
df_datos[categorical_features] = categorical_imputer.fit_transform(df_datos[categorical_features])

# Codificar la columna 'loan_grade' usando OrdinalEncoder
ordinal_encoder = OrdinalEncoder()
df_datos['loan_grade'] = ordinal_encoder.fit_transform(df_datos[['loan_grade']])

# Generar todas las combinaciones posibles de columnas
todas_columnas = ['person_age', 'person_income', 'cb_person_cred_hist_length', 'loan_grade']
combinaciones_columnas = []
for r in range(1, len(todas_columnas) + 1):
    combinaciones_columnas.extend(combinations(todas_columnas, r))

# Preparar los DataFrames para almacenar los resultados
resultados_df1 = pd.DataFrame(columns=['Columnas', 'Matriz de Confusión', 'Exactitud', 'Precisión', 'Sensibilidad', 'F1 Score'])
resultados_df2 = pd.DataFrame(columns=['Columnas', 'Matriz de Confusión', 'Exactitud', 'Precisión', 'Sensibilidad', 'F1 Score'])

# Iterar sobre cada combinación de columnas
for cols in combinaciones_columnas:
    # Crear el conjunto de datos de entrenamiento y prueba con las columnas seleccionadas
    X = df_datos[list(cols)]
    y = df_datos['loan_status']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=100)
    
    # Modelo 1: Bosque Aleatorio con características específicas
    clasificador_bosque_aleatorio1 = RandomForestClassifier(n_estimators=10, max_depth=2, max_features=3, max_samples=1/3, criterion='gini', random_state=100)
    modelo_bosque_aleatorio1 = clasificador_bosque_aleatorio1.fit(X_train, y_train)
    y_test_predicho1 = modelo_bosque_aleatorio1.predict(X_test)
    mc1 = confusion_matrix(y_test, y_test_predicho1)
    e1 = accuracy_score(y_test, y_test_predicho1)
    p1 = precision_score(y_test, y_test_predicho1, zero_division=0)
    s1 = recall_score(y_test, y_test_predicho1)
    f1_1 = f1_score(y_test, y_test_predicho1)
    
    resultados_df1 = pd.concat([resultados_df1, pd.DataFrame({'Columnas': [cols], 'Matriz de Confusión': [mc1], 'Exactitud': [e1], 'Precisión': [p1], 'Sensibilidad': [s1], 'F1 Score': [f1_1]})], ignore_index=True)
    
    # Modelo 2: Bosque Aleatorio con características específicas
    clasificador_bosque_aleatorio2 = RandomForestClassifier(n_estimators=50, max_depth=10, max_features=4, max_samples=2/3, criterion='gini', random_state=100)
    modelo_bosque_aleatorio2 = clasificador_bosque_aleatorio2.fit(X_train, y_train)
    y_test_predicho2 = modelo_bosque_aleatorio2.predict(X_test)
    mc2 = confusion_matrix(y_test, y_test_predicho2)
    e2 = accuracy_score(y_test, y_test_predicho2)
    p2 = precision_score(y_test, y_test_predicho2, zero_division=0)
    s2 = recall_score(y_test, y_test_predicho2)
    f1_2 = f1_score(y_test, y_test_predicho2)
    
    resultados_df2 = pd.concat([resultados_df2, pd.DataFrame({'Columnas': [cols], 'Matriz de Confusión': [mc2], 'Exactitud': [e2], 'Precisión': [p2], 'Sensibilidad': [s2], 'F1 Score': [f1_2]})], ignore_index=True)

# Mostrar los DataFrames
print("DataFrame 1 (Configuración 1):")
print(resultados_df1)
print("\nDataFrame 2 (Configuración 2):")
print(resultados_df2)


DataFrame 1 (Configuración 1):
                                             Columnas  \
0                                       (person_age,)   
1                                    (person_income,)   
2                       (cb_person_cred_hist_length,)   
3                                       (loan_grade,)   
4                         (person_age, person_income)   
5            (person_age, cb_person_cred_hist_length)   
6                            (person_age, loan_grade)   
7         (person_income, cb_person_cred_hist_length)   
8                         (person_income, loan_grade)   
9            (cb_person_cred_hist_length, loan_grade)   
10  (person_age, person_income, cb_person_cred_his...   
11            (person_age, person_income, loan_grade)   
12  (person_age, cb_person_cred_hist_length, loan_...   
13  (person_income, cb_person_cred_hist_length, lo...   
14  (person_age, person_income, cb_person_cred_his...   

          Matriz de Confusión  Exactitud  Precisión  Sen