Bosques aleatorios

Están relacinados con los árboles de decisión. <br>
Un bosque aleatorio se construye con múltiples árboles de decisión y los combina para obtener una predicción más robusta y precisa. <br>
Cada árbol se entrena con una muestra diferente del conjunto de datosy selecciona un subconjunto aleatorio de características para dividir en cada nodo.


                   Conjunto de Datos                    
 
    |  Muestra Aleatoria 1   |  Muestra Aleatoria 2     |
    | (Entrenamiento Árbol 1)| (Entrenamiento Árbol 2)  |
    +------------------------+--------------------------+
             |                           |
          Árbol de                   Árbol de
         Decisión 1                 Decisión 2
             |                           |
    +----------+-----------+   +-----------+-----------+
    | Selección Aleatoria  |   | Selección Aleatoria  |
    | de Características  |    | de Características  |
    | para Divisiones     |    | para Divisiones     |
    +----------+-----------+   +-----------+-----------+
               |                           |
     +---------+---------+       +---------+---------+
     | Predicción de    |       | Predicción de    |
     | Árbol 1          |       | Árbol 2          |
     +---------+---------+       +---------+---------+
               |                           |
        +------+---------------------------+------+
        |          Votación Promediada            |
        |         de Todos los Árboles            |
        +---------------------------------------+
                                 |
                         Predicción Final



EJEMPLOS DE USO

Detección de fraudes: <br>
Variables: detalles de transacciones, patrones de comportamiento del usuario, etc. <br>
Objetivo: Identificar transacciones fraudulentas. <br>
Uso: Seguridad en sistemas de pagos electrónicos. <br>


In [None]:
!pip3 install numpy pandas matplotlib scikit-learn imbalanced-learn

In [None]:
# Importar las bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline


print("Todas las bibliotecas se importaron correctamente.")

In [None]:
# Generar datos sintéticos para segmentación de mercado
np.random.seed(0)
n = 200

edad = np.random.randint(18, 70, n)
ingreso = np.random.randint(20000, 120000, n)
genero = np.random.choice(['M', 'F'], n)
compra = np.random.choice(['Sí', 'No'], n)

# Crear DataFrame
data = pd.DataFrame({
    'Edad': edad,
    'Ingreso Anual': ingreso,
    'Género': genero,
    'Compra': compra
})

# Guardar a CSV
data.to_csv('segmentacion_mercado.csv', index=False)

In [None]:
# Cargar datos
data = pd.read_csv('segmentacion_mercado.csv')

# Mostrar las primeras filas
print(data.head())
print(data.describe())

In [None]:
# Distribución de compra
plt.hist(data['Compra'])
plt.xlabel('Compra')
plt.ylabel('Frecuencia')
plt.title('Distribución de Compra')
plt.show()

# Codificar las variables categóricas
label_encoder = LabelEncoder()
data['Género'] = label_encoder.fit_transform(data['Género'])
data['Compra'] = label_encoder.fit_transform(data['Compra'])

In [None]:
# Características que vamos a tener en cuenta para entrenar el modelo
X = data[['Edad', 'Ingreso Anual', 'Género']]

# Objetivo, saber la probabilidad de si alguien con ciertas características va a comprar
y = data['Compra']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
# # Balancear las clases y ajustar los hiperparámetros usando un pipeline
# pipeline = Pipeline([
#     ('smote', SMOTE(random_state=0)),
#     ('rf', RandomForestClassifier(random_state=0))
# ])

# # Hiperparámetros para buscar
# param_grid = {
#     'rf__n_estimators': [50, 100, 200],
#     'rf__max_depth': [None, 10, 20, 30],
#     'rf__min_samples_split': [2, 5, 10],
#     'rf__min_samples_leaf': [1, 2, 4],
# }

# # Búsqueda aleatoria de hiperparámetros
# random_search = RandomizedSearchCV(pipeline, param_distributions=param_grid, n_iter=20, cv=5, random_state=0, n_jobs=-1)

# # Entrenar el modelo
# random_search.fit(X_train, y_train)

modelo_rf = RandomForestClassifier(n_estimators=100, random_state=0)

# Entrenar el modelo
modelo_rf.fit(X_train, y_train)

In [None]:
# Predecir en el conjunto de prueba
y_pred_rf = modelo_rf.predict(X_test)

# Evaluar el modelo
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("Precisión:", accuracy_rf)

print("Reporte de clasificación:")
print(classification_report(y_test, y_pred_rf))

print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred_rf))

In [None]:
# Visualizar la importancia de las características
importances_rf = modelo_rf.feature_importances_
features = X.columns
indices_rf = np.argsort(importances_rf)[::-1]

plt.figure(figsize=(8, 6))
plt.title('Importancia de las características')
plt.bar(range(X.shape[1]), importances_rf[indices_rf], align='center')
plt.xticks(range(X.shape[1]), [features[i] for i in indices_rf])
plt.show()