<a href="https://colab.research.google.com/github/DeisyData/BIT_IA_Bootcamp/blob/main/S5_C2_Random_Forest.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Laboratorio de Random Forest para Predicción de Riesgo de Ataque Cardíaco


Este laboratorio guiará el uso del algoritmo de Random Forest para predecir el riesgo de ataque cardíaco
usando características como la edad, el peso y el tabaquismo. Exploraremos los datos, entrenaremos un modelo
y evaluaremos su rendimiento. También realizaremos ajustes de hiperparámetros para optimizar el modelo.


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, classification_report
from sklearn.model_selection import GridSearchCV


In [None]:
# Cargar el dataset
data_path = '/mnt/data/heart_attack_risk_dataset.csv'
data = pd.read_csv(data_path)
# Mostrar las primeras filas del dataset
data.head()

In [None]:

# Información general del dataset
data.info()

# Distribución de la variable objetivo 'Risk'
data['Risk'].value_counts()


In [None]:

# Dividir las características (X) y la variable objetivo (y)
X = data[['Age', 'Weight', 'Smoker']]
y = data['Risk']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:

# Inicializar y entrenar el modelo Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)


In [None]:

# Realizar predicciones en el conjunto de prueba
y_pred = rf.predict(X_test)

# Evaluación del modelo
print("Exactitud:", accuracy_score(y_test, y_pred))
print("Precisión:", precision_score(y_test, y_pred))
print("Sensibilidad:", recall_score(y_test, y_pred))
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred))


In [None]:

# Importancia de las características
importances = rf.feature_importances_
feature_names = X.columns
feature_importance_df = pd.DataFrame({'Característica': feature_names, 'Importancia': importances})
feature_importance_df.sort_values(by='Importancia', ascending=False, inplace=True)
feature_importance_df


In [None]:

# Ajuste de hiperparámetros usando GridSearchCV
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=3, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Mejor combinación de hiperparámetros
print("Mejores hiperparámetros:", grid_search.best_params_)

# Evaluación del modelo ajustado
best_rf = grid_search.best_estimator_
y_pred_best = best_rf.predict(X_test)
print("\nExactitud del modelo ajustado:", accuracy_score(y_test, y_pred_best))



### Conclusión
En este laboratorio, hemos entrenado un modelo de Random Forest para predecir el riesgo de ataque cardíaco.
Hemos explorado la importancia de cada característica y ajustado el modelo para mejorar su rendimiento.
Los resultados y el análisis de importancia de características ayudan a entender qué factores contribuyen más
a las predicciones del modelo.
