In [2]:
# Clasificación de enfermedad con Random Forest

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelEncoder

# Cargar los archivos
defunciones_clean = pd.read_csv('../defunciones_clean.csv')
cie = pd.read_csv('../CIE.csv')

# Filtrar los códigos de las enfermedades deseadas
enfermedades_buscadas = ['Infarto del miocardio', 'Neumonía no especificada', 'Fallecida, sin mención de complicación']
cie_filtrado = cie[cie['descripcion'].str.contains('|'.join(enfermedades_buscadas), case=False, na=False)]
codigos_enfermedades = cie_filtrado['codigo'].tolist()

# Filtrar dataset de defunciones
defunciones_clean_filtrado = defunciones_clean[defunciones_clean['causa'].isin(codigos_enfermedades)]

# Limpiar datos
columns_required = ['edad', 'sexo', 'año_registrado', 'causa']
defunciones_clean_filtrado = defunciones_clean_filtrado.dropna(subset=columns_required)

# Codificar variables categóricas
label_encoder = LabelEncoder()
defunciones_clean_filtrado['sexo'] = label_encoder.fit_transform(defunciones_clean_filtrado['sexo'])
defunciones_clean_filtrado['causa'] = label_encoder.fit_transform(defunciones_clean_filtrado['causa'])

# Variables predictoras y objetivo
X = defunciones_clean_filtrado[['sexo', 'edad', 'año_registrado']]
y = defunciones_clean_filtrado['causa']

# Particiones 70/30, 80/20 y 85/15
X_train_70, X_test_70, y_train_70, y_test_70 = train_test_split(X, y, test_size=0.30, random_state=42)
X_train_80, X_test_80, y_train_80, y_test_80 = train_test_split(X, y, test_size=0.20, random_state=42)
X_train_85, X_test_85, y_train_85, y_test_85 = train_test_split(X, y, test_size=0.15, random_state=42)

# Inicializar clasificador Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)

# Evaluación del modelo
def evaluar_modelo(X_train, X_test, y_train, y_test):
    rf_model.fit(X_train, y_train)
    y_pred = rf_model.predict(X_test)
    return classification_report(y_test, y_pred)

# Ejecutar evaluaciones
resultado_70_30 = evaluar_modelo(X_train_70, X_test_70, y_train_70, y_test_70)
resultado_80_20 = evaluar_modelo(X_train_80, X_test_80, y_train_80, y_test_80)
resultado_85_15 = evaluar_modelo(X_train_85, X_test_85, y_train_85, y_test_85)

# Imprimir resultados
print("Resultado 70/30:")
print(resultado_70_30)
print("\nResultado 80/20:")
print(resultado_80_20)
print("\nResultado 85/15:")
print(resultado_85_15)


  defunciones_clean = pd.read_csv('../defunciones_clean.csv')


Resultado 70/30:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1

    accuracy                           1.00         1
   macro avg       1.00      1.00      1.00         1
weighted avg       1.00      1.00      1.00         1


Resultado 80/20:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1

    accuracy                           1.00         1
   macro avg       1.00      1.00      1.00         1
weighted avg       1.00      1.00      1.00         1


Resultado 85/15:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1

    accuracy                           1.00         1
   macro avg       1.00      1.00      1.00         1
weighted avg       1.00      1.00      1.00         1

