In [None]:
# Cargar las librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelEncoder

# Cargar los archivos
defunciones_clean = pd.read_csv('../defunciones_clean.csv')
cie = pd.read_csv('../CIE.csv')

# Filtrar los códigos de las enfermedades
enfermedades_buscadas = ['Infarto del miocardio', 'Neumonía no especificada', 'Fallecida, sin mención de complicación']
cie_filtrado = cie[cie['descripcion'].str.contains('|'.join(enfermedades_buscadas), case=False, na=False)]

# Extraer los códigos de las enfermedades relacionadas
codigos_enfermedades = cie_filtrado['codigo'].tolist()

# Filtrar el dataset de defunciones por los códigos encontrados
defunciones_clean_filtrado = defunciones_clean[defunciones_clean['causa'].isin(codigos_enfermedades)]

# Limpiar las columnas no necesarias o irrelevantes (puedes ajustar según lo necesario)
defunciones_clean_filtrado = defunciones_clean_filtrado.dropna(subset=['edad', 'sexo', 'año_registrado', 'causa'])

# Convertir las variables categóricas a numéricas (si es necesario)
label_encoder = LabelEncoder()
defunciones_clean_filtrado['sexo'] = label_encoder.fit_transform(defunciones_clean_filtrado['sexo'])
defunciones_clean_filtrado['causa'] = label_encoder.fit_transform(defunciones_clean_filtrado['causa'])

# Crear las variables X (predictoras) e y (respuesta)
X = defunciones_clean_filtrado[['sexo', 'edad', 'año_registrado']]  # Asegúrate de usar las variables correctas
y = defunciones_clean_filtrado['causa']

# Particionar los datos en diferentes proporciones
# 70% entrenamiento, 30% prueba
X_train_70, X_test_70, y_train_70, y_test_70 = train_test_split(X, y, test_size=0.30, random_state=42)
# 80% entrenamiento, 20% prueba
X_train_80, X_test_80, y_train_80, y_test_80 = train_test_split(X, y, test_size=0.20, random_state=42)
# 85% entrenamiento, 15% prueba
X_train_85, X_test_85, y_train_85, y_test_85 = train_test_split(X, y, test_size=0.15, random_state=42)

# Inicializar el clasificador Naive Bayes
naive_bayes = GaussianNB()

# Entrenar y evaluar el modelo para cada partición
def evaluar_modelo(X_train, X_test, y_train, y_test):
    naive_bayes.fit(X_train, y_train)
    y_pred = naive_bayes.predict(X_test)
    return classification_report(y_test, y_pred)

# Evaluar con las diferentes particiones
resultado_70_30 = evaluar_modelo(X_train_70, X_test_70, y_train_70, y_test_70)
resultado_80_20 = evaluar_modelo(X_train_80, X_test_80, y_train_80, y_test_80)
resultado_85_15 = evaluar_modelo(X_train_85, X_test_85, y_train_85, y_test_85)

# Mostrar los resultados
print("Resultado 70/30:")
print(resultado_70_30)
print("\nResultado 80/20:")
print(resultado_80_20)
print("\nResultado 85/15:")
print(resultado_85_15)


  defunciones_clean = pd.read_csv('defunciones_clean.csv')


Resultado 70/30:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1

    accuracy                           1.00         1
   macro avg       1.00      1.00      1.00         1
weighted avg       1.00      1.00      1.00         1


Resultado 80/20:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1

    accuracy                           1.00         1
   macro avg       1.00      1.00      1.00         1
weighted avg       1.00      1.00      1.00         1


Resultado 85/15:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1

    accuracy                           1.00         1
   macro avg       1.00      1.00      1.00         1
weighted avg       1.00      1.00      1.00         1

