# EN ESTA NOTEBOOK SE IMPLEMENTARÁN LOS ALGORITMOS DE INTELIGENCIA ARTIFICIAL SUPERVISADOS Y SE EVALUARÁN LOS RESULTADOS PARA EL PROYECTO




## ARBOLES DE DECISIÓN

In [66]:
#importanción de librerías a utilizar

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

#ARBOL DE DECISIÓN
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [67]:
# IMPORTACIÓN DEL DATASET REDUCIDO LUEGO DEL PROCESAMIENTO DE COLUMNAS

df = pd.read_csv('friesgo_2018_reduc.csv',  sep=',', encoding='utf-8')

df.head(5)

Unnamed: 0,id,region,tamanio_aglomerado,tipo_vivienda,obtiene_gas,obtiene_agua,baño,cant_componentes,tipo_hogar,ingresos,...,promedio_fv_diario,consumo_5porc_fv,medido_colesterol,colesterol_alto,consumido_alcohol,consumo_regular_riesgo,dijeron_diabetes,familiares_directos_diabetes,familiares_no_directos_diabetes,control_diabetes
0,1128639,1,1,3,1,1,1,2,2,50000,...,4.0,2,1,2,1,2.0,2,2,2,1
1,1709939,1,1,1,1,1,1,3,4,40000,...,6.43,1,1,1,1,2.0,2,2,2,1
2,6874130,1,1,3,1,1,1,2,2,40000,...,2.86,2,1,2,1,2.0,2,2,2,1
3,10319375,1,1,3,4,1,1,1,1,80000,...,1.43,2,1,1,1,2.0,2,2,1,1
4,11140857,1,1,3,1,1,1,2,8,30000,...,1.43,2,1,2,1,2.0,2,2,99,1


In [69]:
#muevo columnas de variables dependiendtes al final

cols_to_move = [ 'veces_presion_alta', 'colesterol_alto', 'dijeron_diabetes']

df = df[[col for col in df if col not in cols_to_move] + cols_to_move]

print (df.iloc[:,-4:-1]) 

       control_diabetes  veces_presion_alta  colesterol_alto
0                     1                   3                2
1                     1                   3                1
2                     1                   3                2
3                     1                   3                1
4                     1                   3                2
...                 ...                 ...              ...
26193                 1                   3                2
26194                 1                   2                1
26195                 1                   2                1
26196                 1                   3                2
26197                 1                   2                2

[26198 rows x 3 columns]


In [70]:
# Variables independientes

X_columns = df.iloc[:, 2:-3] #todas las columnas menos las dos primeras (id y region) y las ultimas 3
X_columns

Unnamed: 0,tamanio_aglomerado,tipo_vivienda,obtiene_gas,obtiene_agua,baño,cant_componentes,tipo_hogar,ingresos,asignaciones,sexo,...,altura_cm,considera_su_alimentacion,promedio_fv_diario,consumo_5porc_fv,medido_colesterol,consumido_alcohol,consumo_regular_riesgo,familiares_directos_diabetes,familiares_no_directos_diabetes,control_diabetes
0,1,3,1,1,1,2,2,50000,2,1,...,181.0,2,4.00,2,1,1,2.0,2,2,1
1,1,1,1,1,1,3,4,40000,2,2,...,160.0,2,6.43,1,1,1,2.0,2,2,1
2,1,3,1,1,1,2,2,40000,2,2,...,160.0,2,2.86,2,1,1,2.0,2,2,1
3,1,3,4,1,1,1,1,80000,2,2,...,155.0,2,1.43,2,1,1,2.0,2,1,1
4,1,3,1,1,1,2,8,30000,2,1,...,178.0,2,1.43,2,1,1,2.0,2,99,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26193,4,1,1,1,2,2,6,8000,1,2,...,158.0,2,3.43,2,1,1,2.0,1,1,1
26194,4,1,1,1,1,4,4,30000,2,1,...,180.0,2,2.86,2,1,1,2.0,2,2,1
26195,4,1,1,1,1,5,8,51000,2,2,...,165.0,1,3.14,2,1,2,2.0,1,2,1
26196,4,1,1,1,1,6,4,90000,2,2,...,154.0,2,1.00,2,1,2,2.0,1,1,1


In [71]:
# Variables dependientes 'colesterol_alto', 'dijeron_diabetes', 'veces_presion_alta'
y_columns = df.iloc[:, -4:-1]
y_columns

Unnamed: 0,control_diabetes,veces_presion_alta,colesterol_alto
0,1,3,2
1,1,3,1
2,1,3,2
3,1,3,1
4,1,3,2
...,...,...,...
26193,1,3,2
26194,1,2,1
26195,1,2,1
26196,1,3,2


In [72]:
# Lista de las regiones únicas
regiones = df['region'].unique()

In [73]:
# Diccionario para almacenar los modelos y sus resultados
modelos_por_region = {}
resultados_por_region = {}

In [74]:
# Iterar sobre cada región
for region in regiones:
    # Filtrar los datos por la región actual
    df_region = df[df['region'] == region]

In [75]:
 # Separar las características (X) y las etiquetas (y)
X_region = df_region.iloc[:, :-3]  # Todas las columnas menos las últimas tres
y_region_colesterol = df_region['colesterol_alto']
y_region_diabetes = df_region['dijeron_diabetes']
y_region_hipertension = df_region['veces_presion_alta']

In [76]:
# Dividir los datos en conjuntos de entrenamiento y prueba para cada enfermedad
X_train_col, X_test_col, y_train_col, y_test_col = train_test_split(X_region, y_region_colesterol, test_size=0.3, random_state=42)
X_train_dia, X_test_dia, y_train_dia, y_test_dia = train_test_split(X_region, y_region_diabetes, test_size=0.3, random_state=42)
X_train_hip, X_test_hip, y_train_hip, y_test_hip = train_test_split(X_region, y_region_hipertension, test_size=0.3, random_state=42)


In [78]:
# Crear y entrenar el modelo de árbol de decisión para cada enfermedad
clf_col = DecisionTreeClassifier(random_state=42)
clf_col.fit(X_train_col, y_train_col)

clf_dia = DecisionTreeClassifier(random_state=42)
clf_dia.fit(X_train_dia, y_train_dia)

clf_hip = DecisionTreeClassifier(random_state=42)
clf_hip.fit(X_train_hip, y_train_hip)


DecisionTreeClassifier(random_state=42)

In [80]:

# Hacer predicciones y calcular la exactitud del modelo para cada enfermedad
y_pred_col = clf_col.predict(X_test_col)
y_pred_dia = clf_dia.predict(X_test_dia)
y_pred_hip = clf_hip.predict(X_test_hip)


In [81]:
acc_col = accuracy_score(y_test_col, y_pred_col)
acc_dia = accuracy_score(y_test_dia, y_pred_dia)
acc_hip = accuracy_score(y_test_hip, y_pred_hip)

In [82]:
# Almacenar los modelos y sus resultados
modelos_por_region[region] = {
    'colesterol': clf_col,
    'diabetes': clf_dia,
    'hipertension': clf_hip
}

resultados_por_region[region] = {
    'colesterol': acc_col,
    'diabetes': acc_dia,
    'hipertension': acc_hip
}


In [83]:
     
# Mostrar los resultados
for region, resultados in resultados_por_region.items():
    print(f"Región: {region}")
    print(f"Exactitud del modelo para colesterol: {resultados['colesterol']}")
    print(f"Exactitud del modelo para diabetes: {resultados['diabetes']}")
    print(f"Exactitud del modelo para hipertensión: {resultados['hipertension']}\n")

Región: 6
Exactitud del modelo para colesterol: 0.6878980891719745
Exactitud del modelo para diabetes: 0.7652411282984531
Exactitud del modelo para hipertensión: 0.535031847133758

