**# Ejemplo de Árbol de decisión**

In [2]:
######################
# adquirir datos
######################

import pandas as pd
datos = pd.read_csv("./data/diabetes.csv") # dataframe

# Voy a categorizar en funcion de los casos sin diabetes (casos negativos)
casos_negativos = datos.sort_values(by='Outcome')
cantidad_casos_negativos = casos_negativos['Outcome'].value_counts(sort=False,ascending=True)[0]
casos_negativos = casos_negativos[:cantidad_casos_negativos]

In [6]:
# Pre-procesamiento de datos.
# Analizo los datos en busca de ceros y faltantes
caracteristicas = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI','DiabetesPedigreeFunction']
cuenta = 0
for caract in caracteristicas:
    descriptor = casos_negativos[caract].describe()
    cuenta_de_valores = casos_negativos[caract].value_counts()
    cantidad_ceros = cuenta_de_valores[0] if 0 in cuenta_de_valores else 0
    cuenta += cantidad_ceros
    print(f'cantidad de ceros en {caract}: {cantidad_ceros}')
print(f'cuenta:{cuenta}')

for caract in caracteristicas:
    print(f'{caract}: {datos[caract].describe()}')

datos_ordenados = datos.sort_values(by=['BloodPressure'], ascending=True)
print(datos_ordenados)


cantidad de ceros en Glucose: 3
cantidad de ceros en BloodPressure: 19
cantidad de ceros en SkinThickness: 139
cantidad de ceros en Insulin: 236
cantidad de ceros en BMI: 9
cantidad de ceros en DiabetesPedigreeFunction: 0
cuenta:406
Glucose: count    768.000000
mean     120.894531
std       31.972618
min        0.000000
25%       99.000000
50%      117.000000
75%      140.250000
max      199.000000
Name: Glucose, dtype: float64
BloodPressure: count    768.000000
mean      69.105469
std       19.355807
min        0.000000
25%       62.000000
50%       72.000000
75%       80.000000
max      122.000000
Name: BloodPressure, dtype: float64
SkinThickness: count    768.000000
mean      20.536458
std       15.952218
min        0.000000
25%        0.000000
50%       23.000000
75%       32.000000
max       99.000000
Name: SkinThickness, dtype: float64
Insulin: count    768.000000
mean      79.799479
std      115.244002
min        0.000000
25%        0.000000
50%       30.500000
75%      127.2500

In [None]:
# Pre-procesamiento de datos. Categorizacion de 'Age'
def mapearEdades(edad):
    if (edad >= 0 and edad <= 11): return 'niño'
    elif (edad >= 12 and edad <= 18): return 'adolescente'
    elif (edad >= 19 and edad <= 25): return 'joven'
    elif (edad >= 26 and edad <= 59): return 'adulto'
    elif (edad >= 60 and edad <= 70): return 'mayor'
    
datos['Age'] = datos['Age'].apply(mapearEdades)

In [None]:
# Pre-procesamiento de datos. Categorizacion de 'Glucose'
# Tomo los casos sin diabetes
descriptor = casos_negativos['Glucose'].describe()
# Nota: Falta eliminar casos de glucosa=0

intervalos_glucosa = [
    0, 
    descriptor['mean'] - descriptor['std'], 
    descriptor['mean'] + descriptor['std'], 
    descriptor['max']
    ]
etiquetas_glucosa = ['baja', 'normal', 'alta']

datos['Glucose'] = pd.cut(datos['Glucose'], bins=intervalos_glucosa, labels=etiquetas_glucosa)
# print(datos)

In [None]:
# Categorizo el resto de las caracteristicas segun el bloque anterior
caracteristicas = ['BloodPressure', 'SkinThickness', 'BMI', 'DiabetesPedigreeFunction']
caracteristicas_a_revisar = ['Insulin']

for caract in caracteristicas:
    descriptor = casos_negativos[caract].describe()
    # Nota: Falta considerar casos de caracteristica=0
    print(caract)
    intervalos = [
        0, 
        descriptor['mean'] - descriptor['std'], 
        descriptor['mean'] + descriptor['std'], 
        descriptor['max']
        ]
    etiquetas = ['baja', 'normal', 'alta']

    datos[caract] = pd.cut(datos[caract], bins=intervalos, labels=etiquetas)
