# Reduccion de la Base de Datos Usando los Valores $\varepsilon$.
## Funciones para el analisis

En esta primera sección definimos las funciones que usaremos a lo largo de los analisis que haremos. Llamemos a las liberías usuales.

In [1]:
import pandas as pd
import numpy as np
import math
%matplotlib inline
import matplotlib.pyplot as plt
from sklearn import metrics
import proyecto_ml 
import warnings
warnings.filterwarnings("ignore")

## Leemos los datos

In [2]:
datos = pd.read_csv('datos_completos.csv' )
datos = datos.set_index('dp_folio')

## Analisis Obesidad
### Claculamos los $\varepsilon$
Primero obtenemos todos los $\varepsilon$

In [3]:
X_obesidad_todos = datos.drop(columns = ['obesidad'])
Y_obesidad_todos = datos['obesidad']
valor_clase = 1

epsilons_obesidad_completos = proyecto_ml.epsilons_de_datos(X_obesidad_todos, Y_obesidad_todos, valor_clase)
#epsilons_obesidad_completos.to_csv('epsilons_obesidad_completos.csv',index=False)

epsilons_obesidad_completos = epsilons_obesidad_completos.sort_values(by=['epsilon'],ascending=False)
# epsilons_obesidad_completos.to_csv('epsilons_obesidad_completos_ordenados.csv',index=False)
epsilons_obesidad_completos.head(10)

HBox(children=(FloatProgress(value=0.0, max=211.0), HTML(value='')))




Unnamed: 0,variable,valor,Nx,Nxc,N,Nc,Pc,Pcx,epsilon
74,AIMC,4,165,165,1076,228,0.211896,1.0,24.77265
86,Acintura,6,154,135,1076,228,0.211896,0.876623,20.18603
92,Apeso,7,166,123,1076,228,0.211896,0.740964,16.680629
1848,peso_act,5,80,68,1076,228,0.211896,0.85,13.966367
82,Abrazo,5,269,141,1076,228,0.211896,0.524164,12.532857
76,AIMC,5,42,42,1076,228,0.211896,1.0,12.498421
1464,Ainsulina,5,184,107,1076,228,0.211896,0.581522,12.269254
1855,peso1,5,100,71,1076,228,0.211896,0.71,12.188971
1442,dich_obes,1,333,155,1076,228,0.211896,0.465465,11.323121
1904,peso_ehoy,10,81,52,1076,228,0.211896,0.641975,9.471921


Seleccionamos las variables que no usaremos para  el anaisis

In [4]:
# Eliminamos las variables obvias
dummy_variables = ['AIMC','IMC','Acintura','diastolica','sistolica','Apeso','Aedad_obes','Atalla','dich_obes','Abrazo']
datos_obesidad = datos.drop(columns=dummy_variables)

In [5]:
X_obesidad = datos_obesidad.drop(columns = ['obesidad'])
Y_obesidad = datos_obesidad['obesidad']
valor_clase = 1 # porque buscamos la clase obeso

Calculamos las $\varepsilon$

In [6]:
epsilons_obesidad = proyecto_ml.epsilons_de_datos(X_obesidad,Y_obesidad,valor_clase)
epsilons_obesidad = epsilons_obesidad.sort_values(by=['epsilon'],ascending=False)
#epsilons_obesidad.to_csv('epsilons_obesidad_selectos.csv',index=False)
epsilons_obesidad.head(10)

HBox(children=(FloatProgress(value=0.0, max=201.0), HTML(value='')))




Unnamed: 0,variable,valor,Nx,Nxc,N,Nc,Pc,Pcx,epsilon
992,peso_act,5,80,68,1076,228,0.211896,0.85,13.966367
608,Ainsulina,5,184,107,1076,228,0.211896,0.581522,12.269254
999,peso1,5,100,71,1076,228,0.211896,0.71,12.188971
1048,peso_ehoy,10,81,52,1076,228,0.211896,0.641975,9.471921
1005,peso5,5,61,42,1076,228,0.211896,0.688525,9.109447
851,aes_peso,9,61,40,1076,228,0.211896,0.655738,8.482816
845,aes_peso,8,143,70,1076,228,0.211896,0.48951,8.123762
646,sindro_meta,1,575,193,1076,228,0.211896,0.335652,7.261863
1050,peso_ehoy,8,183,77,1076,228,0.211896,0.420765,6.914276
585,dich_hiper,1,133,59,1076,228,0.211896,0.443609,6.539181


Encontramos las 20 variables con las $\varepsilon$ más grandes. Que son las mas importantes.

In [7]:
seleccion_variables_obesidad = proyecto_ml.variables_importantes(epsilons_obesidad,30) 
print(seleccion_variables_obesidad)

['peso_act', 'Ainsulina', 'peso1', 'peso_ehoy', 'peso5', 'aes_peso', 'sindro_meta', 'dich_hiper', 'condi_act', 'Aedad_hiper', 'peso10', 'Ahba', 'peso_acc', 'salud_act', 'estatura', 'condi1', 'mad_diab', 'id_gestud', 'tgb_com', 'com_relrec', 'glu_com', 'Apuesto', 'Aher6_edad', 'estres10', 'Aedad_diab', 'condi5', 'Ahij_sobrepeso', 'Atio_diabeticos', 'Ahij2_edad', 'locout20']


## Guardemos el subconjunto de la base de datos que solo contiene las variables mas importantes. A continuacion renombramos algunas variables categoricas

In [8]:
datos_seleccionados = datos[seleccion_variables_obesidad + ['obesidad']]
# datos_seleccionados.to_csv('datos_seleccionados_preeliminares.csv',index=False)
datos_seleccionados.head(10)

Unnamed: 0_level_0,peso_act,Ainsulina,peso1,peso_ehoy,peso5,aes_peso,sindro_meta,dich_hiper,condi_act,Aedad_hiper,...,Apuesto,Aher6_edad,estres10,Aedad_diab,condi5,Ahij_sobrepeso,Atio_diabeticos,Ahij2_edad,locout20,obesidad
dp_folio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4,4,3,10,3,-1,1,0,2,0,...,Admin,8,6,0,4,1,2,5,1,1
2,4,3,3,6,5,6,0,0,4,0,...,Sec,8,1,0,4,0,0,1,0,0
3,5,5,5,8,5,8,1,0,1,0,...,Int,8,4,0,1,3,0,2,-1,1
4,4,1,4,7,3,7,1,0,3,0,...,Jef,7,2,0,4,1,0,6,0,1
5,3,3,3,5,2,7,0,0,3,0,...,EM,8,4,0,5,0,0,2,0,0
6,3,5,3,5,3,4,1,0,3,0,...,Int,5,3,0,3,0,1,1,0,0
7,4,4,4,8,2,8,1,0,3,0,...,Jef,8,1,0,4,0,0,4,3,0
8,3,1,3,6,3,7,0,0,5,0,...,Inv,8,3,0,4,0,0,7,0,0
9,4,3,4,8,4,5,1,1,3,4,...,Acade,6,4,0,3,3,1,5,0,0
10,4,1,4,6,4,6,1,0,4,0,...,Asi,5,3,0,5,1,2,6,2,0


Pasemo algunas cateogrías a numeros

In [9]:
def categorizar_columna(datos,columna):
    categos = proyecto_ml.categorias(datos,columna)
    dic_categos = {}
    count = 1
    
    for categoria in categos:
        dic_categos[categoria] = count
        count = count + 1
        
    nueva_columna = []
    
    for i in datos.index:
        valor = datos.at[i,columna]
        nuevo_valor = dic_categos[valor]
        nueva_columna.append(nuevo_valor)
    
    datos_nuevos = datos
    datos_nuevos[columna] = nueva_columna
    print(dic_categos)
    
    return datos_nuevos 

In [10]:
datos_seleccionados = categorizar_columna(datos_seleccionados,'tgb_com')
datos_seleccionados = categorizar_columna(datos_seleccionados,'glu_com')
datos_seleccionados = categorizar_columna(datos_seleccionados,'id_gestud')
datos_seleccionados = categorizar_columna(datos_seleccionados,'Apuesto')

{'ALTO CRITICO': 1, 'NORMAL': 2, 'ALTO': 3, 'BAJO CRITICO': 4}
{'NORMAL': 1, 'ALTO CRITICO': 2, 'BAJO CRITICO': 3, 'BAJO': 4, 'ALTO': 5}
{'CarTec': 1, 'Bach': 2, 'Sec': 3, 'Lic': 4, 'Doc': 5, 'Mast': 6, 'Otro': 7, 'Prim': 8, 'PDoc': 9}
{'Admin': 1, 'Sec': 2, 'Int': 3, 'Jef': 4, 'EM': 5, 'Inv': 6, 'Acade': 7, 'Asi': 8, 'ED': 9, 'Vig': 10, 'Coo': 11, 'Lab': 12, 'Tec': 13, 'E': 14, 'InvE': 15}


In [11]:
for i in datos_seleccionados.index:
    if datos_seleccionados.at[i,'peso_ehoy'] == '*':
        datos_seleccionados.at[i,'peso_ehoy'] = -1

Guardamos la base de datos reducida

In [12]:
datos_seleccionados.to_csv('datos_seleccionados.csv',index=False)