## CREACIÓN DEL DATASET FINAL.

### Librerías necesarias

In [1]:
import numpy as np
import pandas as pd
import os

### Función "creacion_cjto_datos()".

Función que a partir de los archivos 'csv' procesados con el formato adecuado crea el archivo final con el dataset para la fase de análisis. Sus columnas son las de las dimensiones geográfica (GEO), de género (SEX) y grupos de edad (AGE), y todas las columnas de variables que aporten los archivos procesados.

Tiene como entrada la ruta del primer archivo a cargar del que cogeremos dimensiones y variables, y un diccionario con las rutas de los restantes archivos (nombre_archivo_variable_procesado), del que solo se cogerán las variables.


In [2]:
def creacion_cjto_datos(ruta_archivo_base,dict_archivos_aniadir):
    
    # carga primer archivo
    df_FINAL = pd.read_csv(ruta_archivo_base) 

    # inicialización variables
    lista_varindep_aniadidas = []
    n_var_indep = 0
    total_var_indep = len(dict_archivos_aniadir)
    columnas_dimensiones = {'GEO','SEX','AGE'}
     
    
    # carga restantes archivos, para cada archivo    
    
    for var_indep,archivo in dict_archivos_aniadir.items():
        
        # carga archivo
        n_var_indep +=1
        ruta = os.path.join('.\data\procesado',archivo)
        print('#'*60)
        print('CARGANDO LA VARIABLE {} DESDE {} EN DF FINAL ({} de {}) ...'.format(var_indep,ruta,n_var_indep,total_var_indep))
        print('#'*60,'\n'*2)
        
        df_varind = pd.read_csv(ruta)
        
        print('DF con las variables a añadir:\n\n')
        print(df_varind.info(),'\n'*2)
        
        
        # solo cogemos las columnas de las variables, las de las dimensiones ya las tenemos con
        # la carga del primer archivo
        nuevas_col_indep = (set(df_varind.columns.values)) - columnas_dimensiones
        
        # para cada columna de las variables
        for columna in nuevas_col_indep:
            
            # variable auxiliar (columna final a añadir)
            col_indep_aniadir = []
            
            # para asegurar el formato y orden, se toma como referencia las dimensiones del primer
            # archivo cargado (registro.DIMENSION), y después se van añadiendo por este orden de referencia  
            # los valores de la variable (en el dataset 'df_varind') a la variable auxiliar (col_indep_aniadir)
            
            for registro in df_FINAL.itertuples():
                col_indep_aniadir.append(df_varind.loc[(df_varind.GEO==registro.GEO) & \
                                                       (df_varind.SEX==registro.SEX) & \
                                                       (df_varind.AGE==registro.AGE),columna].values[0])
            # añadimos variable auxiliar (columna)
            df_FINAL[columna] = col_indep_aniadir
        
        
        # comprobación después de añadir todas las columnas de variable del archivo
        print('DESPUES DE AÑADIR QUEDA:','\n'*2)
        print(df_FINAL.info(),'\n'*2)
        lista_varindep_aniadidas.append(var_indep)
        
        
    
    # una vez leidos todos los archivos y cargadas las columnas de dimensiones y todas las variables
    # columnas de variables, guardamos si todo ha sido correcto
    
    if str.upper(input('Guardamos resultado??, pulsa "S" para guardar:\t')) == 'S':
        guardar_ruta = os.path.join('.\data\FINAL', 'health_determ_EU.csv')
        cambiar_nombre_archivo = str.upper(input('Cambio nombre del archivo?, pulsa "N" para conservar o escribe nombre nuevo'))
        if  cambiar_nombre_archivo != 'N':
            guardar_ruta = os.path.join('.\data\FINAL', cambiar_nombre_archivo)
            
        df_FINAL.to_csv(guardar_ruta, index=False)
        print('Añadidas las columnas correspondientes a {} variables.\n{}\n'.format(n_var_indep,lista_varindep_aniadidas))
        print('ARCHIVO FINAL GUARDADO EN {}\n'.format(guardar_ruta))
        
    else:
        print('RESULTADO FINAL NO GUARDADO, QUEDA EN DF "df_FINAL"')


        
        

### Llamada a la función

In [3]:
ruta_base = os.path.join('.\data\procesado','base_BMI.csv')

In [4]:
variables = {'Phys_activ': 'base_Phys_activ.csv', 'Consumpt_FyV': 'base_DailyFyV.csv', \
            'Tobacco': 'base_smoking.csv', 'Alcohol': 'base_Freq_hv_alcohol_COMPLETO.csv', \
            'Social_support': 'base_social_support.csv', 'Chronic_ill_hlth': 'base_Chronic_illness_formateado.csv', \
            'Sev_Body_pain':'base_Sev_body_pain.csv', 'Health_Expend': 'base_Hlth_Expend.csv', \
            'Use_prescrib_med': 'base_Prescribed_med_use.csv', 'Use_non_prescrib_med': 'base_Non_prescrib_med_use.csv', \
            'SPH_target': 'base_SPH_TARGET.csv'}



In [5]:
creacion_cjto_datos(ruta_archivo_base=ruta_base, dict_archivos_aniadir=variables)

############################################################
CARGANDO LA VARIABLE Phys_activ DESDE .\data\procesado\base_Phys_activ.csv EN DF FINAL (1 de 11) ...
############################################################ 


DF con las variables a añadir:


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 310 entries, 0 to 309
Data columns (total 4 columns):
GEO                  310 non-null object
SEX                  310 non-null object
AGE                  310 non-null object
Physical_activity    310 non-null float64
dtypes: float64(1), object(3)
memory usage: 9.8+ KB
None 


DESPUES DE AÑADIR QUEDA: 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 310 entries, 0 to 309
Data columns (total 7 columns):
GEO                  310 non-null object
SEX                  310 non-null object
AGE                  310 non-null object
BMI_Underweight      310 non-null float64
BMI_Normal           310 non-null float64
BMI_Overweight       310 non-null float64
Physical_activity    310 non-nu

DESPUES DE AÑADIR QUEDA: 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 310 entries, 0 to 309
Data columns (total 22 columns):
GEO                                    310 non-null object
SEX                                    310 non-null object
AGE                                    310 non-null object
BMI_Underweight                        310 non-null float64
BMI_Normal                             310 non-null float64
BMI_Overweight                         310 non-null float64
Physical_activity                      310 non-null float64
DailyFyV_0 portions                    310 non-null float64
DailyFyV_From 1 to 4 portions          310 non-null float64
DailyFyV_5 portions or more            310 non-null float64
smoking_Non-smoker                     310 non-null float64
smoking_Daily smoker                   310 non-null float64
smoking_Occasional smoker              310 non-null float64
Frequent_drink_pct                     310 non-null float64
social_support_Intermediate   

DESPUES DE AÑADIR QUEDA: 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 310 entries, 0 to 309
Data columns (total 26 columns):
GEO                                    310 non-null object
SEX                                    310 non-null object
AGE                                    310 non-null object
BMI_Underweight                        310 non-null float64
BMI_Normal                             310 non-null float64
BMI_Overweight                         310 non-null float64
Physical_activity                      310 non-null float64
DailyFyV_0 portions                    310 non-null float64
DailyFyV_From 1 to 4 portions          310 non-null float64
DailyFyV_5 portions or more            310 non-null float64
smoking_Non-smoker                     310 non-null float64
smoking_Daily smoker                   310 non-null float64
smoking_Occasional smoker              310 non-null float64
Frequent_drink_pct                     310 non-null float64
social_support_Intermediate   

**Examinamos el resultado:**

In [2]:
df_Hlth_Determ = pd.read_csv(os.path.join('.\data\FINAL','health_determ_EU.csv'))
df_Hlth_Determ.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 310 entries, 0 to 309
Data columns (total 26 columns):
GEO                                    310 non-null object
SEX                                    310 non-null object
AGE                                    310 non-null object
BMI_Underweight                        310 non-null float64
BMI_Normal                             310 non-null float64
BMI_Overweight                         310 non-null float64
Physical_activity                      310 non-null float64
DailyFyV_0 portions                    310 non-null float64
DailyFyV_From 1 to 4 portions          310 non-null float64
DailyFyV_5 portions or more            310 non-null float64
smoking_Non-smoker                     310 non-null float64
smoking_Daily smoker                   310 non-null float64
smoking_Occasional smoker              310 non-null float64
Frequent_drink_pct                     310 non-null float64
social_support_Intermediate            310 non-null float6

#### Corrección uniformidad en el número de decimales

Despues de inspección visual del archivo de texto plano se detecta no uniformidad nº decimales:

In [8]:
for col in df_Hlth_Determ.columns:
    
    if df_Hlth_Determ[col].dtype == 'float64':
        
        df_Hlth_Determ[col] = list(np.round(df_Hlth_Determ[col],2))

df_Hlth_Determ.head()


Unnamed: 0,GEO,SEX,AGE,BMI_Underweight,BMI_Normal,BMI_Overweight,Physical_activity,DailyFyV_0 portions,DailyFyV_From 1 to 4 portions,DailyFyV_5 portions or more,...,social_support_Strong,Chron_ill_pct,Sev_body_pain_Mild or very mild,Sev_body_pain_Severe or very severe,Sev_body_pain_Moderate,Sev_body_pain_None,Health_Expend_%_GDP,presc_med_use_pct,non_presc_med_use_pct,SPH_G_or_VG_pct
0,Belgium,Males,From 15 to 24 years,11.9,69.4,18.7,25.2,25.4,64.6,10.0,...,39.2,9.2,18.4,1.7,7.4,72.5,10.44,22.3,13.4,94.8
1,Belgium,Males,From 25 to 34 years,2.4,56.5,41.0,11.5,26.3,65.5,8.2,...,33.8,12.4,22.9,4.4,9.8,62.9,10.44,27.1,17.2,89.4
2,Belgium,Males,From 35 to 44 years,0.3,45.6,54.1,7.7,19.7,69.3,11.0,...,29.8,18.4,21.5,8.0,13.2,57.3,10.44,37.6,18.1,83.8
3,Belgium,Males,From 45 to 64 years,0.4,33.8,65.8,5.5,18.3,70.1,11.6,...,29.6,28.0,26.0,10.2,12.7,51.0,10.44,64.0,17.0,74.5
4,Belgium,Males,65 years or over,0.6,33.7,65.6,42.0,11.8,76.0,12.2,...,29.3,38.2,26.2,9.7,18.6,45.4,10.44,88.1,16.2,53.3


In [9]:
df_Hlth_Determ.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 310 entries, 0 to 309
Data columns (total 26 columns):
GEO                                    310 non-null object
SEX                                    310 non-null object
AGE                                    310 non-null object
BMI_Underweight                        310 non-null float64
BMI_Normal                             310 non-null float64
BMI_Overweight                         310 non-null float64
Physical_activity                      310 non-null float64
DailyFyV_0 portions                    310 non-null float64
DailyFyV_From 1 to 4 portions          310 non-null float64
DailyFyV_5 portions or more            310 non-null float64
smoking_Non-smoker                     310 non-null float64
smoking_Daily smoker                   310 non-null float64
smoking_Occasional smoker              310 non-null float64
Frequent_drink_pct                     310 non-null float64
social_support_Intermediate            310 non-null float6

#### Corregimos también el nombre del país Alemania (tiene parentesis explicativo) para poder posteriormente realizar visualizaciones geográficas:

In [10]:
df_Hlth_Determ.GEO.unique()

array(['Belgium', 'Bulgaria', 'Czechia', 'Denmark',
       'Germany (until 1990 former territory of the FRG)', 'Estonia',
       'Ireland', 'Greece', 'Spain', 'France', 'Croatia', 'Italy',
       'Cyprus', 'Latvia', 'Lithuania', 'Luxembourg', 'Hungary', 'Malta',
       'Netherlands', 'Austria', 'Poland', 'Portugal', 'Romania',
       'Slovenia', 'Slovakia', 'Finland', 'Sweden', 'United Kingdom',
       'Iceland', 'Norway', 'Turkey'], dtype=object)

In [None]:
df_Hlth_Determ.replace(to_replace='Germany (until 1990 former territory of the FRG)', value='Germany', inplace=True)

Comprobamos la corrección:

In [12]:
df_Hlth_Determ[df_Hlth_Determ.GEO == 'Germany']

Unnamed: 0,GEO,SEX,AGE,BMI_Underweight,BMI_Normal,BMI_Overweight,Physical_activity,DailyFyV_0 portions,DailyFyV_From 1 to 4 portions,DailyFyV_5 portions or more,...,social_support_Strong,Chron_ill_pct,Sev_body_pain_Mild or very mild,Sev_body_pain_Severe or very severe,Sev_body_pain_Moderate,Sev_body_pain_None,Health_Expend_%_GDP,presc_med_use_pct,non_presc_med_use_pct,SPH_G_or_VG_pct
40,Germany,Males,From 15 to 24 years,7.2,69.6,23.2,45.3,61.5,29.8,8.7,...,30.4,10.8,35.8,3.1,7.0,54.1,11.02,18.6,35.1,93.1
41,Germany,Males,From 25 to 34 years,1.1,54.4,44.4,31.3,67.4,26.7,5.9,...,26.6,16.0,35.6,4.4,10.0,50.0,11.02,23.2,39.5,87.5
42,Germany,Males,From 35 to 44 years,0.1,39.6,60.2,20.6,61.7,33.9,4.5,...,29.3,26.9,35.2,5.7,13.0,46.1,11.02,31.3,38.9,78.4
43,Germany,Males,From 45 to 64 years,0.2,30.4,69.4,21.3,56.1,39.3,4.6,...,25.7,39.8,33.6,8.9,19.2,38.4,11.02,57.4,34.5,59.8
44,Germany,Males,65 years or over,0.5,29.0,70.5,22.7,32.4,58.9,8.7,...,24.9,63.4,34.5,10.7,22.1,32.7,11.02,85.8,34.1,42.3
45,Germany,Females,From 15 to 24 years,11.8,69.7,18.5,32.7,49.3,38.5,12.2,...,31.5,12.8,39.1,6.6,16.8,37.4,11.02,30.6,51.5,90.8
46,Germany,Females,From 25 to 34 years,4.5,65.5,30.1,21.2,48.2,38.7,13.2,...,29.8,23.0,35.4,8.3,18.1,38.2,11.02,33.5,52.4,82.4
47,Germany,Females,From 35 to 44 years,1.8,59.6,38.7,17.4,41.5,44.7,13.8,...,32.2,27.5,35.5,7.9,19.5,37.1,11.02,40.4,55.4,76.6
48,Germany,Females,From 45 to 64 years,1.6,50.5,47.9,23.0,35.5,51.2,13.3,...,31.5,42.2,31.9,11.3,23.6,33.2,11.02,60.7,49.6,59.4
49,Germany,Females,65 years or over,2.1,39.8,58.0,17.2,22.3,63.5,14.2,...,27.6,58.2,27.6,17.4,28.2,26.9,11.02,86.9,43.6,39.0


In [13]:
df_Hlth_Determ.GEO.unique()

array(['Belgium', 'Bulgaria', 'Czechia', 'Denmark', 'Germany', 'Estonia',
       'Ireland', 'Greece', 'Spain', 'France', 'Croatia', 'Italy',
       'Cyprus', 'Latvia', 'Lithuania', 'Luxembourg', 'Hungary', 'Malta',
       'Netherlands', 'Austria', 'Poland', 'Portugal', 'Romania',
       'Slovenia', 'Slovakia', 'Finland', 'Sweden', 'United Kingdom',
       'Iceland', 'Norway', 'Turkey'], dtype=object)

In [15]:
len(df_Hlth_Determ.GEO.unique())

31

Resumen del dataset final:

In [16]:
df_Hlth_Determ.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 310 entries, 0 to 309
Data columns (total 26 columns):
GEO                                    310 non-null object
SEX                                    310 non-null object
AGE                                    310 non-null object
BMI_Underweight                        310 non-null float64
BMI_Normal                             310 non-null float64
BMI_Overweight                         310 non-null float64
Physical_activity                      310 non-null float64
DailyFyV_0 portions                    310 non-null float64
DailyFyV_From 1 to 4 portions          310 non-null float64
DailyFyV_5 portions or more            310 non-null float64
smoking_Non-smoker                     310 non-null float64
smoking_Daily smoker                   310 non-null float64
smoking_Occasional smoker              310 non-null float64
Frequent_drink_pct                     310 non-null float64
social_support_Intermediate            310 non-null float6

#### Guardamos resultado final:

In [17]:
df_Hlth_Determ.to_csv('./data/FINAL/health_determ_EU_v0.csv', index=False)