In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from "../utils/funciones.py" import *

In [730]:
# Cargo el dataset que ya teníamos 
df_sat = pd.read_csv("../data/processed/satisfaccion_EU_filtrado.csv", index_col=0)

In [731]:
# Cargo datos de ingresos para enriquecer el dataset

df_ingresos = pd.read_csv("../data/raw/ingresos_EU.csv")

In [732]:
# Vamos a crear una leyenda para las columnas "isced11" y "geo" para poder consultar qué significan si lo necesitamos y así poder eliminar las columnas duplicadas

dict_educación = {"nivel_educativo (isced11)":  df_sat.isced11.unique(),
                  "descripcion": df_sat["International Standard Classification of Education (ISCED 2011)"].unique()}
df_isced11 = pd.DataFrame(dict_educación)
df_isced11

Unnamed: 0,nivel_educativo (isced11),descripcion
0,ED0-2,"Less than primary, primary and lower secondary..."
1,ED3_4,Upper secondary and post-secondary non-tertiar...
2,ED5-8,Tertiary education (levels 5-8)
3,TOTAL,All ISCED 2011 levels


In [733]:
df_sat
dict_geo = {"codigo_entidad":  df_sat.geo.unique(),
            "entidad_geopolítica": df_sat["Geopolitical entity (reporting)"].unique()}
df_geo = pd.DataFrame(dict_geo)
df_geo

Unnamed: 0,codigo_entidad,entidad_geopolítica
0,AL,Albania
1,AT,Austria
2,BE,Belgium
3,BG,Bulgaria
4,CH,Switzerland
5,CY,Cyprus
6,CZ,Czechia
7,DE,Germany
8,DK,Denmark
9,EA20,Euro area – 20 countries (from 2023)


In [734]:
# Ahora las grabamos en csv

df_isced11.to_csv("../data/info/leyenda_educacion.csv")
df_geo.to_csv("../data/info/leyenda_paises.csv")

In [735]:
# Ya podemos eliminar las columnas

df_sat.drop(columns=["International Standard Classification of Education (ISCED 2011)", "Geopolitical entity (reporting)"], inplace=True)

In [736]:
df_sat.columns

Index(['freq', 'statinfo', 'Unit of measure', 'isced11', 'sex', 'age', 'geo',
       'TIME_PERIOD', 'OBS_VALUE'],
      dtype='object')

In [737]:
# Además, voy a deshacerme también de las columnas 'freq', 'statinfo', 'Unit of measure', ya que, aunque es información relevante, son constantes
# Por este motivo no me resulta interesante tenerlas en mi dataset, aunque sí las voy a guardar en un fichero csv para poder consultarlas si lo necesito
df_info_sat_gen = pd.DataFrame(df_sat[['freq', 'statinfo', 'Unit of measure']].loc[1]).T
df_info_sat_gen.to_csv("../data/info/info_satisfaccion_gen.csv")

In [738]:
# Eliminamos las columnas

df_sat.drop(columns=['freq', 'statinfo', 'Unit of measure'], inplace=True)

Voy a ver cuántos registros tengo por año para ver si trabajo con todos los años o me quedo solo con algunos.

In [739]:
# Utilizamos un value_counts para ordenar las frecuencias de mayor a menor y ver más claramente para qué países no tenemos registros de algún año 
# (tenemos que hacerlo así porque no son nulos, simplemente no aparecen)

frecuencia_geo = df_sat.geo.value_counts()
frecuencia_geo

geo
AT           936
BE           936
BG           936
CZ           936
CY           936
DK           936
DE           936
TR           936
SK           936
EE           936
EL           936
EU27_2020    936
ES           936
FI           936
FR           936
IT           936
HR           936
HU           936
IE           936
LU           936
LT           936
MT           936
LV           936
SI           936
PT           936
NO           936
NL           936
PL           936
RO           936
SE           936
CH           780
RS           780
ME           624
EA20         468
AL           312
IS           312
MK           312
UK           312
XK           156
Name: count, dtype: int64

In [740]:
# Compruebo qué países no tiene registros

for i in frecuencia_geo.index:
    print(i, "--->", df_sat.loc[df_sat.geo == i, "TIME_PERIOD"].unique())

AT ---> [2013 2018 2021 2022 2023 2024]
BE ---> [2013 2018 2021 2022 2023 2024]
BG ---> [2013 2018 2021 2022 2023 2024]
CZ ---> [2013 2018 2021 2022 2023 2024]
CY ---> [2013 2018 2021 2022 2023 2024]
DK ---> [2013 2018 2021 2022 2023 2024]
DE ---> [2013 2018 2021 2022 2023 2024]
TR ---> [2013 2018 2021 2022 2023 2024]
SK ---> [2013 2018 2021 2022 2023 2024]
EE ---> [2013 2018 2021 2022 2023 2024]
EL ---> [2013 2018 2021 2022 2023 2024]
EU27_2020 ---> [2013 2018 2021 2022 2023 2024]
ES ---> [2013 2018 2021 2022 2023 2024]
FI ---> [2013 2018 2021 2022 2023 2024]
FR ---> [2013 2018 2021 2022 2023 2024]
IT ---> [2013 2018 2021 2022 2023 2024]
HR ---> [2013 2018 2021 2022 2023 2024]
HU ---> [2013 2018 2021 2022 2023 2024]
IE ---> [2013 2018 2021 2022 2023 2024]
LU ---> [2013 2018 2021 2022 2023 2024]
LT ---> [2013 2018 2021 2022 2023 2024]
MT ---> [2013 2018 2021 2022 2023 2024]
LV ---> [2013 2018 2021 2022 2023 2024]
SI ---> [2013 2018 2021 2022 2023 2024]
PT ---> [2013 2018 2021 2022 2023

In [741]:
df_sat["TIME_PERIOD"].value_counts()

TIME_PERIOD
2018    5928
2013    5616
2021    5304
2022    5304
2023    5148
2024    4836
Name: count, dtype: int64

Finalmente me voy a quedar con los registros de 2021 a 2024, ya que son los datos más actuales y tengo los datos de los 4 años seguidos, no tengo discontinuidades. Elimino los registros de 2013 y 2018. De este modo elimino también algunos países que solo tienen registros en estos años.

In [742]:
ind_eliminar = df_sat.loc[(df_sat.TIME_PERIOD == 2013) | (df_sat.TIME_PERIOD == 2018)].index
df_sat.drop(index=ind_eliminar, inplace=True)

Ahora voy a comprobar a qué países les faltan registros de algún año y, si son pocos, los voy a eliminar. Hago esto en este punto para empezar a enriquecer el dataset con otros datos teniendo ya las categorías definitivas (o por lo menos una aproximación bastante precisa).

In [743]:
frecuencia_geo = df_sat.geo.value_counts()
frecuencia_geo

geo
AT           624
BE           624
BG           624
SK           624
CY           624
CZ           624
DE           624
EE           624
DK           624
ES           624
EL           624
FR           624
HR           624
EU27_2020    624
FI           624
HU           624
IE           624
LT           624
IT           624
TR           624
PT           624
LU           624
LV           624
MT           624
NL           624
NO           624
PL           624
RO           624
SI           624
SE           624
CH           468
RS           468
EA20         468
ME           312
AL           156
Name: count, dtype: int64

In [744]:
lista_eliminar = []
for i in frecuencia_geo.index:
    print(i, "--->", df_sat.loc[df_sat.geo == i, "TIME_PERIOD"].unique())
    if len(df_sat.loc[df_sat.geo == i, "TIME_PERIOD"].unique()) < 4:
        lista_eliminar.append(i)

AT ---> [2021 2022 2023 2024]
BE ---> [2021 2022 2023 2024]
BG ---> [2021 2022 2023 2024]
SK ---> [2021 2022 2023 2024]
CY ---> [2021 2022 2023 2024]
CZ ---> [2021 2022 2023 2024]
DE ---> [2021 2022 2023 2024]
EE ---> [2021 2022 2023 2024]
DK ---> [2021 2022 2023 2024]
ES ---> [2021 2022 2023 2024]
EL ---> [2021 2022 2023 2024]
FR ---> [2021 2022 2023 2024]
HR ---> [2021 2022 2023 2024]
EU27_2020 ---> [2021 2022 2023 2024]
FI ---> [2021 2022 2023 2024]
HU ---> [2021 2022 2023 2024]
IE ---> [2021 2022 2023 2024]
LT ---> [2021 2022 2023 2024]
IT ---> [2021 2022 2023 2024]
TR ---> [2021 2022 2023 2024]
PT ---> [2021 2022 2023 2024]
LU ---> [2021 2022 2023 2024]
LV ---> [2021 2022 2023 2024]
MT ---> [2021 2022 2023 2024]
NL ---> [2021 2022 2023 2024]
NO ---> [2021 2022 2023 2024]
PL ---> [2021 2022 2023 2024]
RO ---> [2021 2022 2023 2024]
SI ---> [2021 2022 2023 2024]
SE ---> [2021 2022 2023 2024]
CH ---> [2021 2022 2023]
RS ---> [2021 2022 2023]
EA20 ---> [2022 2023 2024]
ME ---> [2021 20

In [745]:
lista_eliminar

['CH', 'RS', 'EA20', 'ME', 'AL']

En vista de los resultados, voy a eliminar los 4 países a los que les faltan registros de algún año, ya que no son muchos y también los registros de la zona Euro, ya que faltan los registros de 2021.

In [746]:
for i in lista_eliminar:
    ind_eliminar = df_sat.loc[df_sat.geo == i].index
    df_sat.drop(index=ind_eliminar, inplace=True)

In [747]:
frecuencia_geo = df_sat.geo.value_counts()
for i in frecuencia_geo.index:
    print(i, "--->", df_sat.loc[df_sat.geo == i, "TIME_PERIOD"].unique())

AT ---> [2021 2022 2023 2024]
BE ---> [2021 2022 2023 2024]
BG ---> [2021 2022 2023 2024]
CY ---> [2021 2022 2023 2024]
CZ ---> [2021 2022 2023 2024]
DE ---> [2021 2022 2023 2024]
DK ---> [2021 2022 2023 2024]
EE ---> [2021 2022 2023 2024]
EL ---> [2021 2022 2023 2024]
ES ---> [2021 2022 2023 2024]
EU27_2020 ---> [2021 2022 2023 2024]
FI ---> [2021 2022 2023 2024]
FR ---> [2021 2022 2023 2024]
HR ---> [2021 2022 2023 2024]
HU ---> [2021 2022 2023 2024]
IE ---> [2021 2022 2023 2024]
IT ---> [2021 2022 2023 2024]
LT ---> [2021 2022 2023 2024]
LU ---> [2021 2022 2023 2024]
LV ---> [2021 2022 2023 2024]
MT ---> [2021 2022 2023 2024]
NL ---> [2021 2022 2023 2024]
NO ---> [2021 2022 2023 2024]
PL ---> [2021 2022 2023 2024]
PT ---> [2021 2022 2023 2024]
RO ---> [2021 2022 2023 2024]
SE ---> [2021 2022 2023 2024]
SI ---> [2021 2022 2023 2024]
SK ---> [2021 2022 2023 2024]
TR ---> [2021 2022 2023 2024]


In [748]:
# Compruebo mi número de registros por año
df_sat.TIME_PERIOD.value_counts()

TIME_PERIOD
2021    4680
2022    4680
2023    4680
2024    4680
Name: count, dtype: int64

Ahora voy a añadir los datos de ingresos por edad y género a mi dataset.

In [749]:
# Visualizo el dataset de ingresos y voy a seguir los mismos pasos que antes para eliminar algunas columnas que no vayan a aportarme nada rápidamente, 
# en este caso además la columna que me interesa es "OBS_VALUE", aunque necesito otras variables para coger los datos, como "age" y "geo"
df_ingresos.head()

Unnamed: 0,STRUCTURE,STRUCTURE_ID,STRUCTURE_NAME,freq,Time frequency,age,Age class,sex,Sex,indic_il,...,geo,Geopolitical entity (reporting),TIME_PERIOD,Time,OBS_VALUE,Observation value,OBS_FLAG,Observation status (Flag) V2 structure,CONF_STATUS,Confidentiality status (flag)
0,dataflow,ESTAT:ILC_DI03(1.0),Mean and median income by age and sex,A,Annual,TOTAL,Total,F,Females,MED_E,...,AL,Albania,2018,,1972,,,,,
1,dataflow,ESTAT:ILC_DI03(1.0),Mean and median income by age and sex,A,Annual,TOTAL,Total,F,Females,MED_E,...,AL,Albania,2021,,2574,,,,,
2,dataflow,ESTAT:ILC_DI03(1.0),Mean and median income by age and sex,A,Annual,TOTAL,Total,F,Females,MED_E,...,AT,Austria,2013,,21629,,,,,
3,dataflow,ESTAT:ILC_DI03(1.0),Mean and median income by age and sex,A,Annual,TOTAL,Total,F,Females,MED_E,...,AT,Austria,2018,,24675,,,,,
4,dataflow,ESTAT:ILC_DI03(1.0),Mean and median income by age and sex,A,Annual,TOTAL,Total,F,Females,MED_E,...,AT,Austria,2021,,27048,,,,,


In [750]:
df_ingresos.columns

Index(['STRUCTURE', 'STRUCTURE_ID', 'STRUCTURE_NAME', 'freq', 'Time frequency',
       'age', 'Age class', 'sex', 'Sex', 'indic_il',
       'Income and living conditions indicator', 'unit', 'Unit of measure',
       'geo', 'Geopolitical entity (reporting)', 'TIME_PERIOD', 'Time',
       'OBS_VALUE', 'Observation value', 'OBS_FLAG',
       'Observation status (Flag) V2 structure', 'CONF_STATUS',
       'Confidentiality status (flag)'],
      dtype='object')

In [751]:
# Hago una lista con las columnas de las que creo que puedo prescindir, para hacer una análisis rápido de su cardinalidad

lista_no_relevantes = ['STRUCTURE', 'STRUCTURE_ID', 'STRUCTURE_NAME', 'Time frequency', 'unit', 'Sex', 'Age class', 'Observation value', 'OBS_FLAG', 'Time',
       'Observation status (Flag) V2 structure', 'CONF_STATUS',
       'Confidentiality status (flag)']

dict_cardi = {}
for i in lista_no_relevantes:
    dict_cardi[i] = df_ingresos[i].nunique() / len(df_ingresos)
    print(f"{i}-->{dict_cardi[i]}")

STRUCTURE-->1.1930326890956813e-05
STRUCTURE_ID-->1.1930326890956813e-05
STRUCTURE_NAME-->1.1930326890956813e-05
Time frequency-->1.1930326890956813e-05
unit-->3.579098067287044e-05
Sex-->3.579098067287044e-05
Age class-->0.00026246719160104987
Observation value-->0.0
OBS_FLAG-->3.579098067287044e-05
Time-->0.0
Observation status (Flag) V2 structure-->3.579098067287044e-05
CONF_STATUS-->0.0
Confidentiality status (flag)-->0.0


In [752]:
# Hago un value_counts de las columnas con una cardinalidad mayor a 0, aunque algunas ya están descartadas por ser dobles

for i in lista_no_relevantes:
    if dict_cardi[i] > 0.000001:
        print(df_ingresos[i].value_counts()) 

STRUCTURE
dataflow    83820
Name: count, dtype: int64
STRUCTURE_ID
ESTAT:ILC_DI03(1.0)    83820
Name: count, dtype: int64
STRUCTURE_NAME
Mean and median income by age and sex    83820
Name: count, dtype: int64
Time frequency
Annual    83820
Name: count, dtype: int64
unit
EUR    29304
PPS    28512
NAC    26004
Name: count, dtype: int64
Sex
Females    27940
Males      27940
Total      27940
Name: count, dtype: int64
Age class
Total                  3810
From 12 to 17 years    3810
From 16 to 24 years    3810
From 16 to 64 years    3810
From 18 to 24 years    3810
From 18 to 64 years    3810
From 25 to 49 years    3810
From 25 to 54 years    3810
From 50 to 64 years    3810
From 55 to 64 years    3810
From 6 to 11 years     3810
16 years or over       3810
18 years or over       3810
60 years or over       3810
65 years or over       3810
75 years or over       3810
Less than 16 years     3810
Less than 18 years     3810
Less than 6 years      3810
Less than 60 years     3810
Less than 65

In [753]:
# Me deshago de las que no considero relevantes

df_ingresos.drop(columns=lista_no_relevantes, inplace=True)

In [754]:
# Grabo el dataset sin las columnas que no me interesan por si necesitase recuperarlo directamente en algún momento

df_ingresos.to_csv("../data/ingresos_EU_filtrado.csv")

In [755]:
# Según las categorías de edad de un df y de otro voy a crear en df_sat una columna que encaje con las edades de df_ingresos

df_sat["age"].value_counts()

age
Y16-19    1440
Y16-24    1440
Y16-29    1440
Y20-24    1440
Y25-29    1440
Y25-34    1440
Y25-64    1440
Y35-49    1440
Y50-64    1440
Y65-74    1440
Y_GE16    1440
Y_GE65    1440
Y_GE75    1440
Name: count, dtype: int64

In [756]:
df_ingresos["age"].value_counts()

age
TOTAL     3810
Y12-17    3810
Y16-24    3810
Y16-64    3810
Y18-24    3810
Y18-64    3810
Y25-49    3810
Y25-54    3810
Y50-64    3810
Y55-64    3810
Y6-11     3810
Y_GE16    3810
Y_GE18    3810
Y_GE60    3810
Y_GE65    3810
Y_GE75    3810
Y_LT16    3810
Y_LT18    3810
Y_LT6     3810
Y_LT60    3810
Y_LT65    3810
Y_LT75    3810
Name: count, dtype: int64

In [757]:
df_sat["age_ingresos"] = "Y16-24"

In [758]:
df_sat.loc[(df_sat["age"] == "Y25-29") | (df_sat["age"] == "Y25-34") | (df_sat["age"] == "Y35-49"), "age_ingresos"] = "Y25-49"

In [759]:
df_sat.loc[(df_sat["age"] == "Y50-64"), "age_ingresos"] = "Y50-64"

In [760]:
df_sat.loc[(df_sat["age"] == "Y65-74") | (df_sat["age"] == "Y_GE65"), "age_ingresos"] = "Y_GE65"

In [761]:
df_sat.loc[(df_sat["age"] == "Y_GE75"), "age_ingresos"] = "Y_GE75"

In [762]:
df_sat.loc[(df_sat["age"] == "Y_GE16"), "age_ingresos"] = "Y_GE16"

Ya tengo la nueva columna, faltan algunos rangos de edad que no encajan demasiado bien y que solucionaré más adelante.

In [763]:
df_sat.head()

Unnamed: 0,isced11,sex,age,geo,TIME_PERIOD,OBS_VALUE,age_ingresos
4,ED0-2,F,Y16-19,AT,2021,8.2,Y16-24
5,ED0-2,F,Y16-19,AT,2022,8.1,Y16-24
6,ED0-2,F,Y16-19,AT,2023,7.9,Y16-24
7,ED0-2,F,Y16-19,AT,2024,7.7,Y16-24
10,ED0-2,F,Y16-19,BE,2021,7.5,Y16-24


In [764]:
df_ingresos.head()

Unnamed: 0,freq,age,sex,indic_il,Income and living conditions indicator,Unit of measure,geo,Geopolitical entity (reporting),TIME_PERIOD,OBS_VALUE
0,A,TOTAL,F,MED_E,Median equivalised net income,Euro,AL,Albania,2018,1972
1,A,TOTAL,F,MED_E,Median equivalised net income,Euro,AL,Albania,2021,2574
2,A,TOTAL,F,MED_E,Median equivalised net income,Euro,AT,Austria,2013,21629
3,A,TOTAL,F,MED_E,Median equivalised net income,Euro,AT,Austria,2018,24675
4,A,TOTAL,F,MED_E,Median equivalised net income,Euro,AT,Austria,2021,27048


In [765]:
# Voy a unir las dos tablas, lo hago de esta manera porque me permite añadir los datos directamente en las dos variables nuevas que he creado

# Defino primero las condiciones constantes
cond_indic_1 = df_ingresos["indic_il"] == "MEI_E"
cond_indic_2 = df_ingresos["indic_il"] == "MED_E"
cond_euro = df_ingresos["Unit of measure"] == "Euro"
for i in df_ingresos["age"].unique(): # Recorro todos los valores de "age" en el df_ingresos y de la nueva columna "age_ingresos" en df_sat y defino las condiciones necesarias para cada df
    cond_1 = df_sat["age_ingresos"] == i
    cond_1_1 = df_ingresos["age"] == i
    for j in df_sat["geo"].unique(): # Recorro todas las áreas geográficas
        cond_2 = df_sat["geo"] == j
        cond_2_2 = df_ingresos["geo"] == j
        for k in df_sat["sex"].unique(): # Recorro todos los valores de género
            cond_3 = df_sat["sex"] == k
            cond_3_3 = df_ingresos["sex"] == k
            for h in df_sat["TIME_PERIOD"].unique(): # Recorro todos los periodos de tiempo
                cond_4 = df_sat["TIME_PERIOD"] == h
                cond_4_4 = df_ingresos["TIME_PERIOD"] == h
                # Con las condiciones definidas, obtengo la media y la mediana para todos los grupos
                # Como tengo datos de media y mediana de ingresos, en vez de doblar registros creo dos variables nuevas en las que voy a guardar los datos de ingresos
                media = df_ingresos.loc[cond_1_1 & cond_2_2 & cond_3_3 & cond_4_4 & cond_indic_1 & cond_euro, "OBS_VALUE"]
                mediana = df_ingresos.loc[cond_1_1 & cond_2_2 & cond_3_3 & cond_4_4 & cond_indic_2 & cond_euro, "OBS_VALUE"]
                if len(media) > 0: # Como media y mediana son series, cuando tengo registros, me quedo con el primer (y único) valor
                    df_sat.loc[cond_1 & cond_2 & cond_3 & cond_4, "media_ingresos"] = media.iloc[0]
                if len(media) > 0:
                    df_sat.loc[cond_1 & cond_2 & cond_3 & cond_4, "mediana_ingresos"] = mediana.iloc[0]

In [766]:
df_sat.loc[df_sat.geo == "AT"].head(20)

Unnamed: 0,isced11,sex,age,geo,TIME_PERIOD,OBS_VALUE,age_ingresos,media_ingresos,mediana_ingresos
4,ED0-2,F,Y16-19,AT,2021,8.2,Y16-24,28228.0,27305.0
5,ED0-2,F,Y16-19,AT,2022,8.1,Y16-24,28058.0,26070.0
6,ED0-2,F,Y16-19,AT,2023,7.9,Y16-24,32885.0,30700.0
7,ED0-2,F,Y16-19,AT,2024,7.7,Y16-24,33804.0,31026.0
210,ED0-2,F,Y16-24,AT,2021,8.2,Y16-24,28228.0,27305.0
211,ED0-2,F,Y16-24,AT,2022,8.1,Y16-24,28058.0,26070.0
212,ED0-2,F,Y16-24,AT,2023,7.8,Y16-24,32885.0,30700.0
213,ED0-2,F,Y16-24,AT,2024,7.7,Y16-24,33804.0,31026.0
416,ED0-2,F,Y16-29,AT,2021,8.2,Y16-24,28228.0,27305.0
417,ED0-2,F,Y16-29,AT,2022,8.1,Y16-24,28058.0,26070.0


Ahora voy a resolver las categorías de edad que me habían quedado pendientes

In [767]:
df_sat["age"].value_counts()

age
Y16-19    1440
Y16-24    1440
Y16-29    1440
Y20-24    1440
Y25-29    1440
Y25-34    1440
Y25-64    1440
Y35-49    1440
Y50-64    1440
Y65-74    1440
Y_GE16    1440
Y_GE65    1440
Y_GE75    1440
Name: count, dtype: int64

In [768]:
df_ingresos["age"].value_counts()

age
TOTAL     3810
Y12-17    3810
Y16-24    3810
Y16-64    3810
Y18-24    3810
Y18-64    3810
Y25-49    3810
Y25-54    3810
Y50-64    3810
Y55-64    3810
Y6-11     3810
Y_GE16    3810
Y_GE18    3810
Y_GE60    3810
Y_GE65    3810
Y_GE75    3810
Y_LT16    3810
Y_LT18    3810
Y_LT6     3810
Y_LT60    3810
Y_LT65    3810
Y_LT75    3810
Name: count, dtype: int64

In [769]:
# En primer lugar me deshago de la categoría "Y16-29", ya que no encaja bien con ninguna de las categorías de edad de df_ingresos 
# y además tengo 4 categorías más concretas dentro de ella

ind_eliminar = df_sat.loc[(df_sat.age == "Y16-29")].index
df_sat.drop(index=ind_eliminar, inplace=True)

In [770]:
df_sat["age"].value_counts()

age
Y16-19    1440
Y16-24    1440
Y20-24    1440
Y25-29    1440
Y25-34    1440
Y25-64    1440
Y35-49    1440
Y50-64    1440
Y65-74    1440
Y_GE16    1440
Y_GE65    1440
Y_GE75    1440
Name: count, dtype: int64

In [None]:
# Para df_sat.age == "Y25-64" lo que voy a hacer es rellenarlo con media de los valores de df_ingresos.age == "Y25-49" y df_ingresos.age == "Y50-64"
# con un bucle similar al que he usado para obtener los valores de ingresos en un principio

# Defino primero las condiciones constantes
cond_indic_1 = df_ingresos["indic_il"] == "MEI_E"
cond_indic_2 = df_ingresos["indic_il"] == "MED_E"
cond_euro = df_ingresos["Unit of measure"] == "Euro"
cond_age_1 = df_sat["age"] == "Y25-64"
cond_age_2 = df_ingresos["age"] == "Y25-49"
cond_age_3 = df_ingresos["age"] == "Y50-64"
for j in df_sat["geo"].unique(): # Recorro todas las áreas geográficas
    cond_2 = df_sat["geo"] == j
    cond_2_2 = df_ingresos["geo"] == j
    for k in df_sat["sex"].unique(): # Recorro todos los valores de género
        cond_3 = df_sat["sex"] == k
        cond_3_3 = df_ingresos["sex"] == k
        for h in df_sat["TIME_PERIOD"].unique(): # Recorro todos los periodos de tiempo
            cond_4 = df_sat["TIME_PERIOD"] == h
            cond_4_4 = df_ingresos["TIME_PERIOD"] == h
            # Obtengo el valor de media y mediana para cada uno de los grupos etáreos y lo guardo en variables
            media_25 = df_ingresos.loc[cond_age_2 & cond_2_2 & cond_3_3 & cond_4_4 & cond_indic_1 & cond_euro, "OBS_VALUE"]
            media_50 = df_ingresos.loc[cond_age_3 & cond_2_2 & cond_3_3 & cond_4_4 & cond_indic_1 & cond_euro, "OBS_VALUE"]
            mediana_25 = df_ingresos.loc[cond_age_2 & cond_2_2 & cond_3_3 & cond_4_4 & cond_indic_2 & cond_euro, "OBS_VALUE"]
            mediana_50 = df_ingresos.loc[cond_age_3 & cond_2_2 & cond_3_3 & cond_4_4 & cond_indic_2 & cond_euro, "OBS_VALUE"]
            if len(media_25) > 0 and len(media_25) > 0 :
                media = (media_25.iloc[0] + media_50.iloc[0]) / 2 # Calculo la media de los valores obtenidos y la asigno a la fila correspondiente del df_sat
                df_sat.loc[cond_age_1 & cond_2 & cond_3 & cond_4, "media_ingresos"] = media
            if len(mediana_25) > 0 and len(mediana_25) > 0 :
                mediana = (mediana_25.iloc[0] + mediana_50.iloc[0]) / 2
                df_sat.loc[cond_age_1 & cond_2 & cond_3 & cond_4, "mediana_ingresos"] = mediana

In [772]:
df_sat.loc[df_sat.geo == "AT"].head(20)

Unnamed: 0,isced11,sex,age,geo,TIME_PERIOD,OBS_VALUE,age_ingresos,media_ingresos,mediana_ingresos
4,ED0-2,F,Y16-19,AT,2021,8.2,Y16-24,28228.0,27305.0
5,ED0-2,F,Y16-19,AT,2022,8.1,Y16-24,28058.0,26070.0
6,ED0-2,F,Y16-19,AT,2023,7.9,Y16-24,32885.0,30700.0
7,ED0-2,F,Y16-19,AT,2024,7.7,Y16-24,33804.0,31026.0
210,ED0-2,F,Y16-24,AT,2021,8.2,Y16-24,28228.0,27305.0
211,ED0-2,F,Y16-24,AT,2022,8.1,Y16-24,28058.0,26070.0
212,ED0-2,F,Y16-24,AT,2023,7.8,Y16-24,32885.0,30700.0
213,ED0-2,F,Y16-24,AT,2024,7.7,Y16-24,33804.0,31026.0
622,ED0-2,F,Y20-24,AT,2021,8.0,Y16-24,28228.0,27305.0
623,ED0-2,F,Y20-24,AT,2022,,Y16-24,28058.0,26070.0


In [773]:
df_sat

Unnamed: 0,isced11,sex,age,geo,TIME_PERIOD,OBS_VALUE,age_ingresos,media_ingresos,mediana_ingresos
4,ED0-2,F,Y16-19,AT,2021,8.2,Y16-24,28228.0,27305.0
5,ED0-2,F,Y16-19,AT,2022,8.1,Y16-24,28058.0,26070.0
6,ED0-2,F,Y16-19,AT,2023,7.9,Y16-24,32885.0,30700.0
7,ED0-2,F,Y16-19,AT,2024,7.7,Y16-24,33804.0,31026.0
10,ED0-2,F,Y16-19,BE,2021,7.5,Y16-24,25223.0,24390.0
...,...,...,...,...,...,...,...,...,...
32126,TOTAL,T,Y_GE75,SK,2024,6.4,Y_GE75,10654.0,10494.0
32129,TOTAL,T,Y_GE75,TR,2021,5.5,Y_GE75,4132.0,2963.0
32130,TOTAL,T,Y_GE75,TR,2022,5.6,Y_GE75,4349.0,2805.0
32131,TOTAL,T,Y_GE75,TR,2023,5.5,Y_GE75,3572.0,2615.0


In [774]:
df_sat.info()

<class 'pandas.core.frame.DataFrame'>
Index: 17280 entries, 4 to 32132
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   isced11           17280 non-null  object 
 1   sex               17280 non-null  object 
 2   age               17280 non-null  object 
 3   geo               17280 non-null  object 
 4   TIME_PERIOD       17280 non-null  int64  
 5   OBS_VALUE         16066 non-null  float64
 6   age_ingresos      17280 non-null  object 
 7   media_ingresos    17280 non-null  float64
 8   mediana_ingresos  17280 non-null  float64
dtypes: float64(3), int64(1), object(5)
memory usage: 1.3+ MB


In [775]:
# Lo guardo en un csv
df_sat.to_csv("../data/processed/satisfaccion_ingresos_EU.csv")