# Caderno a sucio de Pedro Herrero Bas

In [2]:
import pandas as pd

## PIB por Comunidades Autónomas y Año

Datos extraidos de https://www.ine.es/daco/daco42/cre00/b2024/pr_cre_pr.xlsx modificados en Excel dada la complejidad de la hoja.
* PIB: Miles de euros.
* Población: Miles de personas.

In [3]:
df_pib = pd.read_csv('./data/PIB_2000-2024.csv')

df_pib.com_aut = df_pib.com_aut.str.title().apply(lambda x: x.split(',')[0]).str.strip()
df_pib

Unnamed: 0,año,com_aut,pib,pob
0,2000,Andalucía,86.760.722,"7.301,8"
1,2000,Aragón,20.431.675,"1.200,8"
2,2000,Asturias,14.156.303,"1.066,1"
3,2000,Balears,16.505.108,8234
4,2000,Canarias,24.986.123,"1.667,4"
...,...,...,...,...
470,2024,Navarra,26.605.806,6809
471,2024,País Vasco,91.625.715,"2.233,9"
472,2024,Rioja,11.225.817,3256
473,2024,Ceuta,1.936.392,834


## Datos Sanidad

Datos extraídos de https://inclasns.sanidad.gob.es/main.html y descargados en excel desde la aplicación web:

### Tasa de suicidios por sexo
* Número de defunciones por 100.000 habitantes
> Debido a que se ha tenido acceso a los datos del Instituto Anatómico Forense de Madrid, se ha introducido una mejora metodológica en el proceso de esta Estadística, que ha permitido asignar de forma más precisa la causa de defunción en las muertes con Intervención Judicial. Como consecuencia, defunciones que estaban asignadas a causas mal definidas han sido reasignadas a causas externas específicas. Por lo tanto, este hecho debe ser tenido en cuenta a la hora de realizar comparaciones con años anteriores a 2013.

In [5]:
df_sui = pd.read_excel('./data/suicidiosxsexo.xls', header=3)
df_sui = df_sui.rename(columns={'Unnamed: 0': 'com_aut'})
df_sui = df_sui[1:20]
df_sui.com_aut = df_sui.com_aut.str.title().apply(lambda x: x.split(',')[0].split('(')[0]).str.strip()
df_sui

Unnamed: 0,com_aut,Hombres,Mujeres,Total,Hombres.1,Mujeres.1,Total.1,Hombres.2,Mujeres.2,Total.2,...,Total.20,Hombres.21,Mujeres.21,Total.21,Hombres.22,Mujeres.22,Total.22,Hombres.23,Mujeres.23,Total.23
1,Andalucía,19.23,4.8,11.17,18.44,4.09,10.36,18.39,4.03,10.35,...,9.28,16.19,4.19,9.78,15.66,3.97,9.44,15.03,3.98,9.14
2,Aragón,12.96,3.74,7.94,12.0,2.97,7.02,14.04,5.62,9.33,...,7.07,12.91,3.7,8.11,12.7,3.78,8.09,11.56,3.22,7.14
3,Asturias,24.72,5.87,13.66,23.46,4.06,12.09,19.25,6.43,11.81,...,10.12,16.6,6.26,11.04,16.59,5.36,10.52,18.24,7.26,12.18
4,Balears,14.92,1.7,7.61,12.35,2.16,6.68,11.75,3.07,7.25,...,7.03,10.93,3.55,7.09,12.85,5.45,9.02,8.76,5.35,6.99
5,Canarias,15.74,4.51,9.63,13.59,2.72,7.85,13.58,2.76,7.86,...,8.85,14.59,5.17,9.75,15.92,4.55,9.97,15.96,4.51,10.05
6,Cantabria,6.49,4.34,5.01,9.68,1.0,4.76,8.94,2.78,5.35,...,7.0,12.86,2.53,7.31,12.3,6.12,9.03,9.87,4.21,6.81
7,Castilla Y León,15.07,4.7,9.34,13.8,2.98,7.97,13.75,3.83,8.37,...,8.19,12.7,5.17,8.81,13.44,4.57,8.8,10.54,4.6,7.4
8,Castilla - La Mancha,15.38,3.13,8.72,13.56,2.73,7.7,14.27,3.0,8.15,...,8.43,13.03,2.92,7.77,13.74,3.36,8.44,12.73,1.93,7.14
9,Cataluña,12.35,3.89,7.66,12.65,4.06,7.86,12.86,4.02,7.93,...,7.05,11.64,3.39,7.18,11.4,4.23,7.55,11.56,3.96,7.58
10,Comunitat Valenciana,14.82,4.57,9.15,13.32,4.61,8.52,11.84,3.5,7.3,...,8.34,11.61,3.8,7.5,12.45,4.15,8.07,12.51,4.84,8.45


In [6]:
df_hom = pd.DataFrame()
df_muj = pd.DataFrame()
for i, col in enumerate(df_sui.columns):
    año = 2000 + i // 3
    if col.startswith('Hom'):
        df_hom_temp = df_sui[['com_aut', col]].rename(columns={col: 'sui_hom'})
        df_hom_temp['año'] = año
        df_hom = pd.concat([df_hom, df_hom_temp])
    elif col.startswith('Muj'):
        df_muj_temp = df_sui[['com_aut', col]].rename(columns={col: 'sui_muj'})
        df_muj_temp['año'] = año
        df_muj = pd.concat([df_muj, df_muj_temp])

df_sui_ord = pd.merge(df_hom, df_muj, 'outer', on=['año', 'com_aut'])

In [7]:
df_pib = pd.merge(df_pib, df_sui_ord, 'outer', ['año', 'com_aut'])

### Tasa de natalidad
* Número de nacimientos por cada 1.000 habitantes

In [8]:
df_nat = pd.read_excel('./data/natalidadx1000.xls', header=3)
df_nat = df_nat.rename(columns={'Unnamed: 0': 'com_aut'})
df_nat = df_nat[1:20]
df_nat.com_aut = df_nat.com_aut.str.title().apply(lambda x: x.split(',')[0].split('(')[0]).str.strip()
df_nat

Unnamed: 0,com_aut,Total,Total.1,Total.2,Total.3,Total.4,Total.5,Total.6,Total.7,Total.8,...,Total.14,Total.15,Total.16,Total.17,Total.18,Total.19,Total.20,Total.21,Total.22,Total.23
1,Andalucía,11.08,11.06,11.01,11.42,11.64,11.76,12.03,11.93,12.28,...,9.8,9.6,9.43,8.89,8.45,8.21,7.72,7.72,7.37,7.13
2,Aragón,8.29,8.62,8.51,8.93,9.21,9.2,9.57,9.82,10.23,...,8.73,8.59,8.3,8.0,7.58,7.28,6.83,7.21,6.73,6.44
3,Asturias,6.33,6.45,6.34,6.69,6.8,7.04,7.14,7.33,7.65,...,6.26,6.18,6.12,5.84,5.6,5.05,4.7,4.74,4.72,4.51
4,Balears,11.36,11.44,12.03,11.86,11.68,11.44,11.83,11.62,12.02,...,9.53,9.38,9.29,8.88,8.75,8.08,7.78,7.81,7.58,7.16
5,Canarias,11.12,10.96,11.24,10.83,10.51,10.73,10.75,10.03,10.28,...,7.74,7.59,7.54,7.29,6.75,6.37,5.87,5.67,5.56,5.39
6,Cantabria,8.16,8.02,8.47,8.94,9.18,9.44,9.27,9.39,10.13,...,7.79,7.5,7.3,7.09,6.55,6.1,5.85,5.63,5.49,5.05
7,Castilla Y León,7.26,7.16,7.36,7.54,7.64,7.81,7.9,7.94,8.37,...,7.2,7.06,6.82,6.4,6.24,5.96,5.71,5.5,5.52,5.23
8,Castilla - La Mancha,9.64,9.6,9.63,9.95,10.01,10.03,10.5,10.42,11.24,...,8.9,8.87,8.71,8.29,7.8,7.51,7.21,7.1,7.01,6.72
9,Cataluña,10.21,10.31,10.59,11.03,11.35,11.49,11.63,11.62,12.1,...,9.67,9.53,9.29,8.97,8.46,8.09,7.64,7.52,7.19,6.81
10,Comunitat Valenciana,10.09,10.27,10.39,10.8,10.89,10.95,11.14,11.19,11.51,...,8.96,8.81,8.52,8.18,7.68,7.47,7.1,7.06,6.9,6.72


In [9]:
df_nat_ord = pd.DataFrame()
for i, col in enumerate(df_nat.columns):
    año = 1999 + i
    if col.startswith('Tot'):
        df_temp = df_nat[['com_aut', col]].rename(columns={col: 'nat'})
        df_temp['año'] = año
        df_nat_ord = pd.concat([df_nat_ord, df_temp])
df_nat_ord

Unnamed: 0,com_aut,nat,año
1,Andalucía,11.08,2000
2,Aragón,8.29,2000
3,Asturias,6.33,2000
4,Balears,11.36,2000
5,Canarias,11.12,2000
...,...,...,...
15,Navarra,6.66,2023
16,País Vasco,6.06,2023
17,Rioja,6.18,2023
18,Ceuta,8.22,2023


In [10]:
df_pib = pd.merge(df_pib, df_nat_ord, 'outer', ['año', 'com_aut'])

*Voy a generar una función para que haga el mismo tratamiento a todos los datos que extraiga de esta página*

In [11]:
def parsear_sanidad(loc:str, nombre:str, sexo:bool, año_inicial:int=2000):

    # === Importar y renombrar columnas y ajustar filas ===
    df = pd.read_excel(loc, header=3)
    df = df.rename(columns={'Unnamed: 0': 'com_aut'})
    df = df[1:20]
    df.com_aut = df.com_aut.str.title().apply(lambda x: x.split(',')[0].split('(')[0]).str.strip()

    # === Covertir al formato que necesito ===
    # === Si solo tiene totales ===
    if not sexo:
        df_ord = pd.DataFrame()
        for i, col in enumerate(df.columns):
            año = año_inicial - 1 + i
            if col.startswith('Tot'):
                df_temp = df[['com_aut', col]].rename(columns={col: nombre})
                df_temp['año'] = año
                df_ord = pd.concat([df_ord, df_temp])
        return df_ord
    
    # === Si tiene sexos ===
    else:
        df_hom = pd.DataFrame()
        df_muj = pd.DataFrame()
        for i, col in enumerate(df.columns):
            año = año_inicial + i // 3
            if col.startswith('Hom'):
                df_hom_temp = df[['com_aut', col]].rename(columns={col: nombre + '_hom'})
                df_hom_temp['año'] = año
                df_hom = pd.concat([df_hom, df_hom_temp])
            elif col.startswith('Muj'):
                df_muj_temp = df[['com_aut', col]].rename(columns={col: nombre + '_muj'})
                df_muj_temp['año'] = año
                df_muj = pd.concat([df_muj, df_muj_temp])

        return pd.merge(df_hom, df_muj, 'outer', on=['año', 'com_aut'])

### Tasa de desempleo por sexo
* Número de parados entre número de personas activas por ciento

> Los resultados de Ceuta y Melilla deben tomarse con precaución porque pueden estar afectados por grandes errores de muestreo.

In [12]:
df_pib = df_pib.merge(parsear_sanidad('./data/paradosxsexo.xls', 'paro', True, 2006), 'outer', ['año', 'com_aut'])

### Tasa de ingresos por sexo
* Promedio de euros obtenido por persona adulta

> En la encuesta de Condiciones de Vida, los ingresos que se utilizan en el cálculo de variables como rentas y tasa de riesgo de pobreza corresponden siempre a los percibidos durante el año natural anterior a la entrevista. Debido al tamaño reducido del número de hogares en la muestra en algunos desgloses, en particular en algunas comunidades autónomas uniprovinciales, los datos pueden estar afectados por errores de muestreo.

In [13]:
df_pib = df_pib.merge(parsear_sanidad('./data/ingresosxsexo.xls', 'ing', True, 2008), 'outer', ['año', 'com_aut'])

### Tasa de riesgo de pobreza por sexo
* Número de personas adultas en riesgo de pobreza entre número de personas adultas por cien.

> En la encuesta de Condiciones de Vida, los ingresos que se utilizan en el cálculo de variables como rentas y tasa de riesgo de pobreza corresponden siempre a los percibidos durante el año natural anterior a la entrevista. Debido al tamaño reducido del número de hogares en la muestra en algunos desgloses, en particular en algunas comunidades autónomas uniprovinciales, los datos pueden estar afectados por errores de muestreo.

In [14]:
df_pib = df_pib.merge(parsear_sanidad('./data/pobrezaxsexo.xls', 'pobr', True, 2014), 'outer', ['año', 'com_aut'])

### Tasa de fumadores por sexo
* Número de personas mayores de 15 años que se declaran fumadoras entre número total de personas mayores de 15 años.

In [15]:
df_pib = df_pib.merge(parsear_sanidad('./data/fumadoresxsexo.xls', 'fum', True, 2001), 'outer', ['año', 'com_aut'])

### Tasa de bebedores con riesgo de alcohol por sexo
* Número de personas mayores de 15 años que se declaran consumo en cantidad considerada de riesgo entre número total de personas mayores de 15 años.

In [16]:
df_pib = df_pib.merge(parsear_sanidad('./data/alcoholxsexo.xls', 'alc', True, 2006), 'outer', ['año', 'com_aut'])

### Tasa de obesidad por sexo
* Número de personas mayores de 18 años con IMC definido como obesidad entre número de personas mayores de 18 años

> Los resultados se infieren a población general (resultados ponderados).

In [17]:
df_pib = df_pib.merge(parsear_sanidad('./data/obesidadxsexo.xls', 'obes', True, 2001), 'outer', ['año', 'com_aut'])

### Consumo diario de frutas y verduras por sexo
* Número de personas mayores de 15 años que declaran consumir diariamente fruta y/o verdura entre número de personas encuestadas por cien.

> De 2001 a 2006 se pregunta: "¿Con qué frecuencia consume fruta fresca?" y "¿Con qué frecuencia consume verduras y hortalizas?". Si la persona entrevistada responde "a diario" a al menos uno de dichos alimentos, se considera que consume a diario fruta fresca y/o verdura. De 2011 en adelante, además de preguntar por el consumo de fruta fresca, se pregunta: "¿Con qué frecuencia consume zumo natural de frutas o verduras?" y "¿Con qué frecuencia consume verduras, ensaladas y hortalizas?". Si la persona entrevistada responde "a diario" al menos a uno de dichos alimentos (sin incluir el consumo de zumos), se considera que consume a diario fruta fresca o verdura. El cambio en la formulación de la pregunta debe tenerse en cuenta para interpretar los resultados.

In [18]:
df_pib = df_pib.merge(parsear_sanidad('./data/frutaxsexo.xls', 'fyv', True, 2003), 'outer', ['año', 'com_aut'])

In [19]:
df_pib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 475 entries, 0 to 474
Data columns (total 21 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   año       475 non-null    int64  
 1   com_aut   475 non-null    object 
 2   pib       475 non-null    object 
 3   pob       475 non-null    object 
 4   sui_hom   456 non-null    float64
 5   sui_muj   456 non-null    float64
 6   nat       456 non-null    float64
 7   paro_hom  361 non-null    float64
 8   paro_muj  361 non-null    float64
 9   ing_hom   323 non-null    float64
 10  ing_muj   323 non-null    float64
 11  pobr_hom  209 non-null    float64
 12  pobr_muj  209 non-null    float64
 13  fum_hom   171 non-null    float64
 14  fum_muj   171 non-null    float64
 15  alc_hom   133 non-null    float64
 16  alc_muj   133 non-null    float64
 17  obes_hom  171 non-null    float64
 18  obes_muj  171 non-null    float64
 19  fyv_hom   133 non-null    float64
 20  fyv_muj   133 non-null    float6

In [20]:
df_pib

Unnamed: 0,año,com_aut,pib,pob,sui_hom,sui_muj,nat,paro_hom,paro_muj,ing_hom,...,pobr_hom,pobr_muj,fum_hom,fum_muj,alc_hom,alc_muj,obes_hom,obes_muj,fyv_hom,fyv_muj
0,2000,Andalucía,86.760.722,"7.301,8",19.23,4.80,11.08,,,,...,,,,,,,,,,
1,2000,Aragón,20.431.675,"1.200,8",12.96,3.74,8.29,,,,...,,,,,,,,,,
2,2000,Asturias,14.156.303,"1.066,1",24.72,5.87,6.33,,,,...,,,,,,,,,,
3,2000,Balears,16.505.108,8234,14.92,1.70,11.36,,,,...,,,,,,,,,,
4,2000,Canarias,24.986.123,"1.667,4",15.74,4.51,11.12,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
470,2024,Melilla,1.826.316,864,,,,27.32,29.53,14612.0,...,40.5,38.1,,,,,,,,
471,2024,Murcia,41.901.936,"1.576,9",,,,11.41,14.31,12906.0,...,27.6,31.1,,,,,,,,
472,2024,Navarra,26.605.806,6809,,,,6.95,8.40,19118.0,...,12.7,17.4,,,,,,,,
473,2024,País Vasco,91.625.715,"2.233,9",,,,8.73,7.43,20427.0,...,12.7,14.5,,,,,,,,
