# Datos de afiliación a la SS y Paro

En este cuaderno formateamos los datos de afiliación a la Seguridad Social y el paro, obtenidos a partir de hojas de cálculo presentes en las web de la SS y del SEPE, respectivamente.

Pudimos haber separado estos datos uno en cada cuaderno, pero ya que su significado está muy relacionado, decidimos tratarlos conjuntamente. Por otro lado, tienen otro punto en común: se trata de datos distribuidos por municipios, no secciones electorales, que, de todas formas, pensamos que son útiles de todas formas.

En el caso de los datos de la Seguridad Social, decidimos aprovechar el formato de en el fichero excel y obtener los datos por provincias. 

Comenzamos con los datos de afiliación a la SS. 

## Datos de afiliación a la Seguridad Social

Como es costumbre, comenzamos cargando las librerías necesarias y el fichero de afiliacion a la SS de noviembre de 2019, correspondiente a las elecciones generales celebradas ese mismo mes.

In [None]:
import pandas as pd
import numpy as np

In [None]:
seg_sol = pd.read_excel('/content/drive/MyDrive/Proyecto_KeepCoding - Propio/Data/SS_Paro/AfiliadosMuni-11-2019.xlsx', header = 1)

In [None]:
seg_sol.head()

Unnamed: 0,PROVINCIA,MUNICIPIO,TRAB,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,TOTAL
0,01 ARABA/ÁLAVA,01001 ALEGRIA-DULANTZI,TRAB.,495,<5,15,0,208,0,>718
1,01 ARABA/ÁLAVA,01002 AMURRIO,TRAB.,3455,10,95,0,626,0,4186
2,01 ARABA/ÁLAVA,01003 ARAMAIO,TRAB.,189,<5,<5,0,57,0,>246
3,01 ARABA/ÁLAVA,01004 ARTZINIEGA,TRAB.,257,<5,7,0,113,0,>377
4,01 ARABA/ÁLAVA,01006 ARMIÑON,TRAB.,132,0,0,0,20,0,152


Vemos que tenemos el problema que los datos vienen como tipo objeto, debido a las entradas '<5'. 

Por simplicidad, lo sustituimos en todo el df por el número 2, que pensamos puede ser bastante aproximado a la realidad.

In [None]:
seg_sol.dtypes

PROVINCIA              object
MUNICIPIO              object
TRAB                   object
Reg. General(1)        object
R. G.- S.E.Agrario     object
R. G.- S.E.Hogar(2)    object
R. E. MAR              object
R. E. T. Autónomos     object
R. E. M. Carbón        object
TOTAL                  object
dtype: object

In [None]:
seg_sol.replace('<5', '2')

Unnamed: 0,PROVINCIA,MUNICIPIO,TRAB,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,TOTAL
0,01 ARABA/ÁLAVA,01001 ALEGRIA-DULANTZI,TRAB.,495,2,15,0,208,0,>718
1,01 ARABA/ÁLAVA,01002 AMURRIO,TRAB.,3455,10,95,0,626,0,4186
2,01 ARABA/ÁLAVA,01003 ARAMAIO,TRAB.,189,2,2,0,57,0,>246
3,01 ARABA/ÁLAVA,01004 ARTZINIEGA,TRAB.,257,2,7,0,113,0,>377
4,01 ARABA/ÁLAVA,01006 ARMIÑON,TRAB.,132,0,0,0,20,0,152
...,...,...,...,...,...,...,...,...,...,...
8225,,,,,,,,,,
8226,,,,,,,,,,
8227,(*) SIN DISTRIBUCIÓN: Incluye Cuidadores no Pr...,,,,,,,,,
8228,(1) Régimen General: No se incluyen datos de l...,,,,,,,,,


Por otro lado nos encontramos con que pandas ha leido las celdas finales del fichero excel, que no nos interesan. Las suprimimos del df.

In [None]:
seg_sol[8190:8220]

Unnamed: 0,PROVINCIA,MUNICIPIO,TRAB,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,TOTAL
8190,50 ZARAGOZA,50284 VILLAFELICHE,TRAB.,<5,5,0,0.0,14,0.0,>19
8191,50 ZARAGOZA,50285 VILLAFRANCA DE EBRO,TRAB.,102,<5,5,0.0,63,0.0,>170
8192,50 ZARAGOZA,50286 VILLALBA DE PEREJIL,TRAB.,<5,0,0,0.0,<5,0.0,>0
8193,50 ZARAGOZA,50287 VILLALENGUA,TRAB.,25,<5,0,0.0,45,0.0,>70
8194,50 ZARAGOZA,50288 VILLANUEVA DE GALLEGO,TRAB.,5646,6,84,0.0,578,0.0,6314
8195,50 ZARAGOZA,50289 VILLANUEVA DE JILOCA,TRAB.,<5,0,0,0.0,0,0.0,>0
8196,50 ZARAGOZA,50290 VILLANUEVA DE HUERVA,TRAB.,37,9,<5,0.0,45,0.0,>91
8197,50 ZARAGOZA,50291 VILLAR DE LOS NAVARROS,TRAB.,<5,<5,0,0.0,10,0.0,>10
8198,50 ZARAGOZA,50292 VILLARREAL DE HUERVA,TRAB.,225,<5,<5,0.0,26,0.0,>251
8199,50 ZARAGOZA,50293 VILLARROYA DE LA SIERRA,TRAB.,24,<5,0,0.0,40,0.0,>64


In [None]:
seg_sol = seg_sol[:8215].replace('<5', '2')

In [None]:
seg_sol

Unnamed: 0,PROVINCIA,MUNICIPIO,TRAB,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,TOTAL
0,01 ARABA/ÁLAVA,01001 ALEGRIA-DULANTZI,TRAB.,495,2,15,0,208,0,>718
1,01 ARABA/ÁLAVA,01002 AMURRIO,TRAB.,3455,10,95,0,626,0,4186
2,01 ARABA/ÁLAVA,01003 ARAMAIO,TRAB.,189,2,2,0,57,0,>246
3,01 ARABA/ÁLAVA,01004 ARTZINIEGA,TRAB.,257,2,7,0,113,0,>377
4,01 ARABA/ÁLAVA,01006 ARMIÑON,TRAB.,132,0,0,0,20,0,152
...,...,...,...,...,...,...,...,...,...,...
8210,51 CEUTA,PROVINCIAL,TRAB.,16887,2,2066,197,3390,0,>22.540
8211,51 CEUTA,SIN DISTRIBUCIÓN (*),TRAB.,91,2,2,0,48,0,>139
8212,52 MELILLA,52001 MELILLA,TRAB.,17572,5,1692,102,4560,0,23931
8213,52 MELILLA,PROVINCIAL,TRAB.,17742,6,1692,102,4700,0,24242


Ahora tenemos que transformar las columnas que son legítimamente numéricas al tipo entero, para lo que utilizamos el método .to_mumeric

In [None]:
seg_sol.columns

Index(['PROVINCIA', 'MUNICIPIO', 'TRAB', 'Reg. General(1)',
       'R. G.- S.E.Agrario', 'R. G.- S.E.Hogar(2)', 'R. E. MAR ',
       'R. E. T. Autónomos', 'R. E. M. Carbón', 'TOTAL'],
      dtype='object')

In [None]:
num = ['Reg. General(1)',
       'R. G.- S.E.Agrario', 'R. G.- S.E.Hogar(2)', 'R. E. MAR ',
       'R. E. T. Autónomos', 'R. E. M. Carbón']

In [None]:
seg_sol[num] = seg_sol[num].apply(pd.to_numeric, errors='coerce')

In [None]:
seg_sol.dtypes

PROVINCIA              object
MUNICIPIO              object
TRAB                   object
Reg. General(1)         int64
R. G.- S.E.Agrario      int64
R. G.- S.E.Hogar(2)     int64
R. E. MAR               int64
R. E. T. Autónomos      int64
R. E. M. Carbón         int64
TOTAL                  object
dtype: object

Creamos una columna con el total de afiliados, utilizando una comprehension.

In [None]:
seg_sol['Total_afiliados'] = sum(seg_sol[x] for x in num)

In [None]:
seg_sol

Unnamed: 0,PROVINCIA,MUNICIPIO,TRAB,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,TOTAL,Total_afiliados
0,01 ARABA/ÁLAVA,01001 ALEGRIA-DULANTZI,TRAB.,495,2,15,0,208,0,>718,720
1,01 ARABA/ÁLAVA,01002 AMURRIO,TRAB.,3455,10,95,0,626,0,4186,4186
2,01 ARABA/ÁLAVA,01003 ARAMAIO,TRAB.,189,2,2,0,57,0,>246,250
3,01 ARABA/ÁLAVA,01004 ARTZINIEGA,TRAB.,257,2,7,0,113,0,>377,379
4,01 ARABA/ÁLAVA,01006 ARMIÑON,TRAB.,132,0,0,0,20,0,152,152
...,...,...,...,...,...,...,...,...,...,...,...
8210,51 CEUTA,PROVINCIAL,TRAB.,16887,2,2066,197,3390,0,>22.540,22542
8211,51 CEUTA,SIN DISTRIBUCIÓN (*),TRAB.,91,2,2,0,48,0,>139,143
8212,52 MELILLA,52001 MELILLA,TRAB.,17572,5,1692,102,4560,0,23931,23931
8213,52 MELILLA,PROVINCIAL,TRAB.,17742,6,1692,102,4700,0,24242,24242


In [None]:
seg_sol.columns

Index(['PROVINCIA', 'MUNICIPIO', 'TRAB', 'Reg. General(1)',
       'R. G.- S.E.Agrario', 'R. G.- S.E.Hogar(2)', 'R. E. MAR ',
       'R. E. T. Autónomos', 'R. E. M. Carbón', 'TOTAL', 'Total_afiliados'],
      dtype='object')

In [None]:
seg_sol = seg_sol[['PROVINCIA', 'MUNICIPIO',  'Reg. General(1)',
       'R. G.- S.E.Agrario', 'R. G.- S.E.Hogar(2)', 'R. E. MAR ',
       'R. E. T. Autónomos', 'R. E. M. Carbón', 'Total_afiliados']]

Como hemos mencionado, aprovechamos la estructura del fichero excel para seleccionar por un lado los datos provinciales, que pueden sernos útiles más adelante. Lo hacemos seleccionando los registros que contengan la cadena 'PROVINCIAL'.

In [None]:
seg_sol_prov = seg_sol.loc[seg_sol['MUNICIPIO'] == 'PROVINCIAL']

In [None]:
seg_sol_prov

Unnamed: 0,PROVINCIA,MUNICIPIO,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,Total_afiliados
51,01 ARABA/ÁLAVA,PROVINCIAL,137351,706,2964,0,20482,0,161503
140,02 ALBACETE,PROVINCIAL,99059,9916,2342,0,29882,0,141199
283,03 ALICANTE/ALACANT,PROVINCIAL,505612,17252,9090,2572,132776,0,667302
388,04 ALMERIA,PROVINCIAL,184218,56661,2655,945,59498,0,303977
638,05 AVILA,PROVINCIAL,37070,1559,1063,0,14265,0,53957
805,06 BADAJOZ,PROVINCIAL,157765,39289,2647,0,49220,0,248921
874,07 ILLES BALEARS,PROVINCIAL,339249,2407,9972,1915,91248,0,444791
1187,08 BARCELONA,PROVINCIAL,2194000,4728,49704,3367,397477,0,2649276
1556,09 BURGOS,PROVINCIAL,117076,1144,2584,0,27531,0,148335
1781,10 CACERES,PROVINCIAL,91227,18880,1916,0,31313,0,143336


In [None]:
seg_sol_prov.shape

(52, 9)

Ahora seleccionamos los datos de los municipios como tales, quitando los provinciales, nacionales, y los que, extrañamente, no tienen distribución. Obtenemos unos 8.110 registros, que tiene pinta se ser correcto.

In [None]:
seg_sol_muni = seg_sol.loc[seg_sol['MUNICIPIO'] != 'PROVINCIAL']
seg_sol_muni = seg_sol_muni.loc[seg_sol_muni['MUNICIPIO'] != 'SIN DISTRIBUCIÓN (*)']
seg_sol_muni = seg_sol_muni.loc[seg_sol_muni['PROVINCIA'] != 'NACIONAL']




In [None]:
seg_sol_muni

Unnamed: 0,PROVINCIA,MUNICIPIO,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,Total_afiliados
0,01 ARABA/ÁLAVA,01001 ALEGRIA-DULANTZI,495,2,15,0,208,0,720
1,01 ARABA/ÁLAVA,01002 AMURRIO,3455,10,95,0,626,0,4186
2,01 ARABA/ÁLAVA,01003 ARAMAIO,189,2,2,0,57,0,250
3,01 ARABA/ÁLAVA,01004 ARTZINIEGA,257,2,7,0,113,0,379
4,01 ARABA/ÁLAVA,01006 ARMIÑON,132,0,0,0,20,0,152
...,...,...,...,...,...,...,...,...,...
8204,50 ZARAGOZA,50901 BIEL-FUENCALDERAS,25,2,0,0,11,0,38
8205,50 ZARAGOZA,50902 MARRACOS,2,0,0,0,7,0,9
8206,50 ZARAGOZA,50903 VILLAMAYOR DE GALLEGO,458,32,16,0,217,0,723
8209,51 CEUTA,51001 CEUTA,16796,2,2065,197,3342,0,22402


In [None]:
seg_sol_muni['MUNICIPIO'].value_counts()

45036 CARMENA                     1
16903 VALERAS (LAS)               1
39075 SANTANDER                   1
43906 AMPOLLA (L')                1
28135 SANTA MARIA DE LA ALAMED    1
                                 ..
06046 ESPARRAGALEJO               1
09166 HORMAZAS (LAS)              1
34127 PERALES                     1
45042 CASASBUENAS                 1
09411 VALLE DE OCA                1
Name: MUNICIPIO, Length: 8111, dtype: int64

Añadimos dos columnas con los códigos de los municipios, que nos serán útiles para hacer la unificación de los datos, y el numbre del municipio. Estos datos los extraemos de la columna 'MUNICIPIO'. 

In [None]:
seg_sol_muni['cod_mun'] = seg_sol_muni['MUNICIPIO'].str[0:5]

In [None]:
seg_sol_muni['Municipio'] = seg_sol_muni['MUNICIPIO'].str[6:]

In [None]:
seg_sol_muni

Unnamed: 0,PROVINCIA,MUNICIPIO,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,Total_afiliados,cod_mun,Municipio
0,01 ARABA/ÁLAVA,01001 ALEGRIA-DULANTZI,495,2,15,0,208,0,720,01001,ALEGRIA-DULANTZI
1,01 ARABA/ÁLAVA,01002 AMURRIO,3455,10,95,0,626,0,4186,01002,AMURRIO
2,01 ARABA/ÁLAVA,01003 ARAMAIO,189,2,2,0,57,0,250,01003,ARAMAIO
3,01 ARABA/ÁLAVA,01004 ARTZINIEGA,257,2,7,0,113,0,379,01004,ARTZINIEGA
4,01 ARABA/ÁLAVA,01006 ARMIÑON,132,0,0,0,20,0,152,01006,ARMIÑON
...,...,...,...,...,...,...,...,...,...,...,...
8204,50 ZARAGOZA,50901 BIEL-FUENCALDERAS,25,2,0,0,11,0,38,50901,BIEL-FUENCALDERAS
8205,50 ZARAGOZA,50902 MARRACOS,2,0,0,0,7,0,9,50902,MARRACOS
8206,50 ZARAGOZA,50903 VILLAMAYOR DE GALLEGO,458,32,16,0,217,0,723,50903,VILLAMAYOR DE GALLEGO
8209,51 CEUTA,51001 CEUTA,16796,2,2065,197,3342,0,22402,51001,CEUTA


Calculamos una nueva columna, la de la proporción de autónomos entre los afiliados, que pensamos puede estar correlacionada con el voto en unas elecciones.

In [None]:
seg_sol_muni['prop_autonomos'] = seg_sol_muni['R. E. T. Autónomos'] / seg_sol_muni['Total_afiliados']

In [None]:
seg_sol_muni

Unnamed: 0,PROVINCIA,MUNICIPIO,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,Total_afiliados,cod_mun,Municipio,prop_autonomos
0,01 ARABA/ÁLAVA,01001 ALEGRIA-DULANTZI,495,2,15,0,208,0,720,01001,ALEGRIA-DULANTZI,0.288889
1,01 ARABA/ÁLAVA,01002 AMURRIO,3455,10,95,0,626,0,4186,01002,AMURRIO,0.149546
2,01 ARABA/ÁLAVA,01003 ARAMAIO,189,2,2,0,57,0,250,01003,ARAMAIO,0.228000
3,01 ARABA/ÁLAVA,01004 ARTZINIEGA,257,2,7,0,113,0,379,01004,ARTZINIEGA,0.298153
4,01 ARABA/ÁLAVA,01006 ARMIÑON,132,0,0,0,20,0,152,01006,ARMIÑON,0.131579
...,...,...,...,...,...,...,...,...,...,...,...,...
8204,50 ZARAGOZA,50901 BIEL-FUENCALDERAS,25,2,0,0,11,0,38,50901,BIEL-FUENCALDERAS,0.289474
8205,50 ZARAGOZA,50902 MARRACOS,2,0,0,0,7,0,9,50902,MARRACOS,0.777778
8206,50 ZARAGOZA,50903 VILLAMAYOR DE GALLEGO,458,32,16,0,217,0,723,50903,VILLAMAYOR DE GALLEGO,0.300138
8209,51 CEUTA,51001 CEUTA,16796,2,2065,197,3342,0,22402,51001,CEUTA,0.149183


In [None]:
seg_sol_muni.columns

Index(['PROVINCIA', 'MUNICIPIO', 'Reg. General(1)', 'R. G.- S.E.Agrario',
       'R. G.- S.E.Hogar(2)', 'R. E. MAR ', 'R. E. T. Autónomos',
       'R. E. M. Carbón', 'Total_afiliados', 'cod_mun', 'Municipio',
       'prop_autonomos'],
      dtype='object')

Finalmente nos quedamos con las columnas que nos interesan realmente: la afiliación total y la proporción de autónomos., a parte de la definición de los municipios en sí mismos.

In [None]:
seg_sol_muni = seg_sol_muni[['PROVINCIA', 'cod_mun', 'Municipio', 'Total_afiliados',
       'prop_autonomos']]

In [None]:
seg_sol_muni.reset_index(drop = True)

Unnamed: 0,PROVINCIA,cod_mun,Municipio,Total_afiliados,prop_autonomos
0,01 ARABA/ÁLAVA,01001,ALEGRIA-DULANTZI,720,0.288889
1,01 ARABA/ÁLAVA,01002,AMURRIO,4186,0.149546
2,01 ARABA/ÁLAVA,01003,ARAMAIO,250,0.228000
3,01 ARABA/ÁLAVA,01004,ARTZINIEGA,379,0.298153
4,01 ARABA/ÁLAVA,01006,ARMIÑON,152,0.131579
...,...,...,...,...,...
8106,50 ZARAGOZA,50901,BIEL-FUENCALDERAS,38,0.289474
8107,50 ZARAGOZA,50902,MARRACOS,9,0.777778
8108,50 ZARAGOZA,50903,VILLAMAYOR DE GALLEGO,723,0.300138
8109,51 CEUTA,51001,CEUTA,22402,0.149183


In [None]:
seg_sol_muni

Unnamed: 0,PROVINCIA,cod_mun,Municipio,Total_afiliados,prop_autonomos
0,01 ARABA/ÁLAVA,01001,ALEGRIA-DULANTZI,720,0.288889
1,01 ARABA/ÁLAVA,01002,AMURRIO,4186,0.149546
2,01 ARABA/ÁLAVA,01003,ARAMAIO,250,0.228000
3,01 ARABA/ÁLAVA,01004,ARTZINIEGA,379,0.298153
4,01 ARABA/ÁLAVA,01006,ARMIÑON,152,0.131579
...,...,...,...,...,...
8204,50 ZARAGOZA,50901,BIEL-FUENCALDERAS,38,0.289474
8205,50 ZARAGOZA,50902,MARRACOS,9,0.777778
8206,50 ZARAGOZA,50903,VILLAMAYOR DE GALLEGO,723,0.300138
8209,51 CEUTA,51001,CEUTA,22402,0.149183


Finalmente guardamos los datos de afiliación a la Seguridad Social de los municipios, en este caso los correspondientes a noviembre 2019. Hicimos lo propio con los de las otras cuatro elecciones.

In [None]:
seg_sol_muni.to_csv('/content/drive/MyDrive/Proyecto_KeepCoding - Propio/Data/Gen-19-Nov/seg_sol_muni_N19.txt', sep = ',', index = False)

Ahora vamos con los datos provinciales, donde básicamente hacemos lo mismo que con los municipales. Comenzamos creando una columna con el código de provincia y a continuación otra con el nombre de éstas.

In [None]:
seg_sol_prov['cod_prov'] = seg_sol_prov['PROVINCIA'].str[0:2]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
seg_sol_prov

Unnamed: 0,PROVINCIA,MUNICIPIO,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,Total_afiliados,cod_prov
51,01 ARABA/ÁLAVA,PROVINCIAL,137351,706,2964,0,20482,0,161503,1
140,02 ALBACETE,PROVINCIAL,99059,9916,2342,0,29882,0,141199,2
283,03 ALICANTE/ALACANT,PROVINCIAL,505612,17252,9090,2572,132776,0,667302,3
388,04 ALMERIA,PROVINCIAL,184218,56661,2655,945,59498,0,303977,4
638,05 AVILA,PROVINCIAL,37070,1559,1063,0,14265,0,53957,5
805,06 BADAJOZ,PROVINCIAL,157765,39289,2647,0,49220,0,248921,6
874,07 ILLES BALEARS,PROVINCIAL,339249,2407,9972,1915,91248,0,444791,7
1187,08 BARCELONA,PROVINCIAL,2194000,4728,49704,3367,397477,0,2649276,8
1556,09 BURGOS,PROVINCIAL,117076,1144,2584,0,27531,0,148335,9
1781,10 CACERES,PROVINCIAL,91227,18880,1916,0,31313,0,143336,10


In [None]:
seg_sol_prov['Provincia'] = seg_sol_prov['PROVINCIA'].str[3:]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
seg_sol_prov

Unnamed: 0,PROVINCIA,MUNICIPIO,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,Total_afiliados,cod_prov,Provincia
51,01 ARABA/ÁLAVA,PROVINCIAL,137351,706,2964,0,20482,0,161503,1,ARABA/ÁLAVA
140,02 ALBACETE,PROVINCIAL,99059,9916,2342,0,29882,0,141199,2,ALBACETE
283,03 ALICANTE/ALACANT,PROVINCIAL,505612,17252,9090,2572,132776,0,667302,3,ALICANTE/ALACANT
388,04 ALMERIA,PROVINCIAL,184218,56661,2655,945,59498,0,303977,4,ALMERIA
638,05 AVILA,PROVINCIAL,37070,1559,1063,0,14265,0,53957,5,AVILA
805,06 BADAJOZ,PROVINCIAL,157765,39289,2647,0,49220,0,248921,6,BADAJOZ
874,07 ILLES BALEARS,PROVINCIAL,339249,2407,9972,1915,91248,0,444791,7,ILLES BALEARS
1187,08 BARCELONA,PROVINCIAL,2194000,4728,49704,3367,397477,0,2649276,8,BARCELONA
1556,09 BURGOS,PROVINCIAL,117076,1144,2584,0,27531,0,148335,9,BURGOS
1781,10 CACERES,PROVINCIAL,91227,18880,1916,0,31313,0,143336,10,CACERES


También en las provincias añadimos la columna de la proporción de afiliados a la SS que son autónomos.

In [None]:
seg_sol_prov['prop_autonomos'] = seg_sol_prov['R. E. T. Autónomos'] / seg_sol_prov['Total_afiliados']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
seg_sol_prov

Unnamed: 0,PROVINCIA,MUNICIPIO,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,Total_afiliados,cod_prov,Provincia,prop_autonomos
51,01 ARABA/ÁLAVA,PROVINCIAL,137351,706,2964,0,20482,0,161503,1,ARABA/ÁLAVA,0.126821
140,02 ALBACETE,PROVINCIAL,99059,9916,2342,0,29882,0,141199,2,ALBACETE,0.21163
283,03 ALICANTE/ALACANT,PROVINCIAL,505612,17252,9090,2572,132776,0,667302,3,ALICANTE/ALACANT,0.198974
388,04 ALMERIA,PROVINCIAL,184218,56661,2655,945,59498,0,303977,4,ALMERIA,0.195732
638,05 AVILA,PROVINCIAL,37070,1559,1063,0,14265,0,53957,5,AVILA,0.264377
805,06 BADAJOZ,PROVINCIAL,157765,39289,2647,0,49220,0,248921,6,BADAJOZ,0.197733
874,07 ILLES BALEARS,PROVINCIAL,339249,2407,9972,1915,91248,0,444791,7,ILLES BALEARS,0.205148
1187,08 BARCELONA,PROVINCIAL,2194000,4728,49704,3367,397477,0,2649276,8,BARCELONA,0.150032
1556,09 BURGOS,PROVINCIAL,117076,1144,2584,0,27531,0,148335,9,BURGOS,0.1856
1781,10 CACERES,PROVINCIAL,91227,18880,1916,0,31313,0,143336,10,CACERES,0.218459


In [None]:
seg_sol_prov.reset_index()

Unnamed: 0,index,PROVINCIA,MUNICIPIO,Reg. General(1),R. G.- S.E.Agrario,R. G.- S.E.Hogar(2),R. E. MAR,R. E. T. Autónomos,R. E. M. Carbón,Total_afiliados,cod_prov,Provincia,prop_autonomos
0,51,01 ARABA/ÁLAVA,PROVINCIAL,137351,706,2964,0,20482,0,161503,1,ARABA/ÁLAVA,0.126821
1,140,02 ALBACETE,PROVINCIAL,99059,9916,2342,0,29882,0,141199,2,ALBACETE,0.21163
2,283,03 ALICANTE/ALACANT,PROVINCIAL,505612,17252,9090,2572,132776,0,667302,3,ALICANTE/ALACANT,0.198974
3,388,04 ALMERIA,PROVINCIAL,184218,56661,2655,945,59498,0,303977,4,ALMERIA,0.195732
4,638,05 AVILA,PROVINCIAL,37070,1559,1063,0,14265,0,53957,5,AVILA,0.264377
5,805,06 BADAJOZ,PROVINCIAL,157765,39289,2647,0,49220,0,248921,6,BADAJOZ,0.197733
6,874,07 ILLES BALEARS,PROVINCIAL,339249,2407,9972,1915,91248,0,444791,7,ILLES BALEARS,0.205148
7,1187,08 BARCELONA,PROVINCIAL,2194000,4728,49704,3367,397477,0,2649276,8,BARCELONA,0.150032
8,1556,09 BURGOS,PROVINCIAL,117076,1144,2584,0,27531,0,148335,9,BURGOS,0.1856
9,1781,10 CACERES,PROVINCIAL,91227,18880,1916,0,31313,0,143336,10,CACERES,0.218459


Tras resetear el índice, seleccionamos las columnas que nos interesan, que son las mismas que en el caso de los municipios.

In [None]:
seg_sol_prov.columns

Index(['PROVINCIA', 'MUNICIPIO', 'Reg. General(1)', 'R. G.- S.E.Agrario',
       'R. G.- S.E.Hogar(2)', 'R. E. MAR ', 'R. E. T. Autónomos',
       'R. E. M. Carbón', 'Total_afiliados', 'cod_prov', 'Provincia',
       'prop_autonomos'],
      dtype='object')

In [None]:
seg_sol_prov = seg_sol_prov[['cod_prov', 'Provincia', 'Total_afiliados', 'prop_autonomos']]

In [None]:
seg_sol_prov.reset_index(drop = True)

Unnamed: 0,cod_prov,Provincia,Total_afiliados,prop_autonomos
0,1,ARABA/ÁLAVA,161503,0.126821
1,2,ALBACETE,141199,0.21163
2,3,ALICANTE/ALACANT,667302,0.198974
3,4,ALMERIA,303977,0.195732
4,5,AVILA,53957,0.264377
5,6,BADAJOZ,248921,0.197733
6,7,ILLES BALEARS,444791,0.205148
7,8,BARCELONA,2649276,0.150032
8,9,BURGOS,148335,0.1856
9,10,CACERES,143336,0.218459


Finalmente guardamos el dataset, que de nuevo habra uno por elección. En el nombre dejamos claro que se trata de datos provinciales.

In [None]:
seg_sol_prov.to_csv('/content/drive/MyDrive/Proyecto_KeepCoding - Propio/Data/Gen-19-Nov/seg_sol_prov_N19.txt', sep = ',', index = False)

## Datos de paro

Ahora examinamos los datos del paro, que también se expreasan por municipio, aunque en esta ocasión no podremos extraer los agregados por provincias directamente.

Comenzamos intentando que pandas nos carge los códigos geográficos en forma de strings.

In [None]:
cols_str = ['Código de CA', 'Codigo Provincia', 'Codigo Municipio']

In [None]:
dict_str = { x : 'str' for x in cols_str}

In [None]:
dict_str

{'Codigo Municipio': 'str', 'Codigo Provincia': 'str', 'Código de CA': 'str'}

In [None]:
paro = pd.read_excel('/content/drive/MyDrive/Proyecto_KeepCoding - Propio/Data/SS_Paro/Dtes_empleo_por_municipios_segundo_semestre_2019_xls.xls', 
                     header = 1, dtype = dict_str)

Sin embargo vemos que estos códigos estaban con el formato incorrecto ya en origen (fichero excel). Para corregirlo echamos mano del método .zfill()

In [None]:
paro

Unnamed: 0,Código mes,mes,Código de CA,Comunidad Autónoma,Codigo Provincia,Provincia,Codigo Municipio,Municipio,total Dtes Empleo,Dtes Empleo hombre edad < 25,Dtes Empleo hombre edad 25 -45,Dtes Empleo hombre edad >=45,Dtes Empleo mujer edad < 25,Dtes Empleo mujer edad 25 -45,Dtes Empleo mujer edad >=45,Dtes EmpleoAgricultura,Dtes Empleo Industria,Dtes Empleo Construcción,Dtes Empleo Servicios,Dtes Empleo Sin empleo Anterior
0,201907,Julio de 2019,1,Andalucía,4,Almería,4001,Abla,123,2,16,40,4,18,43,26,6,4,84,3
1,201907,Julio de 2019,1,Andalucía,4,Almería,4002,Abrucena,169,8,20,41,6,27,67,53,6,13,88,9
2,201907,Julio de 2019,1,Andalucía,4,Almería,4003,Adra,3955,148,634,658,191,1193,1131,769,93,223,2641,229
3,201907,Julio de 2019,1,Andalucía,4,Almería,4004,Albánchez,43,3,3,14,0,13,10,6,2,0,33,2
4,201907,Julio de 2019,1,Andalucía,4,Almería,4005,Alboloduy,91,0,13,21,1,23,33,27,6,8,48,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48757,201912,Diciembre de 2019,17,"Rioja, La",26,"Rioja, La",26180,Zarratón,3,0,1,1,0,1,0,0,0,0,3,0
48758,201912,Diciembre de 2019,17,"Rioja, La",26,"Rioja, La",26181,Zarzosa,0,0,0,0,0,0,0,0,0,0,0,0
48759,201912,Diciembre de 2019,17,"Rioja, La",26,"Rioja, La",26183,Zorraquín,7,0,1,2,0,2,2,0,1,0,6,0
48760,201912,Diciembre de 2019,18,Ceuta,51,Ceuta,51001,Ceuta,13431,747,2293,2318,982,3878,3213,89,483,559,9895,2405


In [None]:
paro.dtypes

Código mes                          int64
mes                                object
Código de CA                       object
Comunidad Autónoma                 object
Codigo Provincia                   object
Provincia                          object
Codigo Municipio                   object
 Municipio                         object
total Dtes Empleo                   int64
Dtes Empleo hombre edad < 25        int64
Dtes Empleo hombre edad 25 -45      int64
Dtes Empleo hombre edad >=45        int64
Dtes Empleo mujer edad < 25         int64
Dtes Empleo mujer edad 25 -45       int64
Dtes Empleo mujer edad >=45         int64
Dtes EmpleoAgricultura              int64
Dtes Empleo Industria               int64
Dtes Empleo Construcción            int64
Dtes Empleo Servicios               int64
Dtes Empleo Sin empleo Anterior     int64
dtype: object

In [None]:
paro["Código de CA"]= paro["Código de CA"].str.zfill(2)

In [None]:
paro["Codigo Provincia"]= paro["Codigo Provincia"].str.zfill(2)
paro["Codigo Municipio"]= paro["Codigo Municipio"].str.zfill(5)

Ahora sí que los códigos de provincia, CCAA y municipio parecen tener un formato adecuado.

In [None]:
paro

Unnamed: 0,Código mes,mes,Código de CA,Comunidad Autónoma,Codigo Provincia,Provincia,Codigo Municipio,Municipio,total Dtes Empleo,Dtes Empleo hombre edad < 25,Dtes Empleo hombre edad 25 -45,Dtes Empleo hombre edad >=45,Dtes Empleo mujer edad < 25,Dtes Empleo mujer edad 25 -45,Dtes Empleo mujer edad >=45,Dtes EmpleoAgricultura,Dtes Empleo Industria,Dtes Empleo Construcción,Dtes Empleo Servicios,Dtes Empleo Sin empleo Anterior
0,201907,Julio de 2019,01,Andalucía,04,Almería,04001,Abla,123,2,16,40,4,18,43,26,6,4,84,3
1,201907,Julio de 2019,01,Andalucía,04,Almería,04002,Abrucena,169,8,20,41,6,27,67,53,6,13,88,9
2,201907,Julio de 2019,01,Andalucía,04,Almería,04003,Adra,3955,148,634,658,191,1193,1131,769,93,223,2641,229
3,201907,Julio de 2019,01,Andalucía,04,Almería,04004,Albánchez,43,3,3,14,0,13,10,6,2,0,33,2
4,201907,Julio de 2019,01,Andalucía,04,Almería,04005,Alboloduy,91,0,13,21,1,23,33,27,6,8,48,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48757,201912,Diciembre de 2019,17,"Rioja, La",26,"Rioja, La",26180,Zarratón,3,0,1,1,0,1,0,0,0,0,3,0
48758,201912,Diciembre de 2019,17,"Rioja, La",26,"Rioja, La",26181,Zarzosa,0,0,0,0,0,0,0,0,0,0,0,0
48759,201912,Diciembre de 2019,17,"Rioja, La",26,"Rioja, La",26183,Zorraquín,7,0,1,2,0,2,2,0,1,0,6,0
48760,201912,Diciembre de 2019,18,Ceuta,51,Ceuta,51001,Ceuta,13431,747,2293,2318,982,3878,3213,89,483,559,9895,2405


Los ficheros excel que proporciona el SEPE están agregados por semestres, en este caso el 2º de 2019. Seleccionamos los datos correspondientes a noviembre de 2019.

In [None]:
paro = paro.loc[paro['Código mes '] == 201911]

In [None]:
paro

Unnamed: 0,Código mes,mes,Código de CA,Comunidad Autónoma,Codigo Provincia,Provincia,Codigo Municipio,Municipio,total Dtes Empleo,Dtes Empleo hombre edad < 25,Dtes Empleo hombre edad 25 -45,Dtes Empleo hombre edad >=45,Dtes Empleo mujer edad < 25,Dtes Empleo mujer edad 25 -45,Dtes Empleo mujer edad >=45,Dtes EmpleoAgricultura,Dtes Empleo Industria,Dtes Empleo Construcción,Dtes Empleo Servicios,Dtes Empleo Sin empleo Anterior
32508,201911,Noviembre de 2019,01,Andalucía,04,Almería,04001,Abla,140,4,17,38,7,35,39,35,3,6,88,8
32509,201911,Noviembre de 2019,01,Andalucía,04,Almería,04002,Abrucena,179,5,19,44,13,30,68,57,5,14,96,7
32510,201911,Noviembre de 2019,01,Andalucía,04,Almería,04003,Adra,2525,126,435,532,112,656,664,604,79,214,1399,229
32511,201911,Noviembre de 2019,01,Andalucía,04,Almería,04004,Albánchez,33,2,1,17,0,5,8,5,2,0,25,1
32512,201911,Noviembre de 2019,01,Andalucía,04,Almería,04005,Alboloduy,78,2,12,19,2,18,25,25,7,7,37,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40630,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26180,Zarratón,2,0,0,1,0,1,0,0,0,0,2,0
40631,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26181,Zarzosa,0,0,0,0,0,0,0,0,0,0,0,0
40632,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26183,Zorraquín,5,0,1,2,0,1,1,0,1,0,4,0
40633,201911,Noviembre de 2019,18,Ceuta,51,Ceuta,51001,Ceuta,13751,810,2400,2340,1022,3962,3217,92,493,552,10147,2467


In [None]:
paro.columns

Index(['Código mes ', 'mes', 'Código de CA', 'Comunidad Autónoma',
       'Codigo Provincia', 'Provincia', 'Codigo Municipio', ' Municipio',
       'total Dtes Empleo', 'Dtes Empleo hombre edad < 25',
       'Dtes Empleo hombre edad 25 -45 ', 'Dtes Empleo hombre edad >=45',
       'Dtes Empleo mujer edad < 25', 'Dtes Empleo mujer edad 25 -45 ',
       'Dtes Empleo mujer edad >=45', 'Dtes EmpleoAgricultura',
       'Dtes Empleo Industria', 'Dtes Empleo Construcción',
       'Dtes Empleo Servicios', 'Dtes Empleo Sin empleo Anterior'],
      dtype='object')

Pensamos que igual es interesante la variable de distribución de paro total por sexos, que no viene explicitada, por lo que la definimos nosotros, sumando las correspondientes a las edades.

In [None]:
paro['prop_hombres'] = (paro['Dtes Empleo hombre edad 25 -45 '] + 
                        paro['Dtes Empleo hombre edad < 25'] + 
                        paro['Dtes Empleo hombre edad >=45']) / paro['total Dtes Empleo']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


In [None]:
paro

Unnamed: 0,Código mes,mes,Código de CA,Comunidad Autónoma,Codigo Provincia,Provincia,Codigo Municipio,Municipio,total Dtes Empleo,Dtes Empleo hombre edad < 25,Dtes Empleo hombre edad 25 -45,Dtes Empleo hombre edad >=45,Dtes Empleo mujer edad < 25,Dtes Empleo mujer edad 25 -45,Dtes Empleo mujer edad >=45,Dtes EmpleoAgricultura,Dtes Empleo Industria,Dtes Empleo Construcción,Dtes Empleo Servicios,Dtes Empleo Sin empleo Anterior,prop_hombres
32508,201911,Noviembre de 2019,01,Andalucía,04,Almería,04001,Abla,140,4,17,38,7,35,39,35,3,6,88,8,0.421429
32509,201911,Noviembre de 2019,01,Andalucía,04,Almería,04002,Abrucena,179,5,19,44,13,30,68,57,5,14,96,7,0.379888
32510,201911,Noviembre de 2019,01,Andalucía,04,Almería,04003,Adra,2525,126,435,532,112,656,664,604,79,214,1399,229,0.432871
32511,201911,Noviembre de 2019,01,Andalucía,04,Almería,04004,Albánchez,33,2,1,17,0,5,8,5,2,0,25,1,0.606061
32512,201911,Noviembre de 2019,01,Andalucía,04,Almería,04005,Alboloduy,78,2,12,19,2,18,25,25,7,7,37,2,0.423077
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40630,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26180,Zarratón,2,0,0,1,0,1,0,0,0,0,2,0,0.500000
40631,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26181,Zarzosa,0,0,0,0,0,0,0,0,0,0,0,0,
40632,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26183,Zorraquín,5,0,1,2,0,1,1,0,1,0,4,0,0.600000
40633,201911,Noviembre de 2019,18,Ceuta,51,Ceuta,51001,Ceuta,13751,810,2400,2340,1022,3962,3217,92,493,552,10147,2467,0.403607


Para esta columna asumimos un 50% de proporción de hombres en aquellos municipios en los que no hay datos.

In [None]:
paro['prop_hombres'] = paro['prop_hombres'].replace(np.nan, 0.5, regex=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
paro

Unnamed: 0,Código mes,mes,Código de CA,Comunidad Autónoma,Codigo Provincia,Provincia,Codigo Municipio,Municipio,total Dtes Empleo,Dtes Empleo hombre edad < 25,Dtes Empleo hombre edad 25 -45,Dtes Empleo hombre edad >=45,Dtes Empleo mujer edad < 25,Dtes Empleo mujer edad 25 -45,Dtes Empleo mujer edad >=45,Dtes EmpleoAgricultura,Dtes Empleo Industria,Dtes Empleo Construcción,Dtes Empleo Servicios,Dtes Empleo Sin empleo Anterior,prop_hombres
32508,201911,Noviembre de 2019,01,Andalucía,04,Almería,04001,Abla,140,4,17,38,7,35,39,35,3,6,88,8,0.421429
32509,201911,Noviembre de 2019,01,Andalucía,04,Almería,04002,Abrucena,179,5,19,44,13,30,68,57,5,14,96,7,0.379888
32510,201911,Noviembre de 2019,01,Andalucía,04,Almería,04003,Adra,2525,126,435,532,112,656,664,604,79,214,1399,229,0.432871
32511,201911,Noviembre de 2019,01,Andalucía,04,Almería,04004,Albánchez,33,2,1,17,0,5,8,5,2,0,25,1,0.606061
32512,201911,Noviembre de 2019,01,Andalucía,04,Almería,04005,Alboloduy,78,2,12,19,2,18,25,25,7,7,37,2,0.423077
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40630,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26180,Zarratón,2,0,0,1,0,1,0,0,0,0,2,0,0.500000
40631,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26181,Zarzosa,0,0,0,0,0,0,0,0,0,0,0,0,0.500000
40632,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26183,Zorraquín,5,0,1,2,0,1,1,0,1,0,4,0,0.600000
40633,201911,Noviembre de 2019,18,Ceuta,51,Ceuta,51001,Ceuta,13751,810,2400,2340,1022,3962,3217,92,493,552,10147,2467,0.403607


También parece interesante la proporción de parados que tienen más de 45 años, sean hombres o mujeres. Definimos también esta columna.

In [None]:
paro['mayores_45'] = (paro['Dtes Empleo hombre edad >=45'] + paro['Dtes Empleo mujer edad >=45']) / paro['total Dtes Empleo']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
paro

Unnamed: 0,Código mes,mes,Código de CA,Comunidad Autónoma,Codigo Provincia,Provincia,Codigo Municipio,Municipio,total Dtes Empleo,Dtes Empleo hombre edad < 25,Dtes Empleo hombre edad 25 -45,Dtes Empleo hombre edad >=45,Dtes Empleo mujer edad < 25,Dtes Empleo mujer edad 25 -45,Dtes Empleo mujer edad >=45,Dtes EmpleoAgricultura,Dtes Empleo Industria,Dtes Empleo Construcción,Dtes Empleo Servicios,Dtes Empleo Sin empleo Anterior,prop_hombres,mayores_45
32508,201911,Noviembre de 2019,01,Andalucía,04,Almería,04001,Abla,140,4,17,38,7,35,39,35,3,6,88,8,0.421429,0.550000
32509,201911,Noviembre de 2019,01,Andalucía,04,Almería,04002,Abrucena,179,5,19,44,13,30,68,57,5,14,96,7,0.379888,0.625698
32510,201911,Noviembre de 2019,01,Andalucía,04,Almería,04003,Adra,2525,126,435,532,112,656,664,604,79,214,1399,229,0.432871,0.473663
32511,201911,Noviembre de 2019,01,Andalucía,04,Almería,04004,Albánchez,33,2,1,17,0,5,8,5,2,0,25,1,0.606061,0.757576
32512,201911,Noviembre de 2019,01,Andalucía,04,Almería,04005,Alboloduy,78,2,12,19,2,18,25,25,7,7,37,2,0.423077,0.564103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40630,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26180,Zarratón,2,0,0,1,0,1,0,0,0,0,2,0,0.500000,0.500000
40631,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26181,Zarzosa,0,0,0,0,0,0,0,0,0,0,0,0,0.500000,
40632,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26183,Zorraquín,5,0,1,2,0,1,1,0,1,0,4,0,0.600000,0.600000
40633,201911,Noviembre de 2019,18,Ceuta,51,Ceuta,51001,Ceuta,13751,810,2400,2340,1022,3962,3217,92,493,552,10147,2467,0.403607,0.404116


In [None]:
paro.columns

Index(['Código mes ', 'mes', 'Código de CA', 'Comunidad Autónoma',
       'Codigo Provincia', 'Provincia', 'Codigo Municipio', ' Municipio',
       'total Dtes Empleo', 'Dtes Empleo hombre edad < 25',
       'Dtes Empleo hombre edad 25 -45 ', 'Dtes Empleo hombre edad >=45',
       'Dtes Empleo mujer edad < 25', 'Dtes Empleo mujer edad 25 -45 ',
       'Dtes Empleo mujer edad >=45', 'Dtes EmpleoAgricultura',
       'Dtes Empleo Industria', 'Dtes Empleo Construcción',
       'Dtes Empleo Servicios', 'Dtes Empleo Sin empleo Anterior',
       'prop_hombres', 'mayores_45'],
      dtype='object')

A continuación renombramos varias columnas, principalmente códigos geográficos, que serán comunes con otras bases de datos, y que nos ayudarán a la hora de unificarlos.

In [None]:
paro = paro.rename(columns={"Comunidad Autónoma": "CCAA", 'Código de CA': 'cod_ccaa', 'Codigo Provincia': 'cod_prov', 'Codigo Municipio': 'cod_mun' }, errors="raise")

In [None]:
paro

Unnamed: 0,Código mes,mes,cod_ccaa,CCAA,cod_prov,Provincia,cod_mun,Municipio,total Dtes Empleo,Dtes Empleo hombre edad < 25,Dtes Empleo hombre edad 25 -45,Dtes Empleo hombre edad >=45,Dtes Empleo mujer edad < 25,Dtes Empleo mujer edad 25 -45,Dtes Empleo mujer edad >=45,Dtes EmpleoAgricultura,Dtes Empleo Industria,Dtes Empleo Construcción,Dtes Empleo Servicios,Dtes Empleo Sin empleo Anterior,prop_hombres,mayores_45
32508,201911,Noviembre de 2019,01,Andalucía,04,Almería,04001,Abla,140,4,17,38,7,35,39,35,3,6,88,8,0.421429,0.550000
32509,201911,Noviembre de 2019,01,Andalucía,04,Almería,04002,Abrucena,179,5,19,44,13,30,68,57,5,14,96,7,0.379888,0.625698
32510,201911,Noviembre de 2019,01,Andalucía,04,Almería,04003,Adra,2525,126,435,532,112,656,664,604,79,214,1399,229,0.432871,0.473663
32511,201911,Noviembre de 2019,01,Andalucía,04,Almería,04004,Albánchez,33,2,1,17,0,5,8,5,2,0,25,1,0.606061,0.757576
32512,201911,Noviembre de 2019,01,Andalucía,04,Almería,04005,Alboloduy,78,2,12,19,2,18,25,25,7,7,37,2,0.423077,0.564103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40630,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26180,Zarratón,2,0,0,1,0,1,0,0,0,0,2,0,0.500000,0.500000
40631,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26181,Zarzosa,0,0,0,0,0,0,0,0,0,0,0,0,0.500000,
40632,201911,Noviembre de 2019,17,"Rioja, La",26,"Rioja, La",26183,Zorraquín,5,0,1,2,0,1,1,0,1,0,4,0,0.600000,0.600000
40633,201911,Noviembre de 2019,18,Ceuta,51,Ceuta,51001,Ceuta,13751,810,2400,2340,1022,3962,3217,92,493,552,10147,2467,0.403607,0.404116


Pequeñas rectificaciones a los nombres de las columnas:

In [None]:
paro = paro.rename(columns={"mayores_45": "prop_mayores_45"}, errors="raise")

In [None]:
paro = paro.rename(columns={' Municipio': 'Municipio'}, errors="raise")

In [None]:
paro.columns

Index(['Código mes ', 'mes', 'cod_ccaa', 'CCAA', 'cod_prov', 'Provincia',
       'cod_mun', 'Municipio', 'total Dtes Empleo',
       'Dtes Empleo hombre edad < 25', 'Dtes Empleo hombre edad 25 -45 ',
       'Dtes Empleo hombre edad >=45', 'Dtes Empleo mujer edad < 25',
       'Dtes Empleo mujer edad 25 -45 ', 'Dtes Empleo mujer edad >=45',
       'Dtes EmpleoAgricultura', 'Dtes Empleo Industria',
       'Dtes Empleo Construcción', 'Dtes Empleo Servicios',
       'Dtes Empleo Sin empleo Anterior', 'prop_hombres', 'prop_mayores_45'],
      dtype='object')

Seleccionamos los nombres de las columnas que realmente nos interesan

In [None]:
paro = paro[['Código mes ', 'cod_ccaa', 'CCAA', 'cod_prov', 'Provincia',
       'cod_mun', 'Municipio', 'total Dtes Empleo', 'prop_hombres', 'prop_mayores_45']]

In [None]:
paro

Unnamed: 0,Código mes,cod_ccaa,CCAA,cod_prov,Provincia,cod_mun,Municipio,total Dtes Empleo,prop_hombres,prop_mayores_45
32508,201911,01,Andalucía,04,Almería,04001,Abla,140,0.421429,0.550000
32509,201911,01,Andalucía,04,Almería,04002,Abrucena,179,0.379888,0.625698
32510,201911,01,Andalucía,04,Almería,04003,Adra,2525,0.432871,0.473663
32511,201911,01,Andalucía,04,Almería,04004,Albánchez,33,0.606061,0.757576
32512,201911,01,Andalucía,04,Almería,04005,Alboloduy,78,0.423077,0.564103
...,...,...,...,...,...,...,...,...,...,...
40630,201911,17,"Rioja, La",26,"Rioja, La",26180,Zarratón,2,0.500000,0.500000
40631,201911,17,"Rioja, La",26,"Rioja, La",26181,Zarzosa,0,0.500000,
40632,201911,17,"Rioja, La",26,"Rioja, La",26183,Zorraquín,5,0.600000,0.600000
40633,201911,18,Ceuta,51,Ceuta,51001,Ceuta,13751,0.403607,0.404116


Rellenamos brevemente algunos NaN de la columna de la proporción de parados de más de 45 años.

In [None]:
paro['prop_mayores_45'] = paro['prop_mayores_45'].replace(np.nan, 0.35, regex=True)

Y finalmente guardamos el dataset, uno por cada elección. En el caso de la de 2011, el formato de los datos fue algo diferente, lo que requirió un cuaderno especial, pero el procedimiento fue de todas formas similar.

In [None]:
paro.to_csv('/content/drive/MyDrive/Proyecto_KeepCoding - Propio/Data/Gen-19-Nov/paro_muni_N19.txt', sep = ',', index = False)