# Análisis de datos con Pandas

En este ejercicio vamos a analizar unos datos reales con Pandas. Utilizaremos los datos de gastos en prestaciones de desempleo de 2020 publicados por el SEPE, que están disponibles en [este enlace](https://sede.sepe.gob.es/es/portaltrabaja/resources/sede/datos_abiertos/datos/Gastos_Prestaciones_2020_xls.xls): https://sede.sepe.gob.es/es/portaltrabaja/resources/sede/datos_abiertos/datos/Gastos_Prestaciones_2020_xls.xls

En primer lugar, debemos cargar los datos, que están en formato Excel en una variable de tipo *DataFrame*, y ver las primeras filas para hacernos una idea de los datos.

> Pista: si abrimos inicialmente los datos con Excel, podemos ver que la primera fila contiene una cabecera que no nos sirve. Las etiquetas de las columnas están en la segunda fila, y el parámetro *header* del método *read_excel()* nos permite especificar cuál de las filas contiene la cabecera.



In [1]:
import pandas as pd
import numpy as np
import os

sepe_url = "https://sede.sepe.gob.es/es/portaltrabaja/resources/sede/datos_abiertos/datos/Gastos_Prestaciones_2020_xls.xls"
data = pd.read_excel(sepe_url, header = 1)
data.head()

Unnamed: 0,Código mes,mes,Código de CA,Comunidad Autónoma,Codigo Provincia,Provincia,Gasto Total Prestación,Gasto Prestación Contributiva,Gasto Subsidio Desempleo,Gasto Renta Activa Inserción,Gasto Subsidio Eventuales Agrarios
0,202001,Enero de 2020,1.0,Andalucía,4.0,Almería,28592.38,17550.17,8631.6,1273.83,1136.78
1,202001,Enero de 2020,1.0,Andalucía,11.0,Cádiz,65193.74,37235.64,20805.68,3563.19,3588.8
2,202001,Enero de 2020,1.0,Andalucía,14.0,Córdoba,39530.71,16292.88,13926.86,1569.9,7741.07
3,202001,Enero de 2020,1.0,Andalucía,18.0,Granada,44676.47,22373.5,15530.14,1898.84,4873.79
4,202001,Enero de 2020,1.0,Andalucía,21.0,Huelva,33394.29,19418.39,9513.65,1088.25,3374.0


A continuación, vamos a eliminar algunas de las columnas, que aportan información duplicada. Serán las siguientes:

- Código de CA
- Código Provincia

In [2]:
data2 = data
data2 = data2.drop(["Código de CA", "Codigo Provincia"], axis = 1)
data2.head()

Unnamed: 0,Código mes,mes,Comunidad Autónoma,Provincia,Gasto Total Prestación,Gasto Prestación Contributiva,Gasto Subsidio Desempleo,Gasto Renta Activa Inserción,Gasto Subsidio Eventuales Agrarios
0,202001,Enero de 2020,Andalucía,Almería,28592.38,17550.17,8631.6,1273.83,1136.78
1,202001,Enero de 2020,Andalucía,Cádiz,65193.74,37235.64,20805.68,3563.19,3588.8
2,202001,Enero de 2020,Andalucía,Córdoba,39530.71,16292.88,13926.86,1569.9,7741.07
3,202001,Enero de 2020,Andalucía,Granada,44676.47,22373.5,15530.14,1898.84,4873.79
4,202001,Enero de 2020,Andalucía,Huelva,33394.29,19418.39,9513.65,1088.25,3374.0


Para trabajar con algunos de los datos, vamos a crear un nuevo DataFrame en una variable llamada *newdf* sólo con algunas de las columnas, concretamente:

- Código mes
- Comunidad Autónoma
- Provincia
- Gasto Total Prestación

Una vez creado el nuevo DataFrame, veamos sus primeras filas.

> Pista: si alguna de las columnas contiene datos incorrectos, puede ser porque la cabecera contenga espacios de más en la etiqueta de alguna columna. Podemos usar la propiedad *columns* del dataframe original para ver las etiquetas de columna.



In [7]:
cols = [0, 3, 5, 6]
newdf = pd.read_excel(sepe_url, header=1, usecols=cols)
newdf.head()

Unnamed: 0,Código mes,Comunidad Autónoma,Provincia,Gasto Total Prestación
0,202001,Andalucía,Almería,28592.38
1,202001,Andalucía,Cádiz,65193.74
2,202001,Andalucía,Córdoba,39530.71
3,202001,Andalucía,Granada,44676.47
4,202001,Andalucía,Huelva,33394.29


Para continuar, vamos a filtrar los datos de la comunidad autónoma de Extremadura en *newdf*, y asignarlos a la variable *extrem*.

In [17]:
extrem = newdf.loc[newdf["Comunidad Autónoma"] == "Extremadura"]
extrem.head(10)

Unnamed: 0,Código mes,Comunidad Autónoma,Provincia,Gasto Total Prestación
37,202001,Extremadura,Badajoz,37695.77
38,202001,Extremadura,Cáceres,22197.94
90,202002,Extremadura,Badajoz,36883.38
91,202002,Extremadura,Cáceres,21714.03
143,202003,Extremadura,Badajoz,37171.68
144,202003,Extremadura,Cáceres,21113.67
196,202004,Extremadura,Badajoz,57187.86
197,202004,Extremadura,Cáceres,36849.43
249,202005,Extremadura,Badajoz,66736.46
250,202005,Extremadura,Cáceres,36570.73


¿Cuál es la suma de gastos totales en prestaciones de la comunidad autónoma de Extremadura?

In [19]:
extrem["Gasto Total Prestación"].sum()

806120.03

Ahora vamos a mirar los datos en su totalidad, volviendo a la variable *newdf*. Calculemos los gastos totales en prestaciones de cada comunidad autónoma.

> Pista: el método *groupby()* nos permite agrupar los datos de un dataframe en función de una de sus columnas.



In [24]:
newdf2 = newdf.groupby("Comunidad Autónoma")
newdf2["Gasto Total Prestación"].sum()

Comunidad Autónoma
Andalucía                       7152925.46
Aragón                           850006.53
Asturias, Principado de          636002.83
Balears, Illes                  1669809.79
Canarias                        2474644.94
Cantabria                        367490.64
Castilla - La Mancha            1323383.02
Castilla y León                 1449432.07
Cataluña                        6352345.04
Ceuta                             44586.84
Comunitat Valenciana            3649590.32
Extremadura                      806120.03
Galicia                         1689636.88
Madrid, Comunidad de            4959113.16
Melilla                           38565.13
Murcia, Región de                951866.96
Navarra, Comunidad Foral de      421566.95
País Vasco                      1357820.29
Rioja, La                        201797.65
TOTAL                          36396704.53
Name: Gasto Total Prestación, dtype: float64

Por último, vamos a analizar un poco más los datos. Ya tenemos el gasto total en prestaciones por comunidad autónoma, vamos a asignar el resultado de esa operación a un nuevo dataframe llamado *analisisdf*.

Una vez hecho esto, vamos a añadir una nueva columna al dataframe, con la población total de cada comunidad autónoma en 2020. En la celda de código tenemos los datos, que debemos añadir. Al final, muestra los contenidos de la variable *analisisdf* en pantalla.

In [51]:
# Andalucía: 8501450
# Aragón: 1331280
# Asturias: 1013018
# Baleares: 1219423
# Canarias: 2244423
# Cantabria: 583904
# Castilla - La Mancha: 2049455
# Castilla y León: 2387370
# Cataluña: 7669999
# Ceuta: 83502
# Comunidad Valenciana: 5045885
# Extremadura: 1057999
# Galicia: 2696995
# Madrid: 6752763
# Melilla: 84019
# Murcia: 1513161
# Navarra: 657776
# País Vasco: 2185605
# Rioja: 316197
# TOTAL: 47394224

analisisdf = newdf2["Gasto Total Prestación"].sum()
# analisisdf = pd.DataFrame(analisisdf)

df2 = pd.DataFrame(np.array([8501450, 1331280, 1013018, 1219423,
                             2244423, 583904, 2049455, 2387370,
                             7669999, 83502, 5045885, 1057999,
                            2696995, 6752763, 84019, 1513161,
                            657776, 2185605, 316197, 47394224]),
                   columns=["Población total"], index=["Andalucía", "Aragón", "Asturias, Principado de", "Balears, Illes",
                                                      "Canarias", "Cantabria", "Castilla - La Mancha",
                                                      "Castilla y León", "Cataluña", "Ceuta", "Comunitat Valenciana",
                                                      "Extremadura", "Galicia", "Madrid, Comunidad de",
                                                       "Melilla", "Murcia, Región de", "Navarra, Comunidad Foral de",
                                                       "País Vasco", "Rioja, La", "TOTAL"])
# analisisdf.head(20)
# df2.head(20)
df = pd.concat([analisisdf, df2], axis = 1)
df.head(20)

Unnamed: 0,Gasto Total Prestación,Población total
Andalucía,7152925.46,8501450
Aragón,850006.53,1331280
"Asturias, Principado de",636002.83,1013018
"Balears, Illes",1669809.79,1219423
Canarias,2474644.94,2244423
Cantabria,367490.64,583904
Castilla - La Mancha,1323383.02,2049455
Castilla y León,1449432.07,2387370
Cataluña,6352345.04,7669999
Ceuta,44586.84,83502


Por último, vamos a crear una nueva columna llamada *Gasto per capita*, que calcularemos como el gasto total en prestaciones de la comunidad autónoma dividido entre su población. Este dato nos permite hacernos una idea más aproximada del gasto real en cada comunidad autónoma.

In [57]:
result = df["Gasto Total Prestación"].div(df["Población total"])
result = pd.DataFrame(result, columns=["Gasto per capita"])
finaldf = pd.concat([df, result], axis = 1)
finaldf.head(20)

Unnamed: 0,Gasto Total Prestación,Población total,Gasto per capita
Andalucía,7152925.46,8501450,0.841377
Aragón,850006.53,1331280,0.638488
"Asturias, Principado de",636002.83,1013018,0.62783
"Balears, Illes",1669809.79,1219423,1.369344
Canarias,2474644.94,2244423,1.102575
Cantabria,367490.64,583904,0.629368
Castilla - La Mancha,1323383.02,2049455,0.645724
Castilla y León,1449432.07,2387370,0.607125
Cataluña,6352345.04,7669999,0.828207
Ceuta,44586.84,83502,0.533961


**Bonus point:** ordena el dataframe utilizando la columna *Gasto per capita*, para tener un ranking del gasto en prestaciones por cada comunidad autónoma. Una vez lo hayas hecho, imprime el resultado en pantalla.

In [58]:
finaldf.sort_values(by=['Gasto per capita'])

Unnamed: 0,Gasto Total Prestación,Población total,Gasto per capita
Melilla,38565.13,84019,0.459005
Ceuta,44586.84,83502,0.533961
Castilla y León,1449432.07,2387370,0.607125
País Vasco,1357820.29,2185605,0.621256
Galicia,1689636.88,2696995,0.626489
"Asturias, Principado de",636002.83,1013018,0.62783
"Murcia, Región de",951866.96,1513161,0.629059
Cantabria,367490.64,583904,0.629368
"Rioja, La",201797.65,316197,0.638202
Aragón,850006.53,1331280,0.638488
