# Preprocess Data

The data is obtained from the [INE](https://www.ine.es/index.htm), from ['Estadística del Padrón continuo'](
https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177012&menu=ultiDatos&idp=1254734710990#).

In [1]:
import pandas as pd
import json

In [2]:
df_communities = pd.read_csv("./02002.csv", sep=";")
df_communities.head()

Unnamed: 0,Comunidades,Edad (grupos quinquenales),Españoles/Extranjeros,Sexo,Año,Total
0,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2020,47.450.795
1,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2019,47.026.208
2,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2018,46.722.980
3,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2017,46.572.132
4,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2016,46.557.008


In [3]:
df_communities["Comunidades"] = df_communities["Comunidades"].str.replace("ASTURIAS, PRINCIPADO DE",
                                                                          "PRINCIPADO DE ASTURIAS")
df_communities["Comunidades"] = df_communities["Comunidades"].str.replace("BALEARS, ILLES",
                                                                          "ILLES BALEARS")
df_communities["Comunidades"] = df_communities["Comunidades"].str.replace("MADRID, COMUNIDAD DE",
                                                                          "COMUNIDAD DE MADRID")
df_communities["Comunidades"] = df_communities["Comunidades"].str.replace("MURCIA, REGIÓN DE",
                                                                          "REGIÓN DE MURCIA")
df_communities["Comunidades"] = df_communities["Comunidades"].str.replace("NAVARRA, COMUNIDAD FORAL DE",
                                                                          "COMUNIDAD FORAL DE NAVARRA")
df_communities["Comunidades"] = df_communities["Comunidades"].str.replace("RIOJA, LA",
                                                                          "LA RIOJA")

df_communities.head()

Unnamed: 0,Comunidades,Edad (grupos quinquenales),Españoles/Extranjeros,Sexo,Año,Total
0,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2020,47.450.795
1,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2019,47.026.208
2,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2018,46.722.980
3,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2017,46.572.132
4,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2016,46.557.008


In [4]:
df_communities["Comunidades"].drop_duplicates()

0                      TOTAL ESPAÑA
4554                      ANDALUCÍA
9108                         ARAGÓN
13662        PRINCIPADO DE ASTURIAS
18216                 ILLES BALEARS
22770                      CANARIAS
27324                     CANTABRIA
31878               CASTILLA Y LEÓN
36432          CASTILLA - LA MANCHA
40986                      CATALUÑA
45540          COMUNITAT VALENCIANA
50094                   EXTREMADURA
54648                       GALICIA
59202           COMUNIDAD DE MADRID
63756              REGIÓN DE MURCIA
68310    COMUNIDAD FORAL DE NAVARRA
72864                    PAÍS VASCO
77418                      LA RIOJA
81972                         CEUTA
86526                       MELILLA
Name: Comunidades, dtype: object

In [5]:
df_communities["Nombre Comunidad"] = df_communities["Comunidades"].str.title()
df_communities["Total"] = df_communities["Total"].str.replace(".", "", regex=False).astype(int)
df_communities["Edad (grupos quinquenales)"] = df_communities["Edad (grupos quinquenales)"].str.title()
df_communities["Españoles/Extranjeros"] = df_communities["Españoles/Extranjeros"].str.title()

df_communities.head()

Unnamed: 0,Comunidades,Edad (grupos quinquenales),Españoles/Extranjeros,Sexo,Año,Total,Nombre Comunidad
0,TOTAL ESPAÑA,Total Edades,Total,Ambos sexos,2020,47450795,Total España
1,TOTAL ESPAÑA,Total Edades,Total,Ambos sexos,2019,47026208,Total España
2,TOTAL ESPAÑA,Total Edades,Total,Ambos sexos,2018,46722980,Total España
3,TOTAL ESPAÑA,Total Edades,Total,Ambos sexos,2017,46572132,Total España
4,TOTAL ESPAÑA,Total Edades,Total,Ambos sexos,2016,46557008,Total España


In [6]:
df_communities = df_communities.drop(df_communities[df_communities["Comunidades"] == "TOTAL ESPAÑA"].index)
df_communities.head()

Unnamed: 0,Comunidades,Edad (grupos quinquenales),Españoles/Extranjeros,Sexo,Año,Total,Nombre Comunidad
4554,ANDALUCÍA,Total Edades,Total,Ambos sexos,2020,8464411,Andalucía
4555,ANDALUCÍA,Total Edades,Total,Ambos sexos,2019,8414240,Andalucía
4556,ANDALUCÍA,Total Edades,Total,Ambos sexos,2018,8384408,Andalucía
4557,ANDALUCÍA,Total Edades,Total,Ambos sexos,2017,8379820,Andalucía
4558,ANDALUCÍA,Total Edades,Total,Ambos sexos,2016,8388107,Andalucía


In [7]:
df_communities_total = df_communities.loc[(df_communities["Edad (grupos quinquenales)"] == "Total Edades") & 
                                          (df_communities["Españoles/Extranjeros"] == "Total") &
                                          (df_communities["Sexo"] == "Ambos sexos")
                                         ]
df_communities_total.head()

Unnamed: 0,Comunidades,Edad (grupos quinquenales),Españoles/Extranjeros,Sexo,Año,Total,Nombre Comunidad
4554,ANDALUCÍA,Total Edades,Total,Ambos sexos,2020,8464411,Andalucía
4555,ANDALUCÍA,Total Edades,Total,Ambos sexos,2019,8414240,Andalucía
4556,ANDALUCÍA,Total Edades,Total,Ambos sexos,2018,8384408,Andalucía
4557,ANDALUCÍA,Total Edades,Total,Ambos sexos,2017,8379820,Andalucía
4558,ANDALUCÍA,Total Edades,Total,Ambos sexos,2016,8388107,Andalucía


In [8]:
def getRelative(row):
  total = df_communities_total.loc[(df_communities_total["Comunidades"] == row["Comunidades"]) &
                                   (df_communities_total["Año"] == row["Año"])
                                  ]["Total"].values[0]
  relative = row["Total"] / total
  
  return relative

df_communities["Total relative"] = df_communities.apply(getRelative, axis=1)
df_communities.head()

Unnamed: 0,Comunidades,Edad (grupos quinquenales),Españoles/Extranjeros,Sexo,Año,Total,Nombre Comunidad,Total relative
4554,ANDALUCÍA,Total Edades,Total,Ambos sexos,2020,8464411,Andalucía,1.0
4555,ANDALUCÍA,Total Edades,Total,Ambos sexos,2019,8414240,Andalucía,1.0
4556,ANDALUCÍA,Total Edades,Total,Ambos sexos,2018,8384408,Andalucía,1.0
4557,ANDALUCÍA,Total Edades,Total,Ambos sexos,2017,8379820,Andalucía,1.0
4558,ANDALUCÍA,Total Edades,Total,Ambos sexos,2016,8388107,Andalucía,1.0


In [9]:
df_communities.to_csv("./02002Processed.csv", index=False)

In [18]:
filtered_df = df_communities.loc[(df_communities["Edad (grupos quinquenales)"] == "Total Edades") &
                             (df_communities["Españoles/Extranjeros"] == "Total") &
                             (df_communities["Sexo"] == "Ambos sexos")
                            ]
filtered_df.groupby("Año").sum().reset_index()["Año"]
#filtered_df[filtered_df["Año"] == 1999]["Total"].sum()

0     1998
1     1999
2     2000
3     2001
4     2002
5     2003
6     2004
7     2005
8     2006
9     2007
10    2008
11    2009
12    2010
13    2011
14    2012
15    2013
16    2014
17    2015
18    2016
19    2017
20    2018
21    2019
22    2020
Name: Año, dtype: int64