# Dataset complementario de Población por año

En este notebook se realiza un ETL para la obtención de la población total por año, para los años de estudio del proyecto.
La fuente de los datos es departamento de estadística de la Ciudad de Buenos Aires, a continuación se deja el link de descarga: https://www.estadisticaciudad.gob.ar/eyc/?cat=132

In [18]:
# Importar librerías
import numpy as np
import pandas as pd

In [19]:
# Leemos todas las sheets del archivo Excel
hojas = [
    "2021",
    "2020",
    "2019",
    "2018",
    "2017",
    "2016",
]
# Cargamos las diferentes hojas del excel a un diccionario
hojas_total = pd.read_excel("data/PBP_CO_T_1025.xls ", sheet_name=hojas)

# Accedemos individualmente a los DataFrames usando el nombre de la pagina como fuente
pob_21 = hojas_total["2021"]
pob_20 = hojas_total["2020"]
pob_19 = hojas_total["2019"]
pob_18 = hojas_total["2018"]
pob_17 = hojas_total["2017"]
pob_16 = hojas_total["2016"]

In [10]:
pob_21.head()

Unnamed: 0,Año,Edad,Total,Varones,Mujeres
0,2021,0,40225.4512,20736.64,19488.8112
1,2021,1,40404.072,20808.048,19596.024
2,2021,2,40515.336,20851.016,19664.32
3,2021,3,40566.464,20868.168,19698.296
4,2021,4,40564.6768,20862.128,19702.5488


In [20]:
# Se unen todos los DataFrames en uno solo
df = [
    pob_16,
    pob_17,
    pob_18,
    pob_19,
    pob_20,
    pob_21,
]

# Concatenar todos los DataFrames
pob_total = pd.concat(df, ignore_index=True)

pob_total

Unnamed: 0,Año,Edad,Total,Varones,Mujeres
0,2016,0,42238.2704,21715.6080,20522.6624
1,2016,1,42024.0480,21622.9280,20401.1200
2,2016,2,41824.7200,21532.5360,20292.1840
3,2016,3,41635.4720,21442.0080,20193.4640
4,2016,4,41451.4896,21348.9200,20102.5696
...,...,...,...,...,...
421,2021,66,28515.8800,12110.4384,16405.4416
422,2021,67,27887.9520,11738.6064,16149.3456
423,2021,68,27304.1360,11385.7664,15918.3696
424,2021,69,26729.7744,11037.8656,15691.9088


In [21]:
pob_total.info()  # No se encuentran nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 426 entries, 0 to 425
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Año      426 non-null    int64  
 1   Edad     426 non-null    object 
 2   Total    426 non-null    float64
 3   Varones  426 non-null    float64
 4   Mujeres  426 non-null    float64
dtypes: float64(3), int64(1), object(1)
memory usage: 16.8+ KB


In [22]:
pob_total.describe()  # Algunos estadísticos generales

Unnamed: 0,Año,Total,Varones,Mujeres
count,426.0,426.0,426.0,426.0
mean,2018.5,43233.342723,20272.723005,22960.619718
std,1.709833,38491.21527,13325.356929,25318.883765
min,2016.0,25912.7904,10620.8928,15291.8976
25%,2017.0,33045.6452,15384.9112,17861.344
50%,2018.5,40151.748,20129.3968,19672.9976
75%,2020.0,43298.9484,21350.5088,22284.2308
max,2021.0,370690.0,131737.0,238953.0


In [26]:
# Se dejan las columnas objetivo
pob_total = pob_total[["Año", "Total"]]

# Creamos una table pivot para el total de la población por año
pob_total = pob_total.pivot_table(index="Año", aggfunc="sum")

# Reiniciamos el index
pob_total.reset_index(inplace=True)

pob_total

Unnamed: 0,Año,Total
0,2016,3059122.0
1,2017,3063728.0
2,2018,3068043.0
3,2019,3072029.0
4,2020,3075646.0
5,2021,3078836.0


In [27]:
# Ruta
pob_total_anio = "data/02-poblacion-total.csv"

# Guardamos el dataframe en un archivo .csv
pob_total.to_csv(pob_total_anio, index=False)