In [1]:
import pandas as pd
import numpy as np

# População Brasileira

Projeção da população brasileira separada por:
 * Ano (2010 a 2060)
 * Idade
 * Sexo
 * Clientela (Rural/Urbana)

## Origem dos dados

* IBGE
 * [IBGE, Projeção da População do Brasil por sexo e idade: 2000-2060](https://ww2.ibge.gov.br/home/estatistica/populacao/projecao_da_populacao/2013/default_tab.shtm)
* [Dados Abertos Previdência Social](http://www.previdencia.gov.br/dados-abertos/dados-abertos-previdencia-social/)
 * [Anuário estatístico da Previdência Social em 2016](http://sa.previdencia.gov.br/site/2018/08/aeps2016.pdf)

## Dataframe

Criação de dataframe que irá receber os dados

In [2]:
# Parâmetros da simulação
i = np.arange(0,91)         # idade
t = np.arange(2000,2061)    # ano
s = np.array([1, 3])        # sexo
c = np.array([1, 2])        # clientela

# Create base dataframe
nvars = 4
ngroups = len(i) * len(t) * len(s) * len(c)
dt = np.empty([ngroups, nvars],dtype=int)
row = 0
for idade in i:
    for ano in t:
        for sexo in s:
            for clientela in c:
                dt[row, 0] = idade
                dt[row, 1] = ano
                dt[row, 2] = sexo
                dt[row, 3] = clientela
                row += 1
df = pd.DataFrame(dt, columns='idade ano sexo clientela'.split())
df.head()

Unnamed: 0,idade,ano,sexo,clientela
0,0,2000,1,1
1,0,2000,1,2
2,0,2000,3,1
3,0,2000,3,2
4,0,2001,1,1


## Homens

### Dados IBGE

In [3]:
br_pop_homens = pd.read_csv("../dataset/br_pop_homens.csv")
br_pop_homens.head()

Unnamed: 0,IDADE,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2051,2052,2053,2054,2055,2056,2057,2058,2059,2060
0,0,1774654,1790542,1767804,1744989,1721442,1697264,1672682,1647974,1623412,...,988361,977183,966313,955717,945363,935224,925279,915515,905910,896440
1,1,1768376,1762944,1779556,1757644,1735613,1712808,1689342,1665430,1641346,...,999045,987575,976411,965554,954970,944628,934500,924566,914812,905218
2,2,1763299,1763920,1758749,1775577,1753971,1732251,1709769,1686636,1663060,...,1010401,998640,987179,976024,965175,954599,944264,934143,924216,914469
3,3,1759424,1760566,1761316,1756286,1773236,1751808,1730282,1707999,1685075,...,1022190,1010116,998362,986907,975758,964914,954343,944013,933897,923975
4,4,1756766,1757342,1758574,1759415,1754495,1771538,1750257,1728882,1706762,...,1034360,1021959,1009890,998141,986691,975546,964706,954140,943813,933701


### Dados AEPS

Proporção da população masculina por clientela (urbana / rural)

* 2010/2011/2012: [AEPS 2013 - Tabela 48.1](http://sa.previdencia.gov.br/site/2015/03/AEPS-2013-v.-26.02.pdf)
* 2013: [AEPS 2016 - Tabela 48.1](http://sa.previdencia.gov.br/site/2018/08/aeps2016.pdf)
* 2014/2015/2016: [AEPS 2017 - Tabela 48.1](http://sa.previdencia.gov.br/site/2018/11/AEPS-2017_18.11.26.pdf)

In [39]:
br_pop_aeps = pd.read_csv("../dataset/br_pop_aeps.csv")
br_pop_aeps_homens = br_pop_aeps[br_pop_aeps['sexo'] == 1]
print(br_pop_aeps_homens)
br_pop_aeps_homens.groupby(['ano', 'clientela']).sum()

     ano  sexo  clientela       pop
0   2010     1          1  77710179
1   2011     1          1  79460548
2   2012     1          1  80286692
3   2013     1          1  81903309
4   2014     1          1  82603493
5   2015     1          1  83329934
6   2016     1          1  84185815
7   2010     1          2  15696811
8   2011     1          2  15278251
9   2012     1          2  15525788
10  2013     1          2  15990884
11  2014     1          2  15360465
12  2015     1          2  15739163
13  2016     1          2  15574727


Unnamed: 0_level_0,Unnamed: 1_level_0,sexo,pop
ano,clientela,Unnamed: 2_level_1,Unnamed: 3_level_1
2010,1,1,77710179
2010,2,1,15696811
2011,1,1,79460548
2011,2,1,15278251
2012,1,1,80286692
2012,2,1,15525788
2013,1,1,81903309
2013,2,1,15990884
2014,1,1,82603493
2014,2,1,15360465


### df_h

In [20]:
# Empty array to hold 91 dataframes
#dt_arr = np.empty(91)
dt_arr = []

df_h = pd.DataFrame([], columns='Ano Pop'.split())

# Empty array to hold each of the 91 dataframes
dt = np.empty([91, 2],dtype=int)

# For each column on "br_pop_homens"
for ano in t:
    dt[:,0] = br_pop_homens[str(ano)].apply(lambda x: ano)
    dt[:,1] = br_pop_homens[str(ano)]
    df_h = pd.concat([df_h, pd.DataFrame(dt, columns='Ano Pop'.split())])

df_h

Unnamed: 0,Ano,Pop
0,2000,1774654
1,2000,1768376
2,2000,1763299
3,2000,1759424
4,2000,1756766
5,2000,1755317
6,2000,1755085
7,2000,1756080
8,2000,1758300
9,2000,1761745


In [19]:
#df_h[df_h['Ano'] == 2017]

Unnamed: 0,Ano,Pop
0,2017,1437041
1,2017,1451082
2,2017,1467959
3,2017,1485784
4,2017,1504546
5,2017,1524324
6,2017,1545040
7,2017,1566533
8,2017,1588834
9,2017,1611543
