# Obtaining data from IBGE

In [1]:
import pandas as pd
from pysus.online_data import IBGE
from pysus.ftp.utils import zfill_year

import ipywidgets as widgets
%matplotlib inline

## Listing Subject Areas
IBGE makes available data from a number of surveys on different subjects. We can find out what is available, before downloading data.

In [2]:
ag = IBGE.list_agregados()
ag

Fetching Data groupings from https://servicodados.ibge.gov.br/api/v3/agregados?


Unnamed: 0,id,nome,agregados
0,D5,Áreas Urbanizadas,"[{'id': '8418', 'nome': 'Áreas urbanizadas, Lo..."
1,CL,Cadastro Central de Empresas,"[{'id': '1685', 'nome': 'Unidades locais, empr..."
2,CA,Censo Agropecuário,"[{'id': '1005', 'nome': 'Número de estabelecim..."
3,ME,"Censo Comum do Mercosul, Bolívia e Chile","[{'id': '1221', 'nome': 'População residente, ..."
4,CD,Censo Demográfico,"[{'id': '102', 'nome': 'Mulheres de 10 anos ou..."
...,...,...,...
63,VS,Produção da Extração Vegetal e da Silvicultura,"[{'id': '289', 'nome': 'Quantidade produzida e..."
64,PO,Produção de Ovos de Galinha,"[{'id': '6672', 'nome': 'Quantidade de ovos pr..."
65,IO,Produto Interno Bruto dos Municípios,"[{'id': '21', 'nome': 'Produto interno bruto a..."
66,XE,Projeção da População,"[{'id': '7358', 'nome': 'População, por sexo e..."


Let's look at the datasets (called "agregados") available within the category of "Censo Demografico".

In [3]:
pd.DataFrame(ag[ag.id=='CM'].agregados.iloc[0])

Unnamed: 0,id,nome
0,305,População residente em domicílios particulares...
1,319,Média de moradores por domicílio particular pe...
2,472,"População residente por idade, forma de declar..."
3,473,Pessoas de 4 anos ou mais de idade por grupos ...
4,475,"População residente por grupos de idade, sexo ..."
5,476,Pessoas de 4 anos ou mais de idade por frequên...
6,477,Pessoas de 4 anos ou mais que frequentam escol...
7,478,Pessoas não residentes no município de residên...
8,479,Chefes de domicílios particulares permanentes ...
9,480,População residente por relação com o chefe do...


Again for population projections

In [4]:
pd.DataFrame(ag[ag.id=='XE'].agregados.iloc[0])

Unnamed: 0,id,nome
0,7358,"População, por sexo e idade"
1,7360,Indicadores implícitos na projeção da população
2,7362,Esperança de vida ao nascer e Taxa de mortalid...
3,7363,"Taxa específica de fecundidade, por grupo de i..."
4,7365,"Proporção de pessoas, por grupo de idade"


### Downloading data
Before downloading the data, it may be useful to look at the metadata of the dataset we are interested in.

In [5]:
opts= [(r.nome, int(r.id)) for r in pd.DataFrame(ag[ag.id=='CM'].agregados.iloc[0]).itertuples()]
ds = widgets.Dropdown(
    options=opts,
    value=475,
    description='Number:',
)
display(ds)
IBGE.metadados(ds.value)

Dropdown(description='Number:', index=4, options=(('População residente em domicílios particulares permanentes…

{'id': 475,
 'nome': 'População residente por grupos de idade, sexo e situação',
 'URL': 'https://sidra.ibge.gov.br/tabela/475',
 'pesquisa': 'Contagem da População ',
 'assunto': 'Pessoas',
 'periodicidade': {'frequencia': 'anual', 'inicio': 1996, 'fim': 1996},
 'nivelTerritorial': {'Administrativo': ['N102',
   'N1',
   'N10',
   'N2',
   'N8',
   'N9',
   'N6',
   'N3'],
  'Especial': [],
  'IBGE': []},
 'variaveis': [{'id': 93,
   'nome': 'População residente',
   'unidade': 'Pessoas',
   'sumarizacao': []},
  {'id': 1000093,
   'nome': 'População residente - percentual do total geral',
   'unidade': '%',
   'sumarizacao': []}],
 'classificacoes': [{'id': 58,
   'nome': 'Grupo de idade',
   'sumarizacao': {'status': True, 'excecao': []},
   'categorias': [{'id': 0, 'nome': 'Total', 'unidade': None, 'nivel': 0},
    {'id': 1140, 'nome': '0 a 4 anos', 'unidade': None, 'nivel': 1},
    {'id': 1141, 'nome': '5 a 9 anos', 'unidade': None, 'nivel': 1},
    {'id': 1142, 'nome': '10 a 14 a

In [6]:
IBGE.lista_periodos(475)

Unnamed: 0,id,literals,modificacao
0,1996,[1996],24/05/2005


In [7]:
IBGE.localidades_por_agregado(475, nivel='N3')

Unnamed: 0,id,nome,nivel
0,11,Rondônia,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
1,12,Acre,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
2,13,Amazonas,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
3,14,Roraima,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
4,15,Pará,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
5,16,Amapá,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
6,17,Tocantins,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
7,21,Maranhão,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
8,22,Piauí,"{'id': 'N3', 'nome': 'Unidade da Federação'}"
9,23,Ceará,"{'id': 'N3', 'nome': 'Unidade da Federação'}"


To actually download the data after chosing the dataset, we can use the `FetchData` class, which will fetch the data and make it available both in JSON format and Dataframe as exemplified below.

In [8]:
ds = IBGE.FetchData(475,periodos=1996,variavel=93,localidades='N3[all]',
                              classificacao='58[all]|2[4,5]|1[all]',view='flat')
ds.JSON[0]

Fetching https://servicodados.ibge.gov.br/api/v3/agregados/475/periodos/1996/variaveis/93?localidades=N3[all]&classificacao=58[all]|2[4,5]|1[all]&view=flat


{'NC': 'Nível Territorial (Código)',
 'NN': 'Nível Territorial',
 'MC': 'Unidade de Medida (Código)',
 'MN': 'Unidade de Medida',
 'V': 'Valor',
 'D1C': 'Unidade da Federação (Código)',
 'D1N': 'Unidade da Federação',
 'D2C': 'Ano (Código)',
 'D2N': 'Ano',
 'D3C': 'Variável (Código)',
 'D3N': 'Variável',
 'D4C': 'Grupo de idade (Código)',
 'D4N': 'Grupo de idade',
 'D5C': 'Sexo (Código)',
 'D5N': 'Sexo',
 'D6C': 'Situação do domicílio (Código)',
 'D6N': 'Situação do domicílio'}

In [9]:
ds.to_dataframe()

Unnamed: 0,NC,NN,MC,MN,V,D1C,D1N,D2C,D2N,D3C,D3N,D4C,D4N,D5C,D5N,D6C,D6N
0,Nível Territorial (Código),Nível Territorial,Unidade de Medida (Código),Unidade de Medida,Valor,Unidade da Federação (Código),Unidade da Federação,Ano (Código),Ano,Variável (Código),Variável,Grupo de idade (Código),Grupo de idade,Sexo (Código),Sexo,Situação do domicílio (Código),Situação do domicílio
1,3,Unidade da Federação,45,Pessoas,633594,11,Rondônia,1996,1996,93,População residente,0,Total,4,Homens,0,Total
2,3,Unidade da Federação,45,Pessoas,380119,11,Rondônia,1996,1996,93,População residente,0,Total,4,Homens,1,Urbana
3,3,Unidade da Federação,45,Pessoas,253475,11,Rondônia,1996,1996,93,População residente,0,Total,4,Homens,2,Rural
4,3,Unidade da Federação,45,Pessoas,595712,11,Rondônia,1996,1996,93,População residente,0,Total,5,Mulheres,0,Total
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2750,3,Unidade da Federação,45,Pessoas,1073,53,Distrito Federal,1996,1996,93,População residente,3245,Idade ignorada,4,Homens,1,Urbana
2751,3,Unidade da Federação,45,Pessoas,94,53,Distrito Federal,1996,1996,93,População residente,3245,Idade ignorada,4,Homens,2,Rural
2752,3,Unidade da Federação,45,Pessoas,1381,53,Distrito Federal,1996,1996,93,População residente,3245,Idade ignorada,5,Mulheres,0,Total
2753,3,Unidade da Federação,45,Pessoas,1286,53,Distrito Federal,1996,1996,93,População residente,3245,Idade ignorada,5,Mulheres,1,Urbana


## Using the SIDRA endpoint
IBGE also has a simpler API at https://api.sidra.ibge.gov.br that PySUS also gives access through a simple function. Below we have table 200, which is a sample from the resident population. classification `2` is sex, of which I am fetching all categories: `total`, `Homens`, and `Mulheres`. Terrotorial level 6 is municipality.

In [10]:
df = IBGE.get_sidra_table(200,territorial_level=6,classification=2, categories='all')
df

Requesting data from https://apisidra.ibge.gov.br/values/t/200/n6/all/c2/all


Unnamed: 0,NC,NN,MC,MN,V,D1C,D1N,D2C,D2N,D3C,D3N,D4C,D4N,D5C,D5N,D6C,D6N
0,Nível Territorial (Código),Nível Territorial,Unidade de Medida (Código),Unidade de Medida,Valor,Município (Código),Município,Sexo (Código),Sexo,Ano (Código),Ano,Variável (Código),Variável,Situação do domicílio (Código),Situação do domicílio,Grupo de idade (Código),Grupo de idade
1,6,Município,45,Pessoas,24392,1100015,Alta Floresta D'Oeste - RO,0,Total,2010,2010,93,População residente,0,Total,0,Total
2,6,Município,45,Pessoas,12656,1100015,Alta Floresta D'Oeste - RO,4,Homens,2010,2010,93,População residente,0,Total,0,Total
3,6,Município,45,Pessoas,11736,1100015,Alta Floresta D'Oeste - RO,5,Mulheres,2010,2010,93,População residente,0,Total,0,Total
4,6,Município,45,Pessoas,90353,1100023,Ariquemes - RO,0,Total,2010,2010,93,População residente,0,Total,0,Total
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16691,6,Município,45,Pessoas,2689,5222302,Vila Propício - GO,4,Homens,2010,2010,93,População residente,0,Total,0,Total
16692,6,Município,45,Pessoas,2456,5222302,Vila Propício - GO,5,Mulheres,2010,2010,93,População residente,0,Total,0,Total
16693,6,Município,45,Pessoas,2570160,5300108,Brasília - DF,0,Total,2010,2010,93,População residente,0,Total,0,Total
16694,6,Município,45,Pessoas,1228880,5300108,Brasília - DF,4,Homens,2010,2010,93,População residente,0,Total,0,Total


Suppose we just wanted a single municipality, `Balneário Rincão (SC)`: Unfortunately for this one there is no data available, thus the `...` in the column `Valor`. Try another one.

In [11]:
single = IBGE.get_sidra_table(200,territorial_level=6, geocode=4220000,period='last',classification=2, categories='all')
single

Requesting data from https://apisidra.ibge.gov.br/values/t/200/n6/4220000/p/last/c2/all


Unnamed: 0,NC,NN,MC,MN,V,D1C,D1N,D2C,D2N,D3C,D3N,D4C,D4N,D5C,D5N,D6C,D6N
0,Nível Territorial (Código),Nível Territorial,Unidade de Medida (Código),Unidade de Medida,Valor,Município (Código),Município,Ano (Código),Ano,Sexo (Código),Sexo,Variável (Código),Variável,Situação do domicílio (Código),Situação do domicílio,Grupo de idade (Código),Grupo de idade
1,6,Município,45,Pessoas,...,4220000,Balneário Rincão (SC),2010,2010,0,Total,93,População residente,0,Total,0,Total
2,6,Município,45,Pessoas,...,4220000,Balneário Rincão (SC),2010,2010,4,Homens,93,População residente,0,Total,0,Total
3,6,Município,45,Pessoas,...,4220000,Balneário Rincão (SC),2010,2010,5,Mulheres,93,População residente,0,Total,0,Total


## Retrieving population and census data from IBGE

In [12]:
help(IBGE.get_population)

Help on function get_population in module pysus.online_data.IBGE:

get_population(year: int, source: Literal['POP', 'censo', 'POPTCU', 'projpop'] = 'POPTCU', censo_data: Literal['ALF', 'ESCA', 'ESCB', 'IDOSO', 'RENDA'] = 'ALF') -> pandas.core.frame.DataFrame
    Get population data from IBGE as shared by DATASUS
    :param year: year of the data
    :param source: 
         "POP" - 1992-presente: Estimativas populacionais estratificadas por 
                 idade e sexo.
         "censo" - 1991, 2000 e 2010: Censos Demográficos
         "POPTCU" - 1992-presente: Estimativas populacionais enviadas para o TCU,
                    estratificadas por idade e sexo pelo MS/SGEP/Datasus.
         "projpop": Estimativas preliminares para os anos intercensitários dos 
                    totais populacionais, estratificadas por idade e sexo pelo 
                    MS/SGEP/Datasus.
    :param censo_data: 
        "ALF": Censo Demográfico
        "ESCA": Censo Escolar da Educação Básica
      

### Sources:

#### POP
Population estimates stratified by age and sex

In [13]:
# Available years for `POP`:
def get_available_years(source):
    return sorted(set([zfill_year(f.name[-2:]) for f in IBGE.ibge.get_files(source=source)]))

In [14]:
from pprint import pprint
pprint(f"The years available for source `POP` are: {get_available_years('POP')}")

('The years available for source `POP` are: [1992, 1993, 1994, 1995, 1997, '
 '1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, '
 '2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]')


In [15]:
IBGE.get_population(1992, source="POP")

Unnamed: 0,MUNIC_RES,ANO,POPULACAO
0,110001,1992,34768
1,110002,1992,61737
2,110003,1992,8633
3,110004,1992,72462
4,110005,1992,23280
...,...,...,...
4969,522190,1992,3361
4970,522200,1992,9135
4971,522205,1992,5384
4972,522220,1992,2942


#### censo
Demographic Censuses of 1991, 2000 and 2010. `censo` is subdivided in 5 categories in which can be selected using the attribute `censo_data`, please see the help() text for more information about `censo_data`, its default value is `ALF`.

In [16]:
IBGE.get_population(2010, source="censo", censo_data="RENDA")

Unnamed: 0,MUNCOD,ANO,CORRACA,SITUACAO,NUMRENDA,DENRENDA,DENCRIREND,NUMPOBRES,NUMPOBRESX,NUMCRIPOB,NUMCRIPOBX,NUMDESOCUP,DENDESOCUP,NUMTRABINF,DENTRABINF
0,110001,2010,1,I,6000724.88,10482,2618,4831,2804,1645,914,181,4451,153,1127
1,110001,2010,2,I,378314.66,1079,186,539,182,144,46,18,554,16,80
2,110001,2010,3,I,31515.78,95,0,46,12,0,0,0,65,0,8
3,110001,2010,4,I,4791228.10,11944,3348,5802,3048,2096,1160,304,4906,159,1583
4,110001,2010,5,I,68893.15,497,182,450,250,165,107,0,67,0,108
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25395,530010,2010,2,I,203004614.58,190267,31396,41498,14373,11574,4522,10289,119202,1817,16766
25396,530010,2010,3,I,63474517.86,42380,8308,6538,1901,2311,550,1669,24301,472,4001
25397,530010,2010,4,I,1409083997.9,1236607,315001,279962,98474,112171,39581,56885,661364,9720,144469
25398,530010,2010,5,I,8884195.09,6822,1140,1021,297,195,67,345,3892,23,589


#### POPTCU (default)

Population estimates sent to TCU (Federal Court of Accounts - Brazil), stratified by age and sex by MS/SGEP/Datasus

In [17]:
pprint(f"The years available for source `POPTCU` are: {get_available_years('POPTCU')}")

('The years available for source `POPTCU` are: [1992, 1993, 1994, 1995, 1997, '
 '1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, '
 '2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]')


In [18]:
IBGE.get_population(2021)

Unnamed: 0,MUNIC_RES,ANO,POPULACAO
0,1100015,2021,22516
1,1100023,2021,111148
2,1100031,2021,5067
3,1100049,2021,86416
4,1100056,2021,16088
...,...,...,...
5565,5222005,2021,14088
5566,5222054,2021,9002
5567,5222203,2021,6451
5568,5222302,2021,5941


#### projpop

Preliminary estimates for the intercensal years of population totals, stratified by age and sex by MS/SGEP/Datasus.

In [19]:
pprint(f"The years available for source `projpop` are: {get_available_years('projpop')}")

('The years available for source `projpop` are: [1925, 1926, 1927, 1928, 1929, '
 '1930, 1931, 1932, 1933, 1934, 1935, 1936, 1937, 1938, 1939, 1940, 1941, '
 '1942, 1943, 1944, 1945, 1946, 1947, 1948, 1949, 1950, 1951, 1952, 1953, '
 '1954, 1955, 1956, 1957, 1958, 1959, 1960, 2000, 2001, 2002, 2003, 2004, '
 '2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, '
 '2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024]')


In [20]:
IBGE.get_population(2024, "projpop")

Unnamed: 0,ANO,FXETARIA,SEXO,POPULACAO
0,2024,A0000,M,1326675
1,2024,A0101,M,1339007
2,2024,A0202,M,1353165
3,2024,A0303,M,1367593
4,2024,A0404,M,1382395
...,...,...,...,...
177,2024,A8686,F,203662
178,2024,A8787,F,178219
179,2024,A8888,F,154388
180,2024,A8989,F,134069
