# Domicílios em aglomerados subnormais 2010 - 2019

---

Este notebook compara a quantidade de domicílios localizados em aglomerados subnormais em 2010 e em 2019, segundo dados do Instituto Brasileiro de Geografia e Estatística (IBGE). Os dados referentes a 2019 foram estimados pelo IBGE de forma preliminar para auxiliar no enfrentamento à pandemia de Covid-19 e podem ser confirmados ou revisados de acordo com o recenseamento, que deveria ter sido realizado em 2020, foi adiado para 2021 e está previsto para 2022.

Inicialmente, foi feita uma limpeza no Google Sheets no arquivo `tab01` da base original de 2010 apenas para deixar apenas as linhas correspondente às Unidades Federativas (UF) - retirando grandes regiões, municípios etc. Após essa limpeza, o arquivo foi nomeado `2010` e salvo em `.csv`.

#### Fontes

Dados de 2010: 
https://www.ibge.gov.br/geociencias/organizacao-do-territorio/tipologias-do-territorio/15788-aglomerados-subnormais.html?edicao=15949&t=acesso-ao-produto

Dados de 2019: 
https://www.ibge.gov.br/geociencias/organizacao-do-territorio/tipologias-do-territorio/15788-aglomerados-subnormais.html?=&t=acesso-ao-produto

In [1]:
# importar bibliotecas pandas e numpy

import pandas as pd
import numpy as np

## 2010

In [2]:
# leitura da tabela de 2010

df_2010 = pd.read_csv('fontes/2010.csv')

In [3]:
# criação de nova coluna chamada 'CD_UF', igual à coluna
# 'Código da Unidade Geográfica' já existente, para posteriormente unir os dois dataframes

df_2010['CD_UF'] = df_2010['Código da Unidade Geográfica']

In [4]:
# visualização do dataframe de 2010

df_2010

Unnamed: 0,UF,Total,Número de domicílios particulares ocupados,População residente em domicílios particulares,Área (ha),Densidade demográfica\n(hab/ha),Densidade de domicílios particulares ocupados (dom/ha),Código da Unidade Geográfica,CD_UF
0,Acre,33,10001,36844,"1.012,8",364,99,12,12
1,Alagoas,212,36202,130428,9757,1337,371,27,27
2,Amapá,154,23909,108086,"2.963,4",365,81,16,16
3,Amazonas,484,89933,381307,"13.668,3",279,66,13,13
4,Bahia,1211,302232,970940,"10.396,1",934,291,29,29
5,Ceará,566,121165,441937,"4.686,3",943,259,23,23
6,Distrito Federal,175,36504,133556,"3.503,6",381,104,53,53
7,Espírito Santo,377,70093,243327,"5.555,7",438,126,32,32
8,Goiás,15,2431,8823,1891,466,129,52,52
9,Maranhão,362,91786,348074,"9.416,8",370,97,21,21


## 2019

In [6]:
# leitura da tabela de 2019

df_2019 = pd.read_csv('fontes/2019.csv')

In [7]:
# visualização do dataframe de 2019

df_2019

Unnamed: 0,OBJECTID,CD_UF,NM_UF,NM_REGIAO,EST_POP_19,EDOC_TOTAL,EDOC_AGSN,Shape_Length,Shape_Area,PER_AGSN
0,1,11,Rondônia,Norte,1777225,531231,23236,3208010704,1966788429,4373991729
1,2,12,Acre,Norte,881935,224578,19148,2588015916,1350496485,852621361
2,3,13,Amazonas,Norte,4144597,1138985,393995,7560585685,1271433263,3459176372
3,4,14,Roraima,Norte,605761,142911,3033,3455377083,1818679248,2122299893
4,5,15,Pará,Norte,8602865,2197240,432518,701533261,1015961833,1968460432
5,6,16,Amapá,Norte,845731,170712,36835,2306464448,1158032578,2157727635
6,7,17,Tocantins,Norte,1572866,454897,9733,4079995363,2290315694,2139605229
7,8,21,Maranhão,Nordeste,7075181,1843313,144625,5192794219,26897547,7845927414
8,9,22,Piauí,Nordeste,3273227,917414,50382,3089356774,2063000317,5491740915
9,10,23,Ceará,Nordeste,9132078,2651823,243848,1952661453,121456383,9195485521


## Merge df_2010 e df_2019

In [8]:
# união das tabelas de 2010 e 2019 a partir da coluna 'CD_UF', igual em ambos os dataframes

df_total = pd.merge(
                df_2010,
                df_2019,
                how='inner',
                on='CD_UF'
)

In [9]:
# visualização do novo dataframe

df_total

Unnamed: 0,UF,Total,Número de domicílios particulares ocupados,População residente em domicílios particulares,Área (ha),Densidade demográfica\n(hab/ha),Densidade de domicílios particulares ocupados (dom/ha),Código da Unidade Geográfica,CD_UF,OBJECTID,NM_UF,NM_REGIAO,EST_POP_19,EDOC_TOTAL,EDOC_AGSN,Shape_Length,Shape_Area,PER_AGSN
0,Acre,33,10001,36844,"1.012,8",364,99,12,12,2,Acre,Norte,881935,224578,19148,2588015916,1350496485,852621361
1,Alagoas,212,36202,130428,9757,1337,371,27,27,14,Alagoas,Nordeste,3337357,966293,64568,9875985972,2292763842,6682031227
2,Amapá,154,23909,108086,"2.963,4",365,81,16,16,6,Amapá,Norte,845731,170712,36835,2306464448,1158032578,2157727635
3,Amazonas,484,89933,381307,"13.668,3",279,66,13,13,3,Amazonas,Norte,4144597,1138985,393995,7560585685,1271433263,3459176372
4,Bahia,1211,302232,970940,"10.396,1",934,291,29,29,16,Bahia,Nordeste,14873064,4422073,469677,5633696197,4698949275,1062119508
5,Ceará,566,121165,441937,"4.686,3",943,259,23,23,10,Ceará,Nordeste,9132078,2651823,243848,1952661453,121456383,9195485521
6,Distrito Federal,175,36504,133556,"3.503,6",381,104,53,53,27,Distrito Federal,Centro-Oeste,3015268,935671,62179,387139316,485863409,6645391382
7,Espírito Santo,377,70093,243327,"5.555,7",438,126,32,32,18,Espírito Santo,Sudeste,4018650,1173902,306439,1479777184,3967255834,2610430854
8,Goiás,15,2431,8823,1891,466,129,52,52,26,Goiás,Centro-Oeste,7018354,2311126,35801,4559610411,2874064129,1549071751
9,Maranhão,362,91786,348074,"9.416,8",370,97,21,21,8,Maranhão,Nordeste,7075181,1843313,144625,5192794219,26897547,7845927414


In [10]:
# criação de novas colunas para os dados de cada ano, para tornar o dataframe mais legível

df_total['AG_2010'] = df_total['Número de domicílios particulares ocupados']
df_total['AG_2019'] = df_total['EDOC_AGSN']

In [11]:
# visualização das colunas do dataframe 'df_total'

df_total.columns

Index(['UF', 'Total', 'Número de domicílios particulares ocupados',
       'População residente em domicílios particulares', 'Área (ha)',
       'Densidade demográfica\n(hab/ha)',
       'Densidade de domicílios particulares ocupados (dom/ha)',
       'Código da Unidade Geográfica', 'CD_UF', 'OBJECTID', 'NM_UF',
       'NM_REGIAO', 'EST_POP_19', 'EDOC_TOTAL', 'EDOC_AGSN', 'Shape_Length',
       'Shape_Area', 'PER_AGSN', 'AG_2010', 'AG_2019'],
      dtype='object')

In [12]:
# criação de filtro 'colunas' para colunas desejadas

colunas = ['NM_REGIAO', 'UF', 'AG_2010', 'AG_2019']

In [13]:
# checar tipo de dado da coluna'AG_2019'

df_total['AG_2019'].dtype

dtype('int64')

In [14]:
# checar tipo de dado da coluna'AG_2010'

df_total['AG_2010'].dtype

dtype('int64')

In [15]:
# criação de novo dataframe a partir do filtro 'colunas' criado anteriormente

df_comparacao = df_total[colunas]

In [16]:
# criação de nova coluna com o cálculo da variação entre os dados de cada ano para cada UF

df_comparacao['Variação %'] = round(df_comparacao.apply(lambda x: x['AG_2019']/x['AG_2010']-1, axis=1)*100,1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_comparacao['Variação %'] = round(df_comparacao.apply(lambda x: x['AG_2019']/x['AG_2010']-1, axis=1)*100,1)


In [17]:
# ordenação do dataframe pela variação

df_comparacao.sort_values(by=['Variação %'], ascending=False)

Unnamed: 0,NM_REGIAO,UF,AG_2010,AG_2019,Variação %
8,Centro-Oeste,Goiás,2431,35801,1372.7
22,Norte,Roraima,303,3033,901.0
26,Norte,Tocantins,2097,9733,364.1
3,Norte,Amazonas,89933,393995,338.1
7,Sudeste,Espírito Santo,70093,306439,337.2
11,Centro-Oeste,Mato Grosso do Sul,1879,6766,260.1
25,Nordeste,Sergipe,23225,53203,129.1
15,Sul,Paraná,61807,135188,118.7
5,Nordeste,Ceará,121165,243848,101.3
0,Norte,Acre,10001,19148,91.5


In [18]:
# criação de dicionário com as siglas de cada UF

dict_siglas = {
    'AC': 'Acre',
    'AL': 'Alagoas',
    'AP': 'Amapá',
    'AM': 'Amazonas',
    'BA': 'Bahia',
    'CE': 'Ceará',
    'DF': 'Distrito Federal',
    'ES': 'Espírito Santo',
    'GO': 'Goiás',
    'MA': 'Maranhão',
    'MT': 'Mato Grosso',
    'MS': 'Mato Grosso do Sul',
    'MG': 'Minas Gerais',
    'PA': 'Pará',
    'PB': 'Paraíba',
    'PR': 'Paraná',
    'PE': 'Pernambuco',
    'PI': 'Piauí',
    'RJ': 'Rio de Janeiro',
    'RN': 'Rio Grande do Norte',
    'RS': 'Rio Grande do Sul',
    'RO': 'Rondônia',
    'RR': 'Roraima',
    'SC': 'Santa Catarina',
    'SP': 'São Paulo',
    'SE': 'Sergipe',
    'TO': 'Tocantins'
}

inv_siglas = dict((v, k) for k, v in dict_siglas.items())

In [19]:

df_comparacao['Sigla_UF'] = df_comparacao['UF'].map(inv_siglas)
df_comparacao

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_comparacao['Sigla_UF'] = df_comparacao['UF'].map(inv_siglas)


Unnamed: 0,NM_REGIAO,UF,AG_2010,AG_2019,Variação %,Sigla_UF
0,Norte,Acre,10001,19148,91.5,AC
1,Nordeste,Alagoas,36202,64568,78.4,AL
2,Norte,Amapá,23909,36835,54.1,AP
3,Norte,Amazonas,89933,393995,338.1,AM
4,Nordeste,Bahia,302232,469677,55.4,BA
5,Nordeste,Ceará,121165,243848,101.3,CE
6,Centro-Oeste,Distrito Federal,36504,62179,70.3,DF
7,Sudeste,Espírito Santo,70093,306439,337.2,ES
8,Centro-Oeste,Goiás,2431,35801,1372.7,GO
9,Nordeste,Maranhão,91786,144625,57.6,MA


In [20]:
# criação de arquivo csv

df_comparacao.sort_values(by=['Variação %'], ascending=False).to_csv('aglomerados_subnormais_2010a2019.csv', index=False)

In [21]:
# Versão 2: 


In [22]:
# 

df_comparacao['Dif_2019'] = df_comparacao['AG_2019']-df_comparacao['AG_2010']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_comparacao['Dif_2019'] = df_comparacao['AG_2019']-df_comparacao['AG_2010']


In [23]:
# visualização de dataframe 'df_comparacao'

df_comparacao

Unnamed: 0,NM_REGIAO,UF,AG_2010,AG_2019,Variação %,Sigla_UF,Dif_2019
0,Norte,Acre,10001,19148,91.5,AC,9147
1,Nordeste,Alagoas,36202,64568,78.4,AL,28366
2,Norte,Amapá,23909,36835,54.1,AP,12926
3,Norte,Amazonas,89933,393995,338.1,AM,304062
4,Nordeste,Bahia,302232,469677,55.4,BA,167445
5,Nordeste,Ceará,121165,243848,101.3,CE,122683
6,Centro-Oeste,Distrito Federal,36504,62179,70.3,DF,25675
7,Sudeste,Espírito Santo,70093,306439,337.2,ES,236346
8,Centro-Oeste,Goiás,2431,35801,1372.7,GO,33370
9,Nordeste,Maranhão,91786,144625,57.6,MA,52839


In [24]:
# criação de arquivo .csv

df_comparacao.sort_values(by=['AG_2019'], ascending=False).to_csv('aglomerados_subnormais_2010a2019v2.csv', index=False)

In [25]:
# soma dos valores referentes à quantidades de domicílios total em 2010

df_comparacao['AG_2010'].sum()

3224529

In [26]:
# soma dos valores referentes à projeção da quantidades de domicílios total em 2019

df_comparacao['AG_2019'].sum()

5127747

In [27]:
# visualização de dataframe 

df_comparacao.sort_values(by=['Variação %'], ascending=False)

Unnamed: 0,NM_REGIAO,UF,AG_2010,AG_2019,Variação %,Sigla_UF,Dif_2019
8,Centro-Oeste,Goiás,2431,35801,1372.7,GO,33370
22,Norte,Roraima,303,3033,901.0,RR,2730
26,Norte,Tocantins,2097,9733,364.1,TO,7636
3,Norte,Amazonas,89933,393995,338.1,AM,304062
7,Sudeste,Espírito Santo,70093,306439,337.2,ES,236346
11,Centro-Oeste,Mato Grosso do Sul,1879,6766,260.1,MS,4887
25,Nordeste,Sergipe,23225,53203,129.1,SE,29978
15,Sul,Paraná,61807,135188,118.7,PR,73381
5,Nordeste,Ceará,121165,243848,101.3,CE,122683
0,Norte,Acre,10001,19148,91.5,AC,9147
