# Domicílios em aglomerados subnormais 2010 - 2019

---

Este notebook compara a quantidade de domicílios localizados em aglomerados subnormais em 2010 e em 2019, segundo dados do Instituto Brasileiro de Geografia e Estatística (IBGE). Os dados referentes a 2019 foram estimados pelo IBGE de forma preliminar para auxiliar no enfrentamento à pandemia de Covid-19 e podem ser confirmados ou revisados de acordo com o recenseamento, que deveria ter sido realizado em 2020, foi adiado para 2021 e está previsto para 2022.

Inicialmente, foi feita uma limpeza no Google Sheets no arquivo `tab01` da base original de 2010 apenas para deixar apenas as linhas correspondente às Unidades Federativas (UF) - retirando grandes regiões, municípios etc. Após essa limpeza, o arquivo foi nomeado `tab01_uf_limpo` e salvo em `.csv`.

#### Fontes

Dados de 2010: 
https://www.ibge.gov.br/geociencias/organizacao-do-territorio/tipologias-do-territorio/15788-aglomerados-subnormais.html?edicao=15949&t=acesso-ao-produto

Dados de 2019: 
https://www.ibge.gov.br/geociencias/organizacao-do-territorio/tipologias-do-territorio/15788-aglomerados-subnormais.html?=&t=acesso-ao-produto

In [1]:
# importar bibliotecas pandas e numpy

import pandas as pd
import numpy as np

ImportError: No module named pandas

## 2010

In [None]:
# leitura da tabela de 2010

df_2010 = pd.read_csv('fontes/2010.csv')

In [None]:
# criação de nova coluna chamada 'CD_UF', igual à coluna
# 'Código da Unidade Geográfica' já existente, para posteriormente unir os dois dataframes

df_2010['CD_UF'] = df_2010['Código da Unidade Geográfica']

In [None]:
# visualização do dataframe de 2010

df_2010

## 2019

In [None]:
# leitura da tabela de 2019

df_2019 = pd.read_csv('Estado_AGSN.csv')

In [None]:
# visualização do dataframe de 2019

df_2019

## Merge df_2010 e df_2019

In [None]:
# união das tabelas de 2010 e 2019 a partir da coluna 'CD_UF', igual em ambos os dataframes

df_total = pd.merge(
                df_2010,
                df_2019,
                how='inner',
                on='CD_UF'
)

In [None]:
# visualização do novo dataframe

df_total

In [None]:
# criação de novas colunas para os dados de cada ano, para tornar o dataframe mais legível

df_total['AG_2010'] = df_total['Número de domicílios particulares ocupados']
df_total['AG_2019'] = df_total['EDOC_AGSN']

In [None]:
# visualização das colunas do dataframe 'df_total'

df_total.columns

In [None]:
# criação de filtro 'colunas' para colunas desejadas

colunas = ['NM_REGIAO', 'UF', 'AG_2010', 'AG_2019']

In [None]:
# checar tipo de dado da coluna'AG_2019'

df_total['AG_2019'].dtype

In [None]:
# checar tipo de dado da coluna'AG_2010'

df_total['AG_2010'].dtype

In [None]:
# criação de novo dataframe a partir do filtro 'colunas' criado anteriormente

df_comparacao = df_total[colunas]

In [None]:
# criação de nova coluna com o cálculo da variação entre os dados de cada ano para cada UF

df_comparacao['Variação %'] = round(df_comparacao.apply(lambda x: x['AG_2019']/x['AG_2010']-1, axis=1)*100,1)

In [None]:
# ordenação do dataframe pela variação

df_comparacao.sort_values(by=['Variação %'], ascending=False)

In [None]:
# criação de dicionário com as siglas de cada UF

dict_siglas = {
    'AC': 'Acre',
    'AL': 'Alagoas',
    'AP': 'Amapá',
    'AM': 'Amazonas',
    'BA': 'Bahia',
    'CE': 'Ceará',
    'DF': 'Distrito Federal',
    'ES': 'Espírito Santo',
    'GO': 'Goiás',
    'MA': 'Maranhão',
    'MT': 'Mato Grosso',
    'MS': 'Mato Grosso do Sul',
    'MG': 'Minas Gerais',
    'PA': 'Pará',
    'PB': 'Paraíba',
    'PR': 'Paraná',
    'PE': 'Pernambuco',
    'PI': 'Piauí',
    'RJ': 'Rio de Janeiro',
    'RN': 'Rio Grande do Norte',
    'RS': 'Rio Grande do Sul',
    'RO': 'Rondônia',
    'RR': 'Roraima',
    'SC': 'Santa Catarina',
    'SP': 'São Paulo',
    'SE': 'Sergipe',
    'TO': 'Tocantins'
}

inv_siglas = dict((v, k) for k, v in dict_siglas.items())

In [None]:

df_comparacao['Sigla_UF'] = df_comparacao['UF'].map(inv_siglas)
df_comparacao

In [None]:
# criação de arquivo csv

df_comparacao.sort_values(by=['Variação %'], ascending=False).to_csv('aglomerados_subnormais_2010a2019.csv', index=False)

In [None]:
# Versão 2: 


In [None]:
# 

df_comparacao['Dif_2019'] = df_comparacao['AG_2019']-df_comparacao['AG_2010']

In [None]:
# visualização de dataframe 'df_comparacao'

df_comparacao

In [None]:
# criação de arquivo .csv

df_comparacao.sort_values(by=['AG_2019'], ascending=False).to_csv('aglomerados_subnormais_2010a2019v2.csv', index=False)

In [None]:
# soma dos valores referentes à quantidades de domicílios total em 2010

df_comparacao['AG_2010'].sum()

In [None]:
# soma dos valores referentes à projeção da quantidades de domicílios total em 2019

df_comparacao['AG_2019'].sum()

In [None]:
# visualização de dataframe 

df_comparacao.sort_values(by=['Variação %'], ascending=False)