In [None]:
import pandas as pd
from os import path, makedirs
from dotenv import load_dotenv
from unidecode import unidecode

In [None]:
load_dotenv()

# Carregando os dados extraídos no notebook anterior

Neste notebook, vamos utilizar os dados extraídos e salvos pelo notebook `03 habitação - extração.ipynb`.

In [None]:
input_dir = path.join('dados')

In [None]:
filename = path.join(input_dir, 'distritos_original.csv')
df_distritos = pd.read_csv(filename,
            sep=';',
            decimal=',',
            encoding='latin1',
            dtype=str)
df_distritos

In [None]:
filename = path.join(input_dir, 'subprefeituras_original.csv')
df_subs = pd.read_csv(filename,
            sep=';',
            decimal=',',
            encoding='latin1',
            dtype=str)
df_subs

In [None]:
filename = path.join(input_dir, 'censo_demografia_original.csv')
df_pop = pd.read_csv(filename,
            sep=';',
            decimal=',',
            encoding='latin1',
            dtype={'CD_DIST': str})
df_pop

# Transformação dos dados

## Unindo as tabelas de distritos e subprefeituras

Vemos que as subprefeituras possuem duas colunas diferentes de id: `cd_identificador_subprefeitura` e `cd_subprefeitura`. Como as os valores nas duas colunas não coincidem, vamos avaliar qual delas é a mais adequada para fazermos a junção com os dados dos distritos.

In [None]:
df_subs.sort_values('cd_identificador_subprefeitura').head(5)

In [None]:
df_distritos.sort_values('cd_identificador_subprefeitura').head(5)

Vemos que ocorrem duas coisas: a coluna `cd_identificador_subprefeitura` da tabela de distritos coincide com o valor numérico da coluna `cd_subprefeitura`, mas a coluna `cd_subprefeitura` está em formato de texto, iniciando com zeros à esquerda. Portanto, vamos adicionar à tabela de distritos uma nova coluna `cd_subprefeitura`, convertendo o valor da coluna `cd_identificador_subprefeitura` para texto e preenchendo com zeros à esquerda para que a string tenha 2 caracteres.

In [None]:
df_distritos.insert(
    3,
    'cd_subprefeitura',
    df_distritos['cd_identificador_subprefeitura'].astype(str).str.zfill(2)
)
df_distritos.head()

Agora, vamos unir as tabelas de distritos e subprefeituras, utilizando a coluna `cd_subprefeitura` como chave de junção.

In [None]:
df_dist_sub = (
    df_distritos.drop(columns=['cd_identificador_subprefeitura'])
    .merge(
        df_subs.drop(columns=['cd_identificador_subprefeitura']),
        on='cd_subprefeitura',
        how='left'
    )
)

df_dist_sub.head()

Investigando o resultado no data wrangler, vemos que a junção ocorreu corretamente, com todos os distritos associados à sua respectiva subprefeitura.

## Agregando e unindo dados da população

Agora, precisamos preparar os dados da população para que possamos associá-los às subprefeituras. Vamos agrgar as colunas de população em dois grupos: população de 0 a 69 anos e população total.

In [None]:
df_pop_summary = df_pop[['CD_DIST', 'NM_DIST']].copy()
df_pop_summary

In [None]:
df_pop_summary.insert(
    2,
    'populacao_total',
    df_pop.iloc[:, 2:].sum(axis=1)
)

df_pop_summary

In [None]:
df_pop_summary.insert(
    2,
    'populacao_0_69',
    df_pop_summary['populacao_total'] - df_pop['V01041']
)

df_pop_summary