# Tratamento de Dados (Indicadores Municipais do ES)

Dados obitidos através do IBGE Cidades, pelo link: https://cidades.ibge.gov.br/brasil/es/panorama

Para obter os dados, acesse o link, clique em resumo e selecione os seguintes campos:
- População estimada [2021]
- Densidade demográfica [2010]
- Salário médio mensal dos trabalhadores formais [2019]
- PIB per capita [2018]
- Índice de Desenvolvimento Humano Municipal (IDHM) [2010]
- Mortalidade Infantil [2019]

Após selecionar os campos, clique em "Gerar Resumo". Em seguida, selecione todos os dados gerados, copie e cole em  uma planilha Excel. Em seguida, salve o arquivo em formato CSV com o nome "ES_INDICADORES_MUNICIPAIS", defina o separador como vírgula e salve com a codificação UTF-8.

In [1]:
!pip install unidecode



In [2]:
import pandas as pd
import numpy as np
from unidecode import unidecode

## Carrega Dados

In [3]:
dados = pd.read_csv('ES_INDICADORES_MUNICIPAIS.csv', sep=',', encoding='UTF-8')
dados.drop('Gentílico', axis=1, inplace=True)
dados.drop(dados.shape[0] - 1, inplace=True)

## Renomeia Colunas

In [4]:
columns_names_map = {
    'Municípios': 'Nome',
    'Densidade demográfica': 'DensidadeDemografica',
    'População estimada': 'PopulacaoEstimada',
    'Salário médio mensal dos trabalhadores formais': 'SalarioMedio',
    'Índice de Desenvolvimento Humano Municipal (IDHM)': 'IndiceDesenvolvimentoHumano',
    'Mortalidade Infantil': 'MortalidadeInfantil',
    'PIB per capita': 'PIBPerCapita'
}

dados.rename(columns_names_map, axis=1, inplace=True)

## Padroniza e Converte os Dados

In [6]:
dados['Nome'] = dados['Nome'].apply(lambda n: unidecode(n).upper())

def convert(data, str_remove):
    if (data.strip() == '-'):
        return np.nan
    
    if (',' in data):
        return float(data.replace(str_remove, '').replace(',', '.'))
    
    return int(data.replace(str_remove, ''))

map_prop_str_remove = {
    'DensidadeDemografica': ' hab/km²',
    'PopulacaoEstimada': ' pessoas',
    'SalarioMedio': ' salários mínimos',
    'IndiceDesenvolvimentoHumano': '',
    'MortalidadeInfantil': ' óbitos por mil nascidos vivos',
    'PIBPerCapita': ' R$'
}

for key, value in map_prop_str_remove.items():
    dados[key] = dados[key].apply(convert, args=([value]))

## Salva os Dados em Formato CSV

In [None]:
# dados.to_csv('ES_INDICADORES_MUNICIPAIS_CLEAN.csv', sep=',', encoding='UTF-8', index=False)

In [7]:
dados

Unnamed: 0,Nome,DensidadeDemografica,PopulacaoEstimada,SalarioMedio,IndiceDesenvolvimentoHumano,MortalidadeInfantil,PIBPerCapita
0,AFONSO CLAUDIO,32.68,30326,1.7,0.667,5.29,15115.94
1,AGUA DOCE DO NORTE,24.85,10801,2.2,0.652,5.26,12516.19
2,AGUIA BRANCA,20.95,9621,1.9,0.678,,18595.37
3,ALEGRE,39.85,29869,2.1,0.721,12.95,16201.29
4,ALFREDO CHAVES,22.66,14670,1.9,0.710,25.81,22464.53
...,...,...,...,...,...,...,...
72,VENDA NOVA DO IMIGRANTE,109.98,26204,1.9,0.728,8.33,24715.68
73,VIANA,207.84,80735,2.1,0.686,10.25,32060.09
74,VILA PAVAO,20.02,9280,1.9,0.681,10.42,15302.63
75,VILA VALERIO,29.42,14065,1.7,0.675,4.37,19623.30


In [10]:
from pymongo import MongoClient, ReplaceOne

print('Preparando para salvar o DataFrame resultante...')
# Persiste o DataFrame
str_conn = 'mongodb://localhost'

production = False

if production:
    usr = argv[1]
    pwd = argv[2]
    str_conn = f'mongodb+srv://{usr}:{pwd}@covid-19-es.nuzlk.mongodb.net/myFirstDatabase?retryWrites=true&w=majority'

client = MongoClient(str_conn)

dados_dict = dados.to_dict(orient='records')

print('Deletando banco de dados existente...')
client.drop_database('db_municipios')

print('Inserindo novos dados...')
if len(dados_dict) > 0:
    client.db_municipios.dados.insert_many(dados_dict)

print('~~ Fim ~~')

Preparando para salvar o DataFrame resultante...
Deletando banco de dados existente...
Inserindo novos dados...
~~ Fim ~~
