# Tratamento de Dados (Indicadores Municipais do ES)

Dados obitidos através do IBGE Cidades, pelo link: https://cidades.ibge.gov.br/brasil/es/panorama

Para obter os dados, acesse o link, clique em resumo e selecione os seguintes campos:
- População estimada [2021]
- Densidade demográfica [2010]
- Salário médio mensal dos trabalhadores formais [2019]
- PIB per capita [2018]
- Índice de Desenvolvimento Humano Municipal (IDHM) [2010]
- Mortalidade Infantil [2019]

Após selecionar os campos, clique em "Gerar Resumo". Em seguida, selecione todos os dados gerados, copie e cole em  uma planilha Excel. Em seguida, salve o arquivo em formato CSV com o nome "ES_INDICADORES_MUNICIPAIS", defina o separador como vírgula e salve com a codificação UTF-8.

In [1]:
!pip install unidecode



In [2]:
import pandas as pd
import numpy as np
from unidecode import unidecode

## Carrega Dados

In [20]:
dados = pd.read_csv('ES_INDICADORES_MUNICIPAIS.csv', sep=';', encoding='UTF-8')
dados.drop(dados.shape[0] - 1, inplace=True)

## Padroniza e Converte os Dados

In [21]:
dados['Municipio'] = dados['Municipio'].apply(lambda n: unidecode(n).upper())

def convert(data):
    if (data.strip() == '-'):
        return np.nan
    
    if (',' in data):
        return float(data.replace(',', '.'))
    
    return int(data)

columns_convert = [
    'Area',
    'DensidadeDemografica',
    'Escolarizacao',
    'IndiceDesenvolvimentoHumano',
    'MortalidadeInfantil',
    'Receitas',
    'Despesas',
    'PIBPerCapita'
]

for column in columns_convert:
    dados[column] = dados[column].apply(convert)

## Salva os Dados em Formato CSV

In [22]:
# dados.to_csv('ES_INDICADORES_MUNICIPAIS_CLEAN.csv', sep=',', encoding='UTF-8', index=False)

In [23]:
dados

Unnamed: 0,Municipio,codarea,Area,PopulacaoEstimada,DensidadeDemografica,Escolarizacao,IndiceDesenvolvimentoHumano,MortalidadeInfantil,Receitas,Despesas,PIBPerCapita
0,AFONSO CLAUDIO,3200102,941.188,30326,32.68,94.0,0.667,5.29,80576.77270,69965.87355,15115.94
1,AGUIA BRANCA,3200136,454.448,9621,20.95,97.8,0.678,,39083.22718,29097.85302,18595.37
2,AGUA DOCE DO NORTE,3200169,473.729,10801,24.85,98.7,0.652,5.26,34702.54102,36255.10902,12516.19
3,ALEGRE,3200201,756.860,29869,39.85,97.6,0.721,12.95,83442.06711,76070.96317,16201.29
4,ALFREDO CHAVES,3200300,615.677,14670,22.66,98.6,0.710,25.81,48604.90169,44738.57504,22464.53
...,...,...,...,...,...,...,...,...,...,...,...
72,VENDA NOVA DO IMIGRANTE,3205069,185.909,26204,109.98,98.9,0.728,8.33,66372.19963,57779.84830,24715.68
73,VIANA,3205101,312.279,80735,207.84,94.8,0.686,10.25,201219.76713,168215.81708,32060.09
74,VILA PAVAO,3205150,433.257,9280,20.02,97.3,0.681,10.42,29213.85171,23286.54907,15302.63
75,VILA VALERIO,3205176,470.343,14065,29.42,96.9,0.675,4.37,48688.53307,39097.37221,19623.30


In [24]:
from pymongo import MongoClient, ReplaceOne

print('Preparando para salvar o DataFrame resultante...')
# Persiste o DataFrame
str_conn = 'mongodb://localhost'

production = False

if production:
    usr = argv[1]
    pwd = argv[2]
    str_conn = f'mongodb+srv://{usr}:{pwd}@covid-19-es.nuzlk.mongodb.net/myFirstDatabase?retryWrites=true&w=majority'

client = MongoClient(str_conn)

dados_dict = dados.to_dict(orient='records')

print('Deletando banco de dados existente...')
client.drop_database('db_municipios')

print('Inserindo novos dados...')
if len(dados_dict) > 0:
    client.db_municipios.dados.insert_many(dados_dict)

print('~~ Fim ~~')

Preparando para salvar o DataFrame resultante...
Deletando banco de dados existente...
Inserindo novos dados...
~~ Fim ~~
