# Dataset Preparation

Convertendo o arquivo csv em um Dataframe para preparação da análise de dados.

In [16]:
import pandas as pd
columns=['LocalCidade','LocalUF','RegiaoBrasil','PopEstimada_2018','PopCenso_2010','IDHM','ReceitasRealizadas_2014','DespesasEmpenhadas_2014','Pib_2014']

In [17]:
data = pd.read_csv (r'data/Cities_Brazil_IBGE.csv')
df = pd.DataFrame(data, columns=columns)
df

Unnamed: 0,LocalCidade,LocalUF,RegiaoBrasil,PopEstimada_2018,PopCenso_2010,IDHM,ReceitasRealizadas_2014,DespesasEmpenhadas_2014,Pib_2014
0,ALTA FLORESTA D'OESTE,RO,N,23167,24392,0641,53490,47577,1646111
1,ARIQUEMES,RO,N,106168,90353,0702,0,0,1940143
2,CABIXI,RO,N,5438,6313,065,22635,19354,1834617
3,CACOAL,RO,N,84813,78574,0718,169636,155473,2072523
4,CEREJEIRAS,RO,N,16444,17029,0692,53147,46774,2217917
...,...,...,...,...,...,...,...,...,...
5565,VIANOPOLIS,GO,CO,13746,12548,0712,37777,33220,2323724
5566,VICENTINOPOLIS,GO,CO,8611,7371,0684,26783,23511,3948036
5567,VILA BOA,GO,CO,6026,4735,0647,17295,15646,1899237
5568,VILA PROPICIO,GO,CO,5758,5145,0634,19148,16785,3569139


In [18]:
def comma_to_dot(x): return float(str(x).replace(',', '.'))

def idh_to_rank(x, a=0):
    if x>0 and x<0.350: a = 1     
    elif x < 0.555: a = 2
    elif x < 0.700: a = 3
    elif x < 0.800: a = 4
    elif x <= 1: a = 5
    return int(a)

In [19]:
# Replacing commas with dots
df['IDHM'] = df['IDHM'].apply(comma_to_dot)
df['Pib_2014'] = df['Pib_2014'].apply(comma_to_dot)

# Checando e removendo os as linhas com valores nulos das colunas de números inteiros
df = df.drop(df[(df.PopEstimada_2018 == 0) | (df.PopCenso_2010 == 0) | (df.ReceitasRealizadas_2014 == 0) | (df.DespesasEmpenhadas_2014 == 0)].index)


# Removendo os outliers
# Pontos que estavam muito distantes outros valores
df = df.drop(df[(df.Pib_2014 >= 50000)].index)
# df = df.drop(df[(df.PopCenso_2010 >= 3000000)].index)

# Gerando o csv de dados formatados para as etapas que utilizam o IDHM padrão
df.to_csv(path_or_buf=r'data/DATA_F.csv')

# Criando colunas booleanas para normalizar o valor em string de LocalUF 
df = pd.get_dummies(df, columns=['RegiaoBrasil'])

# Criando o rankeamento do IDHM de acordo com valores de classificação fornecidos
df['IDHM'] = df['IDHM'].apply(idh_to_rank)

df

Unnamed: 0,LocalCidade,LocalUF,PopEstimada_2018,PopCenso_2010,IDHM,ReceitasRealizadas_2014,DespesasEmpenhadas_2014,Pib_2014,RegiaoBrasil_CO,RegiaoBrasil_N,RegiaoBrasil_NE,RegiaoBrasil_SE,RegiaoBrasil_SUL
0,ALTA FLORESTA D'OESTE,RO,23167,24392,3,53490,47577,16461.11,0,1,0,0,0
2,CABIXI,RO,5438,6313,3,22635,19354,18346.17,0,1,0,0,0
3,CACOAL,RO,84813,78574,4,169636,155473,20725.23,0,1,0,0,0
4,CEREJEIRAS,RO,16444,17029,3,53147,46774,22179.17,0,1,0,0,0
5,COLORADO D OESTE,RO,16227,18591,3,34612,34381,15300.88,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5564,VARJAO,GO,3816,3659,3,14086,13050,14566.03,1,0,0,0,0
5565,VIANOPOLIS,GO,13746,12548,4,37777,33220,23237.24,1,0,0,0,0
5566,VICENTINOPOLIS,GO,8611,7371,3,26783,23511,39480.36,1,0,0,0,0
5567,VILA BOA,GO,6026,4735,3,17295,15646,18992.37,1,0,0,0,0


In [20]:
# Gerando o csv de dados formatados para as próximas etapas que utilizam o IDHM com rankeamento
df.to_csv(path_or_buf=r'data/DATA_F_rank.csv')