# Tratando os dados obtidos do site da Fundação SEADE - Sistema Estadual de Análise de Dados

## Importando os dados e as bibliotecas

In [1]:
import pandas as pd
import numpy as np

### Dados brutos 

In [21]:
ipdm = pd.read_csv('dados/arq_ipdm_painel_v2022.csv', delimiter=';', encoding='iso8859_16')
ipdm.drop([f'Indicador{i}' for i in range(1, 6)], axis=1, inplace=True)
ipdm.head()

Unnamed: 0,cod_ibge,Municipio,Valor,Ano,Tipo,Valor_Estado
0,3500105,Adamantina,",548",2014,IPDM,",535"
1,3500105,Adamantina,",554",2016,IPDM,",555"
2,3500105,Adamantina,",56",2018,IPDM,",578"
3,3500105,Adamantina,",594",2020,IPDM,",585"
4,3500105,Adamantina,",566",2021,IPDM,",561"


In [22]:
grupos_populacao = pd.read_csv('dados/arq_grupos_populacao.csv', delimiter=';', encoding='iso8859_16')
grupos_populacao.head()

Unnamed: 0,cod_ibge,municipio,ano,grupos_cod,grupos,populacao
0,3500105,Adamantina,2014,2,Médio,33862
1,3500105,Adamantina,2016,3,Alto,33882
2,3500105,Adamantina,2018,3,Alto,33888
3,3500105,Adamantina,2020,3,Alto,33894
4,3500105,Adamantina,2021,3,Alto,33869


Unnamed: 0,cod_ibge,Municipio,Valor,Ano,Tipo,Valor_Estado,Indicador1,Indicador2,Indicador3,Indicador4,Indicador5
6450,3500105,Adamantina,897541371158392,2014,Riqueza,2447,,"Consumo anual de energia elétrica comercial, s...",,,
6451,3500105,Adamantina,880170863309353,2016,Riqueza,2233,,"Consumo anual de energia elétrica comercial, s...",,,
6452,3500105,Adamantina,959129654553612,2018,Riqueza,2284,,"Consumo anual de energia elétrica comercial, s...",,,
6453,3500105,Adamantina,88232599469496,2020,Riqueza,21,,"Consumo anual de energia elétrica comercial, s...",,,
6454,3500105,Adamantina,876761861074705,2021,Riqueza,2184,,"Consumo anual de energia elétrica comercial, s...",,,
...,...,...,...,...,...,...,...,...,...,...,...
35470,3557303,Estiva Gerbi,550967125715417,2014,Escolaridade,5089,,Proporçăo média de alunos do 5ș ano com profi...,,,
35471,3557303,Estiva Gerbi,616254956517764,2016,Escolaridade,6003,,Proporçăo média de alunos do 5ș ano com profi...,,,
35472,3557303,Estiva Gerbi,682712161846875,2018,Escolaridade,6572,,Proporçăo média de alunos do 5ș ano com profi...,,,
35473,3557303,Estiva Gerbi,516046388849218,2020,Escolaridade,6577,,Proporçăo média de alunos do 5ș ano com profi...,,,


### Dicionário contendo informações sobre as variáveis

In [24]:
dicionario_ipdm = pd.read_csv('dados/dicvar_arq_ipdm_painel_v2022.csv', delimiter=';', encoding='iso8859_16')
dicionario_ipdm

Unnamed: 0,Variável,Tipo,Descriçăo,Fonte,Nota
0,cod_ibge,numérico,Código oficial de 7 dígitos definido pelo IBGE...,Instituto Brasileiro de Geografia e Estatístic...,
1,municipio,texto,Nome dos municípios do ESP,Instituto Brasileiro de Geografia e Estatístic...,
2,valor,numérico,Valor do IPDM (0 a 1),Fundaçăo Sistema Estadual de Análise de Dados ...,
3,ano,numérico,Ano,Fundaçăo Sistema Estadual de Análise de Dados ...,
4,tipo,numérico,Indicador do IPDM e dimensăo,Fundaçăo Sistema Estadual de Análise de Dados ...,Indica se o tipo é o resultado do IPDM ou das ...
5,valor_estado,numérico,Valor do IPDM (0 a 1) para o total do estado,Fundaçăo Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
6,indicador1,numérico,Valor do primeiro componente de cada dimensăo,Fundaçăo Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
7,indicador2,numérico,Valor do segundo componente de cada dimensăo,Fundaçăo Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
8,indicador3,numérico,Valor doterceiro componente de cada dimensăo,Fundaçăo Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
9,indicador4,numérico,Valor do quarto componente de cada dimensăo,Fundaçăo Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico


In [31]:
dicionario_grupos = pd.read_csv('dados/dicvar_arq_grupos_populacao.csv', delimiter=';', encoding='iso8859_16')
dicionario_grupos

Unnamed: 0,Variável,Tipo,Descriçăo,Fonte,Nota
0,cod_ibge,numérico,Código oficial de 7 dígitos definido pelo IBGE...,Instituto Brasileiro de Geografia e Estatístic...,
1,municipio,texto,Nome dos municípios do ESP,Instituto Brasileiro de Geografia e Estatístic...,
2,ano,numérico,Ano,Fundaçăo Sistema Estadual de Análise de Dados ...,
3,grupos_cod,numérico,Códigos dos grupos do IPDM,Fundaçăo Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
4,grupos,numérico,Descriçăo do grupo do IPDM,Fundaçăo Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
5,populacao,numérico,Populaçăo,Fundaçăo Sistema Estadual de Análise de Dados ...,


## Tratando os dados obtidos

### Tratando os dados do IPDM, aplicando as tipagens adequadas

In [32]:
ipdm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51600 entries, 0 to 51599
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   cod_ibge      51600 non-null  int64 
 1   Municipio     51600 non-null  object
 2   Valor         51600 non-null  object
 3   Ano           51600 non-null  int64 
 4   Tipo          51600 non-null  object
 5   Valor_Estado  51600 non-null  object
dtypes: int64(2), object(4)
memory usage: 2.4+ MB


In [33]:
ipdm.head()

Unnamed: 0,cod_ibge,Municipio,Valor,Ano,Tipo,Valor_Estado
0,3500105,Adamantina,",548",2014,IPDM,",535"
1,3500105,Adamantina,",554",2016,IPDM,",555"
2,3500105,Adamantina,",56",2018,IPDM,",578"
3,3500105,Adamantina,",594",2020,IPDM,",585"
4,3500105,Adamantina,",566",2021,IPDM,",561"


In [36]:
ipdm[['Valor', 'Valor_Estado']] = ipdm[['Valor', 'Valor_Estado']].applymap(lambda x: x.replace(',', '.'))

In [38]:
ipdm['Valor'] = ipdm['Valor'].astype(np.float64)
ipdm['Valor_Estado'] = ipdm['Valor_Estado'].astype(np.float64)

### Os dados dos grupos de população não precisam de tratamento

In [40]:
grupos_populacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3225 entries, 0 to 3224
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   cod_ibge    3225 non-null   int64 
 1   municipio   3225 non-null   object
 2   ano         3225 non-null   int64 
 3   grupos_cod  3225 non-null   int64 
 4   grupos      3225 non-null   object
 5   populacao   3225 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 151.3+ KB


In [39]:
grupos_populacao.head()

Unnamed: 0,cod_ibge,municipio,ano,grupos_cod,grupos,populacao
0,3500105,Adamantina,2014,2,Médio,33862
1,3500105,Adamantina,2016,3,Alto,33882
2,3500105,Adamantina,2018,3,Alto,33888
3,3500105,Adamantina,2020,3,Alto,33894
4,3500105,Adamantina,2021,3,Alto,33869


## Trabalhando com os dados do PIB

In [41]:
pib = pd.read_csv('dados/pib_municipal_2002_2020.csv', delimiter=';', encoding='iso8859_16')
pib.head()

Unnamed: 0,Cod_Ibge,Localidade,Ano,Setor,Valor
0,3500105,Adamantina,2002,Agropecuária,R$ 24.321.939
1,3500204,Adolfo,2002,Agropecuária,R$ 11.076.934
2,3500303,Aguaí,2002,Agropecuária,R$ 54.743.792
3,3500402,Águas da Prata,2002,Agropecuária,R$ 3.910.158
4,3500501,Águas de Lindóia,2002,Agropecuária,R$ 2.323.797


In [42]:
pib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85785 entries, 0 to 85784
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Cod_Ibge    85785 non-null  int64 
 1   Localidade  85785 non-null  object
 2   Ano         85785 non-null  int64 
 3   Setor       85785 non-null  object
 4   Valor       85785 non-null  object
dtypes: int64(2), object(3)
memory usage: 3.3+ MB


### Dicionário contendo informações sobre as variáveis da base de dados

In [47]:
dicionario_pib = pd.read_csv('dados/dicvar_pib_municipal_2002_2020.csv', delimiter=';', encoding='iso8859_16')
dicionario_pib

Unnamed: 0,Id_Variável,Tipo,Descriçăo,Fonte,Série disponível
0,Serviços de administraçăo pública,númerico,Corresponde ao valor anual da produçăo e bens ...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
1,Agropecuária,númerico,Valor anual da produçăo e bens das atividades ...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
2,Impostos sobre Produtos Líquidos de Subsídios,númerico,"Impostos, taxas e contribuiçőes que incidem so...",Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
3,Serviços total,númerico,Valor total anual da produçăo e dos bens das a...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
4,Indústria total,númerico,Valor anual total da produçăo e dos bens das a...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
5,Demais serviços - exclusive os de administraçă...,númerico,Corresponde ao valor anual da produçăo e bens ...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
6,VA-Total,númerico,O Valor Adicionado total corresponde ao valor ...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
7,PIB total,númerico,Valor total dos bens e serviços produzidos pel...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
8,PIB per capita (R$),númerico,É o resultado da divisăo do valor do PIB total...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018


### Tratando os dados do Valor

In [44]:
pib['Valor'] = pib['Valor'].replace('[\.(R\$)]', '', regex=True)
pib.head()

Unnamed: 0,Cod_Ibge,Localidade,Ano,Setor,Valor
0,3500105,Adamantina,2002,Agropecuária,24321939
1,3500204,Adolfo,2002,Agropecuária,11076934
2,3500303,Aguaí,2002,Agropecuária,54743792
3,3500402,Águas da Prata,2002,Agropecuária,3910158
4,3500501,Águas de Lindóia,2002,Agropecuária,2323797


In [45]:
pib['Valor'] = pib['Valor'].str.replace('- ', '-')
pib['Valor'] = pib['Valor'].astype(np.float64)
pib.head()

Unnamed: 0,Cod_Ibge,Localidade,Ano,Setor,Valor
0,3500105,Adamantina,2002,Agropecuária,24321939.0
1,3500204,Adolfo,2002,Agropecuária,11076934.0
2,3500303,Aguaí,2002,Agropecuária,54743792.0
3,3500402,Águas da Prata,2002,Agropecuária,3910158.0
4,3500501,Águas de Lindóia,2002,Agropecuária,2323797.0


In [46]:
pib.describe()

Unnamed: 0,Cod_Ibge,Ano,Valor
count,85785.0,85785.0,85785.0
mean,3528698.0,2011.0,903576300.0
std,16687.47,5.477257,11708010000.0
min,3500105.0,2002.0,-1664761000.0
25%,3514601.0,2006.0,15292340.0
50%,3528700.0,2011.0,53160780.0
75%,3543204.0,2016.0,226699400.0
max,3557303.0,2020.0,763597800000.0


## Armazenando os dados limpos em uma pasta separada

In [49]:
pib.to_csv('./dados_limpos/pib.csv', encoding='utf-8', sep=';', index=False)
grupos_populacao.to_csv('./dados_limpos/grupos_populacao.csv', encoding='utf-8', sep=';', index=False)
ipdm.to_csv('./dados_limpos/ipdm.csv', encoding='utf-8', sep=';', index=False)