# Tratando os dados obtidos do site da Fundação SEADE - Sistema Estadual de Análise de Dados

## Importando os dados e as bibliotecas

In [1]:
import pandas as pd
import numpy as np

### Dados brutos 

In [2]:
encoding = 'latin_1'

In [3]:
ipdm = pd.read_csv('dados/arq_ipdm_painel_v2022.csv', delimiter=';', encoding=encoding)
ipdm.query('Ano == 2021').head()

Unnamed: 0,cod_ibge,Municipio,Valor,Ano,Tipo,Valor_Estado,Indicador1,Indicador2,Indicador3,Indicador4,Indicador5
4,3500105,Adamantina,",566",2021,IPDM,",561",,,,,
9,3500204,Adolfo,",584",2021,IPDM,",561",,,,,
14,3500303,Aguaí,",48",2021,IPDM,",561",,,,,
19,3500402,Águas da Prata,",567",2021,IPDM,",561",,,,,
24,3500501,Águas de Lindóia,",591",2021,IPDM,",561",,,,,


In [4]:
grupos_populacao = pd.read_csv('dados/arq_grupos_populacao.csv', delimiter=';', encoding=encoding)
grupos_populacao.head()

Unnamed: 0,cod_ibge,municipio,ano,grupos_cod,grupos,populacao
0,3500105,Adamantina,2014,2,Médio,33862
1,3500105,Adamantina,2016,3,Alto,33882
2,3500105,Adamantina,2018,3,Alto,33888
3,3500105,Adamantina,2020,3,Alto,33894
4,3500105,Adamantina,2021,3,Alto,33869


### Dicionário contendo informações sobre as variáveis

In [5]:
dicionario_ipdm = pd.read_csv('dados/dicvar_arq_ipdm_painel_v2022.csv', delimiter=';', encoding=encoding)
dicionario_ipdm

Unnamed: 0,Variável,Tipo,Descrição,Fonte,Nota
0,cod_ibge,numérico,Código oficial de 7 dígitos definido pelo IBGE...,Instituto Brasileiro de Geografia e Estatístic...,
1,municipio,texto,Nome dos municípios do ESP,Instituto Brasileiro de Geografia e Estatístic...,
2,valor,numérico,Valor do IPDM (0 a 1),Fundação Sistema Estadual de Análise de Dados ...,
3,ano,numérico,Ano,Fundação Sistema Estadual de Análise de Dados ...,
4,tipo,numérico,Indicador do IPDM e dimensão,Fundação Sistema Estadual de Análise de Dados ...,Indica se o tipo é o resultado do IPDM ou das ...
5,valor_estado,numérico,Valor do IPDM (0 a 1) para o total do estado,Fundação Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
6,indicador1,numérico,Valor do primeiro componente de cada dimensão,Fundação Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
7,indicador2,numérico,Valor do segundo componente de cada dimensão,Fundação Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
8,indicador3,numérico,Valor doterceiro componente de cada dimensão,Fundação Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
9,indicador4,numérico,Valor do quarto componente de cada dimensão,Fundação Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico


In [6]:
dicionario_grupos = pd.read_csv('dados/dicvar_arq_grupos_populacao.csv', delimiter=';', encoding=encoding)
dicionario_grupos

Unnamed: 0,Variável,Tipo,Descrição,Fonte,Nota
0,cod_ibge,numérico,Código oficial de 7 dígitos definido pelo IBGE...,Instituto Brasileiro de Geografia e Estatístic...,
1,municipio,texto,Nome dos municípios do ESP,Instituto Brasileiro de Geografia e Estatístic...,
2,ano,numérico,Ano,Fundação Sistema Estadual de Análise de Dados ...,
3,grupos_cod,numérico,Códigos dos grupos do IPDM,Fundação Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
4,grupos,numérico,Descrição do grupo do IPDM,Fundação Sistema Estadual de Análise de Dados ...,Ver Anexo Metodológico
5,populacao,numérico,População,Fundação Sistema Estadual de Análise de Dados ...,


## Tratando os dados obtidos

### Tratando os dados do IPDM, aplicando as tipagens adequadas

In [7]:
ipdm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51600 entries, 0 to 51599
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   cod_ibge      51600 non-null  int64 
 1   Municipio     51600 non-null  object
 2   Valor         51600 non-null  object
 3   Ano           51600 non-null  int64 
 4   Tipo          51600 non-null  object
 5   Valor_Estado  51600 non-null  object
 6   Indicador1    51600 non-null  object
 7   Indicador2    51600 non-null  object
 8   Indicador3    51600 non-null  object
 9   Indicador4    51600 non-null  object
 10  Indicador5    51600 non-null  object
dtypes: int64(2), object(9)
memory usage: 4.3+ MB


In [8]:
ipdm.head()

Unnamed: 0,cod_ibge,Municipio,Valor,Ano,Tipo,Valor_Estado,Indicador1,Indicador2,Indicador3,Indicador4,Indicador5
0,3500105,Adamantina,",548",2014,IPDM,",535",,,,,
1,3500105,Adamantina,",554",2016,IPDM,",555",,,,,
2,3500105,Adamantina,",56",2018,IPDM,",578",,,,,
3,3500105,Adamantina,",594",2020,IPDM,",585",,,,,
4,3500105,Adamantina,",566",2021,IPDM,",561",,,,,


In [9]:
ipdm[['Valor', 'Valor_Estado']] = ipdm[['Valor', 'Valor_Estado']].applymap(lambda x: x.replace(',', '.'))

In [10]:
ipdm['Valor'] = ipdm['Valor'].astype(np.float64)
ipdm['Valor_Estado'] = ipdm['Valor_Estado'].astype(np.float64)

### Os dados dos grupos de população não precisam de tratamento

In [11]:
grupos_populacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3225 entries, 0 to 3224
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   cod_ibge    3225 non-null   int64 
 1   municipio   3225 non-null   object
 2   ano         3225 non-null   int64 
 3   grupos_cod  3225 non-null   int64 
 4   grupos      3225 non-null   object
 5   populacao   3225 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 151.3+ KB


In [12]:
grupos_populacao.head()

Unnamed: 0,cod_ibge,municipio,ano,grupos_cod,grupos,populacao
0,3500105,Adamantina,2014,2,Médio,33862
1,3500105,Adamantina,2016,3,Alto,33882
2,3500105,Adamantina,2018,3,Alto,33888
3,3500105,Adamantina,2020,3,Alto,33894
4,3500105,Adamantina,2021,3,Alto,33869


## Trabalhando com os dados do PIB

In [13]:
pib = pd.read_csv('dados/pib_municipal_2002_2020.csv', delimiter=';', encoding=encoding)
pib.head()

Unnamed: 0,Cod_Ibge,Localidade,Ano,Setor,Valor
0,3500105,Adamantina,2002,Agropecuária,R$ 24.321.939
1,3500204,Adolfo,2002,Agropecuária,R$ 11.076.934
2,3500303,Aguaí,2002,Agropecuária,R$ 54.743.792
3,3500402,Águas da Prata,2002,Agropecuária,R$ 3.910.158
4,3500501,Águas de Lindóia,2002,Agropecuária,R$ 2.323.797


In [14]:
pib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85785 entries, 0 to 85784
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Cod_Ibge    85785 non-null  int64 
 1   Localidade  85785 non-null  object
 2   Ano         85785 non-null  int64 
 3   Setor       85785 non-null  object
 4   Valor       85785 non-null  object
dtypes: int64(2), object(3)
memory usage: 3.3+ MB


### Dicionário contendo informações sobre as variáveis da base de dados

In [24]:
dicionario_pib = pd.read_csv('dados/dicvar_pib_municipal_2002_2020.csv', delimiter=';', encoding=encoding)
dicionario_pib

Unnamed: 0,Id_Variável,Tipo,Descrição,Fonte,Série disponível
0,Serviços de administração pública,númerico,Corresponde ao valor anual da produção e bens ...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
1,Agropecuária,númerico,Valor anual da produção e bens das atividades ...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
2,Impostos sobre Produtos Líquidos de Subsídios,númerico,"Impostos, taxas e contribuições que incidem so...",Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
3,Serviços total,númerico,Valor total anual da produção e dos bens das a...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
4,Indústria total,númerico,Valor anual total da produção e dos bens das a...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
5,Demais serviços - exclusive os de administraçã...,númerico,Corresponde ao valor anual da produção e bens ...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
6,VA-Total,númerico,O Valor Adicionado total corresponde ao valor ...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
7,PIB total,númerico,Valor total dos bens e serviços produzidos pel...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018
8,PIB per capita (R$),númerico,É o resultado da divisão do valor do PIB total...,Instituto Brasileiro de Geografia e Estatístic...,PIB municipal 2002 - 2018


### Tratando os dados do Valor

In [16]:
pib['Valor'] = pib['Valor'].replace('[\.(R\$)]', '', regex=True)
pib.head()

Unnamed: 0,Cod_Ibge,Localidade,Ano,Setor,Valor
0,3500105,Adamantina,2002,Agropecuária,24321939
1,3500204,Adolfo,2002,Agropecuária,11076934
2,3500303,Aguaí,2002,Agropecuária,54743792
3,3500402,Águas da Prata,2002,Agropecuária,3910158
4,3500501,Águas de Lindóia,2002,Agropecuária,2323797


In [17]:
pib['Valor'] = pib['Valor'].str.replace('- ', '-')
pib['Valor'] = pib['Valor'].astype(np.float64)
pib.head()

Unnamed: 0,Cod_Ibge,Localidade,Ano,Setor,Valor
0,3500105,Adamantina,2002,Agropecuária,24321939.0
1,3500204,Adolfo,2002,Agropecuária,11076934.0
2,3500303,Aguaí,2002,Agropecuária,54743792.0
3,3500402,Águas da Prata,2002,Agropecuária,3910158.0
4,3500501,Águas de Lindóia,2002,Agropecuária,2323797.0


In [18]:
pib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85785 entries, 0 to 85784
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Cod_Ibge    85785 non-null  int64  
 1   Localidade  85785 non-null  object 
 2   Ano         85785 non-null  int64  
 3   Setor       85785 non-null  object 
 4   Valor       85785 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 3.3+ MB


## Armazenando os dados limpos em uma pasta separada

In [19]:
pib.to_csv('./dados_limpos/pib.csv', encoding=encoding, sep=';', index=False)
grupos_populacao.to_csv('./dados_limpos/grupos_populacao.csv', encoding=encoding, sep=';', index=False)
ipdm.to_csv('./dados_limpos/ipdm.csv', encoding=encoding, sep=';', index=False)