# Projeto: Web Scraping com Selenium
### 2ª Etapa: Tratando e Explorando os Dados

In [1]:
#Importando bibliotecas
import pandas as pd 
import numpy as np
import missingno as msno
import plotly.express as px
import unidecode

In [2]:
#Transformando o arquivo em DataFrame
df = pd.read_csv('../basesoriginais/arrecadacao-estado.csv', sep=';', encoding="latin1")

In [3]:
df.head(5)

Unnamed: 0,Ano,Mês,UF,IMPOSTO SOBRE IMPORTAÇÃO,IMPOSTO SOBRE EXPORTAÇÃO,IPI - FUMO,IPI - BEBIDAS,IPI - AUTOMÓVEIS,IPI - VINCULADO À IMPORTACAO,IPI - OUTROS,...,REFIS,PAES,"RETENÇÃO NA FONTE - LEI 10.833, Art. 30",PAGAMENTO UNIFICADO,OUTRAS RECEITAS ADMINISTRADAS,DEMAIS RECEITAS,RECEITA PREVIDENCIÁRIA,RECEITA PREVIDENCIÁRIA - PRÓPRIA,RECEITA PREVIDENCIÁRIA - DEMAIS,ADMINISTRADAS POR OUTROS ÓRGÃOS
0,2000,Janeiro,AC,231,0,292096,0,0,167,1558,...,,,,,20911,,,,,
1,2000,Janeiro,AL,475088,33873,1329338,812470,0,141735,3676847,...,,,,,127189,,,,,
2,2000,Janeiro,AM,11679405,0,1507146,1791471,27796,4414483,1800346,...,,,,,187988,,,,,
3,2000,Janeiro,AP,24267,0,424862,1419,321,22333,12165,...,,,,,10769,,,,,
4,2000,Janeiro,BA,10476457,13,5542123,11533707,0,7496476,23743858,...,,,,,536498,,,,,


In [4]:
#Verificando o tamanho da base em linhas e colunas
df.shape

(8046, 45)

In [5]:
#Transformando o nome das colunas em minúsculo
df.columns = df.columns.str.lower()
df

Unnamed: 0,ano,mês,uf,imposto sobre importação,imposto sobre exportação,ipi - fumo,ipi - bebidas,ipi - automóveis,ipi - vinculado à importacao,ipi - outros,...,refis,paes,"retenção na fonte - lei 10.833, art. 30",pagamento unificado,outras receitas administradas,demais receitas,receita previdenciária,receita previdenciária - própria,receita previdenciária - demais,administradas por outros órgãos
0,2000,Janeiro,AC,231,0,292096,0,0,167,1558,...,,,,,20911,,,,,
1,2000,Janeiro,AL,475088,33873,1329338,812470,0,141735,3676847,...,,,,,127189,,,,,
2,2000,Janeiro,AM,11679405,0,1507146,1791471,27796,4414483,1800346,...,,,,,187988,,,,,
3,2000,Janeiro,AP,24267,0,424862,1419,321,22333,12165,...,,,,,10769,,,,,
4,2000,Janeiro,BA,10476457,13,5542123,11533707,0,7496476,23743858,...,,,,,536498,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8041,2024,Outubro,RR,4399114,0,0,0,0,1758276,13625402,...,,,,,-3903666,,8134988689,,,2913920901
8042,2024,Outubro,SC,2016225909,2989609,0,1187179284,2534817048,7421389354,3510523769,...,,,,,1861001219,,2873454791,,,2351696808
8043,2024,Outubro,SP,2667320828,3236105,268614205,6032049758,3214073917,8394679045,1417867309,...,,,,,1183853414,,19841393538,,,2012231399
8044,2024,Outubro,SE,90237859,2967,44700713,308231031,1488328,120112632,631544483,...,,,,,123224106,,2838712021,,,2308764373


In [6]:
#Transformando os valores NaN em 0
df = df.fillna(0)
print(df)

       ano      mês  uf imposto sobre importação imposto sobre exportação  \
0     2000  Janeiro  AC                      231                        0   
1     2000  Janeiro  AL                   475088                    33873   
2     2000  Janeiro  AM                 11679405                        0   
3     2000  Janeiro  AP                    24267                        0   
4     2000  Janeiro  BA                 10476457                       13   
...    ...      ...  ..                      ...                      ...   
8041  2024  Outubro  RR                 43991,14                        0   
8042  2024  Outubro  SC               2016225909                 29896,09   
8043  2024  Outubro  SP               2667320828                 32361,05   
8044  2024  Outubro  SE                9023785,9                    29,67   
8045  2024  Outubro  TO               6000274,53                   105,23   

      ipi - fumo ipi - bebidas ipi - automóveis ipi - vinculado à importaca

In [7]:
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,ano,mês,uf,imposto sobre importação,imposto sobre exportação,ipi - fumo,ipi - bebidas,ipi - automóveis,ipi - vinculado à importacao,ipi - outros,...,refis,paes,"retenção na fonte - lei 10.833, art. 30",pagamento unificado,outras receitas administradas,demais receitas,receita previdenciária,receita previdenciária - própria,receita previdenciária - demais,administradas por outros órgãos
0,2000,Janeiro,AC,231,0,292096,0,0,167,1558,...,0.0,0.0,0.0,0.0,20911,0,0,0,0,0
1,2000,Janeiro,AL,475088,33873,1329338,812470,0,141735,3676847,...,0.0,0.0,0.0,0.0,127189,0,0,0,0,0
2,2000,Janeiro,AM,11679405,0,1507146,1791471,27796,4414483,1800346,...,0.0,0.0,0.0,0.0,187988,0,0,0,0,0
3,2000,Janeiro,AP,24267,0,424862,1419,321,22333,12165,...,0.0,0.0,0.0,0.0,10769,0,0,0,0,0
4,2000,Janeiro,BA,10476457,13,5542123,11533707,0,7496476,23743858,...,0.0,0.0,0.0,0.0,536498,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8041,2024,Outubro,RR,4399114,0,0,0,0,1758276,13625402,...,0.0,0.0,0.0,0.0,-3903666,0,8134988689,0,0,2913920901
8042,2024,Outubro,SC,2016225909,2989609,0,1187179284,2534817048,7421389354,3510523769,...,0.0,0.0,0.0,0.0,1861001219,0,2873454791,0,0,2351696808
8043,2024,Outubro,SP,2667320828,3236105,268614205,6032049758,3214073917,8394679045,1417867309,...,0.0,0.0,0.0,0.0,1183853414,0,19841393538,0,0,2012231399
8044,2024,Outubro,SE,90237859,2967,44700713,308231031,1488328,120112632,631544483,...,0.0,0.0,0.0,0.0,123224106,0,2838712021,0,0,2308764373


In [8]:
#Transformando os registros e tipos de imposto em linhas
df_melted = pd.melt(df, id_vars=['ano', 'mês', 'uf'], var_name='tipo_imposto', value_name='valor')

In [9]:
#Ajustando e padronizando a coluna valor
import re

# Função para ajustar os valores
def ajustar_valor(valor):
    if isinstance(valor, str):  # Verifica se o valor é uma string
        try:
            # Remover separadores de milhar (pontos ou vírgulas que não são decimais)
            valor_formatado = re.sub(r'(?<=\d)[.,](?=\d{3}(?!\d))', '', valor)
            # Substituir a vírgula decimal final por ponto
            valor_formatado = valor_formatado.replace(',', '.')
            # Converter para float
            return float(valor_formatado)
        except ValueError:
            print(f"Erro ao converter o valor: {valor}")
            return None
    else:
        return None

# Aplicando a função à coluna 'valor' do DataFrame
df_melted['valor_ajustado'] = df_melted['valor'].apply(ajustar_valor)

# Ajustar a exibição dos valores para não mostrar notação científica
pd.options.display.float_format = '{:.2f}'.format

# Exibindo o DataFrame ajustado
print(df_melted)

         ano      mês  uf                     tipo_imposto        valor  \
0       2000  Janeiro  AC         imposto sobre importação          231   
1       2000  Janeiro  AL         imposto sobre importação       475088   
2       2000  Janeiro  AM         imposto sobre importação     11679405   
3       2000  Janeiro  AP         imposto sobre importação        24267   
4       2000  Janeiro  BA         imposto sobre importação     10476457   
...      ...      ...  ..                              ...          ...   
337927  2024  Outubro  RR  administradas por outros órgãos  29139209,01   
337928  2024  Outubro  SC  administradas por outros órgãos  235169680,8   
337929  2024  Outubro  SP  administradas por outros órgãos   2012231399   
337930  2024  Outubro  SE  administradas por outros órgãos  23087643,73   
337931  2024  Outubro  TO  administradas por outros órgãos  34940743,99   

        valor_ajustado  
0               231.00  
1            475088.00  
2          11679405.00  

In [10]:
# Verificando o tipo da coluna inteira
tipo_coluna = df_melted['valor_ajustado'].dtype

# Exibindo o tipo da coluna
print(tipo_coluna)

float64


In [11]:
df_melted['valor'] = df_melted.valor_ajustado
df_melted = df_melted.drop(columns=['valor_ajustado'])
df_melted

Unnamed: 0,ano,mês,uf,tipo_imposto,valor
0,2000,Janeiro,AC,imposto sobre importação,231.00
1,2000,Janeiro,AL,imposto sobre importação,475088.00
2,2000,Janeiro,AM,imposto sobre importação,11679405.00
3,2000,Janeiro,AP,imposto sobre importação,24267.00
4,2000,Janeiro,BA,imposto sobre importação,10476457.00
...,...,...,...,...,...
337927,2024,Outubro,RR,administradas por outros órgãos,29139209.01
337928,2024,Outubro,SC,administradas por outros órgãos,235169680.80
337929,2024,Outubro,SP,administradas por outros órgãos,2012231399.00
337930,2024,Outubro,SE,administradas por outros órgãos,23087643.73


In [12]:
#Salvando a base tratada
df_melted.to_csv('../basestratadas/arrecadacao-estadov2.csv', index=False)