# Visão geral do notebook
Exploração dos dados em 'dados/precos_semestrais_automotivos_2024_02.csv', mostrando informações iniciais como quantidade de linhas e colunas, tipos de colunas, tipos de produtos, etc.

# Bibliotecas Utilizadas
- pandas (https://pandas.pydata.org/docs/): para análise dos dados.

In [3]:
import pandas as pd

# Importação dos dados

In [5]:
dados = pd.read_csv('dados/precos_semestrais_automotivos_2024_02.csv', sep = ';')

# Exploração

**Informações gerais do dataframe:**

In [19]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 421382 entries, 0 to 421381
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   Regiao - Sigla     421382 non-null  object 
 1   Estado - Sigla     421382 non-null  object 
 2   Municipio          421382 non-null  object 
 3   Revenda            421382 non-null  object 
 4   CNPJ da Revenda    421382 non-null  object 
 5   Nome da Rua        421382 non-null  object 
 6   Numero Rua         421282 non-null  object 
 7   Complemento        94698 non-null   object 
 8   Bairro             420809 non-null  object 
 9   Cep                421382 non-null  object 
 10  Produto            421382 non-null  object 
 11  Data da Coleta     421382 non-null  object 
 12  Valor de Venda     421382 non-null  object 
 13  Valor de Compra    0 non-null       float64
 14  Unidade de Medida  421382 non-null  object 
 15  Bandeira           421382 non-null  object 
dtypes:

Algumas observações:
- Na coluna de índice 13, 'Valor de Compra', não há informações. A contagem de não-nulos é zero, portanto todas as linhas são nulas. É a única coluna com tipo numérico 'float'.
- Todas as colunas, com excessão da 'Valor de Compra', estão como string, identificadas pelo Dtype 'object'.
  - As colunas que deveriam ser numéricas são 'Cep' e 'Valor de Venda'.
  - A coluna que deveria estar no formato de data é 'Data da Coleta'.

**Primeiras 5 linhas do dataframe:**

In [8]:
dados.head(5)

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,N,AC,RIO BRANCO,CODEPE COMBUSTIVEIS LTDA,08.220.930/0001-62,RODOVIA BR-364 (RIO BRANCO-CRUZEIRO DO SUL) - ...,2755,LOTE 01/02/03/04/05 E 33,PORTAL DA AMAZONIA,69915-630,GASOLINA,01/07/2024,679,,R$ / litro,VIBRA
1,N,AC,RIO BRANCO,CODEPE COMBUSTIVEIS LTDA,08.220.930/0001-62,RODOVIA BR-364 (RIO BRANCO-CRUZEIRO DO SUL) - ...,2755,LOTE 01/02/03/04/05 E 33,PORTAL DA AMAZONIA,69915-630,GASOLINA ADITIVADA,01/07/2024,684,,R$ / litro,VIBRA
2,N,AC,RIO BRANCO,CODEPE COMBUSTIVEIS LTDA,08.220.930/0001-62,RODOVIA BR-364 (RIO BRANCO-CRUZEIRO DO SUL) - ...,2755,LOTE 01/02/03/04/05 E 33,PORTAL DA AMAZONIA,69915-630,DIESEL,01/07/2024,699,,R$ / litro,VIBRA
3,N,AC,RIO BRANCO,CODEPE COMBUSTIVEIS LTDA,08.220.930/0001-62,RODOVIA BR-364 (RIO BRANCO-CRUZEIRO DO SUL) - ...,2755,LOTE 01/02/03/04/05 E 33,PORTAL DA AMAZONIA,69915-630,DIESEL S10,01/07/2024,699,,R$ / litro,VIBRA
4,N,AC,RIO BRANCO,CODEPE COMBUSTIVEIS LTDA,08.220.930/0001-62,RODOVIA BR-364 (RIO BRANCO-CRUZEIRO DO SUL) - ...,2755,LOTE 01/02/03/04/05 E 33,PORTAL DA AMAZONIA,69915-630,ETANOL,01/07/2024,469,,R$ / litro,VIBRA


**Número de linhas e colunas:**

In [17]:
print(f'{dados.shape[0]} linhas.')
print(f'{dados.shape[1]} colunas.')

421382 linhas.
16 colunas.


**Quantidade de regiões do país, estados e municípios:**

In [51]:
regioes = dados['Regiao - Sigla'].drop_duplicates().to_list()
estados = dados['Estado - Sigla'].drop_duplicates().to_list()
municipios = dados['Municipio'].drop_duplicates().to_list()
print(f"{len(regioes)} regiões.")
print(f"{len(estados)} estados.")
print(f"{len(municipios)} municipios.")

5 regiões.
27 estados.
359 municipios.


**Quantidade de revendas, peodutos e unidades de medida:**

In [56]:
revendas = dados['Revenda'].drop_duplicates().to_list()
produtos = dados['Produto'].drop_duplicates().to_list()
unidades = dados['Unidade de Medida'].drop_duplicates().to_list()
print(f"{len(revendas)} revendas.")
print(f"{len(produtos)} produtos.")
print(f"{len(unidades)} unidades de medida.")

7466 revendas.
6 produtos.
2 unidades de medida.


**Tipos de produtos e unidades de medida:**

In [55]:
print('Produtos: ', produtos)
print('Unidades de medida: ', unidades)

Produtos:  ['GASOLINA', 'GASOLINA ADITIVADA', 'DIESEL', 'DIESEL S10', 'ETANOL', 'GNV']
Unidades de medida:  ['R$ / litro', 'R$ / m³']


# Ajustando os tipos de dados da tabela

**Coluna 'Valor de Venda':**

Alterando o separador decimal de vírgula para ponto e alterando o tipo de dado da coluna para numérico. 

In [64]:
dados['Valor de Venda'] = dados['Valor de Venda'].str.replace(',','.').astype(float)

**Coluna 'Data da Coleta':**

Alterando o tipo para data:

In [85]:
dados['Data da Coleta'] = pd.to_datetime(dados['Data da Coleta'], dayfirst=True)

**Coluna 'Unidade de Medida':**

Removendo os espaços internos:

In [87]:
dados['Unidade de Medida'] = dados['Unidade de Medida'].str.replace(' ', '')

## Aplicando o método *describe* do Pandas:

Colunas de tipo não numérico:

In [89]:
colunas_nnum = dados.columns.drop([
    'Nome da Rua','Numero Rua','Complemento','Bairro','Data da Coleta','Valor de Venda','Valor de Compra'])
dados[colunas_nnum].describe(include='all')

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Cep,Produto,Unidade de Medida,Bandeira
count,421382,421382,421382,421382,421382,421382,421382,421382,421382
unique,5,27,359,7466,8520,6630,6,2,45
top,SE,SP,SAO PAULO,SIM REDE DE POSTOS LTDA,03.552.843/0001-99,65760-000,GASOLINA,R$/litro,BRANCA
freq,206218,118310,20956,4438,162,1422,110495,411931,149552


Sobre o retorno do método *describe*:

Conforme a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.Series.describe.html), para dados não numéricos:
- *count* corresponde à contagem de linhas não nulas;
- *unique* corresponde à contagem de valores únicos, sem repetição;
- *top* corresponde ao valor que mais se repete;
- *freq* corresponde à frequência do valor que mais se repete.

Apesar da coleta de dados incluir as 5 regiões do país, pode-se observar que a quantidade de dados da região sudeste, cuja frequência é 206.218, corresponde quase à metade do total de 421.382 coletas.

Colunas de tipo numérico:

In [91]:
dados[['Valor de Venda','Valor de Compra']].describe()

Unnamed: 0,Valor de Venda,Valor de Compra
count,421382.0,0.0
mean,5.684103,
std,0.888075,
min,2.99,
25%,5.48,
50%,5.97,
75%,6.26,
max,9.79,


Sobre o retorno do método *describe*:

Conforme a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.Series.describe.html), para dados numéricos:
- *count* corresponde à contagem de linhas não nulas;
- *mean* corresponde à média aritmética simples dos valores da coluna;
- *std* corresponde ao desvio padrão dos valores da coluna;
- *min* corresponde ao menor valor da coluna;
- os percentuais corresponde aos valores que dividem os dados no primeiro (até 25%), segundo (25% a 50%), terceiro (50% a 75%) e quarto (acima de 75%) quartis.
- *max* corresponde ao maior valor da coluna.

Coluna do tipo data:

In [92]:
dados[['Data da Coleta']].describe()

Unnamed: 0,Data da Coleta
count,421382
mean,2024-09-28 22:13:53.315138816
min,2024-07-01 00:00:00
25%,2024-08-13 00:00:00
50%,2024-09-30 00:00:00
75%,2024-11-13 00:00:00
max,2024-12-31 00:00:00
