# **Manipulação de Dados com Pandas - Python**
#### **Cinthia Santos - Engenheira de Dados**

[Linkedin](https://www.linkedin.com/in/cinthialpsantos/)


[Github](https://github.com/cinthialet)

cithsantos@gmail.com


# Objetivo
Ao longo da minha transição de carreira para o mundo dos dados, reconheci a importância de ser data-driven e a **habilidade de solucionar demandas da área de negócio utilizando insights baseados em dados**.

Neste notebook, procuro compartilhar meu aprendizado em **manipulação de dados com Python**, refletindo algumas das abordagens e técnicas que têm sido essenciais para mim. Espero que, ao apresentar este material, possa não apenas ilustrar meu desenvolvimento nesse campo, mas também fornecer um recurso valioso para outros em caminhos similares.

### Pacotes utilizados neste Notebook

1. **Pandas**: Biblioteca para manipulação de dados tabulares.
2. **Numpy**: Ferramenta para operações numéricas e matriciais.
3. **Datetime**: Gestão e formatação de datas e horas.


In [351]:
# Importando os pacotes necessários
import pandas as pd
import numpy as np
from datetime import datetime, timedelta


## Sobre os Dados

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**.

Cada *registro* (linha) consiste em no preço aferido para um dado tipo de combustível em uma dada localidade do Brasil.
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


### Carregamento dos dados para dataframe


In [243]:
df=pd.read_csv('/content/dados/GasPricesinBrazil_2004-2019.csv')
df

Unnamed: 0,Unnamed: 0;DATA INICIAL;DATA FINAL;REGIÃO;ESTADO;PRODUTO;NÚMERO DE POSTOS PESQUISADOS;UNIDADE DE MEDIDA;PREÇO MÉDIO REVENDA;DESVIO PADRÃO REVENDA;PREÇO MÍNIMO REVENDA;PREÇO MÁXIMO REVENDA;MARGEM MÉDIA REVENDA;COEF DE VARIAÇÃO REVENDA;PREÇO MÉDIO DISTRIBUIÇÃO;DESVIO PADRÃO DISTRIBUIÇÃO;PREÇO MÍNIMO DISTRIBUIÇÃO;PREÇO MÁXIMO DISTRIBUIÇÃO;COEF DE VARIAÇÃO DISTRIBUIÇÃO;MÊS;ANO
0,0;2004-05-09;2004-05-15;CENTRO OESTE;DISTRITO ...
1,1;2004-05-09;2004-05-15;CENTRO OESTE;GOIAS;ETA...
2,2;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
3,3;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
4,4;2004-05-09;2004-05-15;NORDESTE;ALAGOAS;ETANO...
...,...
106818,106818;2019-06-23;2019-06-29;NORDESTE;RIO GRAN...
106819,106819;2019-06-23;2019-06-29;SUL;RIO GRANDE DO...
106820,106820;2019-06-23;2019-06-29;SUL;SANTA CATARIN...
106821,106821;2019-06-23;2019-06-29;SUDESTE;SAO PAULO...


### Insight
O dataset não foi carregado corretamente pois o separador utilizado no arquivo CSV é ';' como pode ser visto acima, e não a ','. <br/>
- Para carregar corretamente, **acrescento o parâmetro `sep`para indicar o separador certo**

In [244]:
df = pd.read_csv('/content/dados/GasPricesinBrazil_2004-2019.csv', sep=';')
df

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


### Exploração Inicial do Dataset

A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

Isso auxilia um primeiro entendimento de como os dados estão no dataset
- Para acessar as 5 últimas, o comando `.tail()`.
- Para acessar os 100 primeiros registros, `.head(100)`

In [245]:
df.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


### Insights
A coluna 'Unnamed: 0' originou-se do uso de um separador na importação e parece representar índices salvos. Como não tem valor informativo relevante, **deletarei essa coluna** a fim de não ter dados desnecessários e otimizar a estrutura do dataframe.


In [246]:
## Deletando coluna irrelevante
del df['Unnamed: 0']

A função `.info()` fornece:
- Número total de registros.
- Contagem de valores não-nulos por coluna.
- Tipo de dado em cada coluna.

> Essas informações são cruciais para estratégias de tratamento de valores nulos e conversão de tipos de dados.


In [247]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 20 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   DATA INICIAL                   106823 non-null  object 
 1   DATA FINAL                     106823 non-null  object 
 2   REGIÃO                         106823 non-null  object 
 3   ESTADO                         106823 non-null  object 
 4   PRODUTO                        106823 non-null  object 
 5   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 6   UNIDADE DE MEDIDA              106823 non-null  object 
 7   PREÇO MÉDIO REVENDA            106823 non-null  float64
 8   DESVIO PADRÃO REVENDA          106823 non-null  float64
 9   PREÇO MÍNIMO REVENDA           106823 non-null  float64
 10  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 11  MARGEM MÉDIA REVENDA           106823 non-null  object 
 12  COEF DE VARIAÇÃO REVENDA      

### Insights
O Dataframe contém :
- 106823 registros , com index 0 a 106822
- 21 colunas
- Em primeiro momento, não há dados nulos nas colunas
- Colunas 'DATA INICIAL' e 'DATA INICIAL' estão como object (string) , o que inviabiliza análise temporal . Necessária conversão para tipo datetime
- Colunas 'MARGEM MÉDIA REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO' , 'DESVIO PADRÃO' DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO' , 'PREÇO MÁXIMO DISTRIBUIÇÃO' e 'COEF DE VARIAÇÃO DISTRIBUIÇÃO' estão como object (string) , o que inviabiliza operações matemáticas. Necessária converção para tipo numérico.


Para acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [248]:
df.shape

# Insight : 106823 linhas , 21 colunas

(106823, 20)


O método `DataFrame.columns` retorna uma "lista" com os **nomes de todas as colunas** do data frame.

In [249]:
df.columns

Index(['DATA INICIAL', 'DATA FINAL', 'REGIÃO', 'ESTADO', 'PRODUTO',
       'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO', 'MÊS',
       'ANO'],
      dtype='object')

### Atribuindo valor constante à uma coluna existente

In [250]:
#Copiando o conteudo de df para df2 para manter os dados originais intactos
df2 = df.copy()

#Atribuindo o valor "Combustível" para toda a coluna "PRODUTO" do df2
df2["PRODUTO"] = "Combustível"

#Visualizando as 15 primeiras linhas para conferência
df2.head(15)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,2004-05-09,2004-05-15,NORDESTE,BAHIA,Combustível,408,R$/l,1.383,0.132,0.999,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
6,2004-05-09,2004-05-15,NORDESTE,CEARA,Combustível,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,Combustível,105,R$/l,1.631,0.158,1.35,2.0,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004
8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,Combustível,125,R$/l,1.284,0.13,1.1,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004
9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,Combustível,423,R$/l,1.224,0.141,0.989,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004


In [251]:
#Visualizando as 15 ultimas linhas para conferência
df2.tail(15)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
106808,2019-06-23,2019-06-29,NORDESTE,ALAGOAS,Combustível,8,R$/m3,3.458,0.085,3.45,3.7,1.007,0.025,2.451,0.183,2.3211,2.5803,0.075,6,2019
106809,2019-06-23,2019-06-29,NORDESTE,BAHIA,Combustível,20,R$/m3,3.12,0.067,2.99,3.194,0.822,0.021,2.298,0.196,2.11,2.7095,0.085,6,2019
106810,2019-06-23,2019-06-29,NORDESTE,CEARA,Combustível,16,R$/m3,3.656,0.034,3.58,3.69,0.876,0.009,2.78,0,2.7802,2.7802,0,6,2019
106811,2019-06-23,2019-06-29,SUDESTE,ESPIRITO SANTO,Combustível,4,R$/m3,3.299,0.005,3.29,3.299,-,0.002,-,-,-,-,-,6,2019
106812,2019-06-23,2019-06-29,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,2,R$/m3,2.934,0.049,2.899,2.968,0.901,0.017,2.033,0.259,1.85,2.2161,0.127,6,2019
106813,2019-06-23,2019-06-29,SUDESTE,MINAS GERAIS,Combustível,6,R$/m3,3.548,0.1,3.495,3.699,-,0.028,-,-,-,-,-,6,2019
106814,2019-06-23,2019-06-29,NORDESTE,PARAIBA,Combustível,11,R$/m3,3.688,0.016,3.66,3.719,0.62,0.004,3.068,0.025,3.0317,3.0676,0.008,6,2019
106815,2019-06-23,2019-06-29,SUL,PARANA,Combustível,1,R$/m3,3.29,0.0,3.29,3.29,-,0.0,-,-,-,-,-,6,2019
106816,2019-06-23,2019-06-29,NORDESTE,PERNAMBUCO,Combustível,12,R$/m3,2.698,0.26,2.69,3.6,0.791,0.096,1.907,0.196,1.7116,2.07,0.103,6,2019
106817,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,Combustível,124,R$/m3,3.111,0.26,2.799,3.799,0.707,0.084,2.404,0.174,2.126,2.7909,0.072,6,2019


A função `.value_counts()` retorna a contagem de valores únicos em uma coluna do dataframe

- Oferece uma rápida visão sobre a distribuição de valores em uma coluna.
- É especialmente útil para identificar padrões ou valores predominantes.

Para ver os valores menos frequentes, pode-se usar: `.value_counts(ascending=True)`.


In [252]:
#Checando na coluna alvo do df2 o valor da coluna produto, para aferir que todos os valores são iguais
df2['PRODUTO'].value_counts()

Combustível    106823
Name: PRODUTO, dtype: int64

A função `.nunique()` mostra quantos valores diferentes existem em uma coluna.

- Pode ser usado para identificar colunas com valores constantes ou repetidos.


Para obter a contagem única em todo o dataframe, pode-se usar: `df.nunique()`.


In [253]:
#Checando a quantidade de valores distintos na coluna alvo, para aferir que todos os valores são iguais
df2['PRODUTO'].nunique()


1

In [254]:
# Checando para cada coluna do dataframe
df2.nunique()

DATA INICIAL                       785
DATA FINAL                         785
REGIÃO                               5
ESTADO                              27
PRODUTO                              1
NÚMERO DE POSTOS PESQUISADOS      2219
UNIDADE DE MEDIDA                    3
PREÇO MÉDIO REVENDA              18612
DESVIO PADRÃO REVENDA             6341
PREÇO MÍNIMO REVENDA              2047
PREÇO MÁXIMO REVENDA              2078
MARGEM MÉDIA REVENDA             11930
COEF DE VARIAÇÃO REVENDA           210
PREÇO MÉDIO DISTRIBUIÇÃO         15997
DESVIO PADRÃO DISTRIBUIÇÃO        5858
PREÇO MÍNIMO DISTRIBUIÇÃO        21620
PREÇO MÁXIMO DISTRIBUIÇÃO        22576
COEF DE VARIAÇÃO DISTRIBUIÇÃO      397
MÊS                                 12
ANO                                 16
dtype: int64

# Demanda 1
### No df2, criar uma coluna que seja um identificador único de cada registro da tabela

#### Atribuindo valor variável à uma nova coluna

In [255]:
# 1 - Criar uma lógica para iterar uma variável por uma quantidade de elementos
#Lógica para iterar uma variável de acordo com um range de 5 ( 5 produtos no total, no caso)
[f'Registro {i}' for i in range(5)]

['Registro 0', 'Registro 1', 'Registro 2', 'Registro 3', 'Registro 4']

In [256]:
# 2 - Armazenando o numero de linhas e colunas do df2 em variaveis
nrows, ncols = df2.shape
print('Numero de linhas :',nrows)
print('Numero de cols :',ncols)

Numero de linhas : 106823
Numero de cols : 20


In [257]:
# 3 - Implementar a lógica para o dataframe
# Para isso, irei iterar o valor de 'i' de acordo com o comprimento da variável que armazena o numero de linhas
# logo, 'i' vai alterar de valor entra 0 a 106822 (range de nrows)
id_registro = [f'Registro {i}' for i in range(nrows)]
len(id_registro)

106823

In [258]:
# a quantidade de elementos da lista `id_registro` é igual ao número de linhas do dataframe
# aplicando os novos valores para a coluna do df2
df2['ID_REGISTRO'] = id_registro

### Checagem - Demanda 1

In [259]:
#Checando os valores criados
df2['ID_REGISTRO'].value_counts()

Registro 0         1
Registro 71147     1
Registro 71223     1
Registro 71222     1
Registro 71221     1
                  ..
Registro 35604     1
Registro 35603     1
Registro 35602     1
Registro 35601     1
Registro 106822    1
Name: ID_REGISTRO, Length: 106823, dtype: int64

In [260]:
df2['ID_REGISTRO'].nunique()


106823

In [261]:
df2.head(10)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,ID_REGISTRO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,1.19,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,Registro 0
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,0.89,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,Registro 1
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,1.18,...,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,Registro 2
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,1.09,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,Registro 3
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,1.05,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,Registro 4
5,2004-05-09,2004-05-15,NORDESTE,BAHIA,Combustível,408,R$/l,1.383,0.132,0.999,...,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004,Registro 5
6,2004-05-09,2004-05-15,NORDESTE,CEARA,Combustível,278,R$/l,1.453,0.218,1.03,...,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004,Registro 6
7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,Combustível,105,R$/l,1.631,0.158,1.35,...,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004,Registro 7
8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,Combustível,125,R$/l,1.284,0.13,1.1,...,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004,Registro 8
9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,Combustível,423,R$/l,1.224,0.141,0.989,...,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004,Registro 9


# Demanda 2
###Criar coluna com 'PREÇO MÉDIO REVENDA' convertido em dólares, considerando taxa cambial de 1:5

In [262]:
#Atribuindo valores a uma nova coluna com base em um cálculo de uma coluna já existente
# a tarefa é converter os valores da coluna "PREÇO MÉDIO REVENDA" para dólar(dividir por 5)
df2['PREÇO MÉDIO REVENDA(DÓLAR)'] = df2['PREÇO MÉDIO REVENDA']/5


## Checagem Demanda 2

In [263]:
# Mostrando apenas as duas colunas para comparação
df2[['PREÇO MÉDIO REVENDA(DÓLAR)', 'PREÇO MÉDIO REVENDA']]

Unnamed: 0,PREÇO MÉDIO REVENDA(DÓLAR),PREÇO MÉDIO REVENDA
0,0.2576,1.288
1,0.2324,1.162
2,0.2778,1.389
3,0.2524,1.262
4,0.2362,1.181
...,...,...
106818,0.7148,3.574
106819,0.6802,3.401
106820,0.5824,2.912
106821,0.6040,3.020


## Índices
Índices em uma tabela ajudam a identificar e acessar linhas de forma rápida. Eles são essenciais para organizar os dados e otimizar consultas. Muitas vezes, índices podem ser configurados com valores únicos (números ou textos/labels) ou datas para facilitar pesquisas.
- O index em um dataframe aparece à esquerda, em negrito, não fazendo parte das colunas


In [264]:
# Visualizando o index à esquerda, em negrito - 0 , 1 , 2
df2.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,ID_REGISTRO,PREÇO MÉDIO REVENDA(DÓLAR)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,1.19,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,Registro 0,0.2576
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,0.89,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,Registro 1,0.2324
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,1.18,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,Registro 2,0.2778


In [265]:
# Informações sobre o ìndice do df2
print(f'Range do index :{df2.index}')
print(f'Primeiro index :{df2.index[0]}')
print(f'Último index :{df2.index[-1]}')

Range do index :RangeIndex(start=0, stop=106823, step=1)
Primeiro index :0
Último index :106822


### Selecionando uma ou mais amostras (Indexação)

#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice númérico** --> row-first, column-second

>iloc não funciona com indices textuais(rótulos)

In [266]:
# selecionando os dados da linha de indice 3
df2.iloc[3]

DATA INICIAL                             2004-05-09
DATA FINAL                               2004-05-15
REGIÃO                                 CENTRO OESTE
ESTADO                           MATO GROSSO DO SUL
PRODUTO                                 Combustível
NÚMERO DE POSTOS PESQUISADOS                    162
UNIDADE DE MEDIDA                              R$/l
PREÇO MÉDIO REVENDA                           1.262
DESVIO PADRÃO REVENDA                          0.07
PREÇO MÍNIMO REVENDA                           1.09
PREÇO MÁXIMO REVENDA                          1.509
MARGEM MÉDIA REVENDA                          0.432
COEF DE VARIAÇÃO REVENDA                      0.055
PREÇO MÉDIO DISTRIBUIÇÃO                       0.83
DESVIO PADRÃO DISTRIBUIÇÃO                    0.119
PREÇO MÍNIMO DISTRIBUIÇÃO                    0.5991
PREÇO MÁXIMO DISTRIBUIÇÃO                   1.22242
COEF DE VARIAÇÃO DISTRIBUIÇÃO                 0.143
MÊS                                               5
ANO         

In [267]:
#selecionando dado de indice 3 e coluna 2(Sendo a quarta linha e terceira coluna, pois a contagem começa do 0)
df2.iloc[3,2]

'CENTRO OESTE'

**Selecionando múltiplias amostras/linhas:**

In [268]:
# selecionando as linhas do início a 5 (o 6 é o limite excludente)
df2.iloc[:6]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,ID_REGISTRO,PREÇO MÉDIO REVENDA(DÓLAR)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,1.19,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,Registro 0,0.2576
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,0.89,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,Registro 1,0.2324
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,1.18,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,Registro 2,0.2778
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,1.09,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,Registro 3,0.2524
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,1.05,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,Registro 4,0.2362
5,2004-05-09,2004-05-15,NORDESTE,BAHIA,Combustível,408,R$/l,1.383,0.132,0.999,...,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004,Registro 5,0.2766


In [269]:
# selecionando as linhas do início a 5 e desses, selecionando apenas as colunas 3 (incluso),4,5 (6 excludente)
df2.iloc[:6,3:6]

Unnamed: 0,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS
0,DISTRITO FEDERAL,Combustível,127
1,GOIAS,Combustível,387
2,MATO GROSSO,Combustível,192
3,MATO GROSSO DO SUL,Combustível,162
4,ALAGOAS,Combustível,103
5,BAHIA,Combustível,408


#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> row-first, column-second

> loc não funciona com indices numéricos

In [270]:
# Irei setar a coluna ID_REGISTRO como o novo índice da tabela.
df2 = df2.set_index('ID_REGISTRO')
df2.head()

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,1.19,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,0.2576
Registro 1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,0.89,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,0.2324
Registro 2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,1.18,...,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,0.2778
Registro 3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,1.09,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,0.2524
Registro 4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,1.05,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,0.2362


In [271]:
# Selecionar a linha cujo o rótulo do índice é 'Registro 572'
df2.loc['Registro 572']

DATA INICIAL                      2004-10-03
DATA FINAL                        2004-10-09
REGIÃO                              NORDESTE
ESTADO                                 BAHIA
PRODUTO                          Combustível
NÚMERO DE POSTOS PESQUISADOS             426
UNIDADE DE MEDIDA                       R$/l
PREÇO MÉDIO REVENDA                    1.618
DESVIO PADRÃO REVENDA                  0.111
PREÇO MÍNIMO REVENDA                    1.25
PREÇO MÁXIMO REVENDA                    2.05
MARGEM MÉDIA REVENDA                   0.361
COEF DE VARIAÇÃO REVENDA               0.069
PREÇO MÉDIO DISTRIBUIÇÃO               1.257
DESVIO PADRÃO DISTRIBUIÇÃO             0.186
PREÇO MÍNIMO DISTRIBUIÇÃO             0.6713
PREÇO MÁXIMO DISTRIBUIÇÃO             1.4961
COEF DE VARIAÇÃO DISTRIBUIÇÃO          0.148
MÊS                                       10
ANO                                     2004
PREÇO MÉDIO REVENDA(DÓLAR)            0.3236
Name: Registro 572, dtype: object

In [272]:
# Selecionar a linha cujo o rótulo do índice é 'Registro 572', coluna 'ESTADO'
df2.loc['Registro 572', 'ESTADO']

'BAHIA'

In [273]:
# Múltiplos índices : selecionando as linhas de índices rotulados 'Registro 572', 'Registro 1008'
df2.loc[['Registro 572', 'Registro 1008']]

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 572,2004-10-03,2004-10-09,NORDESTE,BAHIA,Combustível,426,R$/l,1.618,0.111,1.25,...,0.361,0.069,1.257,0.186,0.6713,1.4961,0.148,10,2004,0.3236
Registro 1008,2005-01-23,2005-01-29,NORDESTE,PERNAMBUCO,Combustível,431,R$/l,1.586,0.146,1.31,...,0.226,0.092,1.36,0.095,0.75,1.575,0.07,1,2005,0.3172


In [274]:
# Selecionando todas as linhas e apenas as colunas com rótulos 'ESTADO' e 'NÚMERO DE POSTOS PESQUISADOS'
df2.loc[:, ['ESTADO', 'NÚMERO DE POSTOS PESQUISADOS']]

Unnamed: 0_level_0,ESTADO,NÚMERO DE POSTOS PESQUISADOS
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1
Registro 0,DISTRITO FEDERAL,127
Registro 1,GOIAS,387
Registro 2,MATO GROSSO,192
Registro 3,MATO GROSSO DO SUL,162
Registro 4,ALAGOAS,103
...,...,...
Registro 106818,RIO GRANDE DO NORTE,7
Registro 106819,RIO GRANDE DO SUL,23
Registro 106820,SANTA CATARINA,24
Registro 106821,SAO PAULO,52


In [275]:
# Intervalos : Selecionando as linhas entre 'Registro 572' e 'Registro 580', e apenas as colunas 'ESTADO' e 'REGIÃO'
df2.loc['Registro 572':'Registro 580', ['ESTADO', 'REGIÃO']]

Unnamed: 0_level_0,ESTADO,REGIÃO
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1
Registro 572,BAHIA,NORDESTE
Registro 573,CEARA,NORDESTE
Registro 574,MARANHAO,NORDESTE
Registro 575,PARAIBA,NORDESTE
Registro 576,PERNAMBUCO,NORDESTE
Registro 577,PIAUI,NORDESTE
Registro 578,RIO GRANDE DO NORTE,NORDESTE
Registro 579,SERGIPE,NORDESTE
Registro 580,ACRE,NORTE


## 1.7 Salvando um Data Frame em arquivo

Para salvarmos um Data Frame para um **arquivo CSV**, basta usar o método `.to_csv`. <br/>

Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>

**Como no geral tais índices são números de 0 a n-1 por padrão, não há necessidade para isso .**<br/>
- Desta forma, utilize o parâmetro: `index=False` para salvar sem um index que não é informativo

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterar, utilize o parâmetro `sep`.

In [276]:
# O Indice do df2 é informativo, então salvarei com o index, que será a primeira coluna do csv
df2.to_csv('/content/output/dados_resultantes_com_index.csv')

## O arquivo salvo pode ser encontrado na pasta 'output' do projeto, com nome dados_resultantes_com_index.csv

In [277]:

# O Indice do df NÃO é informativo, então não salvarei com o index. A primeira col do arquivo será a primeira do df.
df.to_csv('/content/output/dados_resultantes_sem_index.csv', index=False)

## O arquivo salvo pode ser encontrado na pasta 'output' do projeto, com nome dados_resultantes_sem_index.csv

## Filtros - Filtrando amostras com Seleção Condicional

Durante a análise exploratória e transformação de dados, frequentemente será necessário filtrar as amostras, a partir de certas **condições**, para fins de análise mais específica ou atender uma demanda de negócio de dados específicos. <br/>

In [278]:
# Listando as colunas
df2.columns

Index(['DATA INICIAL', 'DATA FINAL', 'REGIÃO', 'ESTADO', 'PRODUTO',
       'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO', 'MÊS',
       'ANO', 'PREÇO MÉDIO REVENDA(DÓLAR)'],
      dtype='object')

# Demanda 3
###Mostrar todos os estados cujos os preços dos combustíveis foram aferidos

In [279]:
# A partir da coluna estado, listar os valores únicos
df2['ESTADO'].unique()

array(['DISTRITO FEDERAL', 'GOIAS', 'MATO GROSSO', 'MATO GROSSO DO SUL',
       'ALAGOAS', 'BAHIA', 'CEARA', 'MARANHAO', 'PARAIBA', 'PERNAMBUCO',
       'PIAUI', 'RIO GRANDE DO NORTE', 'SERGIPE', 'ACRE', 'AMAPA',
       'AMAZONAS', 'PARA', 'RONDONIA', 'RORAIMA', 'TOCANTINS',
       'ESPIRITO SANTO', 'MINAS GERAIS', 'RIO DE JANEIRO', 'SAO PAULO',
       'PARANA', 'RIO GRANDE DO SUL', 'SANTA CATARINA'], dtype=object)

# Demanda 4
###Quantos registros há no dataset por estado?

In [280]:
# Usando o comando value_counts(), acha-se a resposta
df2["ESTADO"].value_counts()

RIO DE JANEIRO         4263
SAO PAULO              4263
RIO GRANDE DO SUL      4263
BAHIA                  4263
CEARA                  4263
PARAIBA                4263
SANTA CATARINA         4262
RIO GRANDE DO NORTE    4262
PERNAMBUCO             4262
MINAS GERAIS           4261
ESPIRITO SANTO         4260
SERGIPE                4259
PARANA                 4251
ALAGOAS                4250
MATO GROSSO DO SUL     4246
MATO GROSSO            4037
AMAZONAS               3889
GOIAS                  3663
PIAUI                  3548
MARANHAO               3499
PARA                   3497
DISTRITO FEDERAL       3483
TOCANTINS              3483
ACRE                   3480
RONDONIA               3479
RORAIMA                3471
AMAPA                  3403
Name: ESTADO, dtype: int64

# Demanda 5
###Selecionar os preços dos Postos de São Paulo


##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

Para selecionar apenas os preços dos postos de combustível no estado de São Paulo, foi utilizada uma filtragem no DataFrame.
- Filtragem: Selecionamos as linhas onde a coluna ESTADO é igual a 'SAO PAULO'.
- Armazenamento: Salvamos o resultado filtrado na variável df_sp.

In [281]:
df_sp = df2[df2['ESTADO'] == 'SAO PAULO']
df_sp

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,Combustível,4047,R$/l,0.768,0.085,0.590,...,0.198,0.111,0.57,0.056,0.4271,1.4123,0.098,5,2004,0.1536
Registro 50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,Combustível,4066,R$/l,0.766,0.083,0.590,...,0.19,0.108,0.576,0.05,0.43204,0.9724,0.087,5,2004,0.1532
Registro 77,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,Combustível,4077,R$/l,0.823,0.071,0.620,...,0.209,0.086,0.614,0.063,0.34951,1.412,0.103,5,2004,0.1646
Registro 104,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,Combustível,4073,R$/l,0.887,0.075,0.639,...,0.216,0.085,0.671,0.075,0.3398,1.0669,0.112,5,2004,0.1774
Registro 131,2004-06-06,2004-06-12,SUDESTE,SAO PAULO,Combustível,4082,R$/l,0.894,0.071,0.669,...,0.205,0.079,0.689,0.072,0.47797,1.0669,0.104,6,2004,0.1788
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Registro 106724,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,Combustível,863,R$/l,3.448,0.156,3.099,...,0.401,0.045,3.047,0.097,2.8599,3.3481,0.032,6,2019,0.6896
Registro 106751,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,Combustível,1277,R$/l,3.574,0.169,3.199,...,0.451,0.047,3.123,0.111,2.885,3.491,0.036,6,2019,0.7148
Registro 106778,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,Combustível,1644,R$/l,4.142,0.183,3.769,...,0.429,0.044,3.713,0.097,3.52,4.0892,0.026,6,2019,0.8284
Registro 106805,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,Combustível,1017,R$/13Kg,66.893,6.100,50.000,...,17.679,0.091,49.214,5.071,40.19,72,0.103,6,2019,13.3786


In [282]:
# Checando o resultado
df_sp['ESTADO'].value_counts()

SAO PAULO    4263
Name: ESTADO, dtype: int64

# Demanda 6
###Selecionar os preços dos Postos de São Paulo, Rio de Janeiro e Maranhao

- O método `isin` faz com que o filtro seja aplicada para uma lista de valores de uma mesma coluna

In [283]:
# 1. Checar como os estados estão escritos exatamente no df2
df2['ESTADO'].value_counts()

RIO DE JANEIRO         4263
SAO PAULO              4263
RIO GRANDE DO SUL      4263
BAHIA                  4263
CEARA                  4263
PARAIBA                4263
SANTA CATARINA         4262
RIO GRANDE DO NORTE    4262
PERNAMBUCO             4262
MINAS GERAIS           4261
ESPIRITO SANTO         4260
SERGIPE                4259
PARANA                 4251
ALAGOAS                4250
MATO GROSSO DO SUL     4246
MATO GROSSO            4037
AMAZONAS               3889
GOIAS                  3663
PIAUI                  3548
MARANHAO               3499
PARA                   3497
DISTRITO FEDERAL       3483
TOCANTINS              3483
ACRE                   3480
RONDONIA               3479
RORAIMA                3471
AMAPA                  3403
Name: ESTADO, dtype: int64

In [284]:
# Filtrar usando exatamente como foram escritos, ou não irão aparecer no resultado da filtragem
df_estados = df2[df2['ESTADO'].isin(['SAO PAULO', 'RIO DE JANEIRO', 'MARANHAO'])]
df_estados.head()

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,Combustível,105,R$/l,1.631,0.158,1.35,...,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004,0.3262
Registro 22,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,Combustível,952,R$/l,1.098,0.154,0.74,...,0.312,0.14,0.786,0.173,0.326,1.263,0.22,5,2004,0.2196
Registro 23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,Combustível,4047,R$/l,0.768,0.085,0.59,...,0.198,0.111,0.57,0.056,0.4271,1.4123,0.098,5,2004,0.1536
Registro 34,2004-05-16,2004-05-22,NORDESTE,MARANHAO,Combustível,108,R$/l,1.617,0.164,1.34,...,0.529,0.101,1.088,0.103,0.9224,1.3683,0.095,5,2004,0.3234
Registro 49,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,Combustível,948,R$/l,1.092,0.157,0.74,...,0.284,0.144,0.808,0.175,0.3257,1.2921,0.217,5,2004,0.2184


In [285]:
# Checando o resultado
df_estados['ESTADO'].value_counts()

RIO DE JANEIRO    4263
SAO PAULO         4263
MARANHAO          3499
Name: ESTADO, dtype: int64

##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.
> É uma abordagem que remete ao SQL, então existem limitações referentes à presença de caracteres especiais no nome das colunas

In [286]:
df_sp_query = df2.query('ESTADO == "SAO PAULO"')
df_sp_query['ESTADO'].value_counts()

SAO PAULO    4263
Name: ESTADO, dtype: int64

In [287]:
df_estados_query = df2.query("ESTADO in ['SAO PAULO', 'RIO DE JANEIRO', 'MARANHAO']")
df_estados_query['ESTADO'].value_counts()

RIO DE JANEIRO    4263
SAO PAULO         4263
MARANHAO          3499
Name: ESTADO, dtype: int64

# Demanda 7 - Múltiplas condições
###Selecionar: registros de postos do Rio de Janeiro com Preços Médio de Revenda acima de **2 reais**

#### Sobre condicionais
> O símbolo **&** significa **AND** na comparação, ou seja, todas as condições envolvidas devem ser satisfeitas para o registro passar pela filtragem

> O símbolo **|** significa **OR** na comparação, ou seja, qualquer uma das condições envolvidas deve ser satisfeita para o registro passar pela filtragem.

> O símbolo **~** representa **NOT** na comparação, indicando que a condição que segue não deve ser satisfeita para o registro passar pela filtragem.


In [288]:
df_rj_acima_2_reais = df2[(df2['ESTADO'] == 'RIO DE JANEIRO') & (df2['PREÇO MÉDIO REVENDA'] > 2)]
df_rj_acima_2_reais.head()

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 2501,2006-02-26,2006-03-04,SUDESTE,RIO DE JANEIRO,Combustível,881,R$/l,2.028,0.148,1.589,...,0.222,0.073,1.806,0.11,1.31,2.1358,0.061,2,2006,0.4056
Registro 2528,2006-03-05,2006-03-11,SUDESTE,RIO DE JANEIRO,Combustível,889,R$/l,2.125,0.149,1.779,...,0.286,0.07,1.839,0.117,1.438,2.2801,0.064,3,2006,0.425
Registro 2555,2006-03-12,2006-03-18,SUDESTE,RIO DE JANEIRO,Combustível,902,R$/l,2.163,0.138,1.799,...,0.268,0.064,1.895,0.134,1.43,2.3454,0.071,3,2006,0.4326
Registro 2582,2006-03-19,2006-03-25,SUDESTE,RIO DE JANEIRO,Combustível,898,R$/l,2.166,0.146,1.76,...,0.231,0.067,1.935,0.14,1.438,2.2925,0.072,3,2006,0.4332
Registro 2609,2006-03-26,2006-04-01,SUDESTE,RIO DE JANEIRO,Combustível,890,R$/l,2.172,0.143,1.789,...,0.209,0.066,1.963,0.133,1.438,2.2513,0.068,3,2006,0.4344


In [289]:
## Checando condição1 : Apenas estado do RJ
df_rj_acima_2_reais['ESTADO'].value_counts()

RIO DE JANEIRO    3054
Name: ESTADO, dtype: int64

In [290]:
## Checando condição2: Apenas PREÇO MÉDIO REVENDA > 2 reais
## Checarei pelo valor mínimo presente no resultado, que deve ser maior que 2.
df_rj_acima_2_reais['PREÇO MÉDIO REVENDA'].min()

2.001

#Demanda 8
###Selecionar os registros de postos do Rio de Janeiro **OU** com Preços Médio de Revenda acima de 2 reais

In [291]:
df_rj_ou_acima_2_reais = df2[(df2['ESTADO'] == 'RIO DE JANEIRO') | (df2['PREÇO MÉDIO REVENDA'] > 2)]
df_rj_ou_acima_2_reais.head()

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 22,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,Combustível,952,R$/l,1.098,0.154,0.74,...,0.312,0.14,0.786,0.173,0.326,1.263,0.22,5,2004,0.2196
Registro 49,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,Combustível,948,R$/l,1.092,0.157,0.74,...,0.284,0.144,0.808,0.175,0.3257,1.2921,0.217,5,2004,0.2184
Registro 76,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,Combustível,973,R$/l,1.103,0.14,0.77,...,0.281,0.127,0.822,0.166,0.38909,1.1859,0.202,5,2004,0.2206
Registro 103,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,Combustível,955,R$/l,1.149,0.156,0.799,...,0.3,0.136,0.849,0.188,0.3453,1.3667,0.221,5,2004,0.2298
Registro 130,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,Combustível,966,R$/l,1.165,0.154,0.83,...,0.254,0.132,0.911,0.198,0.4,1.3667,0.217,6,2004,0.233


### Checando condição OR
- O método .any() retornará True se houver pelo menos uma linha no DataFrame que satisfaça a condição. Se ambas as condições retornarem True, o filtro fez seu papel

In [292]:
# Checando condição1 : Verificar se há entradas com 'RIO DE JANEIRO'
(df_rj_ou_acima_2_reais['ESTADO'] == 'RIO DE JANEIRO').any()

True

In [293]:

# Checando condição1 : Verificar se há entradas com 'PREÇO MÉDIO REVENDA' maior que 2
(df_rj_ou_acima_2_reais['PREÇO MÉDIO REVENDA'] > 2).any()

True

#Demanda 9
###Selecionar os registros de postos do Rio de Janeiro **OU** do Maranhão com Preços Médio de Revenda entre 1 e 2 reais (incluso)

In [294]:
# Uma alternativo ao .isin é o próprio comparador OR (|)
df_resultados = df2[((df2['ESTADO'] == 'RIO DE JANEIRO') | (df2['ESTADO'] == 'MARANHAO'))
                  & (df2['PREÇO MÉDIO REVENDA'] >= 1)
                  & (df2['PREÇO MÉDIO REVENDA'] <= 2)]
df_resultados.head()


Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,Combustível,105,R$/l,1.631,0.158,1.35,...,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004,0.3262
Registro 22,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,Combustível,952,R$/l,1.098,0.154,0.74,...,0.312,0.14,0.786,0.173,0.326,1.263,0.22,5,2004,0.2196
Registro 34,2004-05-16,2004-05-22,NORDESTE,MARANHAO,Combustível,108,R$/l,1.617,0.164,1.34,...,0.529,0.101,1.088,0.103,0.9224,1.3683,0.095,5,2004,0.3234
Registro 49,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,Combustível,948,R$/l,1.092,0.157,0.74,...,0.284,0.144,0.808,0.175,0.3257,1.2921,0.217,5,2004,0.2184
Registro 61,2004-05-23,2004-05-29,NORDESTE,MARANHAO,Combustível,107,R$/l,1.621,0.171,1.299,...,0.514,0.105,1.107,0.097,0.9521,1.3618,0.088,5,2004,0.3242


In [295]:
#Testar os estados
df_resultados['ESTADO'].value_counts()


RIO DE JANEIRO    1209
MARANHAO           598
Name: ESTADO, dtype: int64

In [296]:
#Testando o valor dos preços filtrados
min_preco = df_resultados['PREÇO MÉDIO REVENDA'].min()
max_preco = df_resultados['PREÇO MÉDIO REVENDA'].max()

print(f"O menor preço médio de revenda é: {min_preco}")
print(f"O maior preço médio de revenda é: {max_preco}")


O menor preço médio de revenda é: 1.036
O maior preço médio de revenda é: 2.0


#Demanda 10
###Selecionar os registros de postos de São Paulo ou do Rio de Janeiro com Gasolina Comum acima de 2 reais**

In [297]:
# Nesse caso, é preferível isolar as condições para uma melhor organização e diminuir as chances de erro.

# 1. Criar o filtro composto por cada condição
selecao_1 = (df['ESTADO'] == 'SAO PAULO') | (df['ESTADO'] == 'RIO DE JANEIRO')
selecao_2 = (df['PRODUTO'] == 'GASOLINA COMUM')
selecao_3 = (df['PREÇO MÉDIO REVENDA'] > 2)

selecao_final = selecao_1 & selecao_2 & selecao_3

In [298]:
# 2. Aplicar o filtro no dataframe original
dado_filtrado = df[selecao_final]
dado_filtrado

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
12086,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1071,R$/l,2.045,0.109,1.700,2.599,0.254,0.053,1.791,0.047,1.6363,1.9594,0.026,5,2004
12113,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.040,0.113,1.700,2.599,0.252,0.055,1.788,0.049,1.5943,1.99651,0.027,5,2004
12140,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.042,0.108,1.700,2.599,0.252,0.053,1.79,0.046,1.63596,2.2137,0.026,5,2004
12167,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.053,0.111,1.730,2.599,0.251,0.054,1.802,0.055,1.64,2.21425,0.031,5,2004
12194,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.063,0.107,1.760,2.599,0.247,0.052,1.816,0.054,1.64,2.32425,0.03,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106479,2019-06-09,2019-06-15,SUDESTE,SAO PAULO,GASOLINA COMUM,1643,R$/l,4.210,0.177,3.759,4.992,0.425,0.042,3.785,0.096,3.52,4.1007,0.025,6,2019
106623,2019-06-16,2019-06-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,418,R$/l,4.927,0.160,4.599,5.859,0.544,0.032,4.383,0.1,4.1972,4.6239,0.023,6,2019
106629,2019-06-16,2019-06-22,SUDESTE,SAO PAULO,GASOLINA COMUM,1635,R$/l,4.168,0.177,3.679,5.199,0.443,0.042,3.725,0.096,3.502,4.0892,0.026,6,2019
106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,4.599,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019


In [299]:
#Testando as condições
print(dado_filtrado['ESTADO'].unique()) # garantindo que só tem os estados estipulados na condição
print(dado_filtrado['PRODUTO'].unique()) # garantindo que só tem o produto estipulado na condição
print(dado_filtrado['PREÇO MÉDIO REVENDA'].min()) # garantindo que o menor valor presente no resultado é igual ou maior que 2

['RIO DE JANEIRO' 'SAO PAULO']
['GASOLINA COMUM']
2.028


### Convertendo tipagem de dados e tratamento de valores nulos


### Conversão de tipos de atributos
O pandas automaticamente reconhece os tipos de dados de cada coluna.

Conforme mencionado anteriormente, o dataset possui dados com tipagem não correspondente, o que inviabiliza algumas operações.

Irei converter e tratar esses dados conforme necessário para as demandas da área de negócio.

#Demanda 11
###Achar a data referente às últimas 2 semanas , considerando que a data atual sempre mudará a cada dia diferente de processamento.

In [300]:
# Determinando a data de hoje e a data de 2 semanas atrás


# calculando a data de hoje - muda de acordo com o dia em que for processado
data_hoje = datetime.today()

# o timedelta calcula datas a partir de um critério
data_duas_semanas = data_hoje - timedelta(weeks=2) #formato: datetime.datetime(2023, 10, 18, 22, 6, 15, 621561)

#transformar o resultado para ser mellhor compreendido pelo o usuário final
data_duas_semanas_format = data_duas_semanas.strftime('%Y-%m-%d') # convertendo para string com formato YYYY-MM-DD
data_duas_semanas_format


'2023-10-04'

#Demanda 12
###Criar uma coluna com os os dias que se passaram entre a data final e a data inicial

In [301]:
# 1. checando o formato da escrita das datas
df2[['DATA FINAL','DATA INICIAL']].head()
#O formato é YYYY-MM-DD

Unnamed: 0_level_0,DATA FINAL,DATA INICIAL
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1
Registro 0,2004-05-15,2004-05-09
Registro 1,2004-05-15,2004-05-09
Registro 2,2004-05-15,2004-05-09
Registro 3,2004-05-15,2004-05-09
Registro 4,2004-05-15,2004-05-09


In [302]:
# 2. checando o tipo de cada coluna
df2.dtypes

## A coluna data final está como object, vou converter para datetime para a demanda

DATA INICIAL                      object
DATA FINAL                        object
REGIÃO                            object
ESTADO                            object
PRODUTO                           object
NÚMERO DE POSTOS PESQUISADOS       int64
UNIDADE DE MEDIDA                 object
PREÇO MÉDIO REVENDA              float64
DESVIO PADRÃO REVENDA            float64
PREÇO MÍNIMO REVENDA             float64
PREÇO MÁXIMO REVENDA             float64
MARGEM MÉDIA REVENDA              object
COEF DE VARIAÇÃO REVENDA         float64
PREÇO MÉDIO DISTRIBUIÇÃO          object
DESVIO PADRÃO DISTRIBUIÇÃO        object
PREÇO MÍNIMO DISTRIBUIÇÃO         object
PREÇO MÁXIMO DISTRIBUIÇÃO         object
COEF DE VARIAÇÃO DISTRIBUIÇÃO     object
MÊS                                int64
ANO                                int64
PREÇO MÉDIO REVENDA(DÓLAR)       float64
dtype: object

### Insight
Como as colunas DATA INICIAL e DATA FINAL estão como object, isso invibiliza fazer a análise temporal.

Para concluir a demanda, converterei as duas para o tipo apropriado, realizar a operação e salver o resultado em uma nova coluna.

In [303]:
# 3. Converter as colunas de object para datetime
df2['DATA FINAL'] = pd.to_datetime(df2['DATA FINAL'])
df2['DATA INICIAL'] = pd.to_datetime(df2['DATA INICIAL'])
df2[['DATA FINAL', 'DATA INICIAL']].head()

Unnamed: 0_level_0,DATA FINAL,DATA INICIAL
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1
Registro 0,2004-05-15,2004-05-09
Registro 1,2004-05-15,2004-05-09
Registro 2,2004-05-15,2004-05-09
Registro 3,2004-05-15,2004-05-09
Registro 4,2004-05-15,2004-05-09


In [304]:
#checando os tipos após a conversão
df2.dtypes

DATA INICIAL                     datetime64[ns]
DATA FINAL                       datetime64[ns]
REGIÃO                                   object
ESTADO                                   object
PRODUTO                                  object
NÚMERO DE POSTOS PESQUISADOS              int64
UNIDADE DE MEDIDA                        object
PREÇO MÉDIO REVENDA                     float64
DESVIO PADRÃO REVENDA                   float64
PREÇO MÍNIMO REVENDA                    float64
PREÇO MÁXIMO REVENDA                    float64
MARGEM MÉDIA REVENDA                     object
COEF DE VARIAÇÃO REVENDA                float64
PREÇO MÉDIO DISTRIBUIÇÃO                 object
DESVIO PADRÃO DISTRIBUIÇÃO               object
PREÇO MÍNIMO DISTRIBUIÇÃO                object
PREÇO MÁXIMO DISTRIBUIÇÃO                object
COEF DE VARIAÇÃO DISTRIBUIÇÃO            object
MÊS                                       int64
ANO                                       int64
PREÇO MÉDIO REVENDA(DÓLAR)              

In [305]:
# 4. Fazerndo a operação para a demanda e salvando na coluna 'Dias_Passados'
df2['Dias_Passados'] = (df2['DATA FINAL'] - df2['DATA INICIAL']) / pd.Timedelta(days=1)
df2['Dias_Passados']

### o timedelta está colocando o resultado em unidades de dias (day=1)

ID_REGISTRO
Registro 0         6.0
Registro 1         6.0
Registro 2         6.0
Registro 3         6.0
Registro 4         6.0
                  ... 
Registro 106818    6.0
Registro 106819    6.0
Registro 106820    6.0
Registro 106821    6.0
Registro 106822    6.0
Name: Dias_Passados, Length: 106823, dtype: float64

In [306]:
# Checando
df2.head()

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR),Dias_Passados
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,1.19,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,0.2576,6.0
Registro 1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,0.89,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,0.2324,6.0
Registro 2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,1.18,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,0.2778,6.0
Registro 3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,1.09,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,0.2524,6.0
Registro 4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,1.05,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,0.2362,6.0


Note que a coluna criada está no final do dataframe, o que pode dificultar a associação da informação pelo usuário final.

Logo, irei reordenar as colunas para facilitar o entendimento.

In [307]:
#Listando colunas para copiar a ordem
df2.columns

Index(['DATA INICIAL', 'DATA FINAL', 'REGIÃO', 'ESTADO', 'PRODUTO',
       'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO', 'MÊS',
       'ANO', 'PREÇO MÉDIO REVENDA(DÓLAR)', 'Dias_Passados'],
      dtype='object')

In [308]:
# Reordenando as colunas de modo que faça sentido para o usuário final
colunas_ordenadas = ['DATA INICIAL', 'DATA FINAL','Dias_Passados', 'REGIÃO', 'ESTADO', 'PRODUTO',
       'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO', 'MÊS',
       'ANO', 'PREÇO MÉDIO REVENDA(DÓLAR)']

df2 = df2[colunas_ordenadas]
df2.head()


Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,Dias_Passados,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 0,2004-05-09,2004-05-15,6.0,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,0.2576
Registro 1,2004-05-09,2004-05-15,6.0,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,0.2324
Registro 2,2004-05-09,2004-05-15,6.0,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,...,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,0.2778
Registro 3,2004-05-09,2004-05-15,6.0,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,0.2524
Registro 4,2004-05-09,2004-05-15,6.0,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,0.2362


# Demanda 13
###Corrigir todos os dados numéricos que estão com tipagem object, para o correto

In [309]:
# Investigando as cols que são obtect para números
df2.dtypes

DATA INICIAL                     datetime64[ns]
DATA FINAL                       datetime64[ns]
Dias_Passados                           float64
REGIÃO                                   object
ESTADO                                   object
PRODUTO                                  object
NÚMERO DE POSTOS PESQUISADOS              int64
UNIDADE DE MEDIDA                        object
PREÇO MÉDIO REVENDA                     float64
DESVIO PADRÃO REVENDA                   float64
PREÇO MÍNIMO REVENDA                    float64
PREÇO MÁXIMO REVENDA                    float64
MARGEM MÉDIA REVENDA                     object
COEF DE VARIAÇÃO REVENDA                float64
PREÇO MÉDIO DISTRIBUIÇÃO                 object
DESVIO PADRÃO DISTRIBUIÇÃO               object
PREÇO MÍNIMO DISTRIBUIÇÃO                object
PREÇO MÁXIMO DISTRIBUIÇÃO                object
COEF DE VARIAÇÃO DISTRIBUIÇÃO            object
MÊS                                       int64
ANO                                     

### Identificando valores anômalos
Primeiro irei identificar se há caracteres diferente de números, por uma das colunas que serão transformadas

In [310]:
# 1. Verificando valores anômalos em uma das colunas que será transformada
df2['PREÇO MÉDIO DISTRIBUIÇÃO'].value_counts()

#foram detectadas 3400 registros com o valor '-', que não poderão ser convertidos para número

-         3400
1.283       96
1.684       92
1.681       92
1.683       90
          ... 
28.013       1
31.955       1
39.704       1
29.297       1
57.05        1
Name: PREÇO MÉDIO DISTRIBUIÇÃO, Length: 15997, dtype: int64

In [311]:
# Fazendo uma cópia do df (para manter meus dados do df2 inalterado)
df3 = df2.copy()

#### Conversão com pd.numeric
# 2. Convertendo atributos/colunas para 'numeric'

Estou transformando certas colunas do dataframe para um tipo numérico. Se algum valor não puder ser convertido, ele será substituído por NaN (representando um valor nulo ou "não número"), pelo parâmetro `coerce`.

As colunas convertidas são as listadas em `cols_convert`.


In [312]:
# 2. Convertendo atributos/colunas para 'numeric'
cols_convert = ['MARGEM MÉDIA REVENDA',
                 'PREÇO MÉDIO DISTRIBUIÇÃO',
                 'DESVIO PADRÃO DISTRIBUIÇÃO',
                 'PREÇO MÍNIMO DISTRIBUIÇÃO',
                 'PREÇO MÁXIMO DISTRIBUIÇÃO',
                 'COEF DE VARIAÇÃO DISTRIBUIÇÃO']

for atributo in cols_convert:
    df3[atributo] = pd.to_numeric(df3[atributo], errors='coerce')

In [313]:
# Checando tipagem e nulos após transformação
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 106823 entries, Registro 0 to Registro 106822
Data columns (total 22 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   106823 non-null  datetime64[ns]
 1   DATA FINAL                     106823 non-null  datetime64[ns]
 2   Dias_Passados                  106823 non-null  float64       
 3   REGIÃO                         106823 non-null  object        
 4   ESTADO                         106823 non-null  object        
 5   PRODUTO                        106823 non-null  object        
 6   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64         
 7   UNIDADE DE MEDIDA              106823 non-null  object        
 8   PREÇO MÉDIO REVENDA            106823 non-null  float64       
 9   DESVIO PADRÃO REVENDA          106823 non-null  float64       
 10  PREÇO MÍNIMO REVENDA           106823 non-null  float64

In [314]:
# Checando a quantidade de valores nulos por coluna
# Nulos foram colocados  no lugar dos caracteres não-numéricos, que nao podem ser convertidos
df3.isnull().sum()

DATA INICIAL                        0
DATA FINAL                          0
Dias_Passados                       0
REGIÃO                              0
ESTADO                              0
PRODUTO                             0
NÚMERO DE POSTOS PESQUISADOS        0
UNIDADE DE MEDIDA                   0
PREÇO MÉDIO REVENDA                 0
DESVIO PADRÃO REVENDA               0
PREÇO MÍNIMO REVENDA                0
PREÇO MÁXIMO REVENDA                0
MARGEM MÉDIA REVENDA             3431
COEF DE VARIAÇÃO REVENDA            0
PREÇO MÉDIO DISTRIBUIÇÃO         3400
DESVIO PADRÃO DISTRIBUIÇÃO       3400
PREÇO MÍNIMO DISTRIBUIÇÃO        3400
PREÇO MÁXIMO DISTRIBUIÇÃO        3400
COEF DE VARIAÇÃO DISTRIBUIÇÃO    3400
MÊS                                 0
ANO                                 0
PREÇO MÉDIO REVENDA(DÓLAR)          0
dtype: int64

<br/>

Note que há vários valores ***null*** agora **após a *conversão de tipos***.

A pŕoxima etapa é realizar a **limpeza e tratamento desses dados**.

### Limpeza de dados

In [315]:
#Checando os valores nulos de uma coluna especifica convertida
registro_nulos = df3['PREÇO MÉDIO DISTRIBUIÇÃO'].isnull()

# usando o criterio acima para filtrar o df inteiro e visulizar os nulos
df3[registro_nulos]

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,Dias_Passados,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 1903,2005-09-25,2005-10-01,6.0,NORTE,PARA,Combustível,2,R$/l,1.694,0.283,...,,0.167,,,,,,9,2005,0.3388
Registro 1958,2005-10-09,2005-10-15,6.0,NORTE,RORAIMA,Combustível,3,R$/l,2.000,0.000,...,,0.000,,,,,,10,2005,0.4000
Registro 2012,2005-10-23,2005-10-29,6.0,NORTE,RORAIMA,Combustível,3,R$/l,2.277,0.023,...,,0.010,,,,,,10,2005,0.4554
Registro 2497,2006-02-26,2006-03-04,6.0,NORTE,RORAIMA,Combustível,11,R$/l,2.182,0.040,...,,0.018,,,,,,2,2006,0.4364
Registro 3199,2006-08-27,2006-09-02,6.0,NORTE,RORAIMA,Combustível,22,R$/l,2.285,0.068,...,,0.030,,,,,,8,2006,0.4570
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Registro 106664,2019-06-16,2019-06-22,6.0,SUDESTE,MINAS GERAIS,Combustível,5,R$/m3,3.445,0.147,...,,0.043,,,,,,6,2019,0.6890
Registro 106666,2019-06-16,2019-06-22,6.0,SUL,PARANA,Combustível,7,R$/m3,3.132,0.295,...,,0.094,,,,,,6,2019,0.6264
Registro 106811,2019-06-23,2019-06-29,6.0,SUDESTE,ESPIRITO SANTO,Combustível,4,R$/m3,3.299,0.005,...,,0.002,,,,,,6,2019,0.6598
Registro 106813,2019-06-23,2019-06-29,6.0,SUDESTE,MINAS GERAIS,Combustível,6,R$/m3,3.548,0.100,...,,0.028,,,,,,6,2019,0.7096


#Demanda 14
### Preencher os valores numéricos nulos por zero
- Preencher os valores nulos por zero é uma das estratégias, mas não a única e nem recomendada para algumas das colunas (ex: a MARGEM MÉDIA REVENDA seria melhor preencher com a média dos valores). Para o exercício, seguirei com o proposto na demanda.

In [316]:
#selecionando as colunas que possuem valores nulos
col_nulos =  ['MARGEM MÉDIA REVENDA',
                 'PREÇO MÉDIO DISTRIBUIÇÃO',
                 'DESVIO PADRÃO DISTRIBUIÇÃO',
                 'PREÇO MÍNIMO DISTRIBUIÇÃO',
                 'PREÇO MÁXIMO DISTRIBUIÇÃO',
                 'COEF DE VARIAÇÃO DISTRIBUIÇÃO']

In [317]:
 #usando fillna para preecher os NaN com zero
for item in col_nulos:     #iterando pela lista de colunas selecionadas
  df3[item].fillna(0, inplace = True)


In [318]:
#checando a tarefa
df3.isnull().sum()

DATA INICIAL                     0
DATA FINAL                       0
Dias_Passados                    0
REGIÃO                           0
ESTADO                           0
PRODUTO                          0
NÚMERO DE POSTOS PESQUISADOS     0
UNIDADE DE MEDIDA                0
PREÇO MÉDIO REVENDA              0
DESVIO PADRÃO REVENDA            0
PREÇO MÍNIMO REVENDA             0
PREÇO MÁXIMO REVENDA             0
MARGEM MÉDIA REVENDA             0
COEF DE VARIAÇÃO REVENDA         0
PREÇO MÉDIO DISTRIBUIÇÃO         0
DESVIO PADRÃO DISTRIBUIÇÃO       0
PREÇO MÍNIMO DISTRIBUIÇÃO        0
PREÇO MÁXIMO DISTRIBUIÇÃO        0
COEF DE VARIAÇÃO DISTRIBUIÇÃO    0
MÊS                              0
ANO                              0
PREÇO MÉDIO REVENDA(DÓLAR)       0
dtype: int64

#Demanda 15
### Identificar os registros preenchidos com zero nas colunas seleciondas da demanda anterior e excluí-las do dataset

In [319]:
# Identificando linhas que contêm zero nas colunas selecionadas
linhas_com_zero = df3[col_nulos].eq(0).any(axis=1)

# Removendo essas linhas
df3 = df3[~linhas_com_zero] #o '~' representa que o df3 receberá todos os dados, exceto os dados da "linhas_com_zero"


In [320]:
# Checando o resultado
df3[df3[col_nulos].eq(0).any(axis=1)]

# esse comando  irá verificar no df3 apenas as linhas que possuem um valor zero nas colunas especificadas em col_nulos.
# é esperado quevenha zerado, ou seja não contenha registros (0 rows)

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,Dias_Passados,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1


#Demanda 16
### Enviar o resultado como um arquivo para a área de negócio - csv e xlsx



In [321]:
# Gerando arquivo csv, com índice informativo
df3.to_csv('/content/output/dados_pre_processados.csv')

In [322]:
# exportando resultado como excel (arquivo mais pesado, demora para rodar)
#!pip install openpyxl # Instalando pacote necessário
df3.to_excel('/content/output/dados_pre_processados.xlsx')

# Demanda 17
### Identificar o maior preço médio de revenda para cada região

##Agrupamento de dados


O método `groupby` é utilizado para **agrupar linhas de um dataframe com base em algumas colunas específicas**.

Essa técnica é útil para sumarizar dados, permitindo realizar operações como contagens, médias, ou somas sobre grupos específicos.


In [323]:
df3.head()

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,Dias_Passados,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA(DÓLAR)
ID_REGISTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Registro 0,2004-05-09,2004-05-15,6.0,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,0.2576
Registro 1,2004-05-09,2004-05-15,6.0,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,0.2324
Registro 2,2004-05-09,2004-05-15,6.0,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,...,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,0.2778
Registro 3,2004-05-09,2004-05-15,6.0,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,0.2524
Registro 4,2004-05-09,2004-05-15,6.0,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,0.2362


In [324]:
# Agrupando as linhas do dataframe de acordo com as regiões pelo critério de MAX da col preço médio revenda
max_revenda_regiao = df3.groupby('REGIÃO')['PREÇO MÉDIO REVENDA'].max()
max_revenda_regiao


REGIÃO
CENTRO OESTE    99.357
NORDESTE        79.630
NORTE           87.270
SUDESTE         79.192
SUL             72.088
Name: PREÇO MÉDIO REVENDA, dtype: float64

#Demanda 18
###Identificar o menor preço médio de revenda por região e por data final

In [325]:
# Agrupando por 'REGIÃO' e 'DATA FINAL' e pegando o índice do menor valor em 'PREÇO MÉDIO REVENDA'
res_group = df3.groupby(['REGIÃO', 'DATA FINAL'])['PREÇO MÉDIO REVENDA'].min()
res_group



REGIÃO        DATA FINAL
CENTRO OESTE  2004-05-15    1.099
              2004-05-22    1.099
              2004-05-29    1.099
              2004-06-05    1.099
              2004-06-12    1.099
                            ...  
SUL           2019-06-01    2.891
              2019-06-08    2.871
              2019-06-15    2.861
              2019-06-22    2.863
              2019-06-29    2.851
Name: PREÇO MÉDIO REVENDA, Length: 3925, dtype: float64

In [326]:
# exportando resultado como excel - vai manter o agrupamento para Data Final e repetirá a região
res_group.to_csv('/content/output/resultado_agrupamento_regiao_datafin.csv')


In [327]:
# exportando resultado como excel - vai manter o agrupamento para Região e Data Final
res_group.to_excel('/content/output/resultado_agrupamento_regiao_datafin.xlsx')

# Demanda 19
### Demonstrar o min e max do 'PREÇO MÉDIO REVENDA' para cada região

> O método `.agg` é usado após o `groupby` para aplicar funções específicas a colunas selecionadas.

> Permite combinar múltiplas operações em diferentes colunas, facilitando a obtenção de resultados sumarizados em um único passo.

In [328]:
# Calculando o menor e maior valor do 'PREÇO MÉDIO REVENDA' para cada região
min_max_pmr = df3.groupby('REGIÃO')['PREÇO MÉDIO REVENDA'].agg(['min', 'max'])
min_max_pmr

Unnamed: 0_level_0,min,max
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
CENTRO OESTE,1.097,99.357
NORDESTE,0.975,79.63
NORTE,1.226,87.27
SUDESTE,0.766,79.192
SUL,0.922,72.088


# Demanda 20
### Criar um ranking das regiões com maior preço médio de revenda.

In [329]:
# 1. Calcular o Máximo 'preço médio' de revenda por região.
# 2. Resetar index , pois após o `groupby`, os valores agrupados tornam-se o novo índice, e a demanda exige que seja uma coluna
# 3. Ordenar valores pelo valor agrupado em ordem descendente
max_pmv_regiao = df3.groupby('REGIÃO')['PREÇO MÉDIO REVENDA'].max().reset_index().sort_values('PREÇO MÉDIO REVENDA', ascending = False)
max_pmv_regiao

Unnamed: 0,REGIÃO,PREÇO MÉDIO REVENDA
0,CENTRO OESTE,99.357
2,NORTE,87.27
1,NORDESTE,79.63
3,SUDESTE,79.192
4,SUL,72.088


In [330]:
# 4. Renomear a coluna para algo descritivo e informativo para o usuário
max_pmv_regiao.rename(columns={'PREÇO MÉDIO REVENDA': 'MÁX(PREÇO MÉDIO REVENDA) POR REGIÃO'}, inplace=True)
max_pmv_regiao

Unnamed: 0,REGIÃO,MÁX(PREÇO MÉDIO REVENDA) POR REGIÃO
0,CENTRO OESTE,99.357
2,NORTE,87.27
1,NORDESTE,79.63
3,SUDESTE,79.192
4,SUL,72.088


In [331]:
# 5. Adicionando coluna de ranking com iteravel de index +1 (para rank começar em 1, não zero)
max_pmv_regiao['RANKING'] = range(1, len(max_pmv_regiao) + 1)
max_pmv_regiao

Unnamed: 0,REGIÃO,MÁX(PREÇO MÉDIO REVENDA) POR REGIÃO,RANKING
0,CENTRO OESTE,99.357,1
2,NORTE,87.27,2
1,NORDESTE,79.63,3
3,SUDESTE,79.192,4
4,SUL,72.088,5


#Demanda 21
### Para as análises futuras, a área de negócio precisa de dados que contemples apenas anos cheios (Jan-Dez). Exclua os anos que não corresponderem a esse critério

In [332]:
# 1. Obtendo os meses únicos para cada ano
meses_por_ano = df.groupby('ANO')['MÊS'].unique()
meses_por_ano

ANO
2004                [5, 6, 7, 8, 9, 10, 11, 12]
2005    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2006    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2007    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2008    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2009    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2010    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2011    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2012    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2013    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2014    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2015    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2016    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2017    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2018    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
2019                         [1, 2, 3, 4, 5, 6]
Name: MÊS, dtype: object

In [333]:
# 2. Contando quantos meses únicos existem para cada ano
quantidade_meses = meses_por_ano.apply(len)
quantidade_meses

ANO
2004     8
2005    12
2006    12
2007    12
2008    12
2009    12
2010    12
2011    12
2012    12
2013    12
2014    12
2015    12
2016    12
2017    12
2018    12
2019     6
Name: MÊS, dtype: int64

In [334]:
# 3. Identificando os anos que possuem 12 meses únicos
anos_completos = quantidade_meses[quantidade_meses == 12].index
anos_completos

Int64Index([2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015,
            2016, 2017, 2018],
           dtype='int64', name='ANO')

In [335]:
# 4. Contando e printando quantos anos completos existem
print(f"Existem {len(anos_completos)} anos completos no dataset.")
print("São eles:", anos_completos.tolist())

Existem 14 anos completos no dataset.
São eles: [2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018]


In [336]:
# 5. Removendo os dados da analise dos anos de 2004 e 2019, pois não são cheios
df = df.query('ANO not in [2019, 2004]')

In [337]:
# Checando
df['ANO'].value_counts()

2017    7990
2014    7932
2013    7921
2016    7873
2018    7823
2015    7771
2012    6634
2006    6598
2010    6489
2011    6487
2007    6475
2008    6453
2009    6232
2005    6186
Name: ANO, dtype: int64

#Demanda 22
### Qual a proporção de postos pesquisados para cada tipo de combustível, em cada região ?

In [338]:
# Agrupando por 'REGIÃO' e somando o número de postos pesquisados [TOTAL]
total_postos_por_regiao = df.groupby('REGIÃO')['NÚMERO DE POSTOS PESQUISADOS'].sum()
total_postos_por_regiao

REGIÃO
CENTRO OESTE     1948303
NORDESTE         4199760
NORTE            1521359
SUDESTE         11102769
SUL              4166977
Name: NÚMERO DE POSTOS PESQUISADOS, dtype: int64

In [339]:
# Agrupando por 'REGIÃO' e 'PRODUTO' e somando o número de postos pesquisados [PARTE]
postos_por_regiao_produto = df.groupby(['REGIÃO', 'PRODUTO'])['NÚMERO DE POSTOS PESQUISADOS'].sum()
postos_por_regiao_produto

REGIÃO        PRODUTO         
CENTRO OESTE  ETANOL HIDRATADO     443547
              GASOLINA COMUM       443923
              GLP                  593192
              GNV                    4179
              ÓLEO DIESEL          377377
              ÓLEO DIESEL S10       86085
NORDESTE      ETANOL HIDRATADO    1004012
              GASOLINA COMUM      1131418
              GLP                  835940
              GNV                   87446
              ÓLEO DIESEL          882007
              ÓLEO DIESEL S10      258937
NORTE         ETANOL HIDRATADO     231449
              GASOLINA COMUM       393678
              GLP                  464475
              GNV                     564
              ÓLEO DIESEL          344935
              ÓLEO DIESEL S10       86258
SUDESTE       ETANOL HIDRATADO    2966070
              GASOLINA COMUM      3002336
              GLP                 2208185
              GNV                  214425
              ÓLEO DIESEL         2199155
   

In [340]:
# Calculando a proporção [PARTE/TOTAL]
proporcao_postos = postos_por_regiao_produto / total_postos_por_regiao
proporcao_postos

REGIÃO        PRODUTO         
CENTRO OESTE  ETANOL HIDRATADO    0.227658
              GASOLINA COMUM      0.227851
              GLP                 0.304466
              GNV                 0.002145
              ÓLEO DIESEL         0.193695
              ÓLEO DIESEL S10     0.044185
NORDESTE      ETANOL HIDRATADO    0.239064
              GASOLINA COMUM      0.269401
              GLP                 0.199045
              GNV                 0.020822
              ÓLEO DIESEL         0.210014
              ÓLEO DIESEL S10     0.061655
NORTE         ETANOL HIDRATADO    0.152133
              GASOLINA COMUM      0.258767
              GLP                 0.305303
              GNV                 0.000371
              ÓLEO DIESEL         0.226728
              ÓLEO DIESEL S10     0.056698
SUDESTE       ETANOL HIDRATADO    0.267147
              GASOLINA COMUM      0.270413
              GLP                 0.198886
              GNV                 0.019313
              ÓLEO DIES

#Demanda 23
### Como os preços da Gasolina Comum em São Paulo variaram em 2018?

In [341]:
# 1. Filtrando o DataFrame
filtro_gasolina_sp_2018 = (df['PRODUTO'] == 'GASOLINA COMUM') & (df['ESTADO'] == 'SAO PAULO') & (df['ANO'] == 2018)
gasolina_sp_2018 = df[filtro_gasolina_sp_2018]
gasolina_sp_2018.head(10)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
95351,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,3.988,0.156,3.499,4.599,0.411,0.039,3.577,0.104,2.99,3.951,0.029,1,2018
95502,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.002,0.155,3.549,4.499,0.412,0.039,3.59,0.102,2.99,3.9014,0.028,1,2018
95654,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.006,0.16,3.499,4.899,0.41,0.04,3.596,0.102,2.99,3.9014,0.028,1,2018
95806,2018-01-28,2018-02-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.019,0.156,3.579,4.699,0.423,0.039,3.596,0.107,2.924,3.9537,0.03,1,2018
95958,2018-02-04,2018-02-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1646,R$/l,4.004,0.157,3.579,4.597,0.416,0.039,3.588,0.102,2.99,3.9537,0.028,2,2018
96109,2018-02-11,2018-02-17,SUDESTE,SAO PAULO,GASOLINA COMUM,1640,R$/l,4.014,0.153,3.499,4.599,0.444,0.038,3.57,0.097,2.99,3.8899,0.027,2,2018
96259,2018-02-18,2018-02-24,SUDESTE,SAO PAULO,GASOLINA COMUM,1637,R$/l,4.008,0.161,3.559,4.899,0.445,0.04,3.563,0.097,2.99,3.891,0.027,2,2018
96411,2018-02-25,2018-03-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1638,R$/l,3.992,0.164,3.479,4.899,0.422,0.041,3.57,0.106,2.99,3.9549,0.03,2,2018
96563,2018-03-04,2018-03-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1637,R$/l,3.97,0.161,3.479,4.699,0.387,0.041,3.583,0.11,2.99,4.0687,0.031,3,2018
96715,2018-03-11,2018-03-17,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.003,0.155,3.499,4.699,0.41,0.039,3.593,0.104,2.99,4.259,0.029,3,2018


In [342]:
# 2. Ordenando os dados pela 'DATA FINAL' para garantir a sequência correta das datas
gasolina_sp_2018 = gasolina_sp_2018.sort_values(by='DATA FINAL')
gasolina_sp_2018[['DATA FINAL']].head(15)

Unnamed: 0,DATA FINAL
95351,2018-01-13
95502,2018-01-20
95654,2018-01-27
95806,2018-02-03
95958,2018-02-10
96109,2018-02-17
96259,2018-02-24
96411,2018-03-03
96563,2018-03-10
96715,2018-03-17


In [343]:
# 3. Criando a variação do preço em relação ao preço da data anterior
gasolina_sp_2018['VARIAÇÃO'] = gasolina_sp_2018['PREÇO MÉDIO REVENDA'].diff() #diff calcula a diferença entre valores consecutivos no df
gasolina_sp_2018[['VARIAÇÃO']].head(15)

## O primeiro registro terá variação NaN , pois não há registro anterior para comparar

Unnamed: 0,VARIAÇÃO
95351,
95502,0.014
95654,0.004
95806,0.013
95958,-0.015
96109,0.01
96259,-0.006
96411,-0.016
96563,-0.022
96715,0.033


In [344]:
# 4. Ajustando o df de variação para ter somente colunas relevante para a demanda
df_variacao_sp_2018 = gasolina_sp_2018[['ESTADO', 'PRODUTO', 'ANO', 'DATA FINAL', 'PREÇO MÉDIO REVENDA', 'VARIAÇÃO']]
df_variacao_sp_2018.head(15)

Unnamed: 0,ESTADO,PRODUTO,ANO,DATA FINAL,PREÇO MÉDIO REVENDA,VARIAÇÃO
95351,SAO PAULO,GASOLINA COMUM,2018,2018-01-13,3.988,
95502,SAO PAULO,GASOLINA COMUM,2018,2018-01-20,4.002,0.014
95654,SAO PAULO,GASOLINA COMUM,2018,2018-01-27,4.006,0.004
95806,SAO PAULO,GASOLINA COMUM,2018,2018-02-03,4.019,0.013
95958,SAO PAULO,GASOLINA COMUM,2018,2018-02-10,4.004,-0.015
96109,SAO PAULO,GASOLINA COMUM,2018,2018-02-17,4.014,0.01
96259,SAO PAULO,GASOLINA COMUM,2018,2018-02-24,4.008,-0.006
96411,SAO PAULO,GASOLINA COMUM,2018,2018-03-03,3.992,-0.016
96563,SAO PAULO,GASOLINA COMUM,2018,2018-03-10,3.97,-0.022
96715,SAO PAULO,GASOLINA COMUM,2018,2018-03-17,4.003,0.033


#Demanda 24
### Como os preços da Gasolina Comum e do Etanol em São Paulo variaram em 2018?

In [345]:
# Filtrando o DataFrame para Gasolina Comum e Etanol em São Paulo no ano de 2018
filtro_combustiveis_sp_2018 = (
    (df['PRODUTO'].isin(['GASOLINA COMUM', 'ETANOL HIDRATADO'])) &
    (df['ESTADO'] == 'SAO PAULO') &
    (df['ANO'] == 2018)
)
combustiveis_sp_2018 = df[filtro_combustiveis_sp_2018]
combustiveis_sp_2018.head(15)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
95270,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1664,R$/l,2.833,0.139,2.449,3.399,0.338,0.049,2.495,0.092,2.1842,2.8833,0.037,1,2018
95351,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,3.988,0.156,3.499,4.599,0.411,0.039,3.577,0.104,2.99,3.951,0.029,1,2018
95421,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1661,R$/l,2.868,0.134,2.399,3.399,0.331,0.047,2.537,0.087,2.26,2.8471,0.034,1,2018
95502,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.002,0.155,3.549,4.499,0.412,0.039,3.59,0.102,2.99,3.9014,0.028,1,2018
95573,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1662,R$/l,2.874,0.135,2.399,3.399,0.324,0.047,2.55,0.095,1.69,2.9722,0.037,1,2018
95654,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.006,0.16,3.499,4.899,0.41,0.04,3.596,0.102,2.99,3.9014,0.028,1,2018
95725,2018-01-28,2018-02-03,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1664,R$/l,2.891,0.138,2.469,3.599,0.325,0.048,2.566,0.097,2.1836,3.1472,0.038,1,2018
95806,2018-01-28,2018-02-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.019,0.156,3.579,4.699,0.423,0.039,3.596,0.107,2.924,3.9537,0.03,1,2018
95877,2018-02-04,2018-02-10,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1663,R$/l,2.884,0.136,2.469,3.599,0.32,0.047,2.564,0.097,2.1836,3.1472,0.038,2,2018
95958,2018-02-04,2018-02-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1646,R$/l,4.004,0.157,3.579,4.597,0.416,0.039,3.588,0.102,2.99,3.9537,0.028,2,2018


In [346]:
# Ordenando os dados pelo 'PRODUTO' e então pela 'DATA FINAL' para garantir a sequência correta das datas e agrupar por produto
combustiveis_sp_2018 = combustiveis_sp_2018.sort_values(by=['PRODUTO', 'DATA FINAL'])
combustiveis_sp_2018.head(15)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
95270,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1664,R$/l,2.833,0.139,2.449,3.399,0.338,0.049,2.495,0.092,2.1842,2.8833,0.037,1,2018
95421,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1661,R$/l,2.868,0.134,2.399,3.399,0.331,0.047,2.537,0.087,2.26,2.8471,0.034,1,2018
95573,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1662,R$/l,2.874,0.135,2.399,3.399,0.324,0.047,2.55,0.095,1.69,2.9722,0.037,1,2018
95725,2018-01-28,2018-02-03,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1664,R$/l,2.891,0.138,2.469,3.599,0.325,0.048,2.566,0.097,2.1836,3.1472,0.038,1,2018
95877,2018-02-04,2018-02-10,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1663,R$/l,2.884,0.136,2.469,3.599,0.32,0.047,2.564,0.097,2.1836,3.1472,0.038,2,2018
96028,2018-02-11,2018-02-17,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1661,R$/l,2.892,0.136,2.469,3.599,0.331,0.047,2.561,0.095,2.1877,2.8739,0.037,2,2018
96178,2018-02-18,2018-02-24,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1659,R$/l,2.886,0.142,2.469,3.599,0.326,0.049,2.56,0.093,2.1856,2.8739,0.036,2,2018
96330,2018-02-25,2018-03-03,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1662,R$/l,2.874,0.145,2.449,3.599,0.317,0.05,2.557,0.087,2.1138,2.9968,0.034,2,2018
96482,2018-03-04,2018-03-10,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1661,R$/l,2.862,0.142,2.449,3.599,0.3,0.05,2.562,0.088,2.1856,3.043,0.034,3,2018
96634,2018-03-11,2018-03-17,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1660,R$/l,2.88,0.14,2.449,3.599,0.291,0.049,2.589,0.089,2.184,3.071,0.034,3,2018


In [347]:
# Criando a variação do preço em relação ao preço do dia anterior, para cada produto
# O 'groupby' é para garantir que a variação seja calculada separadamente para Gasolina Comum e Etanol
combustiveis_sp_2018['VARIAÇÃO'] = combustiveis_sp_2018.groupby('PRODUTO')['PREÇO MÉDIO REVENDA'].diff()
combustiveis_sp_2018[['VARIAÇÃO']].head(15)

Unnamed: 0,VARIAÇÃO
95270,
95421,0.035
95573,0.006
95725,0.017
95877,-0.007
96028,0.008
96178,-0.006
96330,-0.012
96482,-0.012
96634,0.018


In [348]:
# Ajustando o DataFrame de variação
df_variacao_combustiveis_sp_2018 = combustiveis_sp_2018[['ESTADO', 'PRODUTO', 'ANO', 'DATA FINAL', 'PREÇO MÉDIO REVENDA', 'VARIAÇÃO']]
df_variacao_combustiveis_sp_2018.head(15)

Unnamed: 0,ESTADO,PRODUTO,ANO,DATA FINAL,PREÇO MÉDIO REVENDA,VARIAÇÃO
95270,SAO PAULO,ETANOL HIDRATADO,2018,2018-01-13,2.833,
95421,SAO PAULO,ETANOL HIDRATADO,2018,2018-01-20,2.868,0.035
95573,SAO PAULO,ETANOL HIDRATADO,2018,2018-01-27,2.874,0.006
95725,SAO PAULO,ETANOL HIDRATADO,2018,2018-02-03,2.891,0.017
95877,SAO PAULO,ETANOL HIDRATADO,2018,2018-02-10,2.884,-0.007
96028,SAO PAULO,ETANOL HIDRATADO,2018,2018-02-17,2.892,0.008
96178,SAO PAULO,ETANOL HIDRATADO,2018,2018-02-24,2.886,-0.006
96330,SAO PAULO,ETANOL HIDRATADO,2018,2018-03-03,2.874,-0.012
96482,SAO PAULO,ETANOL HIDRATADO,2018,2018-03-10,2.862,-0.012
96634,SAO PAULO,ETANOL HIDRATADO,2018,2018-03-17,2.88,0.018


In [350]:
## Exportando
df_variacao_combustiveis_sp_2018.to_csv('/content/output/df_variacao_combustiveis_sp_2018.csv',index=False)