## **Pandas Essencial**
**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)** <br/>
xavecoding: https://youtube.com/c/xavecoding <br/>

Neste tutorial, vamos aprender o essencial da biblioteca _Pandas_ para manipulação de dados.<br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

### Pacotes usados neste Notebook

In [1]:
# pacotes usados neste notebook
import pandas as pd

<h1>Manipulação de Dados com Pandas</h1><hr/>

<h2>1. Manipulação Básica de Datasets</h2>
<hr/>

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**. <br/>
Cada *amostra (registro/linha)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o _pandas_ consiga abrí-lo normalmente, convertemos tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento.

### 1.1. Importando o Dataset
Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [49]:
data1 = pd.read_csv(r'C:\Users\Armando\Downloads\archive\2004-2021.tsv', delimiter = '\t')

O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era ';' e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [4]:
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,OLEO DIESEL S10,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,OLEO DIESEL S10,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,OLEO DIESEL S10,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [5]:
data1.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082


In [6]:
data1.tail()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.51,4.69,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,OLEO DIESEL S10,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,OLEO DIESEL S10,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,OLEO DIESEL S10,33,R$/l,4.464,0.205,4.19,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120822,2021-04-25,2021-05-01,NORTE,TOCANTINS,OLEO DIESEL S10,18,R$/l,4.352,0.156,4.199,4.699,-99999.0,0.036,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [7]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120823 entries, 0 to 120822
Data columns (total 18 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   DATA INICIAL                   120823 non-null  object 
 1   DATA FINAL                     120823 non-null  object 
 2   REGIÃO                         120823 non-null  object 
 3   ESTADO                         120823 non-null  object 
 4   PRODUTO                        120823 non-null  object 
 5   NÚMERO DE POSTOS PESQUISADOS   120823 non-null  int64  
 6   UNIDADE DE MEDIDA              120823 non-null  object 
 7   PREÇO MÉDIO REVENDA            120823 non-null  float64
 8   DESVIO PADRÃO REVENDA          120823 non-null  float64
 9   PREÇO MÍNIMO REVENDA           120823 non-null  float64
 10  PREÇO MÁXIMO REVENDA           120823 non-null  float64
 11  MARGEM MÉDIA REVENDA           120823 non-null  object 
 12  COEF DE VARIAÇÃO REVENDA      

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [8]:
type(data1)

pandas.core.frame.DataFrame

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [9]:
data1.shape

(120823, 18)

In [10]:
print(f'O datafre possui{data1.shape} Linhas e colunas, respectivamente')

O datafre possui(120823, 18) Linhas e colunas, respectivamente


#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [11]:
personagens_df = pd.DataFrame({
    'nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade': [16, 1000, 70],
    'peso': [70, 15, 60],
    'eh jedi': [True, True, False]  # o nome das colunas podem ter espaços
})

In [12]:
personagens_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O método `DataFrame.columns` retorna uma ";lista" com os **nomes de todas as colunas** do data frame.

In [13]:
personagens_df.columns

Index(['nome', 'idade', 'peso', 'eh jedi'], dtype='object')

In [14]:
list(personagens_df.columns)

['nome', 'idade', 'peso', 'eh jedi']

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [15]:
personagens_df.rename(columns ={
    'nome':'jedi',
    'idade':'Idade',
}, inplace = True)

In [16]:
personagens_df

Unnamed: 0,jedi,Idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


<br/>

**===>** Uma outra forma de **renomear todas as listas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [17]:
personagens_df = ['NOME', 'IDADE', 'PESO', 'EH JEDI']

In [18]:
personagens_df

['NOME', 'IDADE', 'PESO', 'EH JEDI']

### 1.3.3 Series

Array uni-dimensional com os dados e rótulos de um eixo.

In [19]:
data1.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082


In [20]:
data1['ESTADO']

0           DISTRITO FEDERAL
1                      GOIAS
2                MATO GROSSO
3         MATO GROSSO DO SUL
4                    ALAGOAS
                 ...        
120818               RORAIMA
120819        SANTA CATARINA
120820             SAO PAULO
120821               SERGIPE
120822             TOCANTINS
Name: ESTADO, Length: 120823, dtype: object

In [21]:
data1.ESTADO

0           DISTRITO FEDERAL
1                      GOIAS
2                MATO GROSSO
3         MATO GROSSO DO SUL
4                    ALAGOAS
                 ...        
120818               RORAIMA
120819        SANTA CATARINA
120820             SAO PAULO
120821               SERGIPE
120822             TOCANTINS
Name: ESTADO, Length: 120823, dtype: object

In [22]:
data1.iloc[0:3]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098


In [23]:
type(data1.iloc[0])

pandas.core.series.Series

#### **Criando uma Series**

Podemos criar um DataFrame a partir de uma lista de elementos.

In [24]:
pd.Series([5, 0.6, 0.3, 0.7])

0    5.0
1    0.6
2    0.3
3    0.7
dtype: float64

Podemos alterar o **nome dos índices** (veremos melhor jajá) e o **nome da Series** (o que ela representa):

In [25]:
pd.Series([5, 0.6, 0.3, 0.7], index= ['A', 'B', 'C', 'D'], name= 'Probabilidades')

A    5.0
B    0.6
C    0.3
D    0.7
Name: Probabilidades, dtype: float64

### 1.3.4 Atribuindo Dados

#### 1.3.4.1 Atribuindo constantes

In [26]:
data1['PRODUTO'] #RETORNA UMA REFERÊNCIA, NÂO UMA CÓPIA!!!

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
120818     OLEO DIESEL S10
120819     OLEO DIESEL S10
120820     OLEO DIESEL S10
120821     OLEO DIESEL S10
120822     OLEO DIESEL S10
Name: PRODUTO, Length: 120823, dtype: object

In [27]:
produto_copy = data1['PRODUTO'].copy()
produto_copy

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
120818     OLEO DIESEL S10
120819     OLEO DIESEL S10
120820     OLEO DIESEL S10
120821     OLEO DIESEL S10
120822     OLEO DIESEL S10
Name: PRODUTO, Length: 120823, dtype: object

In [28]:
data1['PRODUTO'] = 'Combustivel'

In [29]:
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustivel,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustivel,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustivel,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustivel,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustivel,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,Combustivel,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,Combustivel,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,Combustivel,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,Combustivel,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


In [30]:
data1['PRODUTO'] = produto_copy

In [31]:
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,OLEO DIESEL S10,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,OLEO DIESEL S10,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,OLEO DIESEL S10,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


#### 1.3.4.2 Atribuindo listas ou series

In [32]:
n_rows, n_cols = data1.shape
n_rows, n_cols

(120823, 18)

In [33]:
novos_produtos = [f'Produto {i}' for i in range(n_rows)]
len(novos_produtos)

120823

In [34]:
data1['PRODUTO'] = novos_produtos

In [35]:
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Produto 0,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Produto 4,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,Produto 120818,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,Produto 120819,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,Produto 120820,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,Produto 120821,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


In [36]:
produto_copy

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
120818     OLEO DIESEL S10
120819     OLEO DIESEL S10
120820     OLEO DIESEL S10
120821     OLEO DIESEL S10
120822     OLEO DIESEL S10
Name: PRODUTO, Length: 120823, dtype: object

In [37]:
data1['PRODUTOS'] = produto_copy

#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [38]:
data1['COLUNA SEM NOÇAO'] = 'DEFAULT'
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,PRODUTOS,COLUNA SEM NOÇAO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Produto 0,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,ETANOL HIDRATADO,DEFAULT
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,ETANOL HIDRATADO,DEFAULT
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,ETANOL HIDRATADO,DEFAULT
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,ETANOL HIDRATADO,DEFAULT
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Produto 4,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,ETANOL HIDRATADO,DEFAULT
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,Produto 120818,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,DEFAULT
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,Produto 120819,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,DEFAULT
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,Produto 120820,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,DEFAULT
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,Produto 120821,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,DEFAULT


In [39]:
data1['COLUNA SEM NOÇAO'] = range(n_rows)

In [40]:
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,PRODUTOS,COLUNA SEM NOÇAO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Produto 0,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,ETANOL HIDRATADO,0
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,ETANOL HIDRATADO,1
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,ETANOL HIDRATADO,2
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,ETANOL HIDRATADO,3
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Produto 4,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,ETANOL HIDRATADO,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,Produto 120818,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,120818
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,Produto 120819,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,120819
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,Produto 120820,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,120820
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,Produto 120821,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,120821


<br/>

Outro exemplo:

In [41]:
data1['PREÇO MÉDIA REVENDA EM DOLARES'] = data1['PREÇO MÉDIO REVENDA'] * 5 

In [42]:
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,PRODUTOS,COLUNA SEM NOÇAO,PREÇO MÉDIA REVENDA EM DOLARES
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Produto 0,127,R$/l,1.288,0.016,1.190,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,ETANOL HIDRATADO,0,6.440
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,0.890,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,ETANOL HIDRATADO,1,5.810
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,1.180,...,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,ETANOL HIDRATADO,2,6.945
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.070,1.090,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,ETANOL HIDRATADO,3,6.310
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Produto 4,103,R$/l,1.181,0.078,1.050,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,ETANOL HIDRATADO,4,5.905
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,Produto 120818,12,R$/l,4.582,0.056,4.510,...,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,120818,22.910
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,Produto 120819,100,R$/l,4.141,0.187,3.838,...,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,120819,20.705
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,Produto 120820,886,R$/l,4.246,0.216,3.769,...,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,120820,21.230
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,Produto 120821,33,R$/l,4.464,0.205,4.190,...,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0,OLEO DIESEL S10,120821,22.320


**PS:** Obviamente, a lógica correta em converter o preço dos combustíveis em reais para dólares não é considerar uma taxa de câmbio fixa, uma vez que cada preço foi aferido em um momento diferente.

### 1.3.4 Índices

Todo Data Frame possui **índices**, que não são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [43]:
data1.index

RangeIndex(start=0, stop=120823, step=1)

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [6]:
pesquisa_de_satisfacao = pd.DataFrame({
    'bom': [50, 21, 100],
    'ruim': [131, 2, 30],
    'pessimo': [30, 20, 1]
}, index=['XboxOne', 'Playstation4', 'Switch'])

In [45]:
pesquisa_de_satisfacao.head()

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


### 1.4 Selecionando uma ou mais amostras (Indexação)

#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma amostra/linha:**

In [46]:
data1.iloc[1]

DATA INICIAL                            2004-05-09
DATA FINAL                              2004-05-15
REGIÃO                                CENTRO OESTE
ESTADO                                       GOIAS
PRODUTO                                  Produto 1
NÚMERO DE POSTOS PESQUISADOS                   387
UNIDADE DE MEDIDA                             R$/l
PREÇO MÉDIO REVENDA                          1.162
DESVIO PADRÃO REVENDA                        0.114
PREÇO MÍNIMO REVENDA                          0.89
PREÇO MÁXIMO REVENDA                         1.449
MARGEM MÉDIA REVENDA                         0.399
COEF DE VARIAÇÃO REVENDA                     0.098
PREÇO MÉDIO DISTRIBUIÇÃO                     0.763
DESVIO PADRÃO DISTRIBUIÇÃO                   0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                   0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                     1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO                0.115
PRODUTOS                          ETANOL HIDRATADO
COLUNA SEM NOÇAO               

**Selecionando múltiplias amostras/linhas:**

In [55]:
data1.iloc[:, :4]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS
...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE


In [58]:
data1.iloc[[1, 5, 10, 15]]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,PRODUTOS,COLUNA SEM NOÇAO,PREÇO MÉDIA REVENDA EM DOLARES
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,0.89,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,ETANOL HIDRATADO,1,5.81
5,2004-05-09,2004-05-15,NORDESTE,BAHIA,Produto 5,408,R$/l,1.383,0.132,0.999,...,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,ETANOL HIDRATADO,5,6.915
10,2004-05-09,2004-05-15,NORDESTE,PIAUI,Produto 10,89,R$/l,1.573,0.134,1.4,...,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,ETANOL HIDRATADO,10,7.865
15,2004-05-09,2004-05-15,NORTE,AMAZONAS,Produto 15,53,R$/l,1.578,0.123,1.28,...,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06,ETANOL HIDRATADO,15,7.89


In [59]:
data1.iloc[[1, 3, 2]]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,PRODUTOS,COLUNA SEM NOÇAO,PREÇO MÉDIA REVENDA EM DOLARES
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,0.89,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,ETANOL HIDRATADO,1,5.81
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.07,1.09,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,ETANOL HIDRATADO,3,6.31
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,1.18,...,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,ETANOL HIDRATADO,2,6.945


In [3]:
data1.iloc[1, 2]

'CENTRO OESTE'

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> row-first, column-second

In [7]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [8]:
pesquisa_de_satisfacao.iloc[0]

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [10]:
pesquisa_de_satisfacao.loc['XboxOne']

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [11]:
pesquisa_de_satisfacao.loc['Playstation4', 'ruim']

2

### 1.5 Selecionando um ou mais atributos (colunas)

In [4]:
data1['ESTADO']

0           DISTRITO FEDERAL
1                      GOIAS
2                MATO GROSSO
3         MATO GROSSO DO SUL
4                    ALAGOAS
                 ...        
120818               RORAIMA
120819        SANTA CATARINA
120820             SAO PAULO
120821               SERGIPE
120822             TOCANTINS
Name: ESTADO, Length: 120823, dtype: object

In [5]:
data1.ESTADO

0           DISTRITO FEDERAL
1                      GOIAS
2                MATO GROSSO
3         MATO GROSSO DO SUL
4                    ALAGOAS
                 ...        
120818               RORAIMA
120819        SANTA CATARINA
120820             SAO PAULO
120821               SERGIPE
120822             TOCANTINS
Name: ESTADO, Length: 120823, dtype: object

In [7]:
data1.loc[:, 'ESTADO']

0           DISTRITO FEDERAL
1                      GOIAS
2                MATO GROSSO
3         MATO GROSSO DO SUL
4                    ALAGOAS
                 ...        
120818               RORAIMA
120819        SANTA CATARINA
120820             SAO PAULO
120821               SERGIPE
120822             TOCANTINS
Name: ESTADO, Length: 120823, dtype: object

In [8]:
data1[['PRODUTO', 'ESTADO', 'REGIÃO']]

Unnamed: 0,PRODUTO,ESTADO,REGIÃO
0,ETANOL HIDRATADO,DISTRITO FEDERAL,CENTRO OESTE
1,ETANOL HIDRATADO,GOIAS,CENTRO OESTE
2,ETANOL HIDRATADO,MATO GROSSO,CENTRO OESTE
3,ETANOL HIDRATADO,MATO GROSSO DO SUL,CENTRO OESTE
4,ETANOL HIDRATADO,ALAGOAS,NORDESTE
...,...,...,...
120818,OLEO DIESEL S10,RORAIMA,NORTE
120819,OLEO DIESEL S10,SANTA CATARINA,SUL
120820,OLEO DIESEL S10,SAO PAULO,SUDESTE
120821,OLEO DIESEL S10,SERGIPE,NORDESTE


Como o rótulo da coluna 'DATA INICIAL' **possui espaço**, não é possível acessá-la como método: `data.DATA INICIAL`

### 1.6 Removendo um Atributo (Coluna) do Data Frame

In [9]:
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,RORAIMA,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120819,2021-04-25,2021-05-01,SUL,SANTA CATARINA,OLEO DIESEL S10,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120820,2021-04-25,2021-05-01,SUDESTE,SAO PAULO,OLEO DIESEL S10,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120821,2021-04-25,2021-05-01,NORDESTE,SERGIPE,OLEO DIESEL S10,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


In [10]:
del data1['ESTADO']

In [11]:
data1

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120819,2021-04-25,2021-05-01,SUL,OLEO DIESEL S10,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120820,2021-04-25,2021-05-01,SUDESTE,OLEO DIESEL S10,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120821,2021-04-25,2021-05-01,NORDESTE,OLEO DIESEL S10,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso (veja que removemos anteriormente a coluna 'Unnamed: 0' que foi justamente esse caso).<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

In [12]:
data1.to_csv(r'C:\Users\Armando\Desktop\preprocessado')

### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

In [2]:
data = pd.read_csv(r'C:\Users\Armando\Desktop\preprocessado')
del data['Unnamed: 0']

In [17]:
data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082


In [20]:
data['REGIÃO'].unique()

array(['CENTRO OESTE', 'NORDESTE', 'NORTE', 'SUDESTE', 'SUL'],
      dtype=object)

#### **Selecionando apenas os preços dos Postos de São Paulo**

##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

O código abaixo retorna uma ***Series ('array') de booleans***, com o número de linhas (amostras) do Data Frame, que informa os registros de preços dos postos do _estado de São Paulo_ (True).

In [22]:
selecoes = data['REGIÃO'] == 'NORTE'

In [23]:
selecoes

0         False
1         False
2         False
3         False
4         False
          ...  
120818     True
120819    False
120820    False
120821    False
120822     True
Name: REGIÃO, Length: 120823, dtype: bool

In [28]:
selecoes.shape

(120823,)

Para **filtrarmos** os registros de postos do estado de São Paulo:

In [30]:
data[selecoes]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
13,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,1.500,1.980,0.689,0.074,1.116,0.171,0.767,1.2992,0.153
14,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,15,R$/l,1.785,0.035,1.740,1.850,0.412,0.020,1.373,0.167,0.8339,1.4912,0.122
15,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,53,R$/l,1.578,0.123,1.280,1.850,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06
16,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,104,R$/l,1.914,0.246,1.270,2.400,0.536,0.129,1.378,0.237,0.7564,1.8908,0.172
17,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,97,R$/l,1.545,0.141,1.250,1.990,0.533,0.091,1.012,0.149,0.52,1.3306,0.147
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120799,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,44,R$/l,4.332,0.274,3.990,4.990,-99999.0,0.063,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120809,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,40,R$/l,4.447,0.265,3.950,5.050,-99999.0,0.060,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120817,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,30,R$/l,4.503,0.157,4.250,4.799,-99999.0,0.035,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120818,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


O resultado é um Data Frame com _apenas_ os registros desejados após a **filtragem**.<br/>
Podemos ainda utilizar o método `loc` para o mesmo fim:

In [31]:
data.loc[selecoes]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
13,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,1.500,1.980,0.689,0.074,1.116,0.171,0.767,1.2992,0.153
14,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,15,R$/l,1.785,0.035,1.740,1.850,0.412,0.020,1.373,0.167,0.8339,1.4912,0.122
15,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,53,R$/l,1.578,0.123,1.280,1.850,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06
16,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,104,R$/l,1.914,0.246,1.270,2.400,0.536,0.129,1.378,0.237,0.7564,1.8908,0.172
17,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,97,R$/l,1.545,0.141,1.250,1.990,0.533,0.091,1.012,0.149,0.52,1.3306,0.147
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120799,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,44,R$/l,4.332,0.274,3.990,4.990,-99999.0,0.063,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120809,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,40,R$/l,4.447,0.265,3.950,5.050,-99999.0,0.060,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120817,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,30,R$/l,4.503,0.157,4.250,4.799,-99999.0,0.035,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120818,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

In [83]:
data.query('REGIÃO == "NORTE"')

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
13,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,1.500,1.980,0.689,0.074,1.116,0.171,0.767,1.2992,0.153
14,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,15,R$/l,1.785,0.035,1.740,1.850,0.412,0.020,1.373,0.167,0.8339,1.4912,0.122
15,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,53,R$/l,1.578,0.123,1.280,1.850,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06
16,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,104,R$/l,1.914,0.246,1.270,2.400,0.536,0.129,1.378,0.237,0.7564,1.8908,0.172
17,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,97,R$/l,1.545,0.141,1.250,1.990,0.533,0.091,1.012,0.149,0.52,1.3306,0.147
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120799,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,44,R$/l,4.332,0.274,3.990,4.990,-99999.0,0.063,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120809,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,40,R$/l,4.447,0.265,3.950,5.050,-99999.0,0.060,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120817,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,30,R$/l,4.503,0.157,4.250,4.799,-99999.0,0.035,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120818,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análise feita para os postos de São Paulo.

In [87]:
postos_norte = data.query('REGIÃO == "NORTE"')

In [90]:
postos_norte.reset_index(drop=True, inplace = True)

In [91]:
postos_norte

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,1.500,1.980,0.689,0.074,1.116,0.171,0.767,1.2992,0.153
1,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,15,R$/l,1.785,0.035,1.740,1.850,0.412,0.020,1.373,0.167,0.8339,1.4912,0.122
2,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,53,R$/l,1.578,0.123,1.280,1.850,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06
3,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,104,R$/l,1.914,0.246,1.270,2.400,0.536,0.129,1.378,0.237,0.7564,1.8908,0.172
4,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,97,R$/l,1.545,0.141,1.250,1.990,0.533,0.091,1.012,0.149,0.52,1.3306,0.147
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27984,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,44,R$/l,4.332,0.274,3.990,4.990,-99999.0,0.063,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
27985,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,40,R$/l,4.447,0.265,3.950,5.050,-99999.0,0.060,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
27986,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,30,R$/l,4.503,0.157,4.250,4.799,-99999.0,0.035,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
27987,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**

In [4]:
data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082


In [5]:
data['REGIÃO'].unique()

array(['CENTRO OESTE', 'NORDESTE', 'NORTE', 'SUDESTE', 'SUL'],
      dtype=object)

In [6]:
data['REGIÃO'] == 'NORTE'

0         False
1         False
2         False
3         False
4         False
          ...  
120818     True
120819    False
120820    False
120821    False
120822     True
Name: REGIÃO, Length: 120823, dtype: bool

In [7]:
data['PREÇO MÉDIO REVENDA'] > 2

0         False
1         False
2         False
3         False
4         False
          ...  
120818     True
120819     True
120820     True
120821     True
120822     True
Name: PREÇO MÉDIO REVENDA, Length: 120823, dtype: bool

In [13]:
selecao = (data['REGIÃO'] == 'NORTE') & (data['PREÇO MÉDIO REVENDA'] > 2)
selecao

0         False
1         False
2         False
3         False
4         False
          ...  
120818     True
120819    False
120820    False
120821    False
120822     True
Length: 120823, dtype: bool

Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/amostras do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro e o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

In [15]:
data[selecao].reset_index(drop=True)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,11,R$/l,2.004,0.073,1.850,2.050,0.313,0.036,1.691,0.194,1.2982,1.8891,0.115
1,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,98,R$/l,2.011,0.171,1.590,2.372,0.302,0.085,1.709,0.194,0.9826,2.0852,0.114
2,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,14,R$/l,2.027,0.133,1.750,2.200,0.482,0.066,1.545,0.144,1.3805,1.8446,0.093
3,2004-11-28,2004-12-04,NORTE,ETANOL HIDRATADO,12,R$/l,2.154,0.101,2.050,2.250,0.463,0.047,1.691,0.194,1.2982,1.889,0.115
4,2004-11-28,2004-12-04,NORTE,ETANOL HIDRATADO,114,R$/l,2.032,0.152,1.740,2.372,0.313,0.075,1.719,0.164,1.0832,1.9841,0.095
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25624,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,44,R$/l,4.332,0.274,3.990,4.990,-99999.0,0.063,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
25625,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,40,R$/l,4.447,0.265,3.950,5.050,-99999.0,0.060,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
25626,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,30,R$/l,4.503,0.157,4.250,4.799,-99999.0,0.035,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
25627,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (cedilha, acentos) 

In [48]:
# Não funciona
# data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

**Aprofundando mais ainda**

A primeira comparação `(data['ESTADO'] == 'RIO DE JANEIRO')` checa, linha a linha (amostra a amostra) do DataFrame, quais são aquelas cujo o estado é RIO DE JANEIRO. Nenhuma averiguação de preços é feita nesse momento. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

A segunda comparação `(data['PREÇO MÉDIO REVENDA'] > 2)` checa, linha a linha (amostra a amostra) do DataFrame, quais são os registro cujo preço do combustível é maior que 2 reais. Note que essa comparação checará os postos de **TODOS os estados**. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

Por fim, as duas "perguntas" são unidas pelo AND (&) que retorna a "pergunta completa" que fizemos.

Alguns podem argumentar que tal abordagem é **ineficiente**, uma vez que, para cada condição ("pergunta"), estamos varrendo todas as linhas do DataFrame. <br/>
O Pandas _tenta otimizar_ isso ao máximo por de trás dos panos. Mas, de fato, de tivermos um dataset **muito grande** (centenas de milhares de linhas), tal abordagem se tornará _lenta_.

Assim, poderíamos fazer filtragem com múltiplos condicionais em partes:

In [19]:
select_1 = data['REGIÃO'] == 'NORTE'
postos_rj = data[select_1]
postos_rj

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
13,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,1.500,1.980,0.689,0.074,1.116,0.171,0.767,1.2992,0.153
14,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,15,R$/l,1.785,0.035,1.740,1.850,0.412,0.020,1.373,0.167,0.8339,1.4912,0.122
15,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,53,R$/l,1.578,0.123,1.280,1.850,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06
16,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,104,R$/l,1.914,0.246,1.270,2.400,0.536,0.129,1.378,0.237,0.7564,1.8908,0.172
17,2004-05-09,2004-05-15,NORTE,ETANOL HIDRATADO,97,R$/l,1.545,0.141,1.250,1.990,0.533,0.091,1.012,0.149,0.52,1.3306,0.147
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120799,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,44,R$/l,4.332,0.274,3.990,4.990,-99999.0,0.063,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120809,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,40,R$/l,4.447,0.265,3.950,5.050,-99999.0,0.060,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120817,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,30,R$/l,4.503,0.157,4.250,4.799,-99999.0,0.035,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120818,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


In [22]:
select_2 = postos_rj['PREÇO MÉDIO REVENDA'] > 2
postos_rj[select_2]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
770,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,11,R$/l,2.004,0.073,1.850,2.050,0.313,0.036,1.691,0.194,1.2982,1.8891,0.115
772,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,98,R$/l,2.011,0.171,1.590,2.372,0.302,0.085,1.709,0.194,0.9826,2.0852,0.114
774,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,14,R$/l,2.027,0.133,1.750,2.200,0.482,0.066,1.545,0.144,1.3805,1.8446,0.093
797,2004-11-28,2004-12-04,NORTE,ETANOL HIDRATADO,12,R$/l,2.154,0.101,2.050,2.250,0.463,0.047,1.691,0.194,1.2982,1.889,0.115
799,2004-11-28,2004-12-04,NORTE,ETANOL HIDRATADO,114,R$/l,2.032,0.152,1.740,2.372,0.313,0.075,1.719,0.164,1.0832,1.9841,0.095
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120799,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,44,R$/l,4.332,0.274,3.990,4.990,-99999.0,0.063,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120809,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,40,R$/l,4.447,0.265,3.950,5.050,-99999.0,0.060,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120817,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,30,R$/l,4.503,0.157,4.250,4.799,-99999.0,0.035,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120818,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


#### **Selecionando registros**

Podemos fazer a solução do "jeito mais lento", percorrendo o DataFrame inteiro _múltiplas vezes_:

In [46]:
selecao = ((data['REGIÃO'] == 'NORTE') | (data['REGIÃO'] == 'NORDESTE')) & (data['PREÇO MÉDIO REVENDA'] > 2) & (data['PRODUTO'] == 'ETANOL HIDRATADO')
    

In [47]:
postos_rj_sp = data[selecao]

In [48]:
postos_rj_sp

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
770,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,11,R$/l,2.004,0.073,1.850,2.050,0.313,0.036,1.691,0.194,1.2982,1.8891,0.115
772,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,98,R$/l,2.011,0.171,1.590,2.372,0.302,0.085,1.709,0.194,0.9826,2.0852,0.114
774,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,14,R$/l,2.027,0.133,1.750,2.200,0.482,0.066,1.545,0.144,1.3805,1.8446,0.093
797,2004-11-28,2004-12-04,NORTE,ETANOL HIDRATADO,12,R$/l,2.154,0.101,2.050,2.250,0.463,0.047,1.691,0.194,1.2982,1.889,0.115
799,2004-11-28,2004-12-04,NORTE,ETANOL HIDRATADO,114,R$/l,2.032,0.152,1.740,2.372,0.313,0.075,1.719,0.164,1.0832,1.9841,0.095
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120664,2021-04-25,2021-05-01,NORDESTE,ETANOL HIDRATADO,27,R$/l,4.634,0.140,4.320,4.890,-99999.0,0.030,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120666,2021-04-25,2021-05-01,NORTE,ETANOL HIDRATADO,14,R$/l,4.647,0.314,4.370,5.190,-99999.0,0.068,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120667,2021-04-25,2021-05-01,NORTE,ETANOL HIDRATADO,2,R$/l,4.530,0.085,4.470,4.590,-99999.0,0.019,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120670,2021-04-25,2021-05-01,NORDESTE,ETANOL HIDRATADO,26,R$/l,4.509,0.050,4.449,4.649,-99999.0,0.011,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


<br/>

Alternativamente:

In [49]:
selecao = ((data['REGIÃO'] == 'NORTE') | (data['REGIÃO'] == 'NORDESTE'))

In [50]:
postos_sp_rj = data[selecao]

In [53]:
selecao_2 = (postos_sp_rj['PREÇO MÉDIO REVENDA'] > 2)
postos_sp_rj = postos_sp_rj[selecao_2]

In [55]:
selecao_3 = (postos_sp_rj['PRODUTO'] == 'ETANOL HIDRATADO')
postos_sp_rj = postos_sp_rj[selecao_3]

In [56]:
postos_sp_rj

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
770,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,11,R$/l,2.004,0.073,1.850,2.050,0.313,0.036,1.691,0.194,1.2982,1.8891,0.115
772,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,98,R$/l,2.011,0.171,1.590,2.372,0.302,0.085,1.709,0.194,0.9826,2.0852,0.114
774,2004-11-21,2004-11-27,NORTE,ETANOL HIDRATADO,14,R$/l,2.027,0.133,1.750,2.200,0.482,0.066,1.545,0.144,1.3805,1.8446,0.093
797,2004-11-28,2004-12-04,NORTE,ETANOL HIDRATADO,12,R$/l,2.154,0.101,2.050,2.250,0.463,0.047,1.691,0.194,1.2982,1.889,0.115
799,2004-11-28,2004-12-04,NORTE,ETANOL HIDRATADO,114,R$/l,2.032,0.152,1.740,2.372,0.313,0.075,1.719,0.164,1.0832,1.9841,0.095
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120664,2021-04-25,2021-05-01,NORDESTE,ETANOL HIDRATADO,27,R$/l,4.634,0.140,4.320,4.890,-99999.0,0.030,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120666,2021-04-25,2021-05-01,NORTE,ETANOL HIDRATADO,14,R$/l,4.647,0.314,4.370,5.190,-99999.0,0.068,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120667,2021-04-25,2021-05-01,NORTE,ETANOL HIDRATADO,2,R$/l,4.530,0.085,4.470,4.590,-99999.0,0.019,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120670,2021-04-25,2021-05-01,NORDESTE,ETANOL HIDRATADO,26,R$/l,4.509,0.050,4.449,4.649,-99999.0,0.011,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


### **Iterando com DataFrames**

#### For-each `DataFrame.iterrows()` (LENTO ==> apenas indicado para iterar pequenos conjunto de dados)

In [60]:
for index, row in data.head(10).iterrows():
    print(f'Index : {index} ==> {row["REGIÃO"]}')

Index : 0 ==> CENTRO OESTE
Index : 1 ==> CENTRO OESTE
Index : 2 ==> CENTRO OESTE
Index : 3 ==> CENTRO OESTE
Index : 4 ==> NORDESTE
Index : 5 ==> NORDESTE
Index : 6 ==> NORDESTE
Index : 7 ==> NORDESTE
Index : 8 ==> NORDESTE
Index : 9 ==> NORDESTE


<h2>2. Preparação dos dados</h2>
<hr/>

### 2.1 Removendo amostras com valores vazios (null / nan) no dataset

In [61]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120823 entries, 0 to 120822
Data columns (total 17 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   DATA INICIAL                   120823 non-null  object 
 1   DATA FINAL                     120823 non-null  object 
 2   REGIÃO                         120823 non-null  object 
 3   PRODUTO                        120823 non-null  object 
 4   NÚMERO DE POSTOS PESQUISADOS   120823 non-null  int64  
 5   UNIDADE DE MEDIDA              120823 non-null  object 
 6   PREÇO MÉDIO REVENDA            120823 non-null  float64
 7   DESVIO PADRÃO REVENDA          120823 non-null  float64
 8   PREÇO MÍNIMO REVENDA           120823 non-null  float64
 9   PREÇO MÁXIMO REVENDA           120823 non-null  float64
 10  MARGEM MÉDIA REVENDA           120823 non-null  object 
 11  COEF DE VARIAÇÃO REVENDA       120823 non-null  float64
 12  PREÇO MÉDIO DISTRIBUIÇÃO      

De um total de 106823 observações, **não há valores null** / nan para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: P. ex., "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente algumas amostras têm um string ao invés de um número para tais atributos. <br/>

Os atributos *"DATA INICIAL"* e *"DATA FINAL"* deveriam ser do tipo `datetime`.

Em outros casos, alguns **atributos categóricos** são ```objects```, mas poderiam ter o tipo ```category```, que é um tipo especial do pandas. <br/>
Este tipo é necessário para se utilizar algumas funções específicas do pandas. <br/>
**Não** converteremos para este tipo por ora.

In [27]:
data_pre = data.copy()

#### **Datas**
Como os atributos de data do datset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

In [28]:
data_pre['DATA INICIAL'] = pd.to_datetime(data_pre['DATA INICIAL'])

In [29]:
data_pre['DATA FINAL'] = pd.to_datetime(data_pre['DATA FINAL'])

In [65]:
data_pre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120823 entries, 0 to 120822
Data columns (total 17 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   120823 non-null  datetime64[ns]
 1   DATA FINAL                     120823 non-null  datetime64[ns]
 2   REGIÃO                         120823 non-null  object        
 3   PRODUTO                        120823 non-null  object        
 4   NÚMERO DE POSTOS PESQUISADOS   120823 non-null  int64         
 5   UNIDADE DE MEDIDA              120823 non-null  object        
 6   PREÇO MÉDIO REVENDA            120823 non-null  float64       
 7   DESVIO PADRÃO REVENDA          120823 non-null  float64       
 8   PREÇO MÍNIMO REVENDA           120823 non-null  float64       
 9   PREÇO MÁXIMO REVENDA           120823 non-null  float64       
 10  MARGEM MÉDIA REVENDA           120823 non-null  object        
 11  

#### **Dados Numéricos**

In [30]:
lista = ['MARGEM MÉDIA REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO', 'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
 'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO']

In [31]:
for atributo in lista:
    data_pre[atributo] = pd.to_numeric(data_pre[atributo], errors='coerce')

In [12]:
data_pre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120823 entries, 0 to 120822
Data columns (total 17 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   120823 non-null  datetime64[ns]
 1   DATA FINAL                     120823 non-null  datetime64[ns]
 2   REGIÃO                         120823 non-null  object        
 3   PRODUTO                        120823 non-null  object        
 4   NÚMERO DE POSTOS PESQUISADOS   120823 non-null  int64         
 5   UNIDADE DE MEDIDA              120823 non-null  object        
 6   PREÇO MÉDIO REVENDA            120823 non-null  float64       
 7   DESVIO PADRÃO REVENDA          120823 non-null  float64       
 8   PREÇO MÍNIMO REVENDA           120823 non-null  float64       
 9   PREÇO MÁXIMO REVENDA           120823 non-null  float64       
 10  MARGEM MÉDIA REVENDA           117392 non-null  float64       
 11  

<br/>

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

In [75]:
#O atributo não possui registros null, mas irei seguir como se fosse.
eh_null = data_pre['PREÇO MÍNIMO DISTRIBUIÇÃO'].isnull()
eh_null

0         False
1         False
2         False
3         False
4         False
          ...  
120818    False
120819    False
120820    False
120821    False
120822    False
Name: PREÇO MÍNIMO DISTRIBUIÇÃO, Length: 120823, dtype: bool

In [76]:
data_pre[eh_null]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO



<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

In [79]:
data_pre_fill = data_pre.fillna(0)
data_pre_fill

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.0,0.012,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120819,2021-04-25,2021-05-01,SUL,OLEO DIESEL S10,100,R$/l,4.141,0.187,3.838,4.739,-99999.0,0.045,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120820,2021-04-25,2021-05-01,SUDESTE,OLEO DIESEL S10,886,R$/l,4.246,0.216,3.769,5.199,-99999.0,0.051,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
120821,2021-04-25,2021-05-01,NORDESTE,OLEO DIESEL S10,33,R$/l,4.464,0.205,4.190,4.699,-99999.0,0.046,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


In [81]:
data_pre_fill = data_pre.fillna(value = {
    'DESVIO PADRÃO REVENDA' : 10,
    'PREÇO MÉDIO REVENDA' : 20
})

<br/>

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO DISTRIBUIÇÃO'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

In [32]:
data_pre.dropna(inplace=True)
data = data_pre

In [33]:
data.to_csv(r'C:\Users\Armando\Downloads\archive\2004-2021.tsv')



Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias, p. ex., **confiam na detecção de outliers**, que não veremos neste curso.

<h2>3. Estatísticas Descritivas</h2>
<hr/>

O Pandas fornecem algumas funções/métodos ue computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

In [16]:
data.describe()

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
count,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0
mean,226.63219,11.415039,0.680834,9.922806,13.184631,-4697.376395,0.045586,-4683.425711,-4691.371824,-4684.54345,-4682.203033,-4691.881144
std,392.042029,19.149383,1.40262,16.418908,22.465797,21163.482182,0.02424,21148.461919,21146.694241,21148.212724,21148.734887,21146.581196
min,1.0,0.766,0.0,0.59,0.999,-99999.0,0.0,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
25%,42.0,2.159,0.076,1.99,2.44,0.272,0.03,1.757,0.044,1.638,1.900275,0.019
50%,102.0,2.915,0.121,2.699,3.24,0.381,0.042,2.359,0.076,2.2383,2.5378,0.029
75%,229.25,4.023,0.203,3.78,4.58,0.554,0.058,3.364,0.148,3.19965,3.5762,0.058
max,4167.0,107.5,10.748,100.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.78


<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

In [17]:
data['PREÇO MÉDIO REVENDA'].describe()

count    117392.000000
mean         11.415039
std          19.149383
min           0.766000
25%           2.159000
50%           2.915000
75%           4.023000
max         107.500000
Name: PREÇO MÉDIO REVENDA, dtype: float64

In [18]:
data.describe()['PREÇO MÉDIO REVENDA']

count    117392.000000
mean         11.415039
std          19.149383
min           0.766000
25%           2.159000
50%           2.915000
75%           4.023000
max         107.500000
Name: PREÇO MÉDIO REVENDA, dtype: float64

**Acessando apenas algumas estatísticas**

In [20]:
stats = data.describe()
stats

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
count,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0,117392.0
mean,226.63219,11.415039,0.680834,9.922806,13.184631,-4697.376395,0.045586,-4683.425711,-4691.371824,-4684.54345,-4682.203033,-4691.881144
std,392.042029,19.149383,1.40262,16.418908,22.465797,21163.482182,0.02424,21148.461919,21146.694241,21148.212724,21148.734887,21146.581196
min,1.0,0.766,0.0,0.59,0.999,-99999.0,0.0,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
25%,42.0,2.159,0.076,1.99,2.44,0.272,0.03,1.757,0.044,1.638,1.900275,0.019
50%,102.0,2.915,0.121,2.699,3.24,0.381,0.042,2.359,0.076,2.2383,2.5378,0.029
75%,229.25,4.023,0.203,3.78,4.58,0.554,0.058,3.364,0.148,3.19965,3.5762,0.058
max,4167.0,107.5,10.748,100.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.78


In [23]:
stats.loc[['min', 'max', 'mean']]

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
min,1.0,0.766,0.0,0.59,0.999,-99999.0,0.0,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
max,4167.0,107.5,10.748,100.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.78
mean,226.63219,11.415039,0.680834,9.922806,13.184631,-4697.376395,0.045586,-4683.425711,-4691.371824,-4684.54345,-4682.203033,-4691.881144


In [24]:
stats['NÚMERO DE POSTOS PESQUISADOS']

count    117392.000000
mean        226.632190
std         392.042029
min           1.000000
25%          42.000000
50%         102.000000
75%         229.250000
max        4167.000000
Name: NÚMERO DE POSTOS PESQUISADOS, dtype: float64

In [28]:
stats.loc[['min', 'max', 'mean'], 'NÚMERO DE POSTOS PESQUISADOS']

min        1.00000
max     4167.00000
mean     226.63219
Name: NÚMERO DE POSTOS PESQUISADOS, dtype: float64

<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

#### Qual é o menor preço mínimo de revenda?

In [None]:
data['PREÇO MÍNIMO REVENDA'].min()

#### Qual é a média e desvio padrão dos preços mínimos de revenda?

In [37]:
media = data['PREÇO MÍNIMO REVENDA'].mean()
desvio_padrao = data['PREÇO MÍNIMO REVENDA'].std()

print(f'A média dos preços mínimos de revenda é: {media:.2f}\nE seu desvio padrão é: {desvio_padrao:.2f}')

A média dos preços mínimos de revenda é: 9.92
E seu desvio padrão é: 16.42


#### Quais são as regiões consideradas?

In [39]:
data['REGIÃO']

0         CENTRO OESTE
1         CENTRO OESTE
2         CENTRO OESTE
3         CENTRO OESTE
4             NORDESTE
              ...     
120818           NORTE
120819             SUL
120820         SUDESTE
120821        NORDESTE
120822           NORTE
Name: REGIÃO, Length: 117392, dtype: object

In [40]:
data['REGIÃO'].unique()

array(['CENTRO OESTE', 'NORDESTE', 'NORTE', 'SUDESTE', 'SUL'],
      dtype=object)

#### Quantos registros (aferições) cada região possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).

In [41]:
data['REGIÃO'].value_counts()

NORDESTE        40590
NORTE           27287
SUDESTE         18967
CENTRO OESTE    16565
SUL             13983
Name: REGIÃO, dtype: int64

In [43]:
df_registros_regiao = data['REGIÃO'].value_counts().to_frame()


In [53]:
df_registros_regiao.rename(columns={'REGIÃO': 'REGISTROS'}, inplace=True)


In [54]:
df_registros_regiao

Unnamed: 0,REGISTROS
NORDESTE,40590
NORTE,27287
SUDESTE,18967
CENTRO OESTE,16565
SUL,13983


<h2>4. Executando funções para cada item de um DataFrame ou Series</h2>
<hr/>

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".


<img src='./imagens/apply_map_applymap.png' width=300/>


Fonte: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff

In [55]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])

In [50]:
df

Unnamed: 0,A,B,C
Linha 1,1,10,100
Linha 2,2,20,200
Linha 3,3,30,300
Linha 4,4,40,400


`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='./imagens/pandas_axis.jpg' width=500/>

Fonte: https://www.allthesnippets.com/browse/pandas/df_axis.html

In [59]:
def nossa_soma(linha):
    return linha.sum()

In [66]:
df['SOMA(A,B,C)'] = df.apply(nossa_soma, axis =1)

In [72]:
df.dropna(inplace = True)

<img src='./imagens/apply_axis_1.png' width=250/>

In [73]:
df.loc['TOTAL COLUNA'] = df.apply(nossa_soma, axis = 0)
df

Unnamed: 0,A,B,C,"SOMA(A,B,C)"
Linha 1,1.0,10.0,100.0,222.0
Linha 2,2.0,20.0,200.0,444.0
Linha 3,3.0,30.0,300.0,666.0
Linha 4,4.0,40.0,400.0,888.0
TOTAL COLUNA,30.0,300.0,3000.0,6660.0


<img src='./imagens/apply_axis_0.png' width=250/>

##### Usando `lambda` functions

In [77]:
df['MÉDIA(A, B, C)'] = df[['A', 'B', 'C']].apply(lambda series: series.mean(), axis = 1)

In [78]:
df

Unnamed: 0,A,B,C,"SOMA(A,B,C)","MÉDIA(A, B, C)"
Linha 1,1.0,10.0,100.0,222.0,37.0
Linha 2,2.0,20.0,200.0,444.0,74.0
Linha 3,3.0,30.0,300.0,666.0,111.0
Linha 4,4.0,40.0,400.0,888.0,148.0
TOTAL COLUNA,30.0,300.0,3000.0,6660.0,1110.0


<img src='./imagens/apply_axis_1_mean.png' width=350/>

In [82]:
df.loc['MÉDIA(COLUNA)'] = df.loc[['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4']].apply(lambda series: series.mean(), axis =0)
df

Unnamed: 0,A,B,C,"SOMA(A,B,C)","MÉDIA(A, B, C)"
Linha 1,1.0,10.0,100.0,222.0,37.0
Linha 2,2.0,20.0,200.0,444.0,74.0
Linha 3,3.0,30.0,300.0,666.0,111.0
Linha 4,4.0,40.0,400.0,888.0,148.0
TOTAL COLUNA,30.0,300.0,3000.0,6660.0,1110.0
MÉDIA(COLUNA),2.5,25.0,250.0,555.0,92.5


<h2>5. Agrupamento</h2>
<hr/>

`groupby`: Usado para criar **grupo de elementos** (e.x., baseado nos valores de um atributo). <br/>
**Funções** podem então ser aplicadas para os _elementos de cada grupo_, de modo que os **resultados de cada grupo são combinados**.

In [85]:
grupos_regiao = data.groupby('REGIÃO')

In [88]:
grupos_regiao.groups

{'CENTRO OESTE': [0, 1, 2, 3, 27, 28, 29, 30, 54, 55, 56, 57, 81, 82, 83, 84, 108, 109, 110, 111, 135, 136, 137, 138, 162, 163, 164, 165, 189, 190, 191, 192, 216, 217, 218, 219, 243, 244, 245, 246, 270, 271, 272, 273, 297, 298, 299, 300, 324, 325, 326, 327, 351, 352, 353, 354, 378, 379, 380, 381, 405, 406, 407, 408, 432, 433, 434, 435, 459, 460, 461, 462, 486, 487, 488, 489, 513, 514, 515, 516, 540, 541, 542, 543, 567, 568, 569, 570, 594, 595, 596, 597, 621, 622, 623, 624, 648, 649, 650, 651, ...], 'NORDESTE': [4, 5, 6, 7, 8, 9, 10, 11, 12, 31, 32, 33, 34, 35, 36, 37, 38, 39, 58, 59, 60, 61, 62, 63, 64, 65, 66, 85, 86, 87, 88, 89, 90, 91, 92, 93, 112, 113, 114, 115, 116, 117, 118, 119, 120, 139, 140, 141, 142, 143, 144, 145, 146, 147, 166, 167, 168, 169, 170, 171, 172, 173, 174, 193, 194, 195, 196, 197, 198, 199, 200, 201, 220, 221, 222, 223, 224, 225, 226, 227, 228, 247, 248, 249, 250, 251, 252, 253, 254, 255, 274, 275, 276, 277, 278, 279, 280, 281, 282, 301, ...], 'NORTE': [13, 14, 1

In [94]:
grupos_regiao.get_group('CENTRO OESTE')

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.110,0.4201,0.96660,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05000,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.970,0.095,0.5614,1.16100,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.830,0.119,0.5991,1.22242,0.143
27,2004-05-16,2004-05-22,CENTRO OESTE,ETANOL HIDRATADO,144,R$/l,1.271,0.039,1.060,1.300,0.448,0.031,0.823,0.111,0.4094,1.19310,0.135
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120780,2021-04-25,2021-05-01,CENTRO OESTE,OLEO DIESEL,30,R$/l,4.203,0.174,3.889,4.649,-99999.000,0.041,-99999.000,-99999.000,-99999.0000,-99999.00000,-99999.000
120802,2021-04-25,2021-05-01,CENTRO OESTE,OLEO DIESEL S10,35,R$/l,4.318,0.141,4.058,4.599,-99999.000,0.033,-99999.000,-99999.000,-99999.0000,-99999.00000,-99999.000
120804,2021-04-25,2021-05-01,CENTRO OESTE,OLEO DIESEL S10,66,R$/l,4.402,0.150,4.140,4.799,-99999.000,0.034,-99999.000,-99999.000,-99999.0000,-99999.00000,-99999.000
120806,2021-04-25,2021-05-01,CENTRO OESTE,OLEO DIESEL S10,101,R$/l,4.594,0.139,4.299,4.899,-99999.000,0.030,-99999.000,-99999.000,-99999.0000,-99999.00000,-99999.000


In [97]:
grupos_regiao.describe()

Unnamed: 0_level_0,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,PREÇO MÉDIO REVENDA,...,PREÇO MÁXIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
REGIÃO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
CENTRO OESTE,16565.0,137.275521,103.448516,1.0,76.0,118.0,176.0,766.0,16565.0,12.873181,...,3.65,94.5,16565.0,-4811.263454,21401.044211,-99999.0,0.017,0.027,0.049,0.419
NORDESTE,40590.0,118.363439,110.578621,1.0,38.0,84.0,153.0,625.0,40590.0,10.202962,...,3.4308,89.9,40590.0,-4614.34579,20979.826818,-99999.0,0.018,0.03,0.061,0.608
NORTE,27287.0,64.003921,51.745055,1.0,28.0,50.0,89.0,383.0,27287.0,13.397427,...,3.8849,88.0,27287.0,-4760.427972,21293.104215,-99999.0,0.017,0.027,0.043,0.368
SUDESTE,18967.0,684.316655,763.33873,1.0,146.0,384.0,984.0,4167.0,18967.0,10.338534,...,3.53805,76.05,18967.0,-4502.455107,20736.375552,-99999.0,0.023,0.035,0.079,0.78
SUL,13983.0,343.313738,231.843167,1.0,150.0,355.0,542.5,1416.0,13983.0,10.797774,...,3.47025,74.0,13983.0,-4898.703597,21584.874201,-99999.0,0.023,0.034,0.082,0.435


In [99]:
grupos_regiao.mean()

  grupos_regiao.mean()


Unnamed: 0_level_0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
CENTRO OESTE,137.275521,12.873181,0.738618,11.086225,14.732801,-4808.871317,0.041948,-4801.630072,-4810.611556,-4802.940678,-4800.385898,-4811.263454
NORDESTE,118.363439,10.202962,0.57601,8.982218,11.518819,-4627.099422,0.041058,-4606.907509,-4613.883482,-4607.830545,-4605.956692,-4614.34579
NORTE,64.003921,13.397427,0.741401,12.149052,15.25788,-4758.258064,0.047056,-4750.097756,-4760.014513,-4750.990229,-4749.207684,-4760.427972
SUDESTE,684.316655,10.338534,0.710891,8.427834,12.526857,-4516.020832,0.054994,-4495.080899,-4501.941172,-4496.505864,-4493.271157,-4502.455107
SUL,343.313738,10.797774,0.757697,8.958349,13.03253,-4896.484015,0.047411,-4890.882948,-4898.045911,-4892.360255,-4889.043826,-4898.703597


In [100]:
grupos_regiao.min()

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
CENTRO OESTE,2004-05-09,2004-05-15,ETANOL HIDRATADO,1,R$/13Kg,1.097,0.0,0.87,1.099,-99999.0,0.0,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
NORDESTE,2004-05-09,2004-05-15,ETANOL HIDRATADO,1,R$/13Kg,0.975,0.0,0.79,0.999,-99999.0,0.0,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
NORTE,2004-05-09,2004-05-15,ETANOL HIDRATADO,1,R$/13Kg,1.226,0.0,1.05,1.3,-99999.0,0.0,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
SUDESTE,2004-05-09,2004-05-15,ETANOL HIDRATADO,1,R$/13Kg,0.766,0.0,0.59,1.099,-99999.0,0.0,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
SUL,2004-05-09,2004-05-15,ETANOL HIDRATADO,1,R$/13Kg,0.922,0.0,0.73,1.199,-99999.0,0.0,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0


<br/>

Também podemos ter agrupamentos por mais de um atributo.

In [105]:
regiao_produto = data.groupby(['REGIÃO', 'PRODUTO'])
regiao_produto.groups

{('CENTRO OESTE', 'ETANOL HIDRATADO'): [0, 1, 2, 3, 27, 28, 29, 30, 54, 55, 56, 57, 81, 82, 83, 84, 108, 109, 110, 111, 135, 136, 137, 138, 162, 163, 164, 165, 189, 190, 191, 192, 216, 217, 218, 219, 243, 244, 245, 246, 270, 271, 272, 273, 297, 298, 299, 300, 324, 325, 326, 327, 351, 352, 353, 354, 378, 379, 380, 381, 405, 406, 407, 408, 432, 433, 434, 435, 459, 460, 461, 462, 486, 487, 488, 489, 513, 514, 515, 516, 540, 541, 542, 543, 567, 568, 569, 570, 594, 595, 596, 597, 621, 622, 623, 624, 648, 649, 650, 651, ...], ('CENTRO OESTE', 'GASOLINA ADITIVADA'): [115915, 115917, 115919, 115920, 116090, 116092, 116094, 116095, 116263, 116265, 116267, 116268, 116438, 116440, 116442, 116443, 116615, 116617, 116619, 116620, 116791, 116793, 116795, 116796, 116965, 116967, 116969, 116970, 117139, 117141, 117143, 117144, 117313, 117315, 117317, 117318, 117485, 117487, 117489, 117490, 117662, 117664, 117666, 117667, 117836, 117838, 117840, 117841, 118011, 118013, 118015, 118016, 118187, 118189, 1

In [106]:
regiao_produto.mean()

  regiao_produto.mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
REGIÃO,PRODUTO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
CENTRO OESTE,ETANOL HIDRATADO,150.655728,2.246178,0.114357,2.032119,2.552269,-3223.591974,0.054376,-3222.112059,-3223.836285,-3222.277524,-3221.912446,-3223.869709
CENTRO OESTE,GASOLINA ADITIVADA,39.973214,5.09483,0.146732,4.787268,5.44967,-99999.0,0.028598,-99999.0,-99999.0,-99999.0,-99999.0,-99999.0
CENTRO OESTE,GASOLINA COMUM,150.575445,3.222415,0.107976,3.004751,3.495984,-3212.417264,0.033478,-3210.159063,-3212.761588,-3210.26845,-3210.003368,-3212.798245
CENTRO OESTE,GLP,191.095942,51.361335,3.16631,43.526536,59.329226,-3525.821818,0.058924,-3498.112725,-3533.116222,-3503.958676,-3492.668657,-3536.121664
CENTRO OESTE,GNV,3.479397,2.03828,0.033423,2.007052,2.067551,-11557.247129,0.015592,-11556.419135,-11557.650819,-11556.438869,-11556.399379,-11557.659148
CENTRO OESTE,OLEO DIESEL,63.1875,3.713054,0.140094,3.44642,4.071264,-31817.580852,0.038324,-31815.68548,-31817.80104,-31815.770184,-31815.580347,-31817.843688
CENTRO OESTE,OLEO DIESEL S10,87.204545,3.813543,0.145886,3.522011,4.214043,-31817.568841,0.038906,-31815.623682,-31817.794608,-31815.73024,-31815.51457,-31817.842216
CENTRO OESTE,ÓLEO DIESEL,131.940332,2.481286,0.08154,2.310497,2.686205,0.269293,0.032117,2.211993,0.049874,2.106889,2.323683,0.021995
CENTRO OESTE,ÓLEO DIESEL S10,76.054545,3.294752,0.108976,3.070625,3.559399,0.375726,0.032577,2.919026,0.073233,2.779236,3.04002,0.024829
NORDESTE,ETANOL HIDRATADO,148.186017,2.45035,0.119643,2.223953,2.795075,-3584.763993,0.051281,-3532.013263,-3533.939531,-3532.228552,-3531.81029,-3533.984629


In [4]:
data = pd.read_csv(r'C:\Users\Armando\Downloads\archive\2004-2021.tsv', delimiter = '\t')

In [8]:
grupos = data.groupby(['REGIÃO'])

In [11]:
grupos.mean()

  grupos.mean()


Unnamed: 0_level_0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,COEF DE VARIAÇÃO REVENDA
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CENTRO OESTE,130.911055,12.440722,0.707499,10.729922,14.217017,0.040334
NORDESTE,117.176934,10.663357,0.606581,9.371222,12.015522,0.041201
NORTE,62.700239,13.41168,0.743323,12.16554,15.279058,0.046625
SUDESTE,673.675402,10.21724,0.70185,8.335308,12.375387,0.055001
SUL,332.7419,10.562091,0.7413,8.771326,12.743624,0.047601


In [20]:
grupos['DESVIO PADRÃO REVENDA'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
CENTRO OESTE,17449.0,0.707499,1.474681,0.0,0.068,0.112,0.188,9.842
NORDESTE,41671.0,0.606581,1.288067,0.0,0.065,0.105,0.178,10.748
NORTE,27989.0,0.743323,1.442045,0.0,0.084,0.143,0.273,10.675
SUDESTE,19270.0,0.70185,1.411828,0.0,0.095,0.135,0.197,9.632
SUL,14444.0,0.7413,1.530572,0.0,0.078,0.117,0.188,10.27


<br/>

`.agg`: **agrega (roda)** uma série de funções para os elementos de um dataframe ou de grupos de um dataframe.

In [13]:
import numpy as np

In [16]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


In [22]:
df.agg([sum, min])

Unnamed: 0,A,B,C
sum,12.0,15.0,18.0
min,1.0,2.0,3.0


In [23]:
grupos['PREÇO MÉDIO REVENDA'].agg([min, max])

Unnamed: 0_level_0,min,max
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
CENTRO OESTE,1.097,105.194
NORDESTE,0.975,91.725
NORTE,1.219,107.5
SUDESTE,0.766,87.091
SUL,0.922,91.189


<h2>6. Ordenação</h2>
<hr/>

In [39]:
notas = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Alice'],
    'idade': [20, 21, 19, 20],
    'nota_final': [5.0, 10.0, 6.0, 10.0]
})
notas

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
1,Maria,21,10.0
2,José,19,6.0
3,Alice,20,10.0


`.sort_values()`: ordena valores ao longo de um eixo.

In [40]:
notas.sort_values(by='idade')

Unnamed: 0,nome,idade,nota_final
2,José,19,6.0
0,João,20,5.0
3,Alice,20,10.0
1,Maria,21,10.0


Por padrão, o método retorna uma cópia dos dados ordenados em **ordem crescente (ascendente)**. Podemos alterar isso pelo argumento `ascending`.

In [41]:
notas.sort_values(by='idade', ascending=False)

Unnamed: 0,nome,idade,nota_final
1,Maria,21,10.0
0,João,20,5.0
3,Alice,20,10.0
2,José,19,6.0


<br/>

Podemos ordenar a partir de **mais de uma coluna**:

In [42]:
notas.sort_values(by=['nota_final', 'idade'], ascending=[False, True])

Unnamed: 0,nome,idade,nota_final
3,Alice,20,10.0
1,Maria,21,10.0
2,José,19,6.0
0,João,20,5.0


Ordena os registros, primeiramente, pela coluna 'nota_final' em **ordem descrente**. <br/>
Então, reordena os registros _"empatados"_, ou seja, com a **mesma nota final**, em _ordem alfabética_ (ordem crescente).

<br/>

Note que o dataframe original **não foi alterado** após a ordenação.

In [43]:
notas

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
1,Maria,21,10.0
2,José,19,6.0
3,Alice,20,10.0


Para alterá-lo, use o argumento `inplace=True`:

In [44]:
notas.sort_values(by=['nota_final', 'idade'], ascending=[False, True], inplace = True)

In [47]:
notas.reset_index(drop=True, inplace=True)

In [48]:
notas

Unnamed: 0,nome,idade,nota_final
0,Alice,20,10.0
1,Maria,21,10.0
2,José,19,6.0
3,João,20,5.0


<h2>7. Exercícios</h2>
<hr/>

Vamos aplicar os conceitos que vimos em alguns exercícios. <br/>
Para isso, utilizaremos o dataset de _preços de combustíveis no Brasil_.

Como há apenas medições de janeiro a junho para o ano de 2019, resolvemos **remover os dados** deste ano da análise.

In [36]:
data['ANO'] = data['DATA INICIAL'].dt.year

In [62]:
data

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.110,0.4201,0.96660,0.133,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05000,0.115,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.970,0.095,0.5614,1.16100,0.098,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.830,0.119,0.5991,1.22242,0.143,2004
4,2004-05-09,2004-05-15,NORDESTE,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.240,0.066,0.941,0.077,0.7441,1.03170,0.082,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120818,2021-04-25,2021-05-01,NORTE,OLEO DIESEL S10,12,R$/l,4.582,0.056,4.510,4.690,-99999.000,0.012,-99999.000,-99999.000,-99999.0000,-99999.00000,-99999.000,2021
120819,2021-04-25,2021-05-01,SUL,OLEO DIESEL S10,100,R$/l,4.141,0.187,3.838,4.739,-99999.000,0.045,-99999.000,-99999.000,-99999.0000,-99999.00000,-99999.000,2021
120820,2021-04-25,2021-05-01,SUDESTE,OLEO DIESEL S10,886,R$/l,4.246,0.216,3.769,5.199,-99999.000,0.051,-99999.000,-99999.000,-99999.0000,-99999.00000,-99999.000,2021
120821,2021-04-25,2021-05-01,NORDESTE,OLEO DIESEL S10,33,R$/l,4.464,0.205,4.190,4.699,-99999.000,0.046,-99999.000,-99999.000,-99999.0000,-99999.00000,-99999.000,2021


In [26]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120823 entries, 0 to 120822
Data columns (total 17 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   DATA INICIAL                   120823 non-null  object 
 1   DATA FINAL                     120823 non-null  object 
 2   REGIÃO                         120823 non-null  object 
 3   PRODUTO                        120823 non-null  object 
 4   NÚMERO DE POSTOS PESQUISADOS   120823 non-null  int64  
 5   UNIDADE DE MEDIDA              120823 non-null  object 
 6   PREÇO MÉDIO REVENDA            120823 non-null  float64
 7   DESVIO PADRÃO REVENDA          120823 non-null  float64
 8   PREÇO MÍNIMO REVENDA           120823 non-null  float64
 9   PREÇO MÁXIMO REVENDA           120823 non-null  float64
 10  MARGEM MÉDIA REVENDA           120823 non-null  object 
 11  COEF DE VARIAÇÃO REVENDA       120823 non-null  float64
 12  PREÇO MÉDIO DISTRIBUIÇÃO      

### 7.1 Qual a quantidade de postos pesquisados para cada combustível em cada região?

In [12]:
combustiveis = data.groupby(['PRODUTO'])

In [23]:
df = combustiveis['REGIÃO'].value_counts().to_frame(name='REGISTROS')
df

Unnamed: 0_level_0,Unnamed: 1_level_0,REGISTROS
PRODUTO,REGIÃO,Unnamed: 2_level_1
ETANOL HIDRATADO,NORDESTE,7856
ETANOL HIDRATADO,NORTE,5982
ETANOL HIDRATADO,CENTRO OESTE,3492
ETANOL HIDRATADO,SUDESTE,3492
ETANOL HIDRATADO,SUL,2618
GASOLINA ADITIVADA,NORDESTE,248
GASOLINA ADITIVADA,NORTE,193
GASOLINA ADITIVADA,CENTRO OESTE,112
GASOLINA ADITIVADA,SUDESTE,112
GASOLINA ADITIVADA,SUL,84


### 7.2 Como os preços da Gasolina Comum no Norte variaram em 2018?

In [69]:
gasolina_comum = data['PRODUTO'] == 'GASOLINA COMUM'
filtragem = data[gasolina_comum]

In [70]:
norte = filtragem['REGIÃO'] == 'NORTE'

In [71]:
filtragem = filtragem[norte]

In [72]:
ano_2018 = filtragem['ANO'] == 2018

In [73]:
filtragem = filtragem[ano_2018]


In [74]:
filtragem.reset_index(drop=True, inplace=True)

In [75]:
filtragem

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,ANO
0,2018-01-07,2018-01-13,NORTE,GASOLINA COMUM,35,R$/l,4.769,0.121,4.570,5.150,0.637,0.025,4.132,0.092,4.0010,4.2638,0.022,2018
1,2018-01-07,2018-01-13,NORTE,GASOLINA COMUM,22,R$/l,4.110,0.219,3.830,4.498,0.395,0.053,3.715,0.052,3.6409,3.8043,0.014,2018
2,2018-01-07,2018-01-13,NORTE,GASOLINA COMUM,71,R$/l,4.293,0.247,3.890,4.950,0.672,0.058,3.621,0.133,3.4000,3.9000,0.037,2018
3,2018-01-07,2018-01-13,NORTE,GASOLINA COMUM,111,R$/l,4.259,0.312,3.799,5.040,0.467,0.073,3.792,0.142,3.3587,4.0500,0.037,2018
4,2018-01-07,2018-01-13,NORTE,GASOLINA COMUM,73,R$/l,4.331,0.131,4.129,4.670,0.614,0.030,3.717,0.083,3.6097,3.9700,0.022,2018
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
355,2018-12-30,2019-01-05,NORTE,GASOLINA COMUM,73,R$/l,3.888,0.473,3.740,5.050,0.305,0.122,3.583,0.206,3.4000,4.2800,0.057,2018
356,2018-12-30,2019-01-05,NORTE,GASOLINA COMUM,117,R$/l,4.498,0.278,3.999,5.150,0.577,0.062,3.921,0.072,3.8124,4.0973,0.018,2018
357,2018-12-30,2019-01-05,NORTE,GASOLINA COMUM,73,R$/l,4.401,0.225,3.989,4.850,0.619,0.051,3.782,0.086,3.6600,3.9800,0.023,2018
358,2018-12-30,2019-01-05,NORTE,GASOLINA COMUM,13,R$/l,4.058,0.013,4.050,4.080,0.537,0.003,3.521,0.099,3.4150,3.6852,0.028,2018


#### **Estatísticas Descritivas**

In [48]:
filtragem.describe()

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,ANO
count,360.0,360.0,360.0,360.0,360.0,360.0,360.0,360.0,360.0,360.0,360.0,360.0,360.0
mean,53.955556,4.496967,0.176169,4.214339,4.981089,0.540553,0.0391,3.956414,0.091789,3.792926,4.135628,0.023194,2018.0
std,31.189478,0.332783,0.090728,0.321052,0.515425,0.166147,0.020649,0.234916,0.038393,0.243649,0.261402,0.009662,0.0
min,11.0,3.888,0.004,3.659,4.08,0.125,0.001,3.521,0.007,3.1692,3.624,0.002,2018.0
25%,29.0,4.26675,0.121,3.98,4.589,0.467,0.027,3.779,0.06675,3.612325,3.9497,0.017,2018.0
50%,46.0,4.4845,0.1725,4.1745,4.95,0.557,0.039,3.924,0.09,3.74535,4.1131,0.022,2018.0
75%,71.0,4.74425,0.23825,4.39,5.25,0.638,0.051,4.12075,0.11525,3.9532,4.28495,0.029,2018.0
max,117.0,5.362,0.473,5.22,6.29,0.941,0.122,4.614,0.217,4.4234,4.914,0.058,2018.0


In [49]:
filtragem['PREÇO MÉDIO REVENDA'].describe()

count    360.000000
mean       4.496967
std        0.332783
min        3.888000
25%        4.266750
50%        4.484500
75%        4.744250
max        5.362000
Name: PREÇO MÉDIO REVENDA, dtype: float64

### 7.3 Como os preços da Gasolina Comum e do Etanol no Norte variaram em 2018?

In [78]:
etanol  = data['PRODUTO'] == 'ETANOL HIDRATADO'

In [87]:
filtragem_2 = data[etanol | gasolina_comum]



In [88]:
norte = filtragem_2['REGIÃO'] == 'NORTE'

In [89]:
filtragem_2 = filtragem_2[norte]

In [90]:
ano_2018 = filtragem_2['ANO'] == 2018

In [92]:
filtragem_2 = filtragem_2[ano_2018]

In [96]:
filtragem_2.reset_index(drop=True, inplace=True)

In [97]:
filtragem_2

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,ANO
0,2018-01-07,2018-01-13,NORTE,ETANOL HIDRATADO,21,R$/l,3.638,0.057,3.470,3.75,0.421,0.016,3.217,0.012,3.2082,3.2382,0.004,2018
1,2018-01-07,2018-01-13,NORTE,ETANOL HIDRATADO,41,R$/l,3.253,0.209,3.090,3.89,0.312,0.064,2.941,0.112,2.7000,3.1848,0.038,2018
2,2018-01-07,2018-01-13,NORTE,ETANOL HIDRATADO,38,R$/l,3.620,0.266,3.240,4.10,0.423,0.073,3.197,0.121,3.0609,3.3900,0.038,2018
3,2018-01-07,2018-01-13,NORTE,ETANOL HIDRATADO,31,R$/l,3.473,0.184,3.190,4.01,0.519,0.053,2.954,0.088,2.8965,3.1695,0.030,2018
4,2018-01-07,2018-01-13,NORTE,ETANOL HIDRATADO,4,R$/l,3.545,0.064,3.490,3.60,0.555,0.018,2.990,0.030,2.9465,3.0155,0.010,2018
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
667,2018-12-30,2019-01-05,NORTE,GASOLINA COMUM,73,R$/l,3.888,0.473,3.740,5.05,0.305,0.122,3.583,0.206,3.4000,4.2800,0.057,2018
668,2018-12-30,2019-01-05,NORTE,GASOLINA COMUM,117,R$/l,4.498,0.278,3.999,5.15,0.577,0.062,3.921,0.072,3.8124,4.0973,0.018,2018
669,2018-12-30,2019-01-05,NORTE,GASOLINA COMUM,73,R$/l,4.401,0.225,3.989,4.85,0.619,0.051,3.782,0.086,3.6600,3.9800,0.023,2018
670,2018-12-30,2019-01-05,NORTE,GASOLINA COMUM,13,R$/l,4.058,0.013,4.050,4.08,0.537,0.003,3.521,0.099,3.4150,3.6852,0.028,2018


<h2>8. Assuntos para continuar os estudos</h2>
<hr/>

- join
- concat
- plot
- data cleaning