## **Pandas Essencial**
**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)** <br/>
xavecoding: https://youtube.com/c/xavecoding <br/>

Neste tutorial, vamos aprender o essencial da biblioteca _Pandas_ para manipulação de dados.<br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

### Pacotes usados neste Notebook

In [2]:
# pacotes usados neste notebook
import pandas as pd

<h1>Manipulação de Dados com Pandas</h1><hr/>

<h2>1. Manipulação Básica de Datasets</h2>
<hr/>

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**. <br/>
Cada *amostra (registro/linha)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o _pandas_ consiga abrí-lo normalmente, convertemos tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento.

### 1.1. Importando o Dataset
Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [2]:
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv')

In [3]:
data

Unnamed: 0,Unnamed: 0;DATA INICIAL;DATA FINAL;REGIÃO;ESTADO;PRODUTO;NÚMERO DE POSTOS PESQUISADOS;UNIDADE DE MEDIDA;PREÇO MÉDIO REVENDA;DESVIO PADRÃO REVENDA;PREÇO MÍNIMO REVENDA;PREÇO MÁXIMO REVENDA;MARGEM MÉDIA REVENDA;COEF DE VARIAÇÃO REVENDA;PREÇO MÉDIO DISTRIBUIÇÃO;DESVIO PADRÃO DISTRIBUIÇÃO;PREÇO MÍNIMO DISTRIBUIÇÃO;PREÇO MÁXIMO DISTRIBUIÇÃO;COEF DE VARIAÇÃO DISTRIBUIÇÃO;MÊS;ANO
0,0;2004-05-09;2004-05-15;CENTRO OESTE;DISTRITO ...
1,1;2004-05-09;2004-05-15;CENTRO OESTE;GOIAS;ETA...
2,2;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
3,3;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
4,4;2004-05-09;2004-05-15;NORDESTE;ALAGOAS;ETANO...
...,...
106818,106818;2019-06-23;2019-06-29;NORDESTE;RIO GRAN...
106819,106819;2019-06-23;2019-06-29;SUL;RIO GRANDE DO...
106820,106820;2019-06-23;2019-06-29;SUL;SANTA CATARIN...
106821,106821;2019-06-23;2019-06-29;SUDESTE;SAO PAULO...


O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era ';' e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [3]:
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv', sep=';')

In [5]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [6]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [7]:
data.head(15)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,...,2.0,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004


### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 21 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Unnamed: 0                     106823 non-null  int64  
 1   DATA INICIAL                   106823 non-null  object 
 2   DATA FINAL                     106823 non-null  object 
 3   REGIÃO                         106823 non-null  object 
 4   ESTADO                         106823 non-null  object 
 5   PRODUTO                        106823 non-null  object 
 6   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 7   UNIDADE DE MEDIDA              106823 non-null  object 
 8   PREÇO MÉDIO REVENDA            106823 non-null  float64
 9   DESVIO PADRÃO REVENDA          106823 non-null  float64
 10  PREÇO MÍNIMO REVENDA           106823 non-null  float64
 11  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 12  MARGEM MÉDIA REVENDA          

A primeira coluna da tabela, chamada _'Unnamed: 0'_, parece não significar nada. Na verdade, ela parece ser os **índices** da tabela, que foram salvos como uma _coluna_.<br/>
Veremos jajá como **remover tal coluna**.

Outro ponto é que, aparentemente, nenhum atributo/coluna possui valores nulos (_null_), uma vez que o número de registros do dataframe e os números de valores _non-null_ é de **106823**. <br/>
Mas, veremos que não é bem assim para esse caso.

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [9]:
type(data)

pandas.core.frame.DataFrame

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [10]:
data.shape

(106823, 21)

In [11]:
print(f'O Data frame possui {data.shape[0]} linhas/observações/registros e {data.shape[1]} colunas/atributos/variaveis.')

O Data frame possui 106823 linhas/observações/registros e 21 colunas/atributos/variaveis.


#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [12]:
alunos_df = pd.DataFrame({
    'nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade': [16, 1000, 70],
    'peso': [70, 15, 60],
    'eh jedi': [True, True, False]  # o nome das colunas podem ter espaços
})

In [13]:
alunos_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O método `DataFrame.columns` retorna uma ";lista" com os **nomes de todas as colunas** do data frame.

In [14]:
alunos_df.columns

Index(['nome', 'idade', 'peso', 'eh jedi'], dtype='object')

In [15]:
type(alunos_df.columns)

pandas.core.indexes.base.Index

In [16]:
list(alunos_df.columns)

['nome', 'idade', 'peso', 'eh jedi']

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [17]:
alunos_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [18]:
alunos_df_renamed = alunos_df.rename(columns={
    'nome' : 'Nome Completo',
    'idade' : 'Idade'
})

In [19]:
alunos_df_renamed

Unnamed: 0,Nome Completo,Idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [20]:
alunos_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


Para renomear o _próprio_ data frame em questão, utilize o parâmetro `inplace=True`:

In [21]:
alunos_df.rename(columns={
    'nome' : 'Nome Completo',
    'idade' : 'Idade'
}, inplace=True)

In [22]:
alunos_df

Unnamed: 0,Nome Completo,Idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


<br/>

**===>** Uma outra forma de **renomear todas as listas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [23]:
alunos_df.columns

Index(['Nome Completo', 'Idade', 'peso', 'eh jedi'], dtype='object')

In [24]:
alunos_df.columns = ['NOME', 'IDADE', 'PESO', 'EH_JEDI']

In [25]:
alunos_df

Unnamed: 0,NOME,IDADE,PESO,EH_JEDI
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


### 1.3.3 Series

Array uni-dimensional com os dados e rótulos de um eixo.

In [26]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [27]:
data['ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [28]:
data.ESTADO

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [29]:
type(data['ESTADO'])

pandas.core.series.Series

In [30]:
data.iloc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


In [31]:
type(data.iloc[1])

pandas.core.series.Series

#### **Criando uma Series**

Podemos criar um DataFrame a partir de uma lista de elementos.

In [34]:
pd.Series([5.5, 6.0, 9.5])

0    5.5
1    6.0
2    9.5
dtype: float64

Podemos alterar o **nome dos índices** (veremos melhor jajá) e o **nome da Series** (o que ela representa):

In [37]:
pd.Series([5.5, 6.0, 9.5], index=['prova 1', 'prova 2', 'projeto'], name='Notas do Luke Skywalker')

prova 1    5.5
prova 2    6.0
projeto    9.5
Name: Notas do Luke Skywalker, dtype: float64

#### **VEJA MAIS**
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

### 1.3.4 Atribuindo Dados

#### 1.3.4.1 Atribuindo constantes

In [47]:
produto_view = data['PRODUTO']
produto_view

0         Combustível
1         Combustível
2         Combustível
3         Combustível
4         Combustível
             ...     
106818    Combustível
106819    Combustível
106820    Combustível
106821    Combustível
106822    Combustível
Name: PRODUTO, Length: 106823, dtype: object

In [48]:
produto_cp = data['PRODUTO'].copy()
produto_cp

0         Combustível
1         Combustível
2         Combustível
3         Combustível
4         Combustível
             ...     
106818    Combustível
106819    Combustível
106820    Combustível
106821    Combustível
106822    Combustível
Name: PRODUTO, Length: 106823, dtype: object

In [44]:
data['PRODUTO'] = 'Combustível'

In [45]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [46]:
produto_view

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

In [49]:
produto_cp

0         Combustível
1         Combustível
2         Combustível
3         Combustível
4         Combustível
             ...     
106818    Combustível
106819    Combustível
106820    Combustível
106821    Combustível
106822    Combustível
Name: PRODUTO, Length: 106823, dtype: object

#### 1.3.4.2 Atribuindo listas ou series

In [53]:
nrows, ncols = data.shape
nrows, ncols

(106823, 21)

In [54]:
novos_produtos = [f'Produto {i}'for i in range(nrows)]
len(novos_produtos)

106823

In [55]:
data['PRODUTO'] = novos_produtos

In [57]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Produto 0,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Produto 4,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [58]:
produto_cp

0         Combustível
1         Combustível
2         Combustível
3         Combustível
4         Combustível
             ...     
106818    Combustível
106819    Combustível
106820    Combustível
106821    Combustível
106822    Combustível
Name: PRODUTO, Length: 106823, dtype: object

In [60]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [63]:
data['coluna sem nocao'] = 'DEFAULT'
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT


In [64]:
data['coluna a p de list'] = range(data.shape[0])
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4


<br/>

Outro exemplo:

In [65]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4


In [67]:
data['PREÇO MÉDIO REVENDA (dólares)'] = data['PREÇO MÉDIO REVENDA'] * 4.99

In [69]:
data.head(2)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list,PREÇO MÉDIO REVENDA (dólares)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0,6.42712
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,5.79838


**PS:** Obviamente, a lógica correta em converter o preço dos combustíveis em reais para dólares não é considerar uma taxa de câmbio fixa, uma vez que cada preço foi aferido em um momento diferente.

### 1.3.4 Índices

Todo Data Frame possui **índices**, que não são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [70]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list,PREÇO MÉDIO REVENDA (dólares)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0,6.42712
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,5.79838
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2,6.93111
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3,6.29738
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4,5.89319
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,2.756,0,2.756,2.756,0,6,2019,DEFAULT,106818,17.83426
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,2.451,0.402,1.9842,2.8661,0.164,6,2019,DEFAULT,106819,16.97099
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,1.998,0,1.9981,1.9981,0,6,2019,DEFAULT,106820,14.53088
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,2.374,0.165,2.0179,2.5093,0.07,6,2019,DEFAULT,106821,15.06980


In [71]:
data.index

RangeIndex(start=0, stop=106823, step=1)

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [72]:
pesquisa_de_satisfacao = pd.DataFrame({
    'bom': [50, 21, 100],
    'ruim': [131, 2, 30],
    'pessimo': [30, 20, 1]
}, index=['XboxOne', 'Playstation4', 'Switch'])

In [74]:
pesquisa_de_satisfacao.head()

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [75]:
pesquisa_de_satisfacao.index

Index(['XboxOne', 'Playstation4', 'Switch'], dtype='object')

### 1.4 Selecionando uma ou mais amostras (Indexação)

#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma amostra/linha:**

In [76]:
data.iloc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


**Selecionando múltiplias amostras/linhas:**

In [77]:
data.iloc[:6]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list,PREÇO MÉDIO REVENDA (dólares)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0,6.42712
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,5.79838
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2,6.93111
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3,6.29738
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4,5.89319
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.957,0.128,0.5686,1.35,0.134,5,2004,DEFAULT,5,6.90117


In [78]:
data.iloc[10:16]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list,PREÇO MÉDIO REVENDA (dólares)
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,1.079,0.078,0.8857,1.2499,0.072,5,2004,DEFAULT,10,7.84927
11,11,2004-05-09,2004-05-15,NORDESTE,RIO GRANDE DO NORTE,ETANOL HIDRATADO,131,R$/l,1.276,0.116,...,0.944,0.078,0.7119,1.1386,0.083,5,2004,DEFAULT,11,6.36724
12,12,2004-05-09,2004-05-15,NORDESTE,SERGIPE,ETANOL HIDRATADO,57,R$/l,1.301,0.109,...,0.98,0.052,0.8267,1.1059,0.053,5,2004,DEFAULT,12,6.49199
13,13,2004-05-09,2004-05-15,NORTE,ACRE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,...,1.116,0.171,0.767,1.2992,0.153,5,2004,DEFAULT,13,9.00695
14,14,2004-05-09,2004-05-15,NORTE,AMAPA,ETANOL HIDRATADO,15,R$/l,1.785,0.035,...,1.373,0.167,0.8339,1.4912,0.122,5,2004,DEFAULT,14,8.90715
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,1.137,0.068,0.9515,1.2109,0.06,5,2004,DEFAULT,15,7.87422


In [80]:
data.iloc[[1, 5, 10, 15]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list,PREÇO MÉDIO REVENDA (dólares)
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,5.79838
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.957,0.128,0.5686,1.35,0.134,5,2004,DEFAULT,5,6.90117
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,1.079,0.078,0.8857,1.2499,0.072,5,2004,DEFAULT,10,7.84927
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,1.137,0.068,0.9515,1.2109,0.06,5,2004,DEFAULT,15,7.87422


In [81]:
data.iloc[[5, 1, 15, 10]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list,PREÇO MÉDIO REVENDA (dólares)
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.957,0.128,0.5686,1.35,0.134,5,2004,DEFAULT,5,6.90117
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,5.79838
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,1.137,0.068,0.9515,1.2109,0.06,5,2004,DEFAULT,15,7.87422
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,1.079,0.078,0.8857,1.2499,0.072,5,2004,DEFAULT,10,7.84927


In [82]:
data.iloc[1,4]

'GOIAS'

In [None]:
# e assim por diante!

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> row-first, column-second

In [83]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [84]:
pesquisa_de_satisfacao.iloc[0]

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [85]:
pesquisa_de_satisfacao.iloc[0, 1]

131

In [86]:
pesquisa_de_satisfacao.loc['XboxOne']

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [87]:
pesquisa_de_satisfacao.loc['Playstation4', 'ruim']

2

In [88]:
pesquisa_de_satisfacao.loc[['XboxOne', 'Switch']]

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Switch,100,30,1


In [90]:
pesquisa_de_satisfacao[['bom', 'pessimo']]

Unnamed: 0,bom,pessimo
XboxOne,50,30
Playstation4,21,20
Switch,100,1


In [91]:
pesquisa_de_satisfacao.loc[:,['bom', 'pessimo']]

Unnamed: 0,bom,pessimo
XboxOne,50,30
Playstation4,21,20
Switch,100,1


### 1.5 Selecionando um ou mais atributos (colunas)

In [92]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna sem nocao,coluna a p de list,PREÇO MÉDIO REVENDA (dólares)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0,6.42712
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,5.79838
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2,6.93111
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3,6.29738
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4,5.89319


In [93]:
data['ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [94]:
data.loc[:, 'ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [95]:
data[['PRODUTO', 'ESTADO', 'REGIÃO']]

Unnamed: 0,PRODUTO,ESTADO,REGIÃO
0,ETANOL HIDRATADO,DISTRITO FEDERAL,CENTRO OESTE
1,ETANOL HIDRATADO,GOIAS,CENTRO OESTE
2,ETANOL HIDRATADO,MATO GROSSO,CENTRO OESTE
3,ETANOL HIDRATADO,MATO GROSSO DO SUL,CENTRO OESTE
4,ETANOL HIDRATADO,ALAGOAS,NORDESTE
...,...,...,...
106818,GNV,RIO GRANDE DO NORTE,NORDESTE
106819,GNV,RIO GRANDE DO SUL,SUL
106820,GNV,SANTA CATARINA,SUL
106821,GNV,SAO PAULO,SUDESTE


Como o rótulo da coluna 'DATA INICIAL' **possui espaço**, não é possível acessá-la como método: `data.DATA INICIAL`

### 1.6 Removendo um Atributo (Coluna) do Data Frame

Como vimos anteriormente, o atributo 'Unnamed: 0' parece ser um **ruído** em nosso dataset. Desta maneira, vamos eliminá-lo,

In [4]:
data.head()

Unnamed: 0,Unnamed: 0;DATA INICIAL;DATA FINAL;REGIÃO;ESTADO;PRODUTO;NÚMERO DE POSTOS PESQUISADOS;UNIDADE DE MEDIDA;PREÇO MÉDIO REVENDA;DESVIO PADRÃO REVENDA;PREÇO MÍNIMO REVENDA;PREÇO MÁXIMO REVENDA;MARGEM MÉDIA REVENDA;COEF DE VARIAÇÃO REVENDA;PREÇO MÉDIO DISTRIBUIÇÃO;DESVIO PADRÃO DISTRIBUIÇÃO;PREÇO MÍNIMO DISTRIBUIÇÃO;PREÇO MÁXIMO DISTRIBUIÇÃO;COEF DE VARIAÇÃO DISTRIBUIÇÃO;MÊS;ANO
0,0;2004-05-09;2004-05-15;CENTRO OESTE;DISTRITO ...
1,1;2004-05-09;2004-05-15;CENTRO OESTE;GOIAS;ETA...
2,2;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
3,3;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
4,4;2004-05-09;2004-05-15;NORDESTE;ALAGOAS;ETANO...


In [4]:
del data['Unnamed: 0']

In [99]:
del data['coluna sem nocao']
del data['coluna a p de list']
del data['PREÇO MÉDIO REVENDA (dólares)']

data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso (veja que removemos anteriormente a coluna 'Unnamed: 0' que foi justamente esse caso).<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

In [100]:
data.to_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado.csv', index=False)

### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

#### **Selecionando apenas os preços dos Postos de São Paulo**

##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

O código abaixo retorna uma ***Series ('array') de booleans***, com o número de linhas (amostras) do Data Frame, que informa os registros de preços dos postos do _estado de São Paulo_ (True).

In [101]:
data['ESTADO'].unique()

array(['DISTRITO FEDERAL', 'GOIAS', 'MATO GROSSO', 'MATO GROSSO DO SUL',
       'ALAGOAS', 'BAHIA', 'CEARA', 'MARANHAO', 'PARAIBA', 'PERNAMBUCO',
       'PIAUI', 'RIO GRANDE DO NORTE', 'SERGIPE', 'ACRE', 'AMAPA',
       'AMAZONAS', 'PARA', 'RONDONIA', 'RORAIMA', 'TOCANTINS',
       'ESPIRITO SANTO', 'MINAS GERAIS', 'RIO DE JANEIRO', 'SAO PAULO',
       'PARANA', 'RIO GRANDE DO SUL', 'SANTA CATARINA'], dtype=object)

In [102]:
data['ESTADO'] == 'SAO PAULO'

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821     True
106822    False
Name: ESTADO, Length: 106823, dtype: bool

##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

In [6]:
data.query('ESTADO == "SAO PAULO"')

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
23,23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,...,1.150,0.198,0.111,0.57,0.056,0.4271,1.4123,0.098,5,2004
50,50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,...,1.150,0.19,0.108,0.576,0.05,0.43204,0.9724,0.087,5,2004
77,77,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,...,1.199,0.209,0.086,0.614,0.063,0.34951,1.412,0.103,5,2004
104,104,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4073,R$/l,0.887,0.075,...,1.359,0.216,0.085,0.671,0.075,0.3398,1.0669,0.112,5,2004
131,131,2004-06-06,2004-06-12,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4082,R$/l,0.894,0.071,...,1.199,0.205,0.079,0.689,0.072,0.47797,1.0669,0.104,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106724,106724,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL,863,R$/l,3.448,0.156,...,4.220,0.401,0.045,3.047,0.097,2.8599,3.3481,0.032,6,2019
106751,106751,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL S10,1277,R$/l,3.574,0.169,...,4.320,0.451,0.047,3.123,0.111,2.885,3.491,0.036,6,2019
106778,106778,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.142,0.183,...,4.999,0.429,0.044,3.713,0.097,3.52,4.0892,0.026,6,2019
106805,106805,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GLP,1017,R$/13Kg,66.893,6.100,...,89.900,17.679,0.091,49.214,5.071,40.19,72,0.103,6,2019


<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análise feita para os postos de São Paulo.

In [13]:
postos_sp = data.query('ESTADO == "SAO PAULO"').reset_index(drop=True)

In [8]:
postos_sp

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
23,23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,...,1.150,0.198,0.111,0.57,0.056,0.4271,1.4123,0.098,5,2004
50,50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,...,1.150,0.19,0.108,0.576,0.05,0.43204,0.9724,0.087,5,2004
77,77,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,...,1.199,0.209,0.086,0.614,0.063,0.34951,1.412,0.103,5,2004
104,104,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4073,R$/l,0.887,0.075,...,1.359,0.216,0.085,0.671,0.075,0.3398,1.0669,0.112,5,2004
131,131,2004-06-06,2004-06-12,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4082,R$/l,0.894,0.071,...,1.199,0.205,0.079,0.689,0.072,0.47797,1.0669,0.104,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106724,106724,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL,863,R$/l,3.448,0.156,...,4.220,0.401,0.045,3.047,0.097,2.8599,3.3481,0.032,6,2019
106751,106751,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL S10,1277,R$/l,3.574,0.169,...,4.320,0.451,0.047,3.123,0.111,2.885,3.491,0.036,6,2019
106778,106778,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.142,0.183,...,4.999,0.429,0.044,3.713,0.097,3.52,4.0892,0.026,6,2019
106805,106805,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GLP,1017,R$/13Kg,66.893,6.100,...,89.900,17.679,0.091,49.214,5.071,40.19,72,0.103,6,2019


In [9]:
type(postos_sp)

pandas.core.frame.DataFrame

In [10]:
postos_sp.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
23,23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,...,1.15,0.198,0.111,0.57,0.056,0.4271,1.4123,0.098,5,2004
50,50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,...,1.15,0.19,0.108,0.576,0.05,0.43204,0.9724,0.087,5,2004
77,77,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,...,1.199,0.209,0.086,0.614,0.063,0.34951,1.412,0.103,5,2004
104,104,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4073,R$/l,0.887,0.075,...,1.359,0.216,0.085,0.671,0.075,0.3398,1.0669,0.112,5,2004
131,131,2004-06-06,2004-06-12,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4082,R$/l,0.894,0.071,...,1.199,0.205,0.079,0.689,0.072,0.47797,1.0669,0.104,6,2004


#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**

In [16]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/amostras do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro e o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

In [17]:
data['ESTADO'] == 'RIO DE JANEIRO'

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821    False
106822    False
Name: ESTADO, Length: 106823, dtype: bool

Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (cedilha, acentos) 

In [None]:
# Não funciona
# data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

**Aprofundando mais ainda**

A primeira comparação `(data['ESTADO'] == 'RIO DE JANEIRO')` checa, linha a linha (amostra a amostra) do DataFrame, quais são aquelas cujo o estado é RIO DE JANEIRO. Nenhuma averiguação de preços é feita nesse momento. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

A segunda comparação `(data['PREÇO MÉDIO REVENDA'] > 2)` checa, linha a linha (amostra a amostra) do DataFrame, quais são os registro cujo preço do combustível é maior que 2 reais. Note que essa comparação checará os postos de **TODOS os estados**. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

Por fim, as duas "perguntas" são unidas pelo AND (&) que retorna a "pergunta completa" que fizemos.

Alguns podem argumentar que tal abordagem é **ineficiente**, uma vez que, para cada condição ("pergunta"), estamos varrendo todas as linhas do DataFrame. <br/>
O Pandas _tenta otimizar_ isso ao máximo por de trás dos panos. Mas, de fato, de tivermos um dataset **muito grande** (centenas de milhares de linhas), tal abordagem se tornará _lenta_.

Assim, poderíamos fazer filtragem com múltiplos condicionais em partes:

In [21]:
selecao_1 = data['ESTADO'] == 'RIO DE JANEIRO'
postos_rj = data[selecao_1]
postos_rj

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
22,22,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,952,R$/l,1.098,0.154,...,1.890,0.312,0.140,0.786,0.173,0.326,1.263,0.22,5,2004
49,49,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,948,R$/l,1.092,0.157,...,1.499,0.284,0.144,0.808,0.175,0.3257,1.2921,0.217,5,2004
76,76,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,973,R$/l,1.103,0.140,...,1.589,0.281,0.127,0.822,0.166,0.38909,1.1859,0.202,5,2004
103,103,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,955,R$/l,1.149,0.156,...,1.599,0.3,0.136,0.849,0.188,0.3453,1.3667,0.221,5,2004
130,130,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,966,R$/l,1.165,0.154,...,1.599,0.254,0.132,0.911,0.198,0.4,1.3667,0.217,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106718,106718,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL,212,R$/l,3.569,0.166,...,4.059,0.467,0.047,3.102,0.119,2.886,3.5162,0.038,6,2019
106745,106745,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL S10,335,R$/l,3.697,0.187,...,4.389,0.5,0.051,3.197,0.127,2.9772,3.5388,0.04,6,2019
106772,106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,...,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019
106799,106799,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,...,79.000,17.475,0.089,47.535,3.934,39,58.2,0.083,6,2019


In [24]:
selecao_2 = postos_rj['PREÇO MÉDIO REVENDA'] > 2
selecao_2
postos_rj_maior_que_2 = postos_rj[selecao_2]
postos_rj_maior_que_2

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
2501,2501,2006-02-26,2006-03-04,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,881,R$/l,2.028,0.148,...,2.550,0.222,0.073,1.806,0.11,1.31,2.1358,0.061,2,2006
2528,2528,2006-03-05,2006-03-11,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,889,R$/l,2.125,0.149,...,2.550,0.286,0.070,1.839,0.117,1.438,2.2801,0.064,3,2006
2555,2555,2006-03-12,2006-03-18,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,902,R$/l,2.163,0.138,...,2.599,0.268,0.064,1.895,0.134,1.43,2.3454,0.071,3,2006
2582,2582,2006-03-19,2006-03-25,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,898,R$/l,2.166,0.146,...,2.568,0.231,0.067,1.935,0.14,1.438,2.2925,0.072,3,2006
2609,2609,2006-03-26,2006-04-01,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,890,R$/l,2.172,0.143,...,2.550,0.209,0.066,1.963,0.133,1.438,2.2513,0.068,3,2006
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106718,106718,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL,212,R$/l,3.569,0.166,...,4.059,0.467,0.047,3.102,0.119,2.886,3.5162,0.038,6,2019
106745,106745,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL S10,335,R$/l,3.697,0.187,...,4.389,0.5,0.051,3.197,0.127,2.9772,3.5388,0.04,6,2019
106772,106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,...,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019
106799,106799,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,...,79.000,17.475,0.089,47.535,3.934,39,58.2,0.083,6,2019


#### **Selecionando registros de postos de São Paulo ou do Rio de Janeiro com Gasolina Comum acima de 2 reais**

Podemos fazer a solução do "jeito mais lento", percorrendo o DataFrame inteiro _múltiplas vezes_:

In [25]:
selecao_1 = (data['ESTADO'] == 'SAO PAULO') | (data['ESTADO'] == 'RIO DE JANEIRO')

selecao_2 = (data['PRODUTO'] == 'GASOLINA COMUM')

selecao_3 = (data['PREÇO MÉDIO REVENDA'] > 2)

selecao_final = selecao_1 & selecao_2 & selecao_3

In [26]:
selecao_final

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821    False
106822    False
Length: 106823, dtype: bool

In [29]:
filtrado = data[selecao_final]
filtrado

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
12086,12086,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1071,R$/l,2.045,0.109,...,2.599,0.254,0.053,1.791,0.047,1.6363,1.9594,0.026,5,2004
12113,12113,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.040,0.113,...,2.599,0.252,0.055,1.788,0.049,1.5943,1.99651,0.027,5,2004
12140,12140,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.042,0.108,...,2.599,0.252,0.053,1.79,0.046,1.63596,2.2137,0.026,5,2004
12167,12167,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.053,0.111,...,2.599,0.251,0.054,1.802,0.055,1.64,2.21425,0.031,5,2004
12194,12194,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.063,0.107,...,2.599,0.247,0.052,1.816,0.054,1.64,2.32425,0.03,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106479,106479,2019-06-09,2019-06-15,SUDESTE,SAO PAULO,GASOLINA COMUM,1643,R$/l,4.210,0.177,...,4.992,0.425,0.042,3.785,0.096,3.52,4.1007,0.025,6,2019
106623,106623,2019-06-16,2019-06-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,418,R$/l,4.927,0.160,...,5.859,0.544,0.032,4.383,0.1,4.1972,4.6239,0.023,6,2019
106629,106629,2019-06-16,2019-06-22,SUDESTE,SAO PAULO,GASOLINA COMUM,1635,R$/l,4.168,0.177,...,5.199,0.443,0.042,3.725,0.096,3.502,4.0892,0.026,6,2019
106772,106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,...,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019


<br/>

Alternativamente:

In [31]:
selecao_1 = (data['ESTADO'] == 'SAO PAULO') |(data['ESTADO'] == 'RIO DE JANEIRO')
postos_sp_rj = data[selecao_1]
postos_sp_rj

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
22,22,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,952,R$/l,1.098,0.154,...,1.890,0.312,0.140,0.786,0.173,0.326,1.263,0.22,5,2004
23,23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,...,1.150,0.198,0.111,0.57,0.056,0.4271,1.4123,0.098,5,2004
49,49,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,948,R$/l,1.092,0.157,...,1.499,0.284,0.144,0.808,0.175,0.3257,1.2921,0.217,5,2004
50,50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,...,1.150,0.19,0.108,0.576,0.05,0.43204,0.9724,0.087,5,2004
76,76,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,973,R$/l,1.103,0.140,...,1.589,0.281,0.127,0.822,0.166,0.38909,1.1859,0.202,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106778,106778,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.142,0.183,...,4.999,0.429,0.044,3.713,0.097,3.52,4.0892,0.026,6,2019
106799,106799,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,...,79.000,17.475,0.089,47.535,3.934,39,58.2,0.083,6,2019
106805,106805,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GLP,1017,R$/13Kg,66.893,6.100,...,89.900,17.679,0.091,49.214,5.071,40.19,72,0.103,6,2019
106817,106817,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GNV,124,R$/m3,3.111,0.260,...,3.799,0.707,0.084,2.404,0.174,2.126,2.7909,0.072,6,2019


In [32]:
selecao_2 =(postos_sp_rj['PRODUTO'] == 'GASOLINA COMUM')
postos_sp_rj_gasolina = postos_sp_rj[selecao_2]
postos_sp_rj_gasolina

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
12086,12086,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1071,R$/l,2.045,0.109,...,2.599,0.254,0.053,1.791,0.047,1.6363,1.9594,0.026,5,2004
12087,12087,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,GASOLINA COMUM,4107,R$/l,1.891,0.101,...,2.399,0.235,0.053,1.656,0.064,1.38,1.944,0.039,5,2004
12113,12113,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.040,0.113,...,2.599,0.252,0.055,1.788,0.049,1.5943,1.99651,0.027,5,2004
12114,12114,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,GASOLINA COMUM,4133,R$/l,1.888,0.101,...,2.220,0.233,0.053,1.655,0.063,1.38,1.9319,0.038,5,2004
12140,12140,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.042,0.108,...,2.599,0.252,0.053,1.79,0.046,1.63596,2.2137,0.026,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106479,106479,2019-06-09,2019-06-15,SUDESTE,SAO PAULO,GASOLINA COMUM,1643,R$/l,4.210,0.177,...,4.992,0.425,0.042,3.785,0.096,3.52,4.1007,0.025,6,2019
106623,106623,2019-06-16,2019-06-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,418,R$/l,4.927,0.160,...,5.859,0.544,0.032,4.383,0.1,4.1972,4.6239,0.023,6,2019
106629,106629,2019-06-16,2019-06-22,SUDESTE,SAO PAULO,GASOLINA COMUM,1635,R$/l,4.168,0.177,...,5.199,0.443,0.042,3.725,0.096,3.502,4.0892,0.026,6,2019
106772,106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,...,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019


In [33]:
selecao_3 = (postos_sp_rj_gasolina['PREÇO MÉDIO REVENDA'] > 2)
postos_sp_rj_gasolina_maior_que_2 = postos_sp_rj_gasolina[selecao_3]
postos_sp_rj_gasolina_maior_que_2

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
12086,12086,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1071,R$/l,2.045,0.109,...,2.599,0.254,0.053,1.791,0.047,1.6363,1.9594,0.026,5,2004
12113,12113,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.040,0.113,...,2.599,0.252,0.055,1.788,0.049,1.5943,1.99651,0.027,5,2004
12140,12140,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.042,0.108,...,2.599,0.252,0.053,1.79,0.046,1.63596,2.2137,0.026,5,2004
12167,12167,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.053,0.111,...,2.599,0.251,0.054,1.802,0.055,1.64,2.21425,0.031,5,2004
12194,12194,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.063,0.107,...,2.599,0.247,0.052,1.816,0.054,1.64,2.32425,0.03,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106479,106479,2019-06-09,2019-06-15,SUDESTE,SAO PAULO,GASOLINA COMUM,1643,R$/l,4.210,0.177,...,4.992,0.425,0.042,3.785,0.096,3.52,4.1007,0.025,6,2019
106623,106623,2019-06-16,2019-06-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,418,R$/l,4.927,0.160,...,5.859,0.544,0.032,4.383,0.1,4.1972,4.6239,0.023,6,2019
106629,106629,2019-06-16,2019-06-22,SUDESTE,SAO PAULO,GASOLINA COMUM,1635,R$/l,4.168,0.177,...,5.199,0.443,0.042,3.725,0.096,3.502,4.0892,0.026,6,2019
106772,106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,...,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019


#### **Selecionando registros dos anos de 2008, 2010 e 2012**

In [34]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


**ALTERNATIVA 1**

In [35]:
selecao = (data['ANO'] == 2008) | (data['ANO'] == 2010) | (data['ANO'] == 2012)
data[selecao]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
5098,5098,2008-01-06,2008-01-12,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,80,R$/l,1.806,0.082,...,1.950,0.29,0.045,1.516,0.061,1.3892,1.6157,0.04,1,2008
5099,5099,2008-01-06,2008-01-12,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,255,R$/l,1.616,0.100,...,1.899,0.293,0.062,1.323,0.05,1.2242,1.6173,0.038,1,2008
5100,5100,2008-01-06,2008-01-12,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,142,R$/l,1.581,0.095,...,1.850,0.278,0.060,1.303,0.073,1.14,1.45,0.056,1,2008
5101,5101,2008-01-06,2008-01-12,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,133,R$/l,1.831,0.046,...,1.910,0.382,0.025,1.449,0.044,1.3247,1.5514,0.03,1,2008
5102,5102,2008-01-06,2008-01-12,NORDESTE,ALAGOAS,ETANOL HIDRATADO,97,R$/l,1.699,0.098,...,1.999,0.199,0.058,1.5,0.062,1.39,1.7689,0.041,1,2008
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55754,55754,2012-12-30,2013-01-05,NORDESTE,RIO GRANDE DO NORTE,GNV,17,R$/m3,1.891,0.015,...,1.900,0.466,0.008,1.425,0.098,1.2657,1.4789,0.069,12,2012
55755,55755,2012-12-30,2013-01-05,SUL,RIO GRANDE DO SUL,GNV,34,R$/m3,1.980,0.040,...,2.140,0.566,0.020,1.414,0.028,1.3997,1.4608,0.02,12,2012
55756,55756,2012-12-30,2013-01-05,SUL,SANTA CATARINA,GNV,41,R$/m3,2.003,0.034,...,2.099,-,0.017,-,-,-,-,-,12,2012
55757,55757,2012-12-30,2013-01-05,SUDESTE,SAO PAULO,GNV,82,R$/m3,1.598,0.199,...,2.599,0.397,0.125,1.201,0.182,0.8354,1.535,0.152,12,2012


**ALTERNATIVA 2**

In [36]:
lista_de_anos = [2008,2010,2012]
selecao = data['ANO'].isin(lista_de_anos)
data[selecao]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
5098,5098,2008-01-06,2008-01-12,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,80,R$/l,1.806,0.082,...,1.950,0.29,0.045,1.516,0.061,1.3892,1.6157,0.04,1,2008
5099,5099,2008-01-06,2008-01-12,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,255,R$/l,1.616,0.100,...,1.899,0.293,0.062,1.323,0.05,1.2242,1.6173,0.038,1,2008
5100,5100,2008-01-06,2008-01-12,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,142,R$/l,1.581,0.095,...,1.850,0.278,0.060,1.303,0.073,1.14,1.45,0.056,1,2008
5101,5101,2008-01-06,2008-01-12,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,133,R$/l,1.831,0.046,...,1.910,0.382,0.025,1.449,0.044,1.3247,1.5514,0.03,1,2008
5102,5102,2008-01-06,2008-01-12,NORDESTE,ALAGOAS,ETANOL HIDRATADO,97,R$/l,1.699,0.098,...,1.999,0.199,0.058,1.5,0.062,1.39,1.7689,0.041,1,2008
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55754,55754,2012-12-30,2013-01-05,NORDESTE,RIO GRANDE DO NORTE,GNV,17,R$/m3,1.891,0.015,...,1.900,0.466,0.008,1.425,0.098,1.2657,1.4789,0.069,12,2012
55755,55755,2012-12-30,2013-01-05,SUL,RIO GRANDE DO SUL,GNV,34,R$/m3,1.980,0.040,...,2.140,0.566,0.020,1.414,0.028,1.3997,1.4608,0.02,12,2012
55756,55756,2012-12-30,2013-01-05,SUL,SANTA CATARINA,GNV,41,R$/m3,2.003,0.034,...,2.099,-,0.017,-,-,-,-,-,12,2012
55757,55757,2012-12-30,2013-01-05,SUDESTE,SAO PAULO,GNV,82,R$/m3,1.598,0.199,...,2.599,0.397,0.125,1.201,0.182,0.8354,1.535,0.152,12,2012


**ALTERNATIVA 3**

In [37]:
data.query('ANO in @lista_de_anos')

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
5098,5098,2008-01-06,2008-01-12,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,80,R$/l,1.806,0.082,...,1.950,0.29,0.045,1.516,0.061,1.3892,1.6157,0.04,1,2008
5099,5099,2008-01-06,2008-01-12,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,255,R$/l,1.616,0.100,...,1.899,0.293,0.062,1.323,0.05,1.2242,1.6173,0.038,1,2008
5100,5100,2008-01-06,2008-01-12,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,142,R$/l,1.581,0.095,...,1.850,0.278,0.060,1.303,0.073,1.14,1.45,0.056,1,2008
5101,5101,2008-01-06,2008-01-12,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,133,R$/l,1.831,0.046,...,1.910,0.382,0.025,1.449,0.044,1.3247,1.5514,0.03,1,2008
5102,5102,2008-01-06,2008-01-12,NORDESTE,ALAGOAS,ETANOL HIDRATADO,97,R$/l,1.699,0.098,...,1.999,0.199,0.058,1.5,0.062,1.39,1.7689,0.041,1,2008
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55754,55754,2012-12-30,2013-01-05,NORDESTE,RIO GRANDE DO NORTE,GNV,17,R$/m3,1.891,0.015,...,1.900,0.466,0.008,1.425,0.098,1.2657,1.4789,0.069,12,2012
55755,55755,2012-12-30,2013-01-05,SUL,RIO GRANDE DO SUL,GNV,34,R$/m3,1.980,0.040,...,2.140,0.566,0.020,1.414,0.028,1.3997,1.4608,0.02,12,2012
55756,55756,2012-12-30,2013-01-05,SUL,SANTA CATARINA,GNV,41,R$/m3,2.003,0.034,...,2.099,-,0.017,-,-,-,-,-,12,2012
55757,55757,2012-12-30,2013-01-05,SUDESTE,SAO PAULO,GNV,82,R$/m3,1.598,0.199,...,2.599,0.397,0.125,1.201,0.182,0.8354,1.535,0.152,12,2012


### **Iterando com DataFrames**

#### For-each `DataFrame.iterrows()` (LENTO ==> apenas indicado para iterar pequenos conjunto de dados)

In [38]:
for index, row in data.head(10).iterrows():
    print(f'indice {index} ==> {row["ESTADO"]}')

indice 0 ==> DISTRITO FEDERAL
indice 1 ==> GOIAS
indice 2 ==> MATO GROSSO
indice 3 ==> MATO GROSSO DO SUL
indice 4 ==> ALAGOAS
indice 5 ==> BAHIA
indice 6 ==> CEARA
indice 7 ==> MARANHAO
indice 8 ==> PARAIBA
indice 9 ==> PERNAMBUCO


<h2>2. Preparação dos dados</h2>
<hr/>

### 2.1 Removendo amostras com valores vazios (null / nan) no dataset

In [39]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 21 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Unnamed: 0                     106823 non-null  int64  
 1   DATA INICIAL                   106823 non-null  object 
 2   DATA FINAL                     106823 non-null  object 
 3   REGIÃO                         106823 non-null  object 
 4   ESTADO                         106823 non-null  object 
 5   PRODUTO                        106823 non-null  object 
 6   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 7   UNIDADE DE MEDIDA              106823 non-null  object 
 8   PREÇO MÉDIO REVENDA            106823 non-null  float64
 9   DESVIO PADRÃO REVENDA          106823 non-null  float64
 10  PREÇO MÍNIMO REVENDA           106823 non-null  float64
 11  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 12  MARGEM MÉDIA REVENDA          

De um total de 106823 observações, **não há valores null** / nan para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: P. ex., "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente algumas amostras têm um string ao invés de um número para tais atributos. <br/>

Os atributos *"DATA INICIAL"* e *"DATA FINAL"* deveriam ser do tipo `datetime`.

Em outros casos, alguns **atributos categóricos** são ```objects```, mas poderiam ter o tipo ```category```, que é um tipo especial do pandas. <br/>
Este tipo é necessário para se utilizar algumas funções específicas do pandas. <br/>
**Não** converteremos para este tipo por ora.

In [5]:
data_pre = data.copy()

#### **Datas**
Como os atributos de data do datset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

In [6]:
data_pre ['DATA INICIAL'] = pd.to_datetime(data_pre['DATA INICIAL'])
data_pre ['DATA FINAL'] = pd.to_datetime(data_pre['DATA FINAL'])

In [7]:
data_pre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 20 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   106823 non-null  datetime64[ns]
 1   DATA FINAL                     106823 non-null  datetime64[ns]
 2   REGIÃO                         106823 non-null  object        
 3   ESTADO                         106823 non-null  object        
 4   PRODUTO                        106823 non-null  object        
 5   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64         
 6   UNIDADE DE MEDIDA              106823 non-null  object        
 7   PREÇO MÉDIO REVENDA            106823 non-null  float64       
 8   DESVIO PADRÃO REVENDA          106823 non-null  float64       
 9   PREÇO MÍNIMO REVENDA           106823 non-null  float64       
 10  PREÇO MÁXIMO REVENDA           106823 non-null  float64       
 11  

#### **Dados Numéricos**

In [11]:
#convertendo atributos para numeric
for atributo in ['MARGEM MÉDIA REVENDA', 'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO', 'PREÇO MÁXIMO DISTRIBUIÇÃO', 'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA','PREÇO MÍNIMO REVENDA','PREÇO MÁXIMO REVENDA', 'DESVIO PADRÃO DISTRIBUIÇÃO','COEF DE VARIAÇÃO DISTRIBUIÇÃO']:
        data_pre[atributo] = pd.to_numeric(data_pre[atributo], errors='coerce')

In [12]:
data_pre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 20 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   106823 non-null  datetime64[ns]
 1   DATA FINAL                     106823 non-null  datetime64[ns]
 2   REGIÃO                         106823 non-null  object        
 3   ESTADO                         106823 non-null  object        
 4   PRODUTO                        106823 non-null  object        
 5   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64         
 6   UNIDADE DE MEDIDA              106823 non-null  object        
 7   PREÇO MÉDIO REVENDA            106823 non-null  float64       
 8   DESVIO PADRÃO REVENDA          106823 non-null  float64       
 9   PREÇO MÍNIMO REVENDA           106823 non-null  float64       
 10  PREÇO MÁXIMO REVENDA           106823 non-null  float64       
 11  

<br/>

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

In [13]:
mask = data_pre['PREÇO MÉDIO DISTRIBUIÇÃO'].isnull()

In [14]:
data_pre[mask]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
1903,2005-09-25,2005-10-01,NORTE,PARA,ETANOL HIDRATADO,2,R$/l,1.694,0.283,1.690,2.090,,0.167,,,,,,9,2005
1958,2005-10-09,2005-10-15,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.000,0.000,2.000,2.000,,0.000,,,,,,10,2005
2012,2005-10-23,2005-10-29,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.277,0.023,2.250,2.290,,0.010,,,,,,10,2005
2497,2006-02-26,2006-03-04,NORTE,RORAIMA,ETANOL HIDRATADO,11,R$/l,2.182,0.040,2.100,2.200,,0.018,,,,,,2,2006
3199,2006-08-27,2006-09-02,NORTE,RORAIMA,ETANOL HIDRATADO,22,R$/l,2.285,0.068,1.980,2.300,,0.030,,,,,,8,2006
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106664,2019-06-16,2019-06-22,SUDESTE,MINAS GERAIS,GNV,5,R$/m3,3.445,0.147,3.347,3.699,,0.043,,,,,,6,2019
106666,2019-06-16,2019-06-22,SUL,PARANA,GNV,7,R$/m3,3.132,0.295,3.049,3.890,,0.094,,,,,,6,2019
106811,2019-06-23,2019-06-29,SUDESTE,ESPIRITO SANTO,GNV,4,R$/m3,3.299,0.005,3.290,3.299,,0.002,,,,,,6,2019
106813,2019-06-23,2019-06-29,SUDESTE,MINAS GERAIS,GNV,6,R$/m3,3.548,0.100,3.495,3.699,,0.028,,,,,,6,2019


Várias amostras possuem a _string '-'_ em algumas colunas ao invés de um número de fato. Ou seja, não há aferições destes atributos para estas amostras. <br/>

<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

In [16]:
data_pre_fill = data_pre.fillna(0)
data_pre_fill

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.110,0.4201,0.96660,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05000,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.970,0.095,0.5614,1.16100,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.830,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.240,0.066,0.941,0.077,0.7441,1.03170,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,3.499,3.690,0.818,0.018,2.756,0.000,2.7560,2.75600,0.000,6,2019
106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,3.230,3.789,0.950,0.038,2.451,0.402,1.9842,2.86610,0.164,6,2019
106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,2.699,3.499,0.914,0.065,1.998,0.000,1.9981,1.99810,0.000,6,2019
106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,2.699,3.490,0.646,0.076,2.374,0.165,2.0179,2.50930,0.070,6,2019


In [17]:
data_pre_fill[mask]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
1903,2005-09-25,2005-10-01,NORTE,PARA,ETANOL HIDRATADO,2,R$/l,1.694,0.283,1.690,2.090,0.0,0.167,0.0,0.0,0.0,0.0,0.0,9,2005
1958,2005-10-09,2005-10-15,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.000,0.000,2.000,2.000,0.0,0.000,0.0,0.0,0.0,0.0,0.0,10,2005
2012,2005-10-23,2005-10-29,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.277,0.023,2.250,2.290,0.0,0.010,0.0,0.0,0.0,0.0,0.0,10,2005
2497,2006-02-26,2006-03-04,NORTE,RORAIMA,ETANOL HIDRATADO,11,R$/l,2.182,0.040,2.100,2.200,0.0,0.018,0.0,0.0,0.0,0.0,0.0,2,2006
3199,2006-08-27,2006-09-02,NORTE,RORAIMA,ETANOL HIDRATADO,22,R$/l,2.285,0.068,1.980,2.300,0.0,0.030,0.0,0.0,0.0,0.0,0.0,8,2006
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106664,2019-06-16,2019-06-22,SUDESTE,MINAS GERAIS,GNV,5,R$/m3,3.445,0.147,3.347,3.699,0.0,0.043,0.0,0.0,0.0,0.0,0.0,6,2019
106666,2019-06-16,2019-06-22,SUL,PARANA,GNV,7,R$/m3,3.132,0.295,3.049,3.890,0.0,0.094,0.0,0.0,0.0,0.0,0.0,6,2019
106811,2019-06-23,2019-06-29,SUDESTE,ESPIRITO SANTO,GNV,4,R$/m3,3.299,0.005,3.290,3.299,0.0,0.002,0.0,0.0,0.0,0.0,0.0,6,2019
106813,2019-06-23,2019-06-29,SUDESTE,MINAS GERAIS,GNV,6,R$/m3,3.548,0.100,3.495,3.699,0.0,0.028,0.0,0.0,0.0,0.0,0.0,6,2019


<br/>

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO DISTRIBUIÇÃO'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

In [18]:
data_pre.dropna(inplace=True)

In [19]:
data_pre.info()

<class 'pandas.core.frame.DataFrame'>
Index: 103392 entries, 0 to 106822
Data columns (total 20 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   103392 non-null  datetime64[ns]
 1   DATA FINAL                     103392 non-null  datetime64[ns]
 2   REGIÃO                         103392 non-null  object        
 3   ESTADO                         103392 non-null  object        
 4   PRODUTO                        103392 non-null  object        
 5   NÚMERO DE POSTOS PESQUISADOS   103392 non-null  int64         
 6   UNIDADE DE MEDIDA              103392 non-null  object        
 7   PREÇO MÉDIO REVENDA            103392 non-null  float64       
 8   DESVIO PADRÃO REVENDA          103392 non-null  float64       
 9   PREÇO MÍNIMO REVENDA           103392 non-null  float64       
 10  PREÇO MÁXIMO REVENDA           103392 non-null  float64       
 11  MARGE

Nosso data frame agora, após essa _limpeza_, ficou mais enxuto, contentdo 103392 registros frente aos 106823 registros originais. <br/>

Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias.

#### **Salvando o Dataset Preprocessado**

In [22]:
data_pre.to_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado_final.csv', index=False)

<h2>3. Estatísticas Descritivas</h2>
<hr/>

O Pandas fornecem algumas funções/métodos ue computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

In [23]:
data_final = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado_final.csv')

In [27]:
data_final.describe()

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
count,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0
mean,240.511935,10.784472,0.652589,9.334931,12.458686,2.225151,0.045749,8.559322,0.559441,7.414814,9.805621,0.04664,6.485067,2011.737001
std,408.039174,17.685852,1.346422,15.024383,20.80119,4.375085,0.024488,13.603686,1.256914,11.681366,15.933999,0.042114,3.442155,4.410491
min,1.0,0.766,0.0,0.59,0.999,0.001,0.0,0.506,0.0,0.3257,0.5992,0.0,1.0,2004.0
25%,47.0,2.073,0.073,1.9,2.33,0.282,0.03,1.795,0.047,1.6744,1.9456,0.021,4.0,2008.0
50%,108.0,2.723,0.115,2.509,3.0,0.383,0.042,2.335,0.077,2.22,2.50705,0.031,6.0,2012.0
75%,251.0,3.745,0.19,3.49,4.15,0.56,0.058,3.307,0.151,3.1428,3.52,0.061,9.0,2016.0
max,4167.0,99.357,10.748,90.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.78,12.0,2019.0


In [28]:
data_final['PREÇO MÉDIO REVENDA'].describe()

count    103392.000000
mean         10.784472
std          17.685852
min           0.766000
25%           2.073000
50%           2.723000
75%           3.745000
max          99.357000
Name: PREÇO MÉDIO REVENDA, dtype: float64

<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

In [26]:
data_final.describe()['PREÇO MÉDIO REVENDA']

count    103392.000000
mean         10.784472
std          17.685852
min           0.766000
25%           2.073000
50%           2.723000
75%           3.745000
max          99.357000
Name: PREÇO MÉDIO REVENDA, dtype: float64

In [31]:
stats = data_final.describe()

In [32]:
stats[['PREÇO MÉDIO REVENDA','PREÇO MÁXIMO REVENDA','PREÇO MÉDIO DISTRIBUIÇÃO']]

Unnamed: 0,PREÇO MÉDIO REVENDA,PREÇO MÁXIMO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO
count,103392.0,103392.0,103392.0
mean,10.784472,12.458686,8.559322
std,17.685852,20.80119,13.603686
min,0.766,0.999,0.506
25%,2.073,2.33,1.795
50%,2.723,3.0,2.335
75%,3.745,4.15,3.307
max,99.357,120.0,83.137


**Acessando apenas algumas estatísticas**

In [33]:
stats

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
count,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0
mean,240.511935,10.784472,0.652589,9.334931,12.458686,2.225151,0.045749,8.559322,0.559441,7.414814,9.805621,0.04664,6.485067,2011.737001
std,408.039174,17.685852,1.346422,15.024383,20.80119,4.375085,0.024488,13.603686,1.256914,11.681366,15.933999,0.042114,3.442155,4.410491
min,1.0,0.766,0.0,0.59,0.999,0.001,0.0,0.506,0.0,0.3257,0.5992,0.0,1.0,2004.0
25%,47.0,2.073,0.073,1.9,2.33,0.282,0.03,1.795,0.047,1.6744,1.9456,0.021,4.0,2008.0
50%,108.0,2.723,0.115,2.509,3.0,0.383,0.042,2.335,0.077,2.22,2.50705,0.031,6.0,2012.0
75%,251.0,3.745,0.19,3.49,4.15,0.56,0.058,3.307,0.151,3.1428,3.52,0.061,9.0,2016.0
max,4167.0,99.357,10.748,90.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.78,12.0,2019.0


In [35]:
stats.loc[['min', 'max', 'mean']]

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
min,1.0,0.766,0.0,0.59,0.999,0.001,0.0,0.506,0.0,0.3257,0.5992,0.0,1.0,2004.0
max,4167.0,99.357,10.748,90.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.78,12.0,2019.0
mean,240.511935,10.784472,0.652589,9.334931,12.458686,2.225151,0.045749,8.559322,0.559441,7.414814,9.805621,0.04664,6.485067,2011.737001


In [37]:
stats.loc[['min', 'max', 'mean'], 'PREÇO MÉDIO REVENDA']

min      0.766000
max     99.357000
mean    10.784472
Name: PREÇO MÉDIO REVENDA, dtype: float64

<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

In [38]:
data_final.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


#### Qual é o menor preço mínimo de revenda?

In [39]:
data_final['PREÇO MÍNIMO REVENDA'].min()

0.59

#### Qual é a média e desvio padrão dos preços mínimos de revenda?

In [41]:
mean = data_final['PREÇO MÍNIMO REVENDA'].mean()
std = data_final['PREÇO MÍNIMO REVENDA'].std()

print(f'Média dos preços minimos de revenda {mean:.2f} +- {std:.2f}')

Média dos preços minimos de revenda 9.33 +- 15.02


#### Quais são os estados considerados?

In [42]:
data_final['ESTADO'].unique()

array(['DISTRITO FEDERAL', 'GOIAS', 'MATO GROSSO', 'MATO GROSSO DO SUL',
       'ALAGOAS', 'BAHIA', 'CEARA', 'MARANHAO', 'PARAIBA', 'PERNAMBUCO',
       'PIAUI', 'RIO GRANDE DO NORTE', 'SERGIPE', 'ACRE', 'AMAPA',
       'AMAZONAS', 'PARA', 'RONDONIA', 'RORAIMA', 'TOCANTINS',
       'ESPIRITO SANTO', 'MINAS GERAIS', 'RIO DE JANEIRO', 'SAO PAULO',
       'PARANA', 'RIO GRANDE DO SUL', 'SANTA CATARINA'], dtype=object)

In [43]:
sorted(data_final['ESTADO'].unique())

['ACRE',
 'ALAGOAS',
 'AMAPA',
 'AMAZONAS',
 'BAHIA',
 'CEARA',
 'DISTRITO FEDERAL',
 'ESPIRITO SANTO',
 'GOIAS',
 'MARANHAO',
 'MATO GROSSO',
 'MATO GROSSO DO SUL',
 'MINAS GERAIS',
 'PARA',
 'PARAIBA',
 'PARANA',
 'PERNAMBUCO',
 'PIAUI',
 'RIO DE JANEIRO',
 'RIO GRANDE DO NORTE',
 'RIO GRANDE DO SUL',
 'RONDONIA',
 'RORAIMA',
 'SANTA CATARINA',
 'SAO PAULO',
 'SERGIPE',
 'TOCANTINS']

#### Quantos registros (aferições) cada estado possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).

In [44]:
data_final['ESTADO'].value_counts()

ESTADO
BAHIA                  4263
RIO DE JANEIRO         4262
SAO PAULO              4261
RIO GRANDE DO SUL      4249
PARAIBA                4240
PERNAMBUCO             4236
SERGIPE                4202
SANTA CATARINA         4164
MINAS GERAIS           4142
ESPIRITO SANTO         4079
MATO GROSSO DO SUL     4076
ALAGOAS                4020
RIO GRANDE DO NORTE    3999
CEARA                  3964
PARANA                 3902
AMAZONAS               3713
MATO GROSSO            3703
PARA                   3477
MARANHAO               3470
ACRE                   3463
RORAIMA                3457
TOCANTINS              3453
GOIAS                  3449
RONDONIA               3441
PIAUI                  3394
DISTRITO FEDERAL       3317
AMAPA                  2996
Name: count, dtype: int64

In [45]:
data_final['ESTADO'].value_counts().to_frame()

Unnamed: 0_level_0,count
ESTADO,Unnamed: 1_level_1
BAHIA,4263
RIO DE JANEIRO,4262
SAO PAULO,4261
RIO GRANDE DO SUL,4249
PARAIBA,4240
PERNAMBUCO,4236
SERGIPE,4202
SANTA CATARINA,4164
MINAS GERAIS,4142
ESPIRITO SANTO,4079


<h2>4. Executando funções para cada item de um DataFrame ou Series</h2>
<hr/>

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".


<img src='./imagens/apply_map_applymap.png' width=300/>


Fonte: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff

In [56]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4],
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]},
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])

In [57]:
df

Unnamed: 0,A,B,C
Linha 1,1,10,100
Linha 2,2,20,200
Linha 3,3,30,300
Linha 4,4,40,400


`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='./imagens/pandas_axis.jpg' width=500/>

Fonte: https://www.allthesnippets.com/browse/pandas/df_axis.html

In [58]:
def soma(series):
    return series.sum()

In [59]:
df['SOMA(A,B,C)'] = df.apply(soma, axis=1)
df

Unnamed: 0,A,B,C,"SOMA(A,B,C)"
Linha 1,1,10,100,111
Linha 2,2,20,200,222
Linha 3,3,30,300,333
Linha 4,4,40,400,444


<img src='./imagens/apply_axis_1.png' width=250/>

In [60]:
df.loc['Linha 5'] = df.apply(soma, axis=0)
df

Unnamed: 0,A,B,C,"SOMA(A,B,C)"
Linha 1,1,10,100,111
Linha 2,2,20,200,222
Linha 3,3,30,300,333
Linha 4,4,40,400,444
Linha 5,10,100,1000,1110


<img src='./imagens/apply_axis_0.png' width=250/>

##### Usando `lambda` functions

In [68]:
df['MEDIA(A,B,C)'] = df[['A','B','C']].apply(lambda series: series.mean(), axis=1)
df

Unnamed: 0,A,B,C,"SOMA(A,B,C)","MEDIA(A,B,C)",C *2
Linha 1,1,10,100,111,37.0,200
Linha 2,2,20,200,222,74.0,400
Linha 3,3,30,300,333,111.0,600
Linha 4,4,40,400,444,148.0,800
Linha 5,10,100,1000,1110,370.0,2000


<img src='./imagens/apply_axis_1_mean.png' width=350/>

In [69]:
df['C *2'] = df['C'].apply(lambda x: x*2)
df

Unnamed: 0,A,B,C,"SOMA(A,B,C)","MEDIA(A,B,C)",C *2
Linha 1,1,10,100,111,37.0,200
Linha 2,2,20,200,222,74.0,400
Linha 3,3,30,300,333,111.0,600
Linha 4,4,40,400,444,148.0,800
Linha 5,10,100,1000,1110,370.0,2000


<br/>

`applymap()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de um DataFrame.

In [70]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4],
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]},
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])
df

Unnamed: 0,A,B,C
Linha 1,1,10,100
Linha 2,2,20,200
Linha 3,3,30,300
Linha 4,4,40,400


In [73]:
#esse método está depreciado, não usar
df.applymap(lambda x: x**2)

  df.applymap(lambda x: x**2)


Unnamed: 0,A,B,C
Linha 1,1,100,10000
Linha 2,4,400,40000
Linha 3,9,900,90000
Linha 4,16,1600,160000


<br/>

`map()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de uma _Series_.

In [74]:
nomes= pd.Series(['João','Maria','Alice','Pedro'])
nomes

0     João
1    Maria
2    Alice
3    Pedro
dtype: object

In [75]:
nomes.map(lambda x: x.upper()) #Retorna uma nova series

0     JOÃO
1    MARIA
2    ALICE
3    PEDRO
dtype: object

In [78]:
nomes

0     João
1    Maria
2    Alice
3    Pedro
dtype: object

In [77]:
nomes.str.upper() #Faz a alteração da Series

0     JOÃO
1    MARIA
2    ALICE
3    PEDRO
dtype: object

<h2>5. Agrupamento</h2>
<hr/>

`groupby`: Usado para criar **grupo de elementos** (e.x., baseado nos valores de um atributo). <br/>
**Funções** podem então ser aplicadas para os _elementos de cada grupo_, de modo que os **resultados de cada grupo são combinados**.

In [80]:
grupos = data_final.groupby('REGIÃO')

In [81]:
grupos.groups

{'CENTRO OESTE': [0, 1, 2, 3, 27, 28, 29, 30, 54, 55, 56, 57, 81, 82, 83, 84, 108, 109, 110, 111, 135, 136, 137, 138, 162, 163, 164, 165, 189, 190, 191, 192, 216, 217, 218, 219, 243, 244, 245, 246, 270, 271, 272, 273, 297, 298, 299, 300, 324, 325, 326, 327, 351, 352, 353, 354, 378, 379, 380, 381, 405, 406, 407, 408, 432, 433, 434, 435, 459, 460, 461, 462, 486, 487, 488, 489, 513, 514, 515, 516, 540, 541, 542, 543, 567, 568, 569, 570, 594, 595, 596, 597, 621, 622, 623, 624, 648, 649, 650, 651, ...], 'NORDESTE': [4, 5, 6, 7, 8, 9, 10, 11, 12, 31, 32, 33, 34, 35, 36, 37, 38, 39, 58, 59, 60, 61, 62, 63, 64, 65, 66, 85, 86, 87, 88, 89, 90, 91, 92, 93, 112, 113, 114, 115, 116, 117, 118, 119, 120, 139, 140, 141, 142, 143, 144, 145, 146, 147, 166, 167, 168, 169, 170, 171, 172, 173, 174, 193, 194, 195, 196, 197, 198, 199, 200, 201, 220, 221, 222, 223, 224, 225, 226, 227, 228, 247, 248, 249, 250, 251, 252, 253, 254, 255, 274, 275, 276, 277, 278, 279, 280, 281, 282, 301, ...], 'NORTE': [13, 14, 1

In [82]:
grupos.indices

{'CENTRO OESTE': array([     0,      1,      2, ..., 103363, 103364, 103383], dtype=int64),
 'NORDESTE': array([     4,      5,      6, ..., 103385, 103387, 103391], dtype=int64),
 'NORTE': array([    13,     14,     15, ..., 103374, 103375, 103379], dtype=int64),
 'SUDESTE': array([    20,     21,     22, ..., 103377, 103386, 103390], dtype=int64),
 'SUL': array([    24,     25,     26, ..., 103376, 103388, 103389], dtype=int64)}

In [84]:
grupos.get_group('CENTRO OESTE')

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.110,0.4201,0.96660,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05000,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.970,0.095,0.5614,1.16100,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.830,0.119,0.5991,1.22242,0.143,5,2004
27,2004-05-16,2004-05-22,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,144,R$/l,1.271,0.039,1.060,1.300,0.448,0.031,0.823,0.111,0.4094,1.19310,0.135,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
103359,2019-06-23,2019-06-29,CENTRO OESTE,DISTRITO FEDERAL,GLP,42,R$/13Kg,73.452,4.875,65.000,95.000,21.509,0.066,51.943,7.877,44.0000,62.82000,0.152,6,2019
103361,2019-06-23,2019-06-29,CENTRO OESTE,GOIAS,GLP,209,R$/13Kg,71.968,5.381,53.000,85.000,15.044,0.075,56.924,4.285,45.5700,61.60000,0.075,6,2019
103363,2019-06-23,2019-06-29,CENTRO OESTE,MATO GROSSO,GLP,95,R$/13Kg,96.691,6.835,73.000,115.000,19.789,0.071,76.902,8.846,61.1500,90.00000,0.115,6,2019
103364,2019-06-23,2019-06-29,CENTRO OESTE,MATO GROSSO DO SUL,GLP,115,R$/13Kg,72.297,8.054,59.990,99.000,16.707,0.111,55.590,5.109,47.0000,72.00000,0.092,6,2019


In [86]:
grupos.describe()

Unnamed: 0_level_0,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,PREÇO MÉDIO REVENDA,...,MÊS,MÊS,ANO,ANO,ANO,ANO,ANO,ANO,ANO,ANO
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
REGIÃO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
CENTRO OESTE,14545.0,144.898453,105.69934,1.0,80.0,128.0,192.0,766.0,14545.0,12.299706,...,9.0,12.0,14545.0,2011.773599,4.409036,2004.0,2008.0,2012.0,2016.0,2019.0
NORDESTE,35788.0,124.721834,113.110808,1.0,41.0,95.0,169.0,625.0,35788.0,9.558746,...,10.0,12.0,35788.0,2011.704454,4.418046,2004.0,2008.0,2012.0,2016.0,2019.0
NORTE,24000.0,67.835958,52.961342,1.0,31.0,53.0,95.0,383.0,24000.0,12.633086,...,9.0,12.0,24000.0,2011.812083,4.410914,2004.0,2008.0,2012.0,2016.0,2019.0
SUDESTE,16744.0,726.068024,787.588935,1.0,168.0,412.0,996.0,4167.0,16744.0,9.828218,...,9.0,12.0,16744.0,2011.707895,4.395436,2004.0,2008.0,2012.0,2016.0,2019.0
SUL,12315.0,366.266423,233.276285,1.0,188.0,368.0,563.0,1416.0,12315.0,10.254388,...,9.0,12.0,12315.0,2011.681608,4.408312,2004.0,2008.0,2012.0,2015.0,2019.0


In [92]:
grupos.max()

Unnamed: 0_level_0,DATA INICIAL,DATA FINAL,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
CENTRO OESTE,2019-06-23,2019-06-29,MATO GROSSO DO SUL,ÓLEO DIESEL S10,766,R$/m3,99.357,9.711,90.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.419,12,2019
NORDESTE,2019-06-23,2019-06-29,SERGIPE,ÓLEO DIESEL S10,625,R$/m3,79.63,10.748,75.0,90.0,31.819,0.228,59.411,13.435,55.35,89.9,0.608,12,2019
NORTE,2019-06-23,2019-06-29,TOCANTINS,ÓLEO DIESEL S10,383,R$/m3,87.27,10.675,85.0,110.0,27.989,0.168,72.428,12.428,72.39,88.0,0.368,12,2019
SUDESTE,2019-06-23,2019-06-29,SAO PAULO,ÓLEO DIESEL S10,4167,R$/m3,79.192,9.632,60.0,100.0,29.917,0.201,53.944,7.165,46.93,76.05,0.78,12,2019
SUL,2019-06-23,2019-06-29,SANTA CATARINA,ÓLEO DIESEL S10,1416,R$/m3,72.088,10.27,65.0,95.0,24.717,0.187,54.802,8.716,47.38,74.0,0.435,12,2019


<br/>

Também podemos ter agrupamentos por mais de um atributo.

In [94]:
grupos = data_final.groupby(['REGIÃO','PRODUTO'])

In [95]:
grupos.groups

{('CENTRO OESTE', 'ETANOL HIDRATADO'): [0, 1, 2, 3, 27, 28, 29, 30, 54, 55, 56, 57, 81, 82, 83, 84, 108, 109, 110, 111, 135, 136, 137, 138, 162, 163, 164, 165, 189, 190, 191, 192, 216, 217, 218, 219, 243, 244, 245, 246, 270, 271, 272, 273, 297, 298, 299, 300, 324, 325, 326, 327, 351, 352, 353, 354, 378, 379, 380, 381, 405, 406, 407, 408, 432, 433, 434, 435, 459, 460, 461, 462, 486, 487, 488, 489, 513, 514, 515, 516, 540, 541, 542, 543, 567, 568, 569, 570, 594, 595, 596, 597, 621, 622, 623, 624, 648, 649, 650, 651, ...], ('CENTRO OESTE', 'GASOLINA COMUM'): [11980, 11981, 11982, 11983, 12007, 12008, 12009, 12010, 12034, 12035, 12036, 12037, 12061, 12062, 12063, 12064, 12088, 12089, 12090, 12091, 12115, 12116, 12117, 12118, 12142, 12143, 12144, 12145, 12169, 12170, 12171, 12172, 12196, 12197, 12198, 12199, 12223, 12224, 12225, 12226, 12250, 12251, 12252, 12253, 12277, 12278, 12279, 12280, 12304, 12305, 12306, 12307, 12331, 12332, 12333, 12334, 12358, 12359, 12360, 12361, 12385, 12386, 123

In [97]:
grupos.min()

Unnamed: 0_level_0,Unnamed: 1_level_0,DATA INICIAL,DATA FINAL,ESTADO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
REGIÃO,PRODUTO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
CENTRO OESTE,ETANOL HIDRATADO,2004-05-09,2004-05-15,DISTRITO FEDERAL,4,R$/l,1.162,0.0,0.87,1.299,0.086,0.0,0.737,0.0,0.3879,0.9666,0.0,1,2004
CENTRO OESTE,GASOLINA COMUM,2004-05-09,2004-05-15,DISTRITO FEDERAL,6,R$/l,1.936,0.0,1.73,2.07,0.126,0.0,1.711,0.0,1.608,1.7427,0.0,1,2004
CENTRO OESTE,GLP,2004-05-09,2004-05-15,DISTRITO FEDERAL,2,R$/13Kg,28.791,0.345,24.9,33.0,3.161,0.01,23.537,0.0,14.3237,24.0,0.0,1,2004
CENTRO OESTE,GNV,2004-05-09,2004-05-15,DISTRITO FEDERAL,1,R$/m3,1.097,0.0,1.09,1.099,0.031,0.0,0.813,0.0,0.79,0.8359,0.0,1,2004
CENTRO OESTE,ÓLEO DIESEL,2004-05-09,2004-05-15,DISTRITO FEDERAL,6,R$/l,1.435,0.004,1.27,1.49,0.13,0.001,1.249,0.0,1.01,1.2817,0.0,1,2004
CENTRO OESTE,ÓLEO DIESEL S10,2013-01-06,2013-01-12,DISTRITO FEDERAL,5,R$/l,2.305,0.0,2.039,2.39,0.18,0.0,2.048,0.0,1.94,2.1006,0.0,1,2013
NORDESTE,ETANOL HIDRATADO,2004-05-09,2004-05-15,ALAGOAS,1,R$/l,1.181,0.0,0.989,1.4,0.039,0.0,0.767,0.0,0.47,0.7669,0.0,1,2004
NORDESTE,GASOLINA COMUM,2004-05-09,2004-05-15,ALAGOAS,3,R$/l,1.949,0.0,1.65,2.02,0.176,0.0,1.667,0.0,1.1111,1.7357,0.0,1,2004
NORDESTE,GLP,2004-05-09,2004-05-15,ALAGOAS,2,R$/13Kg,28.367,0.0,22.0,30.0,0.041,0.0,20.26,0.0,14.1029,20.26,0.0,1,2004
NORDESTE,GNV,2004-05-09,2004-05-15,ALAGOAS,1,R$/m3,0.975,0.0,0.79,0.999,0.12,0.0,0.586,0.0,0.3632,0.5992,0.0,1,2004


In [98]:
grupos['PREÇO MÉDIO REVENDA'].mean()

REGIÃO        PRODUTO         
CENTRO OESTE  ETANOL HIDRATADO     2.135670
              GASOLINA COMUM       3.077476
              GLP                 48.176747
              GNV                  1.856312
              ÓLEO DIESEL          2.481286
              ÓLEO DIESEL S10      3.294752
NORDESTE      ETANOL HIDRATADO     2.320266
              GASOLINA COMUM       3.001887
              GLP                 41.966090
              GNV                  1.881722
              ÓLEO DIESEL          2.346950
              ÓLEO DIESEL S10      3.041966
NORTE         ETANOL HIDRATADO     2.511624
              GASOLINA COMUM       3.149501
              GLP                 47.065572
              GNV                  2.084399
              ÓLEO DIESEL          2.571048
              ÓLEO DIESEL S10      3.316231
SUDESTE       ETANOL HIDRATADO     2.163621
              GASOLINA COMUM       3.000565
              GLP                 42.081544
              GNV                  1.716074
 

In [99]:
grupos['PREÇO MÉDIO REVENDA'].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
REGIÃO,PRODUTO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
CENTRO OESTE,ETANOL HIDRATADO,3122.0,2.13567,0.561465,1.162,1.714,2.0005,2.479,3.598
CENTRO OESTE,GASOLINA COMUM,3134.0,3.077476,0.61529,1.936,2.66725,2.8565,3.45975,4.963
CENTRO OESTE,GLP,3098.0,48.176747,15.204045,28.791,37.333,42.8385,55.90425,99.357
CENTRO OESTE,GNV,847.0,1.856312,0.423861,1.097,1.569,1.749,2.168,3.239
CENTRO OESTE,ÓLEO DIESEL,3134.0,2.481286,0.62693,1.435,2.033,2.2465,3.019,4.162
CENTRO OESTE,ÓLEO DIESEL S10,1210.0,3.294752,0.421234,2.305,2.92425,3.354,3.619,4.2
NORDESTE,ETANOL HIDRATADO,7046.0,2.320266,0.604374,1.181,1.825,2.186,2.67,3.927
NORDESTE,GASOLINA COMUM,7063.0,3.001887,0.640696,1.949,2.584,2.741,3.4245,4.951
NORDESTE,GLP,6410.0,41.96609,12.063743,28.367,33.22875,36.855,48.351,79.63
NORDESTE,GNV,5176.0,1.881722,0.522996,0.975,1.596,1.8005,2.01125,3.811


<br/>

`.agg`: **agrega (roda)** uma série de funções para os elementos de um dataframe ou de grupos de um dataframe.

In [101]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [None,None,None]],
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


In [103]:
df.agg(['sum','min'])

Unnamed: 0,A,B,C
sum,12.0,15.0,18.0
min,1.0,2.0,3.0


In [105]:
grupos = data_final.groupby('REGIÃO')
grupos

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E583D428D0>

In [107]:
grupos['PREÇO MÉDIO REVENDA'].agg(['min','max'])

Unnamed: 0_level_0,min,max
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
CENTRO OESTE,1.097,99.357
NORDESTE,0.975,79.63
NORTE,1.226,87.27
SUDESTE,0.766,79.192
SUL,0.922,72.088


<h2>6. Ordenação</h2>
<hr/>

In [108]:
notas = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Alice'],
    'idade': [20, 21, 19, 20],
    'nota_final': [5.0, 10.0, 6.0, 10.0]
})
notas

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
1,Maria,21,10.0
2,José,19,6.0
3,Alice,20,10.0


`.sort_values()`: ordena valores ao longo de um eixo.

In [110]:
notas.sort_values(by='nota_final')

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
2,José,19,6.0
1,Maria,21,10.0
3,Alice,20,10.0


Por padrão, o método retorna uma cópia dos dados ordenados em **ordem crescente (ascendente)**. Podemos alterar isso pelo argumento `ascending`.

In [113]:
notas.sort_values(by='nota_final', ascending=False)

Unnamed: 0,nome,idade,nota_final
1,Maria,21,10.0
3,Alice,20,10.0
2,José,19,6.0
0,João,20,5.0


<br/>

Podemos ordenar a partir de **mais de uma coluna**:

In [112]:
notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True])

Unnamed: 0,nome,idade,nota_final
3,Alice,20,10.0
1,Maria,21,10.0
2,José,19,6.0
0,João,20,5.0


Ordena os registros, primeiramente, pela coluna 'nota_final' em **ordem descrente**. <br/>
Então, reordena os registros _"empatados"_, ou seja, com a **mesma nota final**, em _ordem alfabética_ (ordem crescente).

<br/>

Note que o dataframe original **não foi alterado** após a ordenação.

In [114]:
notas

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
1,Maria,21,10.0
2,José,19,6.0
3,Alice,20,10.0


Para alterá-lo, use o argumento `inplace=True`:

In [115]:
notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True], inplace=True)

In [118]:
notas.reset_index()

Unnamed: 0,index,nome,idade,nota_final
0,3,Alice,20,10.0
1,1,Maria,21,10.0
2,2,José,19,6.0
3,0,João,20,5.0


<h2>7. Exercícios</h2>
<hr/>

Vamos aplicar os conceitos que vimos em alguns exercícios. <br/>
Para isso, utilizaremos o dataset de _preços de combustíveis no Brasil_.

Como há apenas medições de janeiro a junho para o ano de 2019, resolvemos **remover os dados** deste ano da análise.

In [122]:
df = data_final.query('ANO != 2019')
df

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.110,0.4201,0.96660,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05000,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.970,0.095,0.5614,1.16100,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.830,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.240,0.066,0.941,0.077,0.7441,1.03170,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99734,2018-12-30,2019-01-05,SUDESTE,RIO DE JANEIRO,GNV,122,R$/m3,3.080,0.262,2.798,3.999,0.699,0.085,2.381,0.161,2.1670,2.86970,0.068,12,2018
99735,2018-12-30,2019-01-05,NORDESTE,RIO GRANDE DO NORTE,GNV,10,R$/m3,3.465,0.060,3.370,3.590,0.759,0.017,2.706,0.000,2.7059,2.70590,0.000,12,2018
99736,2018-12-30,2019-01-05,SUL,RIO GRANDE DO SUL,GNV,16,R$/m3,3.402,0.103,3.199,3.499,1.296,0.030,2.106,0.249,1.8775,2.37240,0.118,12,2018
99737,2018-12-30,2019-01-05,SUL,SANTA CATARINA,GNV,15,R$/m3,2.944,0.124,2.790,3.199,0.670,0.042,2.274,0.283,1.8738,2.27400,0.124,12,2018


### 7.1 Qual a proporção de postos pesquisados para cada combustível em cada região

In [123]:
grupos = df.groupby('PRODUTO')
grupos

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E5855E4C90>

In [125]:
grupos['REGIÃO'].value_counts().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
PRODUTO,REGIÃO,Unnamed: 2_level_1
ETANOL HIDRATADO,NORDESTE,6821
ETANOL HIDRATADO,NORTE,5021
ETANOL HIDRATADO,SUDESTE,3039
ETANOL HIDRATADO,CENTRO OESTE,3022
ETANOL HIDRATADO,SUL,2278
GASOLINA COMUM,NORDESTE,6838
GASOLINA COMUM,NORTE,5289
GASOLINA COMUM,SUDESTE,3040
GASOLINA COMUM,CENTRO OESTE,3034
GASOLINA COMUM,SUL,2279


### 7.2 Como os preços da Gasolina Comum em São Paulo variaram em 2018?

In [135]:
gasolina_sp_2018 = df.query('PRODUTO == "GASOLINA COMUM" and ESTADO == "SAO PAULO" and ANO == 2018')
gasolina_sp_2018

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
92319,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,3.988,0.156,3.499,4.599,0.411,0.039,3.577,0.104,2.99,3.951,0.029,1,2018
92465,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.002,0.155,3.549,4.499,0.412,0.039,3.59,0.102,2.99,3.9014,0.028,1,2018
92610,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.006,0.16,3.499,4.899,0.41,0.04,3.596,0.102,2.99,3.9014,0.028,1,2018
92755,2018-01-28,2018-02-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.019,0.156,3.579,4.699,0.423,0.039,3.596,0.107,2.924,3.9537,0.03,1,2018
92901,2018-02-04,2018-02-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1646,R$/l,4.004,0.157,3.579,4.597,0.416,0.039,3.588,0.102,2.99,3.9537,0.028,2,2018
93048,2018-02-11,2018-02-17,SUDESTE,SAO PAULO,GASOLINA COMUM,1640,R$/l,4.014,0.153,3.499,4.599,0.444,0.038,3.57,0.097,2.99,3.8899,0.027,2,2018
93192,2018-02-18,2018-02-24,SUDESTE,SAO PAULO,GASOLINA COMUM,1637,R$/l,4.008,0.161,3.559,4.899,0.445,0.04,3.563,0.097,2.99,3.891,0.027,2,2018
93339,2018-02-25,2018-03-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1638,R$/l,3.992,0.164,3.479,4.899,0.422,0.041,3.57,0.106,2.99,3.9549,0.03,2,2018
93487,2018-03-04,2018-03-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1637,R$/l,3.97,0.161,3.479,4.699,0.387,0.041,3.583,0.11,2.99,4.0687,0.031,3,2018
93634,2018-03-11,2018-03-17,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.003,0.155,3.499,4.699,0.41,0.039,3.593,0.104,2.99,4.259,0.029,3,2018


In [130]:
gasolina_sp_2018.shape

(52, 20)

#### **Estatísticas Descritivas**

In [131]:
gasolina_sp_2018.describe()

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
count,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0
mean,1610.211538,4.202769,0.1755,3.6715,4.97575,0.442481,0.04175,3.760288,0.109654,3.31295,4.139454,0.029096,6.615385,2018.0
std,213.627432,0.180672,0.017955,0.163808,0.211198,0.063271,0.003965,0.163664,0.010712,0.26684,0.195897,0.00246,3.470627,0.0
min,102.0,3.97,0.15,3.369,4.499,0.366,0.034,3.563,0.087,2.924,3.8875,0.023,1.0,2018.0
25%,1639.0,4.008,0.15975,3.499,4.899,0.4045,0.039,3.62025,0.102,2.99,3.965775,0.028,4.0,2018.0
50%,1642.0,4.202,0.173,3.679,4.999,0.4215,0.04,3.7565,0.108,3.35,4.0955,0.029,7.0,2018.0
75%,1644.0,4.33625,0.189,3.784,5.099,0.47025,0.044,3.86225,0.11625,3.5325,4.259,0.03,9.25,2018.0
max,1649.0,4.512,0.216,3.969,5.299,0.64,0.051,4.085,0.144,3.76,4.551,0.037,12.0,2018.0


In [133]:
gasolina_sp_2018['PREÇO MÉDIO REVENDA'].describe().to_frame()

Unnamed: 0,PREÇO MÉDIO REVENDA
count,52.0
mean,4.202769
std,0.180672
min,3.97
25%,4.008
50%,4.202
75%,4.33625
max,4.512


### 7.3 Como os preços da Gasolina Comum e do Etanol em São Paulo variaram em 2018?

In [137]:
gasolina_etanol_sp_2018 = df.query('PRODUTO in ["GASOLINA COMUM" , "ETANOL HIDRATADO"] and ESTADO == "SAO PAULO" and ANO == 2018')

In [138]:
lista_de_estados = ["GASOLINA COMUM" , "ETANOL HIDRATADO"]
df.query('PRODUTO in @lista_de_estados and ESTADO == "SAO PAULO" and ANO == 2018')

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
92238,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1664,R$/l,2.833,0.139,2.449,3.399,0.338,0.049,2.495,0.092,2.1842,2.8833,0.037,1,2018
92319,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,3.988,0.156,3.499,4.599,0.411,0.039,3.577,0.104,2.9900,3.9510,0.029,1,2018
92384,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1661,R$/l,2.868,0.134,2.399,3.399,0.331,0.047,2.537,0.087,2.2600,2.8471,0.034,1,2018
92465,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.002,0.155,3.549,4.499,0.412,0.039,3.590,0.102,2.9900,3.9014,0.028,1,2018
92529,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1662,R$/l,2.874,0.135,2.399,3.399,0.324,0.047,2.550,0.095,1.6900,2.9722,0.037,1,2018
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99410,2018-12-16,2018-12-22,SUDESTE,SAO PAULO,GASOLINA COMUM,1637,R$/l,4.129,0.201,3.699,5.099,0.490,0.049,3.639,0.110,3.3500,3.9892,0.030,12,2018
99472,2018-12-23,2018-12-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1662,R$/l,2.644,0.163,2.149,3.699,0.305,0.062,2.339,0.094,2.0067,2.7443,0.040,12,2018
99553,2018-12-23,2018-12-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,4.129,0.201,3.699,4.999,0.484,0.049,3.645,0.107,3.3500,3.9892,0.029,12,2018
99617,2018-12-30,2019-01-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1661,R$/l,2.643,0.161,2.259,3.699,0.303,0.061,2.340,0.097,1.9072,2.7957,0.041,12,2018


In [140]:
gasolina_etanol_sp_2018['PREÇO MÉDIO REVENDA'].describe().to_frame()

Unnamed: 0,PREÇO MÉDIO REVENDA
count,104.0
mean,3.457337
std,0.766239
min,2.393
25%,2.726
50%,3.431
75%,4.199
max,4.512


In [141]:
gasolina_etanol_sp_2018.groupby('PRODUTO')['PREÇO MÉDIO REVENDA'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
PRODUTO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
ETANOL HIDRATADO,52.0,2.711904,0.141365,2.393,2.6315,2.72,2.83825,2.892
GASOLINA COMUM,52.0,4.202769,0.180672,3.97,4.008,4.202,4.33625,4.512
