## **Pandas Essencial**
**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)** <br/>
xavecoding: https://youtube.com/c/xavecoding <br/>

Neste tutorial, vamos aprender o essencial da biblioteca _Pandas_ para manipulação de dados.<br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

### Pacotes usados neste Notebook

In [1]:
# importação de pacotes para este notebook
import pandas as pd

<h1>Manipulação de Dados com Pandas</h1><hr/>

<h2>1. Manipulação Básica de Datasets</h2>
<hr/>

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**. <br/>
Cada *amostra (registro/linha)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o _pandas_ consiga abrí-lo normalmente, convertemos tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento.

### 1.1. Importando o Dataset
Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [2]:
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv')

In [3]:
data

Unnamed: 0,Unnamed: 0;DATA INICIAL;DATA FINAL;REGIÃO;ESTADO;PRODUTO;NÚMERO DE POSTOS PESQUISADOS;UNIDADE DE MEDIDA;PREÇO MÉDIO REVENDA;DESVIO PADRÃO REVENDA;PREÇO MÍNIMO REVENDA;PREÇO MÁXIMO REVENDA;MARGEM MÉDIA REVENDA;COEF DE VARIAÇÃO REVENDA;PREÇO MÉDIO DISTRIBUIÇÃO;DESVIO PADRÃO DISTRIBUIÇÃO;PREÇO MÍNIMO DISTRIBUIÇÃO;PREÇO MÁXIMO DISTRIBUIÇÃO;COEF DE VARIAÇÃO DISTRIBUIÇÃO;MÊS;ANO
0,0;2004-05-09;2004-05-15;CENTRO OESTE;DISTRITO ...
1,1;2004-05-09;2004-05-15;CENTRO OESTE;GOIAS;ETA...
2,2;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
3,3;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
4,4;2004-05-09;2004-05-15;NORDESTE;ALAGOAS;ETANO...
...,...
106818,106818;2019-06-23;2019-06-29;NORDESTE;RIO GRAN...
106819,106819;2019-06-23;2019-06-29;SUL;RIO GRANDE DO...
106820,106820;2019-06-23;2019-06-29;SUL;SANTA CATARIN...
106821,106821;2019-06-23;2019-06-29;SUDESTE;SAO PAULO...


O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era ';' e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [4]:
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv', sep=';')

In [5]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


## MOSTRANDO ÍNDICES ESPECIFICADOS, QUE NO EXEMPLO ABAIXO (4 AO 18)

In [6]:
data.loc[4:18]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,...,2.0,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,1.78,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,5,2004
11,11,2004-05-09,2004-05-15,NORDESTE,RIO GRANDE DO NORTE,ETANOL HIDRATADO,131,R$/l,1.276,0.116,...,1.59,0.332,0.091,0.944,0.078,0.7119,1.1386,0.083,5,2004
12,12,2004-05-09,2004-05-15,NORDESTE,SERGIPE,ETANOL HIDRATADO,57,R$/l,1.301,0.109,...,1.75,0.321,0.084,0.98,0.052,0.8267,1.1059,0.053,5,2004
13,13,2004-05-09,2004-05-15,NORTE,ACRE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,...,1.98,0.689,0.074,1.116,0.171,0.767,1.2992,0.153,5,2004


### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [7]:
# lendo os primeiros elementos do dataframe.

n = 6
data.head(n)

# "n" dentro de "()" informa o tanto de elementos a serem exibidos, que no caso será o valor de "n".

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004


In [8]:
# lendo agora os últimos elementos do dataframe

n = 4
data.tail(n)

# "n" dentro de "()" informa o tanto de elementos a serem exibidos, que no caso será o valor de "n".

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.19,...,3.499,0.914,0.065,1.998,0.0,1.9981,1.9981,0.0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.02,0.229,...,3.49,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019
106822,106822,2019-06-23,2019-06-29,NORDESTE,SERGIPE,GNV,4,R$/m3,3.697,0.005,...,3.699,1.179,0.001,2.518,0.0,2.5175,2.5175,0.0,6,2019


### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [9]:
# exibindo informações sobre o dataframe

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 21 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Unnamed: 0                     106823 non-null  int64  
 1   DATA INICIAL                   106823 non-null  object 
 2   DATA FINAL                     106823 non-null  object 
 3   REGIÃO                         106823 non-null  object 
 4   ESTADO                         106823 non-null  object 
 5   PRODUTO                        106823 non-null  object 
 6   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 7   UNIDADE DE MEDIDA              106823 non-null  object 
 8   PREÇO MÉDIO REVENDA            106823 non-null  float64
 9   DESVIO PADRÃO REVENDA          106823 non-null  float64
 10  PREÇO MÍNIMO REVENDA           106823 non-null  float64
 11  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 12  MARGEM MÉDIA REVENDA          

A primeira coluna da tabela, chamada _'Unnamed: 0'_, parece não significar nada. Na verdade, ela parece ser os **índices** da tabela, que foram salvos como uma _coluna_.<br/>
Veremos jajá como **remover tal coluna**.

Outro ponto é que, aparentemente, nenhum atributo/coluna possui valores nulos (_null_), uma vez que o número de registros do dataframe e os números de valores _non-null_ é de **106823**. <br/>
Mas, veremos que não é bem assim para esse caso.

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [10]:
type(data)

pandas.core.frame.DataFrame

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [11]:
data.shape

(106823, 21)

In [12]:
# ou melhor...

print(f'Linhas: {data.shape[0]}\nColunas: {data.shape[1]}')

Linhas: 106823
Colunas: 21


#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [13]:
alunos_df = pd.DataFrame({
    'nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade': [16, 1000, 70],
    'peso': [70, 15, 60],
    'eh jedi': [True, True, False]  # o nome das colunas podem ter espaços
})

In [14]:
alunos_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [15]:
alunos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nome     3 non-null      object
 1   idade    3 non-null      int64 
 2   peso     3 non-null      int64 
 3   eh jedi  3 non-null      bool  
dtypes: bool(1), int64(2), object(1)
memory usage: 203.0+ bytes


#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O atributo `DataFrame.columns` retorna uma ";lista" com os **nomes de todas as colunas** do data frame.

In [16]:
alunos_df.columns

Index(['nome', 'idade', 'peso', 'eh jedi'], dtype='object')

In [17]:
type(alunos_df.columns)

pandas.core.indexes.base.Index

In [18]:
list(alunos_df.columns)

['nome', 'idade', 'peso', 'eh jedi']

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [19]:
alunos_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [20]:
alunos_df_rename = alunos_df.rename(columns={
    'nome': 'Nome completo',
    'idade': 'Idade'
})

In [21]:
alunos_df_rename.columns

Index(['Nome completo', 'Idade', 'peso', 'eh jedi'], dtype='object')

In [22]:
# dataframe com as colunas com nome original

alunos_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


Para renomear o _próprio_ data frame em questão, utilize o parâmetro `inplace=True`:

In [23]:
alunos_df.rename(columns={'nome': 'Nome completo', 'idade': 'Idade'}, inplace=True)

In [24]:
alunos_df

Unnamed: 0,Nome completo,Idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


<br/>

**===>** Uma outra forma de **renomear todas as listas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [25]:
alunos_df.columns = ['NOME', 'IDADE', 'PESO', 'NERD']

In [26]:
alunos_df.columns

Index(['NOME', 'IDADE', 'PESO', 'NERD'], dtype='object')

In [27]:
alunos_df

Unnamed: 0,NOME,IDADE,PESO,NERD
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


### 1.3.3 Series

Array uni-dimensional com os dados e rótulos de um eixo.

In [28]:
data['ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [29]:
data.iloc[106821]

Unnamed: 0                           106821
DATA INICIAL                     2019-06-23
DATA FINAL                       2019-06-29
REGIÃO                              SUDESTE
ESTADO                            SAO PAULO
PRODUTO                                 GNV
NÚMERO DE POSTOS PESQUISADOS             52
UNIDADE DE MEDIDA                     R$/m3
PREÇO MÉDIO REVENDA                    3.02
DESVIO PADRÃO REVENDA                 0.229
PREÇO MÍNIMO REVENDA                  2.699
PREÇO MÁXIMO REVENDA                   3.49
MARGEM MÉDIA REVENDA                  0.646
COEF DE VARIAÇÃO REVENDA              0.076
PREÇO MÉDIO DISTRIBUIÇÃO              2.374
DESVIO PADRÃO DISTRIBUIÇÃO            0.165
PREÇO MÍNIMO DISTRIBUIÇÃO            2.0179
PREÇO MÁXIMO DISTRIBUIÇÃO            2.5093
COEF DE VARIAÇÃO DISTRIBUIÇÃO          0.07
MÊS                                       6
ANO                                    2019
Name: 106821, dtype: object

#### **Criando uma Series**

Podemos criar um DataFrame a partir de uma lista de elementos.

In [30]:
pd.Series([1, 4, 7, 6])

0    1
1    4
2    7
3    6
dtype: int64

Podemos alterar o **nome dos índices** (veremos melhor jajá) e o **nome da Series** (o que ela representa):

In [31]:
pd.Series([2.4, 5.6, 7.8])

0    2.4
1    5.6
2    7.8
dtype: float64

#### **VEJA MAIS**
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

### 1.3.4 Atribuindo Dados

In [32]:
produto_view= data['PRODUTO'] # a series referente á coluna, NÃO É UMA CÓPIA, mas sim uma REFERÊNCIA/VIEW á coluna do dataframe

In [33]:
# fazendo uma cópia
produto_copy_bkp = data['PRODUTO'].copy() # retorna uma cópia da coluna produto do dataframe
produto_copy_bkp

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

#### 1.3.4.1 Atribuindo constantes

In [34]:
data['PRODUTO'] = 'Combustível' # atribuindo o valor constante 'Combustível' para todos os index que estão na coluna 'PRODUTO'
data.head(3)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004


In [35]:
produto_view

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

In [36]:
produto_copy_bkp

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

#### 1.3.4.2 Atribuindo listas ou series

In [37]:
# para atribuir listas ou series em um dataframe é importante que essa lista tenha a mesma quantidade de elementos que tem o ...
# dataframe original, exemplo:

data.shape

(106823, 21)

In [38]:
# salvando esses dados em variáveis, você consegue obter o mesmo valor, exemplo:

nrows, ncolumns = data.shape

# numero de linhas, numero de colunas sendo salvos em variáveis respectivamente...

In [39]:
print(nrows, ncolumns)

106823 21


In [40]:
novos_produtos = [f'Produto {i}' for i in range(nrows)] # esse for fará com que o valor 'i' seja imprimido a cada valor que ...
len(novos_produtos) # ele executa, no 'range/intervalo' de 'nrows', que é o tamanho de linhas da coluna

106823

In [41]:
# a quantidade de elementos da lista 'novos produtos' é == ao tamanho da lista 'produto' original
data['PRODUTO'] = novos_produtos
data['PRODUTO']

0              Produto 0
1              Produto 1
2              Produto 2
3              Produto 3
4              Produto 4
               ...      
106818    Produto 106818
106819    Produto 106819
106820    Produto 106820
106821    Produto 106821
106822    Produto 106822
Name: PRODUTO, Length: 106823, dtype: object

In [42]:
print(produto_view.head(3))
print('\n')
print(produto_copy_bkp.head(3))

0    ETANOL HIDRATADO
1    ETANOL HIDRATADO
2    ETANOL HIDRATADO
Name: PRODUTO, dtype: object


0    ETANOL HIDRATADO
1    ETANOL HIDRATADO
2    ETANOL HIDRATADO
Name: PRODUTO, dtype: object


In [43]:
# devolvendo o valor inicial á coluna 'PRODUTO' do dataframe

data['PRODUTO'] = produto_copy_bkp
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ ou uma constante a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [44]:
# criando uma coluna com um valor constante
data['COLUNA NOVA'] = 'Default'

In [45]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,Default
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004,Default
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,Default
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,0.818,0.018,2.756,0,2.756,2.756,0,6,2019,Default
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019,Default
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019,Default
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019,Default


In [46]:
data['coluna criada com lista'] = range(data.shape[0]) # range declara que é um intervalo de 'data.shape(0)', ou seja ...
# do tamanho de 'data' começando em 0, conforme foi passado em cerquilha "[]"
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,Default,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,0.018,2.756,0,2.756,2.756,0,6,2019,Default,106818
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019,Default,106819
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,0.065,1.998,0,1.9981,1.9981,0,6,2019,Default,106820
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019,Default,106821


In [47]:
# lista que não funciona, vamos passar uma lista que não tenha o tamanho da quantidade de index do dataframe

# data['VAI DAR ERRO'] = [1, 2, 3]

<br/>

Outro exemplo:

In [48]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,Default,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4


In [49]:
data['PRECO MEDIO REVENDA (Dólar)'] = data['PREÇO MÉDIO REVENDA'] * 5.4
# estou pegando a coluna 'PREÇO MÉDIO REVENDA' e múltilplicando todos os seus index por 5.4 ...
# e atribuindo esses valores á uma nova coluna, que terá o mesmo tamanho

data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4,6.3774


**PS:** Obviamente, a lógica correta em converter o preço dos combustíveis em reais para dólares não é considerar uma taxa de câmbio fixa, uma vez que cada preço foi aferido em um momento diferente.

### 1.3.4 Índices

Todo Data Frame possui **índices**, que não são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [50]:
data.index

RangeIndex(start=0, stop=106823, step=1)

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [51]:
pesquisa_de_satisfacao = pd.DataFrame({
    'bom': [50, 21, 100],
    'ruim': [131, 2, 30],
    'pessimo': [30, 20, 1]
}, index=['XboxOne', 'Playstation4', 'Switch'])

In [52]:
pesquisa_de_satisfacao.head()

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


### 1.4 Selecionando uma ou mais amostras (Indexação)

#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma amostra/linha:**

In [53]:
data.iloc[200]

Unnamed: 0                                       200
DATA INICIAL                              2004-06-27
DATA FINAL                                2004-07-03
REGIÃO                                      NORDESTE
ESTADO                           RIO GRANDE DO NORTE
PRODUTO                             ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                     121
UNIDADE DE MEDIDA                               R$/l
PREÇO MÉDIO REVENDA                            1.369
DESVIO PADRÃO REVENDA                          0.074
PREÇO MÍNIMO REVENDA                            1.19
PREÇO MÁXIMO REVENDA                            1.59
MARGEM MÉDIA REVENDA                            0.32
COEF DE VARIAÇÃO REVENDA                       0.054
PREÇO MÉDIO DISTRIBUIÇÃO                       1.049
DESVIO PADRÃO DISTRIBUIÇÃO                     0.116
PREÇO MÍNIMO DISTRIBUIÇÃO                     0.7869
PREÇO MÁXIMO DISTRIBUIÇÃO                     1.3143
COEF DE VARIAÇÃO DISTRIBUIÇÃO                 

**Selecionando múltiplias amostras/linhas:**

In [54]:
# selecionando os 10 primeiros indices do dataframe

data.iloc[:10]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4,6.3774
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.957,0.128,0.5686,1.35,0.134,5,2004,Default,5,7.4682
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.1,0.068,0.7332,1.294,0.062,5,2004,Default,6,7.8462
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,...,1.116,0.091,0.9923,1.36183,0.082,5,2004,Default,7,8.8074
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,0.931,0.072,0.7577,1.2972,0.077,5,2004,Default,8,6.9336
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,0.947,0.091,0.5643,1.3541,0.096,5,2004,Default,9,6.6096


In [55]:
# selecionando um intervalo entre os índices 5 ao 9 (9 incluso)

data.iloc[5:10]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.957,0.128,0.5686,1.35,0.134,5,2004,Default,5,7.4682
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.1,0.068,0.7332,1.294,0.062,5,2004,Default,6,7.8462
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,...,1.116,0.091,0.9923,1.36183,0.082,5,2004,Default,7,8.8074
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,0.931,0.072,0.7577,1.2972,0.077,5,2004,Default,8,6.9336
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,0.947,0.091,0.5643,1.3541,0.096,5,2004,Default,9,6.6096


In [56]:
# escolhendo índices específicos para mostrar, como: valores 4, 8, 12, 16, 20

data.iloc[[4, 8, 12, 16, 20]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4,6.3774
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,0.931,0.072,0.7577,1.2972,0.077,5,2004,Default,8,6.9336
12,12,2004-05-09,2004-05-15,NORDESTE,SERGIPE,ETANOL HIDRATADO,57,R$/l,1.301,0.109,...,0.98,0.052,0.8267,1.1059,0.053,5,2004,Default,12,7.0254
16,16,2004-05-09,2004-05-15,NORTE,PARA,ETANOL HIDRATADO,104,R$/l,1.914,0.246,...,1.378,0.237,0.7564,1.8908,0.172,5,2004,Default,16,10.3356
20,20,2004-05-09,2004-05-15,SUDESTE,ESPIRITO SANTO,ETANOL HIDRATADO,306,R$/l,1.148,0.116,...,0.881,0.095,0.6259,1.1381,0.108,5,2004,Default,20,6.1992


In [57]:
# selecionando as observações de índices em ordem aleatória/não crescente

data.iloc[[12, 1, 87, 33]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
12,12,2004-05-09,2004-05-15,NORDESTE,SERGIPE,ETANOL HIDRATADO,57,R$/l,1.301,0.109,...,0.98,0.052,0.8267,1.1059,0.053,5,2004,Default,12,7.0254
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
87,87,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,...,1.109,0.07,0.85727,1.27,0.063,5,2004,Default,87,7.7868
33,33,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,...,1.104,0.06,0.92,1.27,0.054,5,2004,Default,33,7.8354


In [58]:
# retornando o valor do índice 1, coluna 4 ('ESTADO')

data.iloc[1, 4]

'GOIAS'

In [59]:
# e assim por diante!

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> row-first, column-second

In [60]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [61]:
# retorna a linha de indice 0 ==> usando o iloc

pesquisa_de_satisfacao.iloc[0]

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [62]:
# usando o loc

pesquisa_de_satisfacao.loc['XboxOne']

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [63]:
# NÃO FUNCIONA ==> usando o iloc para pesquisar indices com rótulos

## pesquisa_de_satisfacao.iloc['XboxOne']

In [64]:
# NÃO FUNCIONA ==> usando o loc para pesquisar indices com números

## pesquisa_de_satisfacao.loc[1]

In [65]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [66]:
# quero acessar de maneiras diferentes as avaliações ruins de 'Playstation4'
# USANDO ILOC

pesquisa_de_satisfacao.iloc[1, 1]

2

In [67]:
#USANDO LOC

In [68]:
pesquisa_de_satisfacao.loc['Playstation4', 'ruim']

2

In [69]:
# passando listas de índices rotulados

pesquisa_de_satisfacao.loc[['Playstation4', 'Switch']]

Unnamed: 0,bom,ruim,pessimo
Playstation4,21,2,20
Switch,100,30,1


In [70]:
# retorne todas as linhas e apenas as colunas com rótulos 'bom' e 'pessimo'
# posso fazer de duas maneiras, sendo elas, sem LOC:

pesquisa_de_satisfacao[['bom', 'pessimo']]

Unnamed: 0,bom,pessimo
XboxOne,50,30
Playstation4,21,20
Switch,100,1


In [71]:
# com LOC

pesquisa_de_satisfacao.loc[:, ['bom', 'pessimo']]

# USANDO ':' para definir um intervalo, quando não tem valor nem antes e nem depois, significa que estou pedindo um...
# intervalo do início ao fim

Unnamed: 0,bom,pessimo
XboxOne,50,30
Playstation4,21,20
Switch,100,1


In [72]:
# usando ILOC

pesquisa_de_satisfacao.iloc[:,[0, 2]]

# USANDO ':' para definir um intervalo, quando não tem valor nem antes e nem depois, significa que estou pedindo um...
# intervalo do início ao fim

Unnamed: 0,bom,pessimo
XboxOne,50,30
Playstation4,21,20
Switch,100,1


In [73]:
data.head(2)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748


In [74]:
data.iloc[[1, 4, 7], [8]]

Unnamed: 0,PREÇO MÉDIO REVENDA
1,1.162
4,1.181
7,1.631


In [75]:
# NO DATAFRAME 'DATA', VOU PROCURAR PELO PREÇO DE MÉDIO DE REVENDA DOS INDÍCES '1, 4, 7' USANDO LOC E ILOC

data.loc[[1, 4, 7], ['PREÇO MÉDIO REVENDA']]

Unnamed: 0,PREÇO MÉDIO REVENDA
1,1.162
4,1.181
7,1.631


In [76]:
# FAZENDO O MESMO ESTILO DE BUSCA COM INTERVALO: ESTADO DOS PRIMEIROS 4 ÍNDICES

data.loc[:3, ['ESTADO']]

Unnamed: 0,ESTADO
0,DISTRITO FEDERAL
1,GOIAS
2,MATO GROSSO
3,MATO GROSSO DO SUL


### 1.5 Selecionando um ou mais atributos (colunas)

Como o rótulo da coluna 'DATA INICIAL' **possui espaço**, não é possível acessá-la como método: `data.DATA INICIAL`

### 1.6 Removendo um Atributo (Coluna) do Data Frame

Como vimos anteriormente, o atributo 'Unnamed: 0' parece ser um **ruído** em nosso dataset. Desta maneira, vamos eliminá-lo,

In [77]:
data.head(3)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006


In [78]:
# deleta/remove a coluna que foi passada, que no caso, 'Unnamed: 0'. 

del data['Unnamed: 0']

In [79]:
data.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006


In [80]:
data.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006


<br>

Removendo as colunas fícticias criadas ao decorrer dos estudos.

<br>

### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso (veja que removemos anteriormente a coluna 'Unnamed: 0' que foi justamente esse caso).<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

In [81]:
data.to_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado.csv', index=False)

### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

In [82]:
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado.csv')

In [83]:
data.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006


In [84]:
# usando a função 'unique' para descobrir quais são os valores únicos dentro de 'ESTADO' e salvando em um array 'estados'.

estados = data.ESTADO.unique()

In [85]:
estados

array(['DISTRITO FEDERAL', 'GOIAS', 'MATO GROSSO', 'MATO GROSSO DO SUL',
       'ALAGOAS', 'BAHIA', 'CEARA', 'MARANHAO', 'PARAIBA', 'PERNAMBUCO',
       'PIAUI', 'RIO GRANDE DO NORTE', 'SERGIPE', 'ACRE', 'AMAPA',
       'AMAZONAS', 'PARA', 'RONDONIA', 'RORAIMA', 'TOCANTINS',
       'ESPIRITO SANTO', 'MINAS GERAIS', 'RIO DE JANEIRO', 'SAO PAULO',
       'PARANA', 'RIO GRANDE DO SUL', 'SANTA CATARINA'], dtype=object)

#### **Selecionando apenas os preços dos Postos de São Paulo**

##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

O código abaixo retorna uma ***Series ('array') de booleans***, com o número de linhas (observações) do Data Frame, que informa os registros de preços dos postos do _estado de São Paulo_ (True).

In [86]:
# compara elemento a elemento da series, retornando outra sderies de booleans

data['ESTADO'] == 'SAO PAULO'

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821     True
106822    False
Name: ESTADO, Length: 106823, dtype: bool

In [87]:
# salvando a series em uma variável

selecao = data.ESTADO == 'SAO PAULO'

type(selecao)

pandas.core.series.Series

Para **filtrarmos** os registros de postos do estado de São Paulo:

In [88]:
# fazendo isso, fará com que mostre apenas as linhas cujo resultado booleano seja 'True', conforme a comparação acima.

data[selecao]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.590,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.590,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364
77,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,0.620,...,0.614,0.063,0.34951,1.412,0.103,5,2004,Default,77,4.4442
104,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4073,R$/l,0.887,0.075,0.639,...,0.671,0.075,0.3398,1.0669,0.112,5,2004,Default,104,4.7898
131,2004-06-06,2004-06-12,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4082,R$/l,0.894,0.071,0.669,...,0.689,0.072,0.47797,1.0669,0.104,6,2004,Default,131,4.8276
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106724,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL,863,R$/l,3.448,0.156,3.099,...,3.047,0.097,2.8599,3.3481,0.032,6,2019,Default,106724,18.6192
106751,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL S10,1277,R$/l,3.574,0.169,3.199,...,3.123,0.111,2.885,3.491,0.036,6,2019,Default,106751,19.2996
106778,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.142,0.183,3.769,...,3.713,0.097,3.52,4.0892,0.026,6,2019,Default,106778,22.3668
106805,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GLP,1017,R$/13Kg,66.893,6.100,50.000,...,49.214,5.071,40.19,72,0.103,6,2019,Default,106805,361.2222


O resultado é um Data Frame com _apenas_ os registros desejados após a **filtragem**.<br/>
Podemos ainda utilizar o método `loc` para o mesmo fim:

In [89]:
data.loc[selecao].head(2)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.59,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.59,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364


In [90]:
data.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006


##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

In [91]:
data.query('ESTADO == "SAO PAULO"')

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.590,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.590,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364
77,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,0.620,...,0.614,0.063,0.34951,1.412,0.103,5,2004,Default,77,4.4442
104,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4073,R$/l,0.887,0.075,0.639,...,0.671,0.075,0.3398,1.0669,0.112,5,2004,Default,104,4.7898
131,2004-06-06,2004-06-12,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4082,R$/l,0.894,0.071,0.669,...,0.689,0.072,0.47797,1.0669,0.104,6,2004,Default,131,4.8276
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106724,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL,863,R$/l,3.448,0.156,3.099,...,3.047,0.097,2.8599,3.3481,0.032,6,2019,Default,106724,18.6192
106751,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL S10,1277,R$/l,3.574,0.169,3.199,...,3.123,0.111,2.885,3.491,0.036,6,2019,Default,106751,19.2996
106778,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.142,0.183,3.769,...,3.713,0.097,3.52,4.0892,0.026,6,2019,Default,106778,22.3668
106805,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GLP,1017,R$/13Kg,66.893,6.100,50.000,...,49.214,5.071,40.19,72,0.103,6,2019,Default,106805,361.2222


<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análises feitas para os postos de São Paulo.

In [92]:
postos_sp = data.query('ESTADO == "SAO PAULO"')

In [93]:
postos_sp.head(4)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.59,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.59,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364
77,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,0.62,...,0.614,0.063,0.34951,1.412,0.103,5,2004,Default,77,4.4442
104,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4073,R$/l,0.887,0.075,0.639,...,0.671,0.075,0.3398,1.0669,0.112,5,2004,Default,104,4.7898


## Resetando os índices

In [94]:
# usando 'drop=True' para jogar fora os índices originais, para não ter uma coluna chamada 'indice' no dataframe ...
# depois de ter usado a função 'reset_index'.

postos_sp.reset_index(drop=True)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.590,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
1,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.590,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364
2,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,0.620,...,0.614,0.063,0.34951,1.412,0.103,5,2004,Default,77,4.4442
3,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4073,R$/l,0.887,0.075,0.639,...,0.671,0.075,0.3398,1.0669,0.112,5,2004,Default,104,4.7898
4,2004-06-06,2004-06-12,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4082,R$/l,0.894,0.071,0.669,...,0.689,0.072,0.47797,1.0669,0.104,6,2004,Default,131,4.8276
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4258,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL,863,R$/l,3.448,0.156,3.099,...,3.047,0.097,2.8599,3.3481,0.032,6,2019,Default,106724,18.6192
4259,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,ÓLEO DIESEL S10,1277,R$/l,3.574,0.169,3.199,...,3.123,0.111,2.885,3.491,0.036,6,2019,Default,106751,19.2996
4260,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.142,0.183,3.769,...,3.713,0.097,3.52,4.0892,0.026,6,2019,Default,106778,22.3668
4261,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GLP,1017,R$/13Kg,66.893,6.100,50.000,...,49.214,5.071,40.19,72,0.103,6,2019,Default,106805,361.2222


*AGORA FAZENDO A CHAMADA DA VARIAVEL...*

In [95]:
postos_sp.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.59,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.59,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364
77,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,0.62,...,0.614,0.063,0.34951,1.412,0.103,5,2004,Default,77,4.4442


In [96]:
# isso porque não usei o parâmetro 'implace=True', que faz a alteração na prórpia variável e não apenas gera uma cópia ...
# para execução.

postos_sp.reset_index(drop=True, inplace=True)

postos_sp.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.59,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
1,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.59,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364
2,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,0.62,...,0.614,0.063,0.34951,1.412,0.103,5,2004,Default,77,4.4442


In [97]:
# ALTERNATIVA COMUM USANDO QUERY

postos_sp = data.query('ESTADO == "SAO PAULO"').reset_index(drop=True)

postos_sp.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.59,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
1,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.59,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364
2,2004-05-23,2004-05-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4077,R$/l,0.823,0.071,0.62,...,0.614,0.063,0.34951,1.412,0.103,5,2004,Default,77,4.4442
3,2004-05-30,2004-06-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4073,R$/l,0.887,0.075,0.639,...,0.671,0.075,0.3398,1.0669,0.112,5,2004,Default,104,4.7898
4,2004-06-06,2004-06-12,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4082,R$/l,0.894,0.071,0.669,...,0.689,0.072,0.47797,1.0669,0.104,6,2004,Default,131,4.8276


#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**

In [98]:
data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4,6.3774


In [99]:
data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4,6.3774


In [100]:
data['ESTADO'] == 'RIO DE JANEIRO'

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821    False
106822    False
Name: ESTADO, Length: 106823, dtype: bool

In [101]:
data['PREÇO MÉDIO REVENDA'] > 2.0

0         False
1         False
2         False
3         False
4         False
          ...  
106818     True
106819     True
106820     True
106821     True
106822     True
Name: PREÇO MÉDIO REVENDA, Length: 106823, dtype: bool

In [102]:
preco_medio_rj = (data['ESTADO'] == 'RIO DE JANEIRO') & (data['PREÇO MÉDIO REVENDA'] > 2.0)

data[preco_medio_rj].reset_index(drop=True)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2006-02-26,2006-03-04,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,881,R$/l,2.028,0.148,1.589,...,1.806,0.11,1.31,2.1358,0.061,2,2006,Default,2501,10.9512
1,2006-03-05,2006-03-11,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,889,R$/l,2.125,0.149,1.779,...,1.839,0.117,1.438,2.2801,0.064,3,2006,Default,2528,11.4750
2,2006-03-12,2006-03-18,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,902,R$/l,2.163,0.138,1.799,...,1.895,0.134,1.43,2.3454,0.071,3,2006,Default,2555,11.6802
3,2006-03-19,2006-03-25,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,898,R$/l,2.166,0.146,1.760,...,1.935,0.14,1.438,2.2925,0.072,3,2006,Default,2582,11.6964
4,2006-03-26,2006-04-01,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,890,R$/l,2.172,0.143,1.789,...,1.963,0.133,1.438,2.2513,0.068,3,2006,Default,2609,11.7288
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3049,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL,212,R$/l,3.569,0.166,3.179,...,3.102,0.119,2.886,3.5162,0.038,6,2019,Default,106718,19.2726
3050,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL S10,335,R$/l,3.697,0.187,3.279,...,3.197,0.127,2.9772,3.5388,0.04,6,2019,Default,106745,19.9638
3051,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,4.599,...,4.39,0.097,4.2,4.618,0.022,6,2019,Default,106772,26.6112
3052,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,50.000,...,47.535,3.934,39,58.2,0.083,6,2019,Default,106799,351.0540


Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/amostras do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro **E/AND/&** o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (cedilha, acentos) 

In [103]:
# Não funciona
# data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

In [104]:
data.query('ESTADO == "RIO DE JANEIRO" or ESTADO == "SAO PAULO"').reset_index(drop=True)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,952,R$/l,1.098,0.154,0.740,...,0.786,0.173,0.326,1.263,0.22,5,2004,Default,22,5.9292
1,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.590,...,0.57,0.056,0.4271,1.4123,0.098,5,2004,Default,23,4.1472
2,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,948,R$/l,1.092,0.157,0.740,...,0.808,0.175,0.3257,1.2921,0.217,5,2004,Default,49,5.8968
3,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.590,...,0.576,0.05,0.43204,0.9724,0.087,5,2004,Default,50,4.1364
4,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,973,R$/l,1.103,0.140,0.770,...,0.822,0.166,0.38909,1.1859,0.202,5,2004,Default,76,5.9562
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8521,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.142,0.183,3.769,...,3.713,0.097,3.52,4.0892,0.026,6,2019,Default,106778,22.3668
8522,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,50.000,...,47.535,3.934,39,58.2,0.083,6,2019,Default,106799,351.0540
8523,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GLP,1017,R$/13Kg,66.893,6.100,50.000,...,49.214,5.071,40.19,72,0.103,6,2019,Default,106805,361.2222
8524,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GNV,124,R$/m3,3.111,0.260,2.799,...,2.404,0.174,2.126,2.7909,0.072,6,2019,Default,106817,16.7994


**Aprofundando mais ainda**

A primeira comparação `(data['ESTADO'] == 'RIO DE JANEIRO')` checa, linha a linha (observação a observação) do DataFrame, quais são aquelas cujo o estado é RIO DE JANEIRO. Nenhuma averiguação de preços é feita nesse momento. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

A segunda comparação `(data['PREÇO MÉDIO REVENDA'] > 2)` checa, linha a linha (observação a observação) do DataFrame, quais são os registros cujo preço do combustível é maior que 2 reais. Note que essa comparação checará os postos de **TODOS os estados**. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

Por fim, as duas "perguntas" são unidas pelo AND (&) que retorna a "pergunta completa" que fizemos.

Alguns podem argumentar que tal abordagem é **ineficiente**, uma vez que, para cada condição ("pergunta"), estamos varrendo todas as linhas do DataFrame. <br/>
O Pandas _tenta otimizar_ isso ao máximo por de trás dos panos. Mas, de fato, se tivermos um dataset **muito grande** (centenas de milhares de linhas), tal abordagem se tornará _lenta_.

Assim, poderíamos fazer filtragem com múltiplos condicionais em partes:

In [105]:
selecao_1 = data['ESTADO'] == 'RIO DE JANEIRO'
postos_rj = data[selecao_1]
postos_rj

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
22,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,952,R$/l,1.098,0.154,0.740,...,0.786,0.173,0.326,1.263,0.22,5,2004,Default,22,5.9292
49,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,948,R$/l,1.092,0.157,0.740,...,0.808,0.175,0.3257,1.2921,0.217,5,2004,Default,49,5.8968
76,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,973,R$/l,1.103,0.140,0.770,...,0.822,0.166,0.38909,1.1859,0.202,5,2004,Default,76,5.9562
103,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,955,R$/l,1.149,0.156,0.799,...,0.849,0.188,0.3453,1.3667,0.221,5,2004,Default,103,6.2046
130,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,966,R$/l,1.165,0.154,0.830,...,0.911,0.198,0.4,1.3667,0.217,6,2004,Default,130,6.2910
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106718,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL,212,R$/l,3.569,0.166,3.179,...,3.102,0.119,2.886,3.5162,0.038,6,2019,Default,106718,19.2726
106745,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL S10,335,R$/l,3.697,0.187,3.279,...,3.197,0.127,2.9772,3.5388,0.04,6,2019,Default,106745,19.9638
106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,4.599,...,4.39,0.097,4.2,4.618,0.022,6,2019,Default,106772,26.6112
106799,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,50.000,...,47.535,3.934,39,58.2,0.083,6,2019,Default,106799,351.0540


In [106]:
selecao_2 = postos_rj['PREÇO MÉDIO REVENDA'] > 2
postos_rj[selecao_2].head(3).reset_index(drop=True)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2006-02-26,2006-03-04,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,881,R$/l,2.028,0.148,1.589,...,1.806,0.11,1.31,2.1358,0.061,2,2006,Default,2501,10.9512
1,2006-03-05,2006-03-11,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,889,R$/l,2.125,0.149,1.779,...,1.839,0.117,1.438,2.2801,0.064,3,2006,Default,2528,11.475
2,2006-03-12,2006-03-18,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,902,R$/l,2.163,0.138,1.799,...,1.895,0.134,1.43,2.3454,0.071,3,2006,Default,2555,11.6802


#### **Selecionando registros de postos de São Paulo ou do Rio de Janeiro com Gasolina Comum acima de 2 reais**

Podemos fazer a solução do "jeito mais lento", percorrendo o DataFrame inteiro _múltiplas vezes_:

In [107]:
selecao_sp_rj= (data['ESTADO'] == 'SAO PAULO') | (data['ESTADO'] == 'RIO DE JANEIRO')

In [108]:
selecao_gas_comum = data['PRODUTO'] == 'GASOLINA COMUM'

In [109]:
selecao_acima_de_2 = data['PREÇO MÉDIO REVENDA'] > 2

In [110]:
selecao_final = selecao_sp_rj & selecao_gas_comum & selecao_acima_de_2

In [111]:
data[selecao_final]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
12086,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1071,R$/l,2.045,0.109,1.700,...,1.791,0.047,1.6363,1.9594,0.026,5,2004,Default,12086,11.0430
12113,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.040,0.113,1.700,...,1.788,0.049,1.5943,1.99651,0.027,5,2004,Default,12113,11.0160
12140,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.042,0.108,1.700,...,1.79,0.046,1.63596,2.2137,0.026,5,2004,Default,12140,11.0268
12167,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.053,0.111,1.730,...,1.802,0.055,1.64,2.21425,0.031,5,2004,Default,12167,11.0862
12194,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.063,0.107,1.760,...,1.816,0.054,1.64,2.32425,0.03,6,2004,Default,12194,11.1402
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106479,2019-06-09,2019-06-15,SUDESTE,SAO PAULO,GASOLINA COMUM,1643,R$/l,4.210,0.177,3.759,...,3.785,0.096,3.52,4.1007,0.025,6,2019,Default,106479,22.7340
106623,2019-06-16,2019-06-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,418,R$/l,4.927,0.160,4.599,...,4.383,0.1,4.1972,4.6239,0.023,6,2019,Default,106623,26.6058
106629,2019-06-16,2019-06-22,SUDESTE,SAO PAULO,GASOLINA COMUM,1635,R$/l,4.168,0.177,3.679,...,3.725,0.096,3.502,4.0892,0.026,6,2019,Default,106629,22.5072
106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,4.599,...,4.39,0.097,4.2,4.618,0.022,6,2019,Default,106772,26.6112


<br/>

Alternativamente:

#### **Selecionando registros dos anos de 2008, 2010 e 2012**

**ALTERNATIVA 1**

**ALTERNATIVA 2**

### **Iterando com DataFrames**

#### For-each `DataFrame.iterrows()` (LENTO ==> apenas indicado para iterar pequenos conjunto de dados)

<h2>2. Preparação dos dados</h2>
<hr/>

### 2.1 Removendo amostras com valores vazios (null / nan) no dataset

In [112]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 23 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   DATA INICIAL                   106823 non-null  object 
 1   DATA FINAL                     106823 non-null  object 
 2   REGIÃO                         106823 non-null  object 
 3   ESTADO                         106823 non-null  object 
 4   PRODUTO                        106823 non-null  object 
 5   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 6   UNIDADE DE MEDIDA              106823 non-null  object 
 7   PREÇO MÉDIO REVENDA            106823 non-null  float64
 8   DESVIO PADRÃO REVENDA          106823 non-null  float64
 9   PREÇO MÍNIMO REVENDA           106823 non-null  float64
 10  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 11  MARGEM MÉDIA REVENDA           106823 non-null  object 
 12  COEF DE VARIAÇÃO REVENDA      

De um total de 106823 observações, **não há valores null** / nan para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: P. ex., "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente algumas amostras têm um string ao invés de um número para tais atributos. <br/>

Os atributos *"DATA INICIAL"* e *"DATA FINAL"* deveriam ser do tipo `datetime`.

Em outros casos, alguns **atributos categóricos** são ```objects```, mas poderiam ter o tipo ```category```, que é um tipo especial do pandas. <br/>
Este tipo é necessário para se utilizar algumas funções específicas do pandas. <br/>
**Não** converteremos para este tipo por ora.

In [113]:
data_pre = data.copy()

#### **Datas**
Como os atributos de data do dataset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

In [114]:
data_pre['DATA INICIAL'] = pd.to_datetime(data_pre['DATA INICIAL'])

In [115]:
data_pre['DATA FINAL'] = pd.to_datetime(data_pre['DATA FINAL'])

In [116]:
data_pre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 23 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   106823 non-null  datetime64[ns]
 1   DATA FINAL                     106823 non-null  datetime64[ns]
 2   REGIÃO                         106823 non-null  object        
 3   ESTADO                         106823 non-null  object        
 4   PRODUTO                        106823 non-null  object        
 5   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64         
 6   UNIDADE DE MEDIDA              106823 non-null  object        
 7   PREÇO MÉDIO REVENDA            106823 non-null  float64       
 8   DESVIO PADRÃO REVENDA          106823 non-null  float64       
 9   PREÇO MÍNIMO REVENDA           106823 non-null  float64       
 10  PREÇO MÁXIMO REVENDA           106823 non-null  float64       
 11  

#### **Dados Numéricos**

In [117]:
# criando uma lista com o nome de todas as colunas que irei fazer a conversão
# e depois passando o valor da lista (nome das colunas) para converter todas de uma vez

In [118]:
for atributo in ['MARGEM MÉDIA REVENDA','PREÇO MÉDIO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO', 'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO']:
    data_pre[atributo] = pd.to_numeric(data_pre[atributo], errors='coerce')
#   converte as colunas com o valor de 'atributo' para numeric e com o parâmetro 'errors' executa uma determinada ...
#   ação em caso de algum erro de conversão, que nesse caso é 'coerce', que basicamente pega um valor que não representa ...
#   um número (string) e converte para um valor vazio (null / nan)

In [119]:
data_pre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 23 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   106823 non-null  datetime64[ns]
 1   DATA FINAL                     106823 non-null  datetime64[ns]
 2   REGIÃO                         106823 non-null  object        
 3   ESTADO                         106823 non-null  object        
 4   PRODUTO                        106823 non-null  object        
 5   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64         
 6   UNIDADE DE MEDIDA              106823 non-null  object        
 7   PREÇO MÉDIO REVENDA            106823 non-null  float64       
 8   DESVIO PADRÃO REVENDA          106823 non-null  float64       
 9   PREÇO MÍNIMO REVENDA           106823 non-null  float64       
 10  PREÇO MÁXIMO REVENDA           106823 non-null  float64       
 11  

<br/>

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

In [120]:
mask = data_pre['PREÇO MÉDIO DISTRIBUIÇÃO'].isnull()
data_pre[mask]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
1903,2005-09-25,2005-10-01,NORTE,PARA,ETANOL HIDRATADO,2,R$/l,1.694,0.283,1.690,...,,,,,,9,2005,Default,1903,9.1476
1958,2005-10-09,2005-10-15,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.000,0.000,2.000,...,,,,,,10,2005,Default,1958,10.8000
2012,2005-10-23,2005-10-29,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.277,0.023,2.250,...,,,,,,10,2005,Default,2012,12.2958
2497,2006-02-26,2006-03-04,NORTE,RORAIMA,ETANOL HIDRATADO,11,R$/l,2.182,0.040,2.100,...,,,,,,2,2006,Default,2497,11.7828
3199,2006-08-27,2006-09-02,NORTE,RORAIMA,ETANOL HIDRATADO,22,R$/l,2.285,0.068,1.980,...,,,,,,8,2006,Default,3199,12.3390
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106664,2019-06-16,2019-06-22,SUDESTE,MINAS GERAIS,GNV,5,R$/m3,3.445,0.147,3.347,...,,,,,,6,2019,Default,106664,18.6030
106666,2019-06-16,2019-06-22,SUL,PARANA,GNV,7,R$/m3,3.132,0.295,3.049,...,,,,,,6,2019,Default,106666,16.9128
106811,2019-06-23,2019-06-29,SUDESTE,ESPIRITO SANTO,GNV,4,R$/m3,3.299,0.005,3.290,...,,,,,,6,2019,Default,106811,17.8146
106813,2019-06-23,2019-06-29,SUDESTE,MINAS GERAIS,GNV,6,R$/m3,3.548,0.100,3.495,...,,,,,,6,2019,Default,106813,19.1592


In [121]:
data[mask]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
1903,2005-09-25,2005-10-01,NORTE,PARA,ETANOL HIDRATADO,2,R$/l,1.694,0.283,1.690,...,-,-,-,-,-,9,2005,Default,1903,9.1476
1958,2005-10-09,2005-10-15,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.000,0.000,2.000,...,-,-,-,-,-,10,2005,Default,1958,10.8000
2012,2005-10-23,2005-10-29,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.277,0.023,2.250,...,-,-,-,-,-,10,2005,Default,2012,12.2958
2497,2006-02-26,2006-03-04,NORTE,RORAIMA,ETANOL HIDRATADO,11,R$/l,2.182,0.040,2.100,...,-,-,-,-,-,2,2006,Default,2497,11.7828
3199,2006-08-27,2006-09-02,NORTE,RORAIMA,ETANOL HIDRATADO,22,R$/l,2.285,0.068,1.980,...,-,-,-,-,-,8,2006,Default,3199,12.3390
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106664,2019-06-16,2019-06-22,SUDESTE,MINAS GERAIS,GNV,5,R$/m3,3.445,0.147,3.347,...,-,-,-,-,-,6,2019,Default,106664,18.6030
106666,2019-06-16,2019-06-22,SUL,PARANA,GNV,7,R$/m3,3.132,0.295,3.049,...,-,-,-,-,-,6,2019,Default,106666,16.9128
106811,2019-06-23,2019-06-29,SUDESTE,ESPIRITO SANTO,GNV,4,R$/m3,3.299,0.005,3.290,...,-,-,-,-,-,6,2019,Default,106811,17.8146
106813,2019-06-23,2019-06-29,SUDESTE,MINAS GERAIS,GNV,6,R$/m3,3.548,0.100,3.495,...,-,-,-,-,-,6,2019,Default,106813,19.1592


Várias amostras possuem a _string '-'_ em algumas colunas ao invés de um número de fato. Ou seja, não há aferições destes atributos para estas amostras. <br/>

<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

In [122]:
# retorna uma copia do dataframe com todos os valores nan de todas as colunas, com valor de '0', conforme o métudo fillna
data_pre_fill = data_pre.fillna(0)
data_pre_fill

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,...,0.825,0.110,0.4201,0.96660,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,...,0.763,0.088,0.5013,1.05000,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,...,0.970,0.095,0.5614,1.16100,0.098,5,2004,Default,2,7.5006
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,...,0.830,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,...,0.941,0.077,0.7441,1.03170,0.082,5,2004,Default,4,6.3774
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,3.499,...,2.756,0.000,2.7560,2.75600,0.000,6,2019,Default,106818,19.2996
106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,3.230,...,2.451,0.402,1.9842,2.86610,0.164,6,2019,Default,106819,18.3654
106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,2.699,...,1.998,0.000,1.9981,1.99810,0.000,6,2019,Default,106820,15.7248
106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,2.699,...,2.374,0.165,2.0179,2.50930,0.070,6,2019,Default,106821,16.3080


In [123]:
data_pre_fill[mask]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
1903,2005-09-25,2005-10-01,NORTE,PARA,ETANOL HIDRATADO,2,R$/l,1.694,0.283,1.690,...,0.0,0.0,0.0,0.0,0.0,9,2005,Default,1903,9.1476
1958,2005-10-09,2005-10-15,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.000,0.000,2.000,...,0.0,0.0,0.0,0.0,0.0,10,2005,Default,1958,10.8000
2012,2005-10-23,2005-10-29,NORTE,RORAIMA,ETANOL HIDRATADO,3,R$/l,2.277,0.023,2.250,...,0.0,0.0,0.0,0.0,0.0,10,2005,Default,2012,12.2958
2497,2006-02-26,2006-03-04,NORTE,RORAIMA,ETANOL HIDRATADO,11,R$/l,2.182,0.040,2.100,...,0.0,0.0,0.0,0.0,0.0,2,2006,Default,2497,11.7828
3199,2006-08-27,2006-09-02,NORTE,RORAIMA,ETANOL HIDRATADO,22,R$/l,2.285,0.068,1.980,...,0.0,0.0,0.0,0.0,0.0,8,2006,Default,3199,12.3390
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106664,2019-06-16,2019-06-22,SUDESTE,MINAS GERAIS,GNV,5,R$/m3,3.445,0.147,3.347,...,0.0,0.0,0.0,0.0,0.0,6,2019,Default,106664,18.6030
106666,2019-06-16,2019-06-22,SUL,PARANA,GNV,7,R$/m3,3.132,0.295,3.049,...,0.0,0.0,0.0,0.0,0.0,6,2019,Default,106666,16.9128
106811,2019-06-23,2019-06-29,SUDESTE,ESPIRITO SANTO,GNV,4,R$/m3,3.299,0.005,3.290,...,0.0,0.0,0.0,0.0,0.0,6,2019,Default,106811,17.8146
106813,2019-06-23,2019-06-29,SUDESTE,MINAS GERAIS,GNV,6,R$/m3,3.548,0.100,3.495,...,0.0,0.0,0.0,0.0,0.0,6,2019,Default,106813,19.1592


<br/>

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO DISTRIBUIÇÃO'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

In [124]:
# remove todos os valores Nan que estão contidos no dataframe
data_pre.dropna(inplace=True)

In [125]:
data_pre.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 103392 entries, 0 to 106822
Data columns (total 23 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   103392 non-null  datetime64[ns]
 1   DATA FINAL                     103392 non-null  datetime64[ns]
 2   REGIÃO                         103392 non-null  object        
 3   ESTADO                         103392 non-null  object        
 4   PRODUTO                        103392 non-null  object        
 5   NÚMERO DE POSTOS PESQUISADOS   103392 non-null  int64         
 6   UNIDADE DE MEDIDA              103392 non-null  object        
 7   PREÇO MÉDIO REVENDA            103392 non-null  float64       
 8   DESVIO PADRÃO REVENDA          103392 non-null  float64       
 9   PREÇO MÍNIMO REVENDA           103392 non-null  float64       
 10  PREÇO MÁXIMO REVENDA           103392 non-null  float64       
 11  

Nosso data frame agora, após essa _limpeza_, ficou mais enxuto, contentdo 103392 registros frente aos 106823 registros originais. <br/>

Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias, p. ex., **confiam na detecção de outliers**, que não veremos neste curso.

#### **Salvando o Dataset Preprocessado**

In [126]:
data_pre.to_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado_final.csv', index=False)

<h2>3. Estatísticas Descritivas</h2>
<hr/>

O Pandas fornecem algumas funções/métodos ue computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

In [127]:
data_final = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado_final.csv')

In [128]:
data_final.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006


<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

In [129]:
data_final.describe()

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
count,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0
mean,240.511935,10.784472,0.652589,9.334931,12.458686,2.225151,0.045749,8.559322,0.559441,7.414814,9.805621,0.04664,6.485067,2011.737001,52973.958682,58.236151
std,408.039174,17.685852,1.346422,15.024383,20.80119,4.375085,0.024488,13.603686,1.256914,11.681366,15.933999,0.042114,3.442155,4.410491,30968.2615,95.503599
min,1.0,0.766,0.0,0.59,0.999,0.001,0.0,0.506,0.0,0.3257,0.5992,0.0,1.0,2004.0,0.0,4.1364
25%,47.0,2.073,0.073,1.9,2.33,0.282,0.03,1.795,0.047,1.6744,1.9456,0.021,4.0,2008.0,25964.75,11.1942
50%,108.0,2.723,0.115,2.509,3.0,0.383,0.042,2.335,0.077,2.22,2.50705,0.031,6.0,2012.0,52661.5,14.7042
75%,251.0,3.745,0.19,3.49,4.15,0.56,0.058,3.307,0.151,3.1428,3.52,0.061,9.0,2016.0,79918.25,20.223
max,4167.0,99.357,10.748,90.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.78,12.0,2019.0,106822.0,536.5278


In [130]:
# para descobrir apenas as estátisticas descritivas de uma coluna em específico

data_final.describe()['PREÇO MÉDIO REVENDA']

count    103392.000000
mean         10.784472
std          17.685852
min           0.766000
25%           2.073000
50%           2.723000
75%           3.745000
max          99.357000
Name: PREÇO MÉDIO REVENDA, dtype: float64

In [131]:
# salvando em um novo dataframe 'stats' com todas as estatísticas produzidas

stats = data_final.describe()

In [132]:
stats.head(4)

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
count,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0,103392.0
mean,240.511935,10.784472,0.652589,9.334931,12.458686,2.225151,0.045749,8.559322,0.559441,7.414814,9.805621,0.04664,6.485067,2011.737001,52973.958682,58.236151
std,408.039174,17.685852,1.346422,15.024383,20.80119,4.375085,0.024488,13.603686,1.256914,11.681366,15.933999,0.042114,3.442155,4.410491,30968.2615,95.503599
min,1.0,0.766,0.0,0.59,0.999,0.001,0.0,0.506,0.0,0.3257,0.5992,0.0,1.0,2004.0,0.0,4.1364


In [133]:
# mostrando algumas colunas, fazendo uma lista com os nomes das listas

stats[['PREÇO MÉDIO REVENDA', 'PREÇO MÍNIMO REVENDA', 'PREÇO MÁXIMO REVENDA']]

Unnamed: 0,PREÇO MÉDIO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA
count,103392.0,103392.0,103392.0
mean,10.784472,9.334931,12.458686
std,17.685852,15.024383,20.80119
min,0.766,0.59,0.999
25%,2.073,1.9,2.33
50%,2.723,2.509,3.0
75%,3.745,3.49,4.15
max,99.357,90.0,120.0


In [134]:
# ou...

nomes = ['PREÇO MÉDIO REVENDA', 'PREÇO MÍNIMO REVENDA', 'PREÇO MÁXIMO REVENDA']
stats[(nomes)]

Unnamed: 0,PREÇO MÉDIO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA
count,103392.0,103392.0,103392.0
mean,10.784472,9.334931,12.458686
std,17.685852,15.024383,20.80119
min,0.766,0.59,0.999
25%,2.073,1.9,2.33
50%,2.723,2.509,3.0
75%,3.745,3.49,4.15
max,99.357,90.0,120.0


**Acessando apenas algumas estatísticas**

In [135]:
# usando loc para acessar estatísticas de índices rotulados, como: "mean", "min" e "max" da função 'describe()'
# dentro da coluna 'PREÇO MÉDIO REVENDA'

stats.loc[['min', 'max', 'mean'], 'PREÇO MÉDIO REVENDA']

# é necessário usar a função "LOC[]", porque estamos em buscas de índices rotulados e não númericos.

min      0.766000
max     99.357000
mean    10.784472
Name: PREÇO MÉDIO REVENDA, dtype: float64

In [136]:
stats.loc[['min', 'max']]

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
min,1.0,0.766,0.0,0.59,0.999,0.001,0.0,0.506,0.0,0.3257,0.5992,0.0,1.0,2004.0,0.0,4.1364
max,4167.0,99.357,10.748,90.0,120.0,36.847,0.262,83.137,18.385,83.0,94.5,0.78,12.0,2019.0,106822.0,536.5278


<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

In [137]:
data_final.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,...,0.763,0.088,0.5013,1.05,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,...,0.97,0.095,0.5614,1.161,0.098,5,2004,Default,2,7.5006
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4,6.3774


#### Qual é o menor preço mínimo de revenda?

In [138]:
print(data_final['PREÇO MÍNIMO REVENDA'].min())
print(data_final['PREÇO MÍNIMO REVENDA'].mean())

0.59
9.334930555555555


#### Qual é a média e desvio padrão dos preços mínimos de revenda?

In [139]:
media = data_final['PREÇO MÍNIMO REVENDA'].mean()
dv = data_final['PREÇO MÍNIMO REVENDA'].std()

print(f'Média: {media: .2f}\nDesvio Padrão: {dv: .2f}')

Média:  9.33
Desvio Padrão:  15.02


#### Quais são os estados considerados?

In [140]:
# para saber quais são todos os estados presentes dentro da coluna 'ESTADO', utilizaremos a função
# 'unique()'. Ela retorna todos os valores únicos dentro da coluna, na prática...

data_final['ESTADO'].unique()

array(['DISTRITO FEDERAL', 'GOIAS', 'MATO GROSSO', 'MATO GROSSO DO SUL',
       'ALAGOAS', 'BAHIA', 'CEARA', 'MARANHAO', 'PARAIBA', 'PERNAMBUCO',
       'PIAUI', 'RIO GRANDE DO NORTE', 'SERGIPE', 'ACRE', 'AMAPA',
       'AMAZONAS', 'PARA', 'RONDONIA', 'RORAIMA', 'TOCANTINS',
       'ESPIRITO SANTO', 'MINAS GERAIS', 'RIO DE JANEIRO', 'SAO PAULO',
       'PARANA', 'RIO GRANDE DO SUL', 'SANTA CATARINA'], dtype=object)

In [141]:
# mostrar os valores ordenados através do método 'sorted', o método sorted retorna uma cópia de lista ordenana, e não
# modifica a lista original. Para números, ele organiza do < para o >. Em objects ou strings, ele organiza
# do A-Z, em ordem Alfabética.

sorted(data_final['ESTADO'].unique())

['ACRE',
 'ALAGOAS',
 'AMAPA',
 'AMAZONAS',
 'BAHIA',
 'CEARA',
 'DISTRITO FEDERAL',
 'ESPIRITO SANTO',
 'GOIAS',
 'MARANHAO',
 'MATO GROSSO',
 'MATO GROSSO DO SUL',
 'MINAS GERAIS',
 'PARA',
 'PARAIBA',
 'PARANA',
 'PERNAMBUCO',
 'PIAUI',
 'RIO DE JANEIRO',
 'RIO GRANDE DO NORTE',
 'RIO GRANDE DO SUL',
 'RONDONIA',
 'RORAIMA',
 'SANTA CATARINA',
 'SAO PAULO',
 'SERGIPE',
 'TOCANTINS']

#### Quantos registros (aferições) cada estado possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).

In [142]:
data_final['ESTADO'].value_counts() # retorna uma series contendo a frequência dos valores em ordem crescente

BAHIA                  4263
RIO DE JANEIRO         4262
SAO PAULO              4261
RIO GRANDE DO SUL      4249
PARAIBA                4240
PERNAMBUCO             4236
SERGIPE                4202
SANTA CATARINA         4164
MINAS GERAIS           4142
ESPIRITO SANTO         4079
MATO GROSSO DO SUL     4076
ALAGOAS                4020
RIO GRANDE DO NORTE    3999
CEARA                  3964
PARANA                 3902
AMAZONAS               3713
MATO GROSSO            3703
PARA                   3477
MARANHAO               3470
ACRE                   3463
RORAIMA                3457
TOCANTINS              3453
GOIAS                  3449
RONDONIA               3441
PIAUI                  3394
DISTRITO FEDERAL       3317
AMAPA                  2996
Name: ESTADO, dtype: int64

In [143]:
data_final['ESTADO'].value_counts().to_frame() # para transformar essa series em um dataframe

Unnamed: 0,ESTADO
BAHIA,4263
RIO DE JANEIRO,4262
SAO PAULO,4261
RIO GRANDE DO SUL,4249
PARAIBA,4240
PERNAMBUCO,4236
SERGIPE,4202
SANTA CATARINA,4164
MINAS GERAIS,4142
ESPIRITO SANTO,4079


<h2>4. Executando funções para cada item de um DataFrame ou Series</h2>
<hr/>

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".


<img src='./imagens/apply_map_applymap.png' width=300/>


Fonte: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff

In [144]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])

In [145]:
df

Unnamed: 0,A,B,C
Linha 1,1,10,100
Linha 2,2,20,200
Linha 3,3,30,300
Linha 4,4,40,400


`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='./imagens/pandas_axis.jpg' width=500/>

Fonte: https://www.allthesnippets.com/browse/pandas/df_axis.html

In [146]:
def nossa_soma(linha):
    return linha.sum() # retornar a soma de todos os valores desta linha

In [147]:
df[f'SOMA (A, B, C)'] = df.apply(nossa_soma, axis=1)

df

Unnamed: 0,A,B,C,"SOMA (A, B, C)"
Linha 1,1,10,100,111
Linha 2,2,20,200,222
Linha 3,3,30,300,333
Linha 4,4,40,400,444


<img src='./imagens/apply_axis_1.png' width=250/>

In [148]:
df.loc['Linha 5'] = df.apply(nossa_soma, axis=0)
df

Unnamed: 0,A,B,C,"SOMA (A, B, C)"
Linha 1,1,10,100,111
Linha 2,2,20,200,222
Linha 3,3,30,300,333
Linha 4,4,40,400,444
Linha 5,10,100,1000,1110


<img src='./imagens/apply_axis_0.png' width=250/>

##### Usando `lambda` functions

In [149]:
df['MEDIA(A, B, C)']= df[['A', 'B', 'C']].apply(lambda series: series.mean(), axis=1)
df

Unnamed: 0,A,B,C,"SOMA (A, B, C)","MEDIA(A, B, C)"
Linha 1,1,10,100,111,37.0
Linha 2,2,20,200,222,74.0
Linha 3,3,30,300,333,111.0
Linha 4,4,40,400,444,148.0
Linha 5,10,100,1000,1110,370.0


<img src='./imagens/apply_axis_1_mean.png' width=350/>

In [150]:
df['C * 2'] = df['C'].apply(lambda x: x * 2)
df

Unnamed: 0,A,B,C,"SOMA (A, B, C)","MEDIA(A, B, C)",C * 2
Linha 1,1,10,100,111,37.0,200
Linha 2,2,20,200,222,74.0,400
Linha 3,3,30,300,333,111.0,600
Linha 4,4,40,400,444,148.0,800
Linha 5,10,100,1000,1110,370.0,2000


In [151]:
df['A * 2'] = df['A'] * 2
df

Unnamed: 0,A,B,C,"SOMA (A, B, C)","MEDIA(A, B, C)",C * 2,A * 2
Linha 1,1,10,100,111,37.0,200,2
Linha 2,2,20,200,222,74.0,400,4
Linha 3,3,30,300,333,111.0,600,6
Linha 4,4,40,400,444,148.0,800,8
Linha 5,10,100,1000,1110,370.0,2000,20


In [152]:
df['A * C / B'] = (df['A'] * df['C'] / df['B'])
df

Unnamed: 0,A,B,C,"SOMA (A, B, C)","MEDIA(A, B, C)",C * 2,A * 2,A * C / B
Linha 1,1,10,100,111,37.0,200,2,10.0
Linha 2,2,20,200,222,74.0,400,4,20.0
Linha 3,3,30,300,333,111.0,600,6,30.0
Linha 4,4,40,400,444,148.0,800,8,40.0
Linha 5,10,100,1000,1110,370.0,2000,20,100.0


<br/>

`applymap()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de um DataFrame.

In [153]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])
df

Unnamed: 0,A,B,C
Linha 1,1,10,100
Linha 2,2,20,200
Linha 3,3,30,300
Linha 4,4,40,400


In [154]:
df.applymap(lambda x: x ** 2)

Unnamed: 0,A,B,C
Linha 1,1,100,10000
Linha 2,4,400,40000
Linha 3,9,900,90000
Linha 4,16,1600,160000


<br/>

`map()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de uma _Series_.

In [155]:
nomes = pd.Series(['Sabrina', 'Marlon', 'Nicolas', 'Eliana'])
nomes

0    Sabrina
1     Marlon
2    Nicolas
3     Eliana
dtype: object

In [156]:
nomes.map(lambda x: x.upper())

0    SABRINA
1     MARLON
2    NICOLAS
3     ELIANA
dtype: object

In [157]:
nomes.str.lower()

0    sabrina
1     marlon
2    nicolas
3     eliana
dtype: object

<h2>5. Agrupamento</h2>
<hr/>

In [158]:
data_final

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,...,0.825,0.110,0.4201,0.96660,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,...,0.763,0.088,0.5013,1.05000,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,...,0.970,0.095,0.5614,1.16100,0.098,5,2004,Default,2,7.5006
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,...,0.830,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,...,0.941,0.077,0.7441,1.03170,0.082,5,2004,Default,4,6.3774
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
103387,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,3.499,...,2.756,0.000,2.7560,2.75600,0.000,6,2019,Default,106818,19.2996
103388,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,3.230,...,2.451,0.402,1.9842,2.86610,0.164,6,2019,Default,106819,18.3654
103389,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,2.699,...,1.998,0.000,1.9981,1.99810,0.000,6,2019,Default,106820,15.7248
103390,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,2.699,...,2.374,0.165,2.0179,2.50930,0.070,6,2019,Default,106821,16.3080


`groupby`: Usado para criar **grupo de elementos** (e.x., baseado nos valores de um atributo). <br/>
**Funções** podem então ser aplicadas para os _elementos de cada grupo_, de modo que os **resultados de cada grupo são combinados**.

In [159]:
grupos = data_final.groupby('REGIÃO')

In [160]:
grupos.get_group('NORDESTE').head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,Default,4,6.3774
5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,0.999,...,0.957,0.128,0.5686,1.35,0.134,5,2004,Default,5,7.4682
6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,...,1.1,0.068,0.7332,1.294,0.062,5,2004,Default,6,7.8462
7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,1.35,...,1.116,0.091,0.9923,1.36183,0.082,5,2004,Default,7,8.8074
8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,1.1,...,0.931,0.072,0.7577,1.2972,0.077,5,2004,Default,8,6.9336


In [161]:
grupos.describe()

Unnamed: 0_level_0,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,PREÇO MÉDIO REVENDA,...,coluna criada com lista,coluna criada com lista,PRECO MEDIO REVENDA (Dólar),PRECO MEDIO REVENDA (Dólar),PRECO MEDIO REVENDA (Dólar),PRECO MEDIO REVENDA (Dólar),PRECO MEDIO REVENDA (Dólar),PRECO MEDIO REVENDA (Dólar),PRECO MEDIO REVENDA (Dólar),PRECO MEDIO REVENDA (Dólar)
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
REGIÃO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
CENTRO OESTE,14545.0,144.898453,105.69934,1.0,80.0,128.0,192.0,766.0,14545.0,12.299706,...,80299.0,106812.0,14545.0,66.418415,107.734172,5.9238,11.4156,15.1794,20.8494,536.5278
NORDESTE,35788.0,124.721834,113.110808,1.0,41.0,95.0,169.0,625.0,35788.0,9.558746,...,79910.5,106822.0,35788.0,51.617229,86.339781,5.265,10.6974,14.1696,19.332,430.002
NORTE,24000.0,67.835958,52.961342,1.0,31.0,53.0,95.0,383.0,24000.0,12.633086,...,80343.5,106807.0,24000.0,68.218665,106.044398,6.6204,12.8628,16.1838,22.8474,471.258
SUDESTE,16744.0,726.068024,787.588935,1.0,168.0,412.0,996.0,4167.0,16744.0,9.828218,...,79401.5,106821.0,16744.0,53.072378,87.938713,4.1364,10.1358,13.7889,19.2915,427.6368
SUL,12315.0,366.266423,233.276285,1.0,188.0,368.0,563.0,1416.0,12315.0,10.254388,...,79332.5,106820.0,12315.0,55.373693,91.280937,4.9788,10.746,14.0238,19.1862,389.2752


In [162]:
grupos.mean()

  grupos.mean()


Unnamed: 0_level_0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
REGIÃO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
CENTRO OESTE,144.898453,12.299706,0.695078,10.610077,13.993156,2.438077,0.042077,9.861629,0.692259,8.511186,11.130478,0.039288,6.483396,2011.773599,52794.848127,66.418415
NORDESTE,124.721834,9.558746,0.55223,8.375173,10.788018,2.069198,0.041247,7.489549,0.514093,6.563284,8.461956,0.047887,6.487845,2011.704454,53022.749022,51.617229
NORTE,67.835958,12.633086,0.718957,11.410176,14.448137,2.221746,0.04748,10.41134,0.442566,9.505328,11.314534,0.034485,6.488458,2011.812083,52735.865958,68.218665
SUDESTE,726.068024,9.828218,0.678608,7.966396,11.894671,2.335709,0.055126,7.492509,0.585445,6.00072,9.330476,0.060778,6.481844,2011.707895,53281.350334,53.072378
SUL,366.266423,10.254388,0.729338,8.434376,12.391134,2.283191,0.047045,7.971197,0.726774,6.443075,9.851008,0.056162,6.476736,2011.681608,53089.777913,55.373693


<br/>

Também podemos ter agrupamentos por mais de um atributo.

In [163]:
grupos = data_final.groupby(['REGIÃO', 'PRODUTO'])

In [164]:
grupos.mean()

  grupos.mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
REGIÃO,PRODUTO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
CENTRO OESTE,ETANOL HIDRATADO,155.514414,2.13567,0.111992,1.926522,2.433303,0.334742,0.055679,1.800927,0.082278,1.629448,2.009326,0.049851,6.507047,2011.434017,38483.494234,11.532617
CENTRO OESTE,GASOLINA COMUM,155.447352,3.077476,0.104105,2.866732,3.338657,0.413081,0.033634,2.664395,0.057165,2.553451,2.824949,0.021549,6.507658,2011.430759,45307.328334,16.618372
CENTRO OESTE,GLP,202.113944,48.176747,2.911219,40.936969,55.244748,10.144382,0.057783,38.032365,3.024617,32.142998,43.451689,0.076607,6.490962,2011.428341,52223.154616,260.154432
CENTRO OESTE,GNV,3.75915,1.856312,0.032635,1.824489,1.885087,0.467869,0.01615,1.388443,0.020891,1.370323,1.407466,0.014126,6.408501,2010.829988,53688.927981,10.024083
CENTRO OESTE,ÓLEO DIESEL,131.940332,2.481286,0.08154,2.310497,2.686205,0.269293,0.032117,2.211993,0.049874,2.106889,2.323683,0.021995,6.507658,2011.430759,63205.485322,13.398946
CENTRO OESTE,ÓLEO DIESEL S10,76.054545,3.294752,0.108976,3.070625,3.559399,0.375726,0.032577,2.919026,0.073233,2.779236,3.04002,0.024829,6.329752,2015.970248,82987.259504,17.791661
NORDESTE,ETANOL HIDRATADO,154.14377,2.320266,0.115449,2.099488,2.654045,0.300006,0.052053,2.02026,0.090895,1.79999,2.229782,0.04683,6.505819,2011.421516,38298.875958,12.529434
NORDESTE,GASOLINA COMUM,174.051678,3.001887,0.108104,2.780405,3.277436,0.400337,0.036357,2.60155,0.056139,2.487578,2.764345,0.021565,6.501062,2011.431262,45299.113408,16.210192
NORDESTE,GLP,127.294072,41.96609,2.667713,36.14214,47.701105,9.95184,0.060451,32.01425,2.527986,27.493395,36.713845,0.076961,6.517317,2011.185335,50884.853978,226.616884
NORDESTE,GNV,17.498068,1.881722,0.061486,1.82066,2.038715,0.517594,0.032138,1.364128,0.11969,1.215388,1.522437,0.098374,6.49034,2011.103168,55782.423493,10.161301


In [165]:
grupos['PREÇO MÉDIO REVENDA'].mean()

REGIÃO        PRODUTO         
CENTRO OESTE  ETANOL HIDRATADO     2.135670
              GASOLINA COMUM       3.077476
              GLP                 48.176747
              GNV                  1.856312
              ÓLEO DIESEL          2.481286
              ÓLEO DIESEL S10      3.294752
NORDESTE      ETANOL HIDRATADO     2.320266
              GASOLINA COMUM       3.001887
              GLP                 41.966090
              GNV                  1.881722
              ÓLEO DIESEL          2.346950
              ÓLEO DIESEL S10      3.041966
NORTE         ETANOL HIDRATADO     2.511624
              GASOLINA COMUM       3.149501
              GLP                 47.065572
              GNV                  2.084399
              ÓLEO DIESEL          2.571048
              ÓLEO DIESEL S10      3.316231
SUDESTE       ETANOL HIDRATADO     2.163621
              GASOLINA COMUM       3.000565
              GLP                 42.081544
              GNV                  1.716074
 

In [166]:
grupos['PREÇO MÉDIO REVENDA'].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
REGIÃO,PRODUTO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
CENTRO OESTE,ETANOL HIDRATADO,3122.0,2.13567,0.561465,1.162,1.714,2.0005,2.479,3.598
CENTRO OESTE,GASOLINA COMUM,3134.0,3.077476,0.61529,1.936,2.66725,2.8565,3.45975,4.963
CENTRO OESTE,GLP,3098.0,48.176747,15.204045,28.791,37.333,42.8385,55.90425,99.357
CENTRO OESTE,GNV,847.0,1.856312,0.423861,1.097,1.569,1.749,2.168,3.239
CENTRO OESTE,ÓLEO DIESEL,3134.0,2.481286,0.62693,1.435,2.033,2.2465,3.019,4.162
CENTRO OESTE,ÓLEO DIESEL S10,1210.0,3.294752,0.421234,2.305,2.92425,3.354,3.619,4.2
NORDESTE,ETANOL HIDRATADO,7046.0,2.320266,0.604374,1.181,1.825,2.186,2.67,3.927
NORDESTE,GASOLINA COMUM,7063.0,3.001887,0.640696,1.949,2.584,2.741,3.4245,4.951
NORDESTE,GLP,6410.0,41.96609,12.063743,28.367,33.22875,36.855,48.351,79.63
NORDESTE,GNV,5176.0,1.881722,0.522996,0.975,1.596,1.8005,2.01125,3.811


<br/>

`.agg`: **agrega (roda)** uma série de funções para os elementos de um dataframe ou de grupos de um dataframe.

In [167]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [None, None, None]],
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


In [168]:
df.agg([sum, min])

Unnamed: 0,A,B,C
sum,12.0,15.0,18.0
min,1.0,2.0,3.0


In [169]:
grupo = data_final.groupby('REGIÃO')
grupos

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002D2512915A0>

In [170]:
grupos['PREÇO MÉDIO REVENDA'].agg([min, max])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
REGIÃO,PRODUTO,Unnamed: 2_level_1,Unnamed: 3_level_1
CENTRO OESTE,ETANOL HIDRATADO,1.162,3.598
CENTRO OESTE,GASOLINA COMUM,1.936,4.963
CENTRO OESTE,GLP,28.791,99.357
CENTRO OESTE,GNV,1.097,3.239
CENTRO OESTE,ÓLEO DIESEL,1.435,4.162
CENTRO OESTE,ÓLEO DIESEL S10,2.305,4.2
NORDESTE,ETANOL HIDRATADO,1.181,3.927
NORDESTE,GASOLINA COMUM,1.949,4.951
NORDESTE,GLP,28.367,79.63
NORDESTE,GNV,0.975,3.811


<h2>6. Ordenação</h2>
<hr/>

In [171]:
notas = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Alice'],
    'idade': [20, 21, 19, 20],
    'nota_final': [5.0, 10.0, 6.0, 10.0]
})
notas

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
1,Maria,21,10.0
2,José,19,6.0
3,Alice,20,10.0


`.sort_values()`: ordena valores ao longo de um eixo.

Por padrão, o método retorna uma cópia dos dados ordenados em **ordem crescente (ascendente)**. Podemos alterar isso pelo argumento `ascending`.

In [172]:
notas = notas.sort_values(by='nota_final', ascending=False)
notas = notas.reset_index(drop=True)
notas

Unnamed: 0,nome,idade,nota_final
0,Maria,21,10.0
1,Alice,20,10.0
2,José,19,6.0
3,João,20,5.0


<br/>

Podemos ordenar a partir de **mais de uma coluna**:

In [173]:
notas = notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True])
notas

Unnamed: 0,nome,idade,nota_final
1,Alice,20,10.0
0,Maria,21,10.0
2,José,19,6.0
3,João,20,5.0


Ordena os registros, primeiramente, pela coluna 'nota_final' em **ordem descrente**. <br/>
Então, reordena os registros _"empatados"_, ou seja, com a **mesma nota final**, em _ordem alfabética_ (ordem crescente).

<br/>

Note que o dataframe original **não foi alterado** após a ordenação.

Para alterá-lo, use o argumento `inplace=True`:

<h2>7. Exercícios</h2>
<hr/>

Vamos aplicar os conceitos que vimos em alguns exercícios. <br/>
Para isso, utilizaremos o dataset de _preços de combustíveis no Brasil_.

Como há apenas medições de janeiro a junho para o ano de 2019, resolvemos **remover os dados** deste ano da análise.

In [174]:
data_sep = data_final.query('ANO != 2019')
data_sep

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,...,0.825,0.110,0.4201,0.96660,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,...,0.763,0.088,0.5013,1.05000,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,...,0.970,0.095,0.5614,1.16100,0.098,5,2004,Default,2,7.5006
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,...,0.830,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,...,0.941,0.077,0.7441,1.03170,0.082,5,2004,Default,4,6.3774
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99734,2018-12-30,2019-01-05,SUDESTE,RIO DE JANEIRO,GNV,122,R$/m3,3.080,0.262,2.798,...,2.381,0.161,2.1670,2.86970,0.068,12,2018,Default,103063,16.6320
99735,2018-12-30,2019-01-05,NORDESTE,RIO GRANDE DO NORTE,GNV,10,R$/m3,3.465,0.060,3.370,...,2.706,0.000,2.7059,2.70590,0.000,12,2018,Default,103064,18.7110
99736,2018-12-30,2019-01-05,SUL,RIO GRANDE DO SUL,GNV,16,R$/m3,3.402,0.103,3.199,...,2.106,0.249,1.8775,2.37240,0.118,12,2018,Default,103065,18.3708
99737,2018-12-30,2019-01-05,SUL,SANTA CATARINA,GNV,15,R$/m3,2.944,0.124,2.790,...,2.274,0.283,1.8738,2.27400,0.124,12,2018,Default,103066,15.8976


Note que temos um novo dataframe com 99739 linhas, mas com índices fora desse intervalo. <br/>
Acontece que os registros mantiveram seus índices originais após a query. <br/>

Para resetar os índices de _0 a num_linhas-1_, basta usarmos o método `.reset_index()`. 

In [175]:
data_sep.reset_index()

Unnamed: 0,index,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.110,0.4201,0.96660,0.133,5,2004,Default,0,6.9552
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05000,0.115,5,2004,Default,1,6.2748
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.970,0.095,0.5614,1.16100,0.098,5,2004,Default,2,7.5006
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.830,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.03170,0.082,5,2004,Default,4,6.3774
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99734,99734,2018-12-30,2019-01-05,SUDESTE,RIO DE JANEIRO,GNV,122,R$/m3,3.080,0.262,...,2.381,0.161,2.1670,2.86970,0.068,12,2018,Default,103063,16.6320
99735,99735,2018-12-30,2019-01-05,NORDESTE,RIO GRANDE DO NORTE,GNV,10,R$/m3,3.465,0.060,...,2.706,0.000,2.7059,2.70590,0.000,12,2018,Default,103064,18.7110
99736,99736,2018-12-30,2019-01-05,SUL,RIO GRANDE DO SUL,GNV,16,R$/m3,3.402,0.103,...,2.106,0.249,1.8775,2.37240,0.118,12,2018,Default,103065,18.3708
99737,99737,2018-12-30,2019-01-05,SUL,SANTA CATARINA,GNV,15,R$/m3,2.944,0.124,...,2.274,0.283,1.8738,2.27400,0.124,12,2018,Default,103066,15.8976


Os índices agora foram **resetados**. Porém, os índices antigos se transformaram em _uma nova coluna_ chamada 'index'. <br/>
Para removê-la durante o _reset_, basta passarmos o argumento `drop=True`.

In [176]:
data_sep.reset_index(drop=True)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,...,0.825,0.110,0.4201,0.96660,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,...,0.763,0.088,0.5013,1.05000,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,...,0.970,0.095,0.5614,1.16100,0.098,5,2004,Default,2,7.5006
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,...,0.830,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,...,0.941,0.077,0.7441,1.03170,0.082,5,2004,Default,4,6.3774
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99734,2018-12-30,2019-01-05,SUDESTE,RIO DE JANEIRO,GNV,122,R$/m3,3.080,0.262,2.798,...,2.381,0.161,2.1670,2.86970,0.068,12,2018,Default,103063,16.6320
99735,2018-12-30,2019-01-05,NORDESTE,RIO GRANDE DO NORTE,GNV,10,R$/m3,3.465,0.060,3.370,...,2.706,0.000,2.7059,2.70590,0.000,12,2018,Default,103064,18.7110
99736,2018-12-30,2019-01-05,SUL,RIO GRANDE DO SUL,GNV,16,R$/m3,3.402,0.103,3.199,...,2.106,0.249,1.8775,2.37240,0.118,12,2018,Default,103065,18.3708
99737,2018-12-30,2019-01-05,SUL,SANTA CATARINA,GNV,15,R$/m3,2.944,0.124,2.790,...,2.274,0.283,1.8738,2.27400,0.124,12,2018,Default,103066,15.8976


### 7.1 Qual a proporção de postos pesquisados para cada combustível em cada região

In [177]:
zap = data_final.groupby('REGIÃO')
zap['NÚMERO DE POSTOS PESQUISADOS'].sum()

REGIÃO
CENTRO OESTE     2107548
NORDESTE         4463545
NORTE            1628063
SUDESTE         12157283
SUL              4510571
Name: NÚMERO DE POSTOS PESQUISADOS, dtype: int64

In [178]:
data_final

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,...,0.825,0.110,0.4201,0.96660,0.133,5,2004,Default,0,6.9552
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,...,0.763,0.088,0.5013,1.05000,0.115,5,2004,Default,1,6.2748
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,...,0.970,0.095,0.5614,1.16100,0.098,5,2004,Default,2,7.5006
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,...,0.830,0.119,0.5991,1.22242,0.143,5,2004,Default,3,6.8148
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,...,0.941,0.077,0.7441,1.03170,0.082,5,2004,Default,4,6.3774
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
103387,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,3.499,...,2.756,0.000,2.7560,2.75600,0.000,6,2019,Default,106818,19.2996
103388,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,3.230,...,2.451,0.402,1.9842,2.86610,0.164,6,2019,Default,106819,18.3654
103389,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,2.699,...,1.998,0.000,1.9981,1.99810,0.000,6,2019,Default,106820,15.7248
103390,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,2.699,...,2.374,0.165,2.0179,2.50930,0.070,6,2019,Default,106821,16.3080


### 7.2 Como os preços da Gasolina Comum em São Paulo variaram em 2018?

In [233]:
data_sep = data_final.query('ANO == 2018')
data_sep = data_sep.query("PRODUTO == 'GASOLINA COMUM'")
data_sep = data_sep.query("ESTADO == 'SAO PAULO'")
data_sep

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
92319,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,3.988,0.156,3.499,...,3.577,0.104,2.99,3.951,0.029,1,2018,Default,95351,21.5352
92465,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.002,0.155,3.549,...,3.59,0.102,2.99,3.9014,0.028,1,2018,Default,95502,21.6108
92610,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.006,0.16,3.499,...,3.596,0.102,2.99,3.9014,0.028,1,2018,Default,95654,21.6324
92755,2018-01-28,2018-02-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.019,0.156,3.579,...,3.596,0.107,2.924,3.9537,0.03,1,2018,Default,95806,21.7026
92901,2018-02-04,2018-02-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1646,R$/l,4.004,0.157,3.579,...,3.588,0.102,2.99,3.9537,0.028,2,2018,Default,95958,21.6216
93048,2018-02-11,2018-02-17,SUDESTE,SAO PAULO,GASOLINA COMUM,1640,R$/l,4.014,0.153,3.499,...,3.57,0.097,2.99,3.8899,0.027,2,2018,Default,96109,21.6756
93192,2018-02-18,2018-02-24,SUDESTE,SAO PAULO,GASOLINA COMUM,1637,R$/l,4.008,0.161,3.559,...,3.563,0.097,2.99,3.891,0.027,2,2018,Default,96259,21.6432
93339,2018-02-25,2018-03-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1638,R$/l,3.992,0.164,3.479,...,3.57,0.106,2.99,3.9549,0.03,2,2018,Default,96411,21.5568
93487,2018-03-04,2018-03-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1637,R$/l,3.97,0.161,3.479,...,3.583,0.11,2.99,4.0687,0.031,3,2018,Default,96563,21.438
93634,2018-03-11,2018-03-17,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.003,0.155,3.499,...,3.593,0.104,2.99,4.259,0.029,3,2018,Default,96715,21.6162


#### **Estatísticas Descritivas**

In [234]:
data_sep.describe()

Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
count,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0
mean,1610.211538,4.202769,0.1755,3.6715,4.97575,0.442481,0.04175,3.760288,0.109654,3.31295,4.139454,0.029096,6.615385,2018.0,99196.096154,22.694954
std,213.627432,0.180672,0.017955,0.163808,0.211198,0.063271,0.003965,0.163664,0.010712,0.26684,0.195897,0.00246,3.470627,0.0,2279.595314,0.975629
min,102.0,3.97,0.15,3.369,4.499,0.366,0.034,3.563,0.087,2.924,3.8875,0.023,1.0,2018.0,95351.0,21.438
25%,1639.0,4.008,0.15975,3.499,4.899,0.4045,0.039,3.62025,0.102,2.99,3.965775,0.028,4.0,2018.0,97281.25,21.6432
50%,1642.0,4.202,0.173,3.679,4.999,0.4215,0.04,3.7565,0.108,3.35,4.0955,0.029,7.0,2018.0,99196.5,22.6908
75%,1644.0,4.33625,0.189,3.784,5.099,0.47025,0.044,3.86225,0.11625,3.5325,4.259,0.03,9.25,2018.0,101116.25,23.41575
max,1649.0,4.512,0.216,3.969,5.299,0.64,0.051,4.085,0.144,3.76,4.551,0.037,12.0,2018.0,103025.0,24.3648


### 7.3 Como os preços da Gasolina Comum e do Etanol em São Paulo variaram em 2018?

In [236]:
data_sep = data_final.query("PRODUTO == 'GASOLINA COMUM' | PRODUTO == 'ETANOL HIDRATADO'")
data_sep = data_sep.query("ESTADO == 'SAO PAULO' & ANO == 2018")
data_sep

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,COLUNA NOVA,coluna criada com lista,PRECO MEDIO REVENDA (Dólar)
92238,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1664,R$/l,2.833,0.139,2.449,...,2.495,0.092,2.1842,2.8833,0.037,1,2018,Default,95270,15.2982
92319,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,3.988,0.156,3.499,...,3.577,0.104,2.9900,3.9510,0.029,1,2018,Default,95351,21.5352
92384,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1661,R$/l,2.868,0.134,2.399,...,2.537,0.087,2.2600,2.8471,0.034,1,2018,Default,95421,15.4872
92465,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.002,0.155,3.549,...,3.590,0.102,2.9900,3.9014,0.028,1,2018,Default,95502,21.6108
92529,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1662,R$/l,2.874,0.135,2.399,...,2.550,0.095,1.6900,2.9722,0.037,1,2018,Default,95573,15.5196
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99410,2018-12-16,2018-12-22,SUDESTE,SAO PAULO,GASOLINA COMUM,1637,R$/l,4.129,0.201,3.699,...,3.639,0.110,3.3500,3.9892,0.030,12,2018,Default,102724,22.2966
99472,2018-12-23,2018-12-29,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1662,R$/l,2.644,0.163,2.149,...,2.339,0.094,2.0067,2.7443,0.040,12,2018,Default,102793,14.2776
99553,2018-12-23,2018-12-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,4.129,0.201,3.699,...,3.645,0.107,3.3500,3.9892,0.029,12,2018,Default,102874,22.2966
99617,2018-12-30,2019-01-05,SUDESTE,SAO PAULO,ETANOL HIDRATADO,1661,R$/l,2.643,0.161,2.259,...,2.340,0.097,1.9072,2.7957,0.041,12,2018,Default,102944,14.2722


<h2>8. Assuntos para continuar os estudos</h2>
<hr/>

- join
- concat
- plot
- data cleaning