## **Pandas Essencial**
**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)** <br/>
xavecoding: https://youtube.com/c/xavecoding <br/>

Neste tutorial, vamos aprender o essencial da biblioteca _Pandas_ para manipulação de dados.<br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

### Pacotes usados neste Notebook

In [153]:
# pacotes usados neste notebook
import pandas as pd

<h1>Manipulação de Dados com Pandas</h1><hr/>

<h2>1. Manipulação Básica de Datasets</h2>
<hr/>

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**. <br/>
Cada *observação (registro/linha)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o _pandas_ consiga abrí-lo normalmente, convertemos tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento.

### 1.1. Importando o Dataset
Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [154]:
data = pd.read_csv('./GasPricesinBrazil_2004-2019.csv', sep=';')

In [155]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era ';' e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [156]:
data = pd.read_csv('./GasPricesinBrazil_2004-2019.csv', sep=';')

In [157]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [158]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [159]:
data.head(10)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,...,2.0,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004


### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [160]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 21 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Unnamed: 0                     106823 non-null  int64  
 1   DATA INICIAL                   106823 non-null  object 
 2   DATA FINAL                     106823 non-null  object 
 3   REGIÃO                         106823 non-null  object 
 4   ESTADO                         106823 non-null  object 
 5   PRODUTO                        106823 non-null  object 
 6   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 7   UNIDADE DE MEDIDA              106823 non-null  object 
 8   PREÇO MÉDIO REVENDA            106823 non-null  float64
 9   DESVIO PADRÃO REVENDA          106823 non-null  float64
 10  PREÇO MÍNIMO REVENDA           106823 non-null  float64
 11  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 12  MARGEM MÉDIA REVENDA          

A primeira coluna da tabela, chamada _'Unnamed: 0'_, parece não significar nada. Na verdade, ela parece ser os **índices** da tabela, que foram salvos como uma _coluna_.<br/>
Veremos jajá como **remover tal coluna**.

Outro ponto é que, aparentemente, nenhum atributo/coluna possui valores nulos (_null_), uma vez que o número de registros do dataframe e os números de valores _non-null_ é de **106823**. <br/>
Mas, veremos que não é bem assim para esse caso.

Além disso, note que alguns atributos/colunas, p. ex., 'PREÇO MÉDIO DISTRIBUIÇÃO', possui tipo de dado `object` ao invés de `float`. Esse `object`, no geral, representa strings. Isso parece estranho e suspeito. Veremos se isso é problemático mais pra frente.

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [161]:
type(data)

pandas.core.frame.DataFrame

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [162]:
data.shape

(106823, 21)

In [163]:
print(f'O DataFrame possui {data.shape[0]} linhas e {data.shape[1]} colunas.')

O DataFrame possui 106823 linhas e 21 colunas.


#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [164]:
personagens_df = pd.DataFrame({
    'nome': ['Goku', 'Vegeta', 'Freeza'],
    'idade': [45, 43, 1343],
    'peso': [90.5, 80.2, 60.1],
    'eh jedi': [True, True, False]  # o nome das colunas podem ter espaços
})

In [165]:
personagens_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Goku,45,90.5,True
1,Vegeta,43,80.2,True
2,Freeza,1343,60.1,False


In [166]:
personagens_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   nome     3 non-null      object 
 1   idade    3 non-null      int64  
 2   peso     3 non-null      float64
 3   eh jedi  3 non-null      bool   
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 203.0+ bytes


#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O atributo `DataFrame.columns` retorna uma "lista" com os **nomes de todas as colunas** do data frame.

In [167]:
personagens_df.columns

Index(['nome', 'idade', 'peso', 'eh jedi'], dtype='object')

In [168]:
type(personagens_df.columns)

pandas.core.indexes.base.Index

In [169]:
list(personagens_df.columns)

['nome', 'idade', 'peso', 'eh jedi']

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [170]:
personagens_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Goku,45,90.5,True
1,Vegeta,43,80.2,True
2,Freeza,1343,60.1,False


In [171]:
personagens_df_renomeado = personagens_df.rename(columns={
    'nome': 'Nome Do Personagem',  # renomeia a coluna de nome 'nome' para 'Nome Completo'
    'idade': 'Idade'
    'peso' 'Peso'  
    })

In [172]:
personagens_df_renomeado = personagens_df.rename(columns={
    'nome': 'Nome Do Personagem', 
    'idade': 'Idade',
    'peso': 'Peso'
})

In [173]:
personagens_df_renomeado

Unnamed: 0,Nome Do Personagem,Idade,Peso,eh jedi
0,Goku,45,90.5,True
1,Vegeta,43,80.2,True
2,Freeza,1343,60.1,False


Para renomear o _próprio_ data frame em questão, utilize o parâmetro `inplace=True`:

In [174]:
personagens_df.rename(columns={'nome': 'Nome personagem','idade': 'Idade'}, inplace=True)

In [175]:
personagens_df

Unnamed: 0,Nome personagem,Idade,peso,eh jedi
0,Goku,45,90.5,True
1,Vegeta,43,80.2,True
2,Freeza,1343,60.1,False


<br/>

**===>** Uma outra forma de **renomear todas as colunas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [176]:
personagens_df.columns

Index(['Nome personagem', 'Idade', 'peso', 'eh jedi'], dtype='object')

In [177]:
personagens_df.columns = ['NOME', 'IDADE', 'PESO', 'EH_JEDI']

In [178]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,EH_JEDI
0,Goku,45,90.5,True
1,Vegeta,43,80.2,True
2,Freeza,1343,60.1,False


### 1.3.3 Series

Array uni-dimensional com os dados e rótulos de um eixo.

In [179]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [180]:
data['ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [181]:
data.ESTADO

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [182]:
type(data['ESTADO'])

pandas.core.series.Series

In [183]:
data.iloc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


In [184]:
type(data.iloc[1])

pandas.core.series.Series

#### **Criando uma Series**

Podemos criar um DataFrame a partir de uma lista de elementos.

In [185]:
pd.Series([9.6, 8.0, 7.5])

0    9.6
1    8.0
2    7.5
dtype: float64

Podemos alterar o **nome dos índices** (veremos melhor jajá) e o **nome da Series** (o que ela representa):

In [186]:
pd.Series([9.6, 8.0, 7.5], index=['prova matemática', 'prova fisíca', 'prova português'], name='Notas de Ana Clara')

prova matemática    9.6
prova fisíca        8.0
prova português     7.5
Name: Notas de Ana Clara, dtype: float64

#### **VEJA MAIS**
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

### 1.3.4 Atribuindo Dados

In [187]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


#### 1.3.4.1 Atribuindo constantes

In [188]:
produto_view = data['PRODUTO']  
produto_view

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

In [189]:
produto_copy_bkp = data['PRODUTO'].copy() 
produto_copy_bkp

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

In [190]:
data['PRODUTO'] = 'Combustível' 

In [191]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [192]:
produto_view

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

In [193]:
produto_copy_bkp

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

#### 1.3.4.2 Atribuindo listas ou series

In [194]:
linhas, colunas= data.shape
linhas, colunas

(106823, 21)

In [195]:
novos_produtos = [f'Produto {i}' for i in range(linhas)]
len(novos_produtos)

106823

In [196]:
data['PRODUTO'] = novos_produtos

In [197]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Produto 0,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Produto 4,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,Produto 106818,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,Produto 106819,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,Produto 106820,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,Produto 106821,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


In [198]:
print(produto_view)
print('\n')
print(produto_copy_bkp)

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object


0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object


In [199]:
data['PRODUTO'] = produto_copy_bkp

In [200]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ ou uma constante a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [201]:
data['coluna nova ignorante'] = 'CHOCOLATE'
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,CHOCOLATE
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,CHOCOLATE
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004,CHOCOLATE
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,CHOCOLATE
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,CHOCOLATE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,0.818,0.018,2.756,0,2.756,2.756,0,6,2019,CHOCOLATE
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019,CHOCOLATE
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019,CHOCOLATE
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019,CHOCOLATE


In [202]:
data['Coluna usando listas muahaha'] = range(data.shape[0])

In [203]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,CHOCOLATE,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,CHOCOLATE,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004,CHOCOLATE,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,CHOCOLATE,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,CHOCOLATE,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,0.018,2.756,0,2.756,2.756,0,6,2019,CHOCOLATE,106818
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019,CHOCOLATE,106819
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,0.065,1.998,0,1.9981,1.9981,0,6,2019,CHOCOLATE,106820
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019,CHOCOLATE,106821


In [204]:
#nao funciona
#data['não funciona] = [1, 2, 3]

<br/>

Outro exemplo:

In [205]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,CHOCOLATE,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,CHOCOLATE,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,CHOCOLATE,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,CHOCOLATE,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,CHOCOLATE,4


In [206]:
data['PREÇO MÉDIO REVENDA (dólares)'] = data['PREÇO MÉDIO REVENDA'] * 5.8

In [207]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha,PREÇO MÉDIO REVENDA (dólares)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,CHOCOLATE,0,7.4704
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,CHOCOLATE,1,6.7396
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,CHOCOLATE,2,8.0562
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,CHOCOLATE,3,7.3196
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,CHOCOLATE,4,6.8498
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,2.756,0,2.756,2.756,0,6,2019,CHOCOLATE,106818,20.7292
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,2.451,0.402,1.9842,2.8661,0.164,6,2019,CHOCOLATE,106819,19.7258
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,1.998,0,1.9981,1.9981,0,6,2019,CHOCOLATE,106820,16.8896
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,2.374,0.165,2.0179,2.5093,0.07,6,2019,CHOCOLATE,106821,17.5160


**PS:** Obviamente, a lógica correta em converter o preço dos combustíveis em reais para dólares não é considerar uma taxa de câmbio fixa, uma vez que cada preço em real foi aferido em um momento diferente.

### 1.3.4 Índices

Todo Data Frame possui **índices**, que não são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [208]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha,PREÇO MÉDIO REVENDA (dólares)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,CHOCOLATE,0,7.4704
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,CHOCOLATE,1,6.7396
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,CHOCOLATE,2,8.0562
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,CHOCOLATE,3,7.3196
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,CHOCOLATE,4,6.8498
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,2.756,0,2.756,2.756,0,6,2019,CHOCOLATE,106818,20.7292
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,2.451,0.402,1.9842,2.8661,0.164,6,2019,CHOCOLATE,106819,19.7258
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,1.998,0,1.9981,1.9981,0,6,2019,CHOCOLATE,106820,16.8896
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,2.374,0.165,2.0179,2.5093,0.07,6,2019,CHOCOLATE,106821,17.5160


In [209]:
data.index

RangeIndex(start=0, stop=106823, step=1)

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [210]:
pesquisa_de_satisfacao = pd.DataFrame({
    'bom': [188, 234, 34],
    'ruim': [67, 2, 237],
    'pessimo': [2, 1, 23]
}, index=['Bridgerton 1', 'Bridgerton 2', 'Bridgerton 3'])

In [211]:
pesquisa_de_satisfacao.head()

Unnamed: 0,bom,ruim,pessimo
Bridgerton 1,188,67,2
Bridgerton 2,234,2,1
Bridgerton 3,34,237,23


In [212]:
pesquisa_de_satisfacao.index

Index(['Bridgerton 1', 'Bridgerton 2', 'Bridgerton 3'], dtype='object')

### 1.4 Selecionando uma ou mais observações (Indexação)

In [213]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha,PREÇO MÉDIO REVENDA (dólares)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,CHOCOLATE,0,7.4704
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,CHOCOLATE,1,6.7396
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,CHOCOLATE,2,8.0562
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,CHOCOLATE,3,7.3196
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,CHOCOLATE,4,6.8498


#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma observação/linha:**

In [214]:
data.iloc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


**Selecionando múltiplas observações/linhas:**

In [215]:
data.iloc[:4]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha,PREÇO MÉDIO REVENDA (dólares)
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,CHOCOLATE,0,7.4704
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,CHOCOLATE,1,6.7396
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,CHOCOLATE,2,8.0562
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,CHOCOLATE,3,7.3196


In [216]:
data.iloc[12:23]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha,PREÇO MÉDIO REVENDA (dólares)
12,12,2004-05-09,2004-05-15,NORDESTE,SERGIPE,ETANOL HIDRATADO,57,R$/l,1.301,0.109,...,0.98,0.052,0.8267,1.1059,0.053,5,2004,CHOCOLATE,12,7.5458
13,13,2004-05-09,2004-05-15,NORTE,ACRE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,...,1.116,0.171,0.767,1.2992,0.153,5,2004,CHOCOLATE,13,10.469
14,14,2004-05-09,2004-05-15,NORTE,AMAPA,ETANOL HIDRATADO,15,R$/l,1.785,0.035,...,1.373,0.167,0.8339,1.4912,0.122,5,2004,CHOCOLATE,14,10.353
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,1.137,0.068,0.9515,1.2109,0.06,5,2004,CHOCOLATE,15,9.1524
16,16,2004-05-09,2004-05-15,NORTE,PARA,ETANOL HIDRATADO,104,R$/l,1.914,0.246,...,1.378,0.237,0.7564,1.8908,0.172,5,2004,CHOCOLATE,16,11.1012
17,17,2004-05-09,2004-05-15,NORTE,RONDONIA,ETANOL HIDRATADO,97,R$/l,1.545,0.141,...,1.012,0.149,0.52,1.3306,0.147,5,2004,CHOCOLATE,17,8.961
18,18,2004-05-09,2004-05-15,NORTE,RORAIMA,ETANOL HIDRATADO,14,R$/l,1.3,0.0,...,1.098,0.096,0.9798,1.3577,0.087,5,2004,CHOCOLATE,18,7.54
19,19,2004-05-09,2004-05-15,NORTE,TOCANTINS,ETANOL HIDRATADO,71,R$/l,1.226,0.081,...,0.68,0.114,0.51022,1.035,0.168,5,2004,CHOCOLATE,19,7.1108
20,20,2004-05-09,2004-05-15,SUDESTE,ESPIRITO SANTO,ETANOL HIDRATADO,306,R$/l,1.148,0.116,...,0.881,0.095,0.6259,1.1381,0.108,5,2004,CHOCOLATE,20,6.6584
21,21,2004-05-09,2004-05-15,SUDESTE,MINAS GERAIS,ETANOL HIDRATADO,1238,R$/l,1.205,0.12,...,0.816,0.123,0.3797,1.437,0.151,5,2004,CHOCOLATE,21,6.989


In [217]:
data.iloc[[5, 9, 34, 65]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha,PREÇO MÉDIO REVENDA (dólares)
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.957,0.128,0.5686,1.35,0.134,5,2004,CHOCOLATE,5,8.0214
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,0.947,0.091,0.5643,1.3541,0.096,5,2004,CHOCOLATE,9,7.0992
34,34,2004-05-16,2004-05-22,NORDESTE,MARANHAO,ETANOL HIDRATADO,108,R$/l,1.617,0.164,...,1.088,0.103,0.9224,1.3683,0.095,5,2004,CHOCOLATE,34,9.3786
65,65,2004-05-23,2004-05-29,NORDESTE,RIO GRANDE DO NORTE,ETANOL HIDRATADO,131,R$/l,1.276,0.113,...,0.944,0.08,0.7119,1.0881,0.085,5,2004,CHOCOLATE,65,7.4008


In [218]:
data.iloc[[65, 34, 9, 5]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,coluna nova ignorante,Coluna usando listas muahaha,PREÇO MÉDIO REVENDA (dólares)
65,65,2004-05-23,2004-05-29,NORDESTE,RIO GRANDE DO NORTE,ETANOL HIDRATADO,131,R$/l,1.276,0.113,...,0.944,0.08,0.7119,1.0881,0.085,5,2004,CHOCOLATE,65,7.4008
34,34,2004-05-16,2004-05-22,NORDESTE,MARANHAO,ETANOL HIDRATADO,108,R$/l,1.617,0.164,...,1.088,0.103,0.9224,1.3683,0.095,5,2004,CHOCOLATE,34,9.3786
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,0.947,0.091,0.5643,1.3541,0.096,5,2004,CHOCOLATE,9,7.0992
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.957,0.128,0.5686,1.35,0.134,5,2004,CHOCOLATE,5,8.0214


In [219]:
data.iloc[1, 4]

'GOIAS'

In [220]:
# e assim por diante!

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> row-first, column-second

In [221]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
Bridgerton 1,188,67,2
Bridgerton 2,234,2,1
Bridgerton 3,34,237,23


In [222]:
pesquisa_de_satisfacao.iloc[0]

bom        188
ruim        67
pessimo      2
Name: Bridgerton 1, dtype: int64

In [223]:
pesquisa_de_satisfacao.iloc[0, 1]

np.int64(67)

In [224]:
pesquisa_de_satisfacao.loc['Bridgerton 2']

bom        234
ruim         2
pessimo      1
Name: Bridgerton 2, dtype: int64

In [226]:
# NÃO FUNCIONA ===> loc tentando acessar índices rotulados com números
pesquisa_de_satisfacao.loc[0]

KeyError: 0

In [None]:
pesquisa_de_satisfacao

In [None]:
# retorna o valor da linha 'Playstation4', coluna 'ruim'
pesquisa_de_satisfacao.loc['Playstation4', 'ruim']

In [None]:
# selecionando as linhas de índices rotulados 'XboxOne', 'Switch'
pesquisa_de_satisfacao.loc[['XboxOne', 'Switch']]

In [None]:
# retorna todas as linhas e apenas as colunas com rótulos 'bom' e 'pessimo'
pesquisa_de_satisfacao[['bom', 'pessimo']]

In [None]:
# retorna todas as linhas e apenas as colunas com rótulos 'bom' e 'pessimo'
pesquisa_de_satisfacao.loc[:, ['bom', 'pessimo']]

#### OBSERVAÇÃO
**Índices Númericos**, por default, possuem **rótulos que correspondem aos seus valores númericos.**

In [None]:
data.head()

In [None]:
data.iloc[1]

In [None]:
data.loc[1]

### 1.5 Selecionando um ou mais atributos (colunas)

In [None]:
data.head()

In [None]:
# retornando a coluna/atributo 'ESTADO'
data['ESTADO']

In [None]:
data.ESTADO

In [None]:
data.loc[:, 'ESTADO']

In [None]:
# a forma de acesso de colunas por .NOME_DA_COLUNA só funciona se
# NOME_DA_COLUNA não possuir caracteres inválidos (espaços, acentos, cedilha, ...)
### não funciona
# data.DATA INICIAL

In [None]:
# para colunas cujos rótulos possuem caracteres inválidos,
# apenas a seleção via string é válida
data['DATA INICIAL']

Como o rótulo da coluna 'DATA INICIAL' **possui espaço**, não é possível acessá-la como método: `data.DATA INICIAL`

In [None]:
# selecionando múltiplas colunas: 'PRODUTO', 'ESTADO', 'REGIÃO'
data[['PRODUTO', 'ESTADO', 'REGIÃO']]

### 1.6 Removendo um Atributo (Coluna) do Data Frame

In [None]:
data.head()

Como vimos anteriormente, o atributo 'Unnamed: 0' parece ser um **ruído** em nosso dataset. Desta maneira, vamos eliminá-lo,

In [None]:
# deleta/remove in-place (ou seja, no próprio dataframe) a coluna de rótulo 'Unnamed: 0'
del data['Unnamed: 0']

In [None]:
data

<br/>

Vamos agora remover as colunas fictícias criadas nos vídeos para estudo.

In [None]:
del data['coluna sem nocao']
del data['coluna a partir de lista']
del data['PREÇO MÉDIO REVENDA (dólares)']

In [None]:
data.head()

### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso (veja que removemos anteriormente a coluna 'Unnamed: 0' que foi justamente esse caso).<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

In [None]:
data.to_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado.csv', index=False)

### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

In [None]:
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado.csv')

In [None]:
data.head()

In [None]:
# Mostra todos os estados cujos os preços dos combustíveis foram aferidos
# Mais tecnicamente, mostra os valores únicos presentes para o atributo/coluna 'ESTADO'.
data['ESTADO'].unique()

#### **Selecionando apenas os preços dos Postos de São Paulo**

##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

O código abaixo retorna uma ***Series ('array') de booleans***, com o número de linhas (observações) do Data Frame, que informa os registros de preços dos postos do _estado de São Paulo_ (True).

In [None]:
# faz uma comparação elemento a elemento da series, retornando uma Series de booleans
data['ESTADO'] == 'SAO PAULO'

In [None]:
# salvando essa Series de booleans em uma variável
selecao = data['ESTADO'] == 'SAO PAULO'

In [None]:
selecao

In [None]:
type(selecao)

In [None]:
selecao.shape

In [None]:
data.shape

Para **filtrarmos** os registros de postos do estado de São Paulo:

In [None]:
data[selecao]

O resultado é um Data Frame com _apenas_ os registros desejados após a **filtragem**.<br/>
Podemos ainda utilizar o método `loc` para o mesmo fim:

In [None]:
data.loc[selecao]

##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

In [None]:
data.head()

In [None]:
data.query('ESTADO == "SAO PAULO"')

<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análises feitas para os postos de São Paulo (neste caso).

In [None]:
postos_sp = data.query('ESTADO == "SAO PAULO"')

In [None]:
postos_sp

In [None]:
type(postos_sp)

In [None]:
postos_sp.shape

In [None]:
postos_sp

#### Resetando os índices

Note que os _índices das linhas/registros_ após a _filtragem_ **continuam sendo os mesmos** do DataFrame original. <br/>
Em muitas situações, manter esta informação será importante.

Mas, se você quiser **_resetar os índices_** do data frame filtrado, fazendo com que os registros começem com _índice 0 até num_linhas-1_, use o método `.reset_index`.

In [None]:
postos_sp.reset_index()

In [None]:
postos_sp.reset_index(drop=True)

In [None]:
# ainda não foi alterado, precisamos usar o atributo/parâmetro inplace=True
postos_sp

In [None]:
postos_sp.reset_index(drop=True, inplace=True)

In [None]:
postos_sp

In [None]:
# ALTERNATIVA MUITO COMUM
postos_sp = data.query('ESTADO == "SAO PAULO"').reset_index(drop=True)

In [None]:
postos_sp

#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**

In [None]:
data.head()

In [None]:
data['ESTADO'] == 'RIO DE JANEIRO'

In [None]:
data['PREÇO MÉDIO REVENDA'] > 2.0

In [None]:
selecao = (data['ESTADO'] == 'RIO DE JANEIRO') & (data['PREÇO MÉDIO REVENDA'] > 2.0)
selecao

Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/observações do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro **E** o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

In [None]:
data[selecao]

Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (cedilha, acentos) 

In [None]:
# Não funciona
# data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

In [None]:
data.query('ESTADO == "RIO DE JANEIRO" or ESTADO == "SAO PAULO"')

**Aprofundando mais ainda**

A primeira comparação `(data['ESTADO'] == 'RIO DE JANEIRO')` checa, linha a linha (observação a observação) do DataFrame, quais são aquelas cujo o estado é RIO DE JANEIRO. Nenhuma averiguação de preços é feita nesse momento. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

A segunda comparação `(data['PREÇO MÉDIO REVENDA'] > 2)` checa, linha a linha (observação a observação) do DataFrame, quais são os registros cujo preço do combustível é maior que 2 reais. Note que essa comparação checará os postos de **TODOS os estados**. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

Por fim, as duas "perguntas" são unidas pelo AND (&) que retorna a "pergunta completa" que fizemos.

Alguns podem argumentar que tal abordagem é **ineficiente**, uma vez que, para cada condição ("pergunta"), estamos varrendo todas as linhas do DataFrame. <br/>
O Pandas _tenta otimizar_ isso ao máximo por de trás dos panos. Mas, de fato, se tivermos um dataset **muito grande** (centenas de milhares de linhas), tal abordagem se tornará _lenta_.

Assim, poderíamos fazer filtragem com múltiplos condicionais em partes:

In [None]:
selecao_1 = data['ESTADO'] == 'RIO DE JANEIRO'
postos_rj = data[selecao_1]
postos_rj

In [None]:
selecao_2 = postos_rj['PREÇO MÉDIO REVENDA'] > 2
selecao_2

In [None]:
postos_rj_preco_maior_que_2 = postos_rj[selecao_2]
postos_rj_preco_maior_que_2

#### **Selecionando registros de postos de São Paulo ou do Rio de Janeiro com Gasolina Comum acima de 2 reais**

Podemos fazer a solução do "jeito mais lento", percorrendo o DataFrame inteiro _múltiplas vezes_:

In [None]:
data.head()

In [None]:
selecao_1 = (data['ESTADO'] == 'SAO PAULO') | (data['ESTADO'] == 'RIO DE JANEIRO')
selecao_2 = (data['PRODUTO'] == 'GASOLINA COMUM')
selecao_3 = (data['PREÇO MÉDIO REVENDA'] > 2)

selecao_final = selecao_1 & selecao_2 & selecao_3

In [None]:
selecao_final

In [None]:
data_filtrado = data[selecao_final]
data_filtrado

In [None]:
print(data_filtrado['ESTADO'].unique())
print(data_filtrado['PRODUTO'].unique())

<br/>

Alternativamente:

In [None]:
selecao_1 = (data['ESTADO'] == 'SAO PAULO') | (data['ESTADO'] == 'RIO DE JANEIRO')
postos_sp_rj = data[selecao_1]

# apenas registros de postos dos estados de SP e RJ
postos_sp_rj

In [None]:
selecao_2 = (postos_sp_rj['PRODUTO'] == 'GASOLINA COMUM')
postos_sp_rj_gasolina = postos_sp_rj[selecao_2]

# apenas registros de postos dos estados de SP e RJ cujo produto é GASOLINA COMUM
postos_sp_rj_gasolina

In [None]:
selecao_3 = (postos_sp_rj_gasolina['PREÇO MÉDIO REVENDA'] > 2)

postos_sp_rj_gasolina_preco_maior_que_2 = postos_sp_rj_gasolina[selecao_3]
postos_sp_rj_gasolina_preco_maior_que_2

#### **Selecionando registros dos anos de 2008, 2010 e 2012**

In [None]:
data.head()

**ALTERNATIVA 1**

In [None]:
selecao = (data['ANO'] == 2008) | (data['ANO'] == 2010) | (data['ANO'] == 2012)
data[selecao]

**ALTERNATIVA 2**

In [None]:
lista_de_anos = [2008, 2010, 2012]

In [None]:
selecao = data['ANO'].isin(lista_de_anos)  # retorna uma Series de booleanos
data[selecao]

**ALTERNATIVA 3**

In [None]:
lista_de_anos

In [None]:
data.query('ANO in @lista_de_anos')

### **Iterando com DataFrames**

#### For-each `DataFrame.iterrows()` (LENTO ==> apenas indicado para iterar pequenos conjunto de dados)

In [None]:
data.head(10)

In [None]:
for index, row in data.head(10).iterrows():
    print(f'indice {index} ==> {row["ESTADO"]}')

<h2>2. Preparação dos dados</h2>
<hr/>

In [None]:
data

### 2.1 Tratando observações com valores vazios (null / nan) no dataset

In [None]:
data.info()

De um total de 106823 observações, **não há valores null / nan** para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: P. ex., "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente alguns registros têm uma string ao invés de um número para tais atributos. <br/>

Os atributos *"DATA INICIAL"* e *"DATA FINAL"* deveriam ser do tipo `datetime`.

Em outros casos, alguns **atributos categóricos** são ```objects```, mas poderiam ser o tipo ```category```, que é um tipo especial do pandas. <br/>
Este tipo é necessário para se utilizar algumas funções específicas do pandas. <br/>
**Não** converteremos para este tipo por ora.

In [None]:
data_pre = data.copy()

#### **Datas**
Como os atributos de data do dataset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

In [None]:
data_pre['DATA INICIAL'] = pd.to_datetime(data_pre['DATA INICIAL'])
data_pre['DATA FINAL'] = pd.to_datetime(data_pre['DATA FINAL'])

In [None]:
data_pre.info()

#### **Dados Numéricos**

In [None]:
# convertendo atributos/colunas para 'numeric'
for atributo in ['MARGEM MÉDIA REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO', 'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO', 'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO']:
    # converte a coluna (de valores string) para um tipo numérico
    # Em caso de erro na conversão (p. ex., uma string que não representa um número), um valor vazio (null / nan) será
    # atribuído no lugar
    data_pre[atributo] = pd.to_numeric(data_pre[atributo], errors='coerce')

In [None]:
data_pre.info()

<br/>

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

In [None]:
mask = data_pre['PREÇO MÉDIO DISTRIBUIÇÃO'].isnull()

In [None]:
data_pre[mask]

In [None]:
# Nos dados originais, quais eram os valores do PREÇO MÉDIO DISTRIBUIÇÃO dos registros que agora possuem valores NaN 
data[mask]

Várias amostras possuem a _string '-'_ em algumas colunas ao invés de um número de fato. Ou seja, não há aferições destes atributos para estas amostras. <br/>

<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

In [None]:
# Retorna uma cópia do data fram `data_pre` com todos os valores NaN de todas as colunas agora preenchidos com 0.
# Para alterar o próprio data frame, use o argumento `inplace=True`.
data_pre_fill = data_pre.fillna(0)
data_pre_fill

In [None]:
data_pre_fill[mask]  # valores que antes eram NaN, agora são 0

In [None]:
# retorna uma cópia do data frame `data_pre` com todos os valores NaN das colunas:
# 'PREÇO MÉDIO DISTRIBUIÇÃO', 'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO' e 'PREÇO MÁXIMO DISTRIBUIÇÃO', respectivamente, com os valores: 10, 20, 30, 'vazio'.
data_pre_fill = data_pre.fillna(value={
    'PREÇO MÉDIO DISTRIBUIÇÃO': 10,
    'DESVIO PADRÃO DISTRIBUIÇÃO': 20,
    'PREÇO MÍNIMO DISTRIBUIÇÃO': 30,
    'PREÇO MÁXIMO DISTRIBUIÇÃO': 'vazio'
})

In [None]:
data_pre_fill[mask]

<br/>

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO DISTRIBUIÇÃO'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

In [None]:
# remove, no próprio dataframe, todas as linhas/registros com valores NaN (vazios) em quaisquer colunas/atributos.
data_pre.dropna(inplace=True)

In [None]:
data_pre.info()

Nosso data frame agora, após essa _limpeza_, ficou mais enxuto, contentdo 103392 registros frente aos 106823 registros originais. <br/>

Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias, p. ex., **confiam na detecção de outliers**, que não veremos neste curso.

#### **Salvando o Dataset Preprocessado**

In [None]:
data_pre.to_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado_final.csv', index=False)

<h2>3. Estatísticas Descritivas</h2>
<hr/>

In [None]:
data_final = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado_final.csv')

In [None]:
data_final

O Pandas fornecem algumas funções/métodos que computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

In [None]:
data_final.describe()

In [None]:
data_final['PREÇO MÉDIO REVENDA'].describe()

<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

In [None]:
data_final.describe()['PREÇO MÉDIO REVENDA']

In [None]:
stats = data_final.describe()
stats

In [None]:
stats[['PREÇO MÉDIO REVENDA', 'PREÇO MÁXIMO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO']]

In [None]:
# ALTERNATIVA MAIS EFICIENTE
# apenas computa as estatísticas descritivas para 3 atributos
data_final[['PREÇO MÉDIO REVENDA', 'PREÇO MÁXIMO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO']].describe()

**Acessando apenas algumas estatísticas**

In [None]:
stats

In [None]:
stats.loc[['min', 'max', 'mean']]

In [None]:
stats.loc[['min', 'max', 'mean'], 'PREÇO MÉDIO REVENDA']

In [None]:
stats.loc[['min', 'max', 'mean'], ['PREÇO MÉDIO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO']]

<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

In [None]:
data_final.head()

#### Qual é o menor preço mínimo de revenda?

In [None]:
data_final['PREÇO MÍNIMO REVENDA'].min()

#### Qual é a média e desvio padrão dos preços mínimos de revenda?

In [None]:
mean = data_final['PREÇO MÍNIMO REVENDA'].mean()
std = data_final['PREÇO MÍNIMO REVENDA'].std()

print(f'A média dos preços mínimos de revenda é {mean:.2f} +- {std:.2f}')

#### Quais são os estados considerados?

In [None]:
data_final['ESTADO']

In [None]:
data_final['ESTADO'].unique()

In [None]:
sorted(data_final['ESTADO'].unique())

#### Quantos registros (aferições) cada estado possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).

In [None]:
data_final['ESTADO'].value_counts()  # retorna em ordem decrescente, a quantidade de registros/linhas para cada estado

In [None]:
data_final['ESTADO'].value_counts().to_frame()  # converte uma Series para um DataFrame

<h2>4. Executando funções para cada item de um DataFrame ou Series</h2>
<hr/>

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".


<img src='./imagens/apply_map_applymap.png' width=300/>


Fonte: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff

In [None]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])

In [None]:
df

`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='./imagens/pandas_axis.jpg' width=500/>

Fonte: https://www.allthesnippets.com/browse/pandas/df_axis.html

In [None]:
def nossa_soma(series):
    return series.sum()  # retorna a soma de todos os valores de uma series

In [None]:
# aplica a função soma para cada linha do dataframe
df['SOMA(A, B, C)'] = df.apply(nossa_soma, axis=1)
df

<img src='./imagens/apply_axis_1.png' width=250/>

In [None]:
# aplica a função soma para cada coluna do dataframe
df.loc['Linha 5'] = df.apply(nossa_soma, axis=0)
df

<img src='./imagens/apply_axis_0.png' width=250/>

##### Usando `lambda` functions

In [None]:
df['MEDIA(A, B, C)'] = df[['A', 'B', 'C']].apply(lambda series: series.mean(), axis=1)
df

<img src='./imagens/apply_axis_1_mean.png' width=350/>

In [None]:
# plica a lambda function abaixo para cada elemento da coluna
df['C * 2'] = df['C'].apply(lambda x: x * 2)
df

In [None]:
df['A * 2'] = df['A'] * 2
df

<br/>

`applymap()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de um DataFrame.

In [None]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])
df

In [None]:
# retorna um novo dataframe com todos os elementos ao quadrado.
# poderíamos usar uma função ao invés de uma lambda function
df.applymap(lambda x: x ** 2)

In [None]:
df

<br/>

`map()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de uma _Series_.

In [None]:
nomes = pd.Series(['João', 'Maria', 'Alice', 'Pedro'])
nomes

In [None]:
# retorna uma nova Series com todos os nomes com letras maiuscúlas.
# poderíamos usar uma função ao invés de uma lambda function
nomes.map(lambda x: x.upper())

In [None]:
nomes

In [None]:
# O Pandas já fornece uma série de métodos para manipulação de strings.
# Assim, poderíamos usar o código abaixo para obter o mesmo resultado.
nomes.str.upper()

<h2>5. Agrupamento</h2>
<hr/>

In [None]:
data_final.head()

`groupby`: Usado para criar **grupos de elementos** (e.x., baseado nos valores de um atributo (categórico)). <br/>
**Funções** podem então ser aplicadas para os _elementos de cada grupo_, de modo que os **resultados de cada grupo são combinados**.

In [None]:
# agrupa as linhas da tablea de acordo com suas respectivas regiões
grupos = data_final.groupby('REGIÃO')
grupos

In [None]:
# retorna os grupos obtidos pelo groupby
grupos.groups

In [None]:
# retorna os índices das linhas/observações de cada grupo
grupos.indices

In [None]:
# retorna um dataframe apenas com as observações do grupo 'CENTRO OESTE'
grupos.get_group('CENTRO OESTE')

In [None]:
# descreva para nós algumas estatística descritivas para as observações de cada grupo
grupos.describe()

In [None]:
grupos.mean()

In [None]:
grupos.min()

In [None]:
data_final.groupby('REGIÃO').min()

<br/>

Também podemos ter agrupamentos por mais de um atributo.

In [None]:
data_final.head()

#### Qual é o preço médio de cada do Produto (Combustível) para cada Região?

In [None]:
# Agrupa os registros do dataframe primeiramente por suas regiões.
# Então, agrupa os registros de cada região (grupo) de acordo com seus produtos.
grupos = data_final.groupby(['REGIÃO', 'PRODUTO'])
grupos

In [None]:
grupos.groups

In [None]:
grupos.mean()

In [None]:
grupos['PREÇO MÉDIO REVENDA'].mean()

In [None]:
grupos['PREÇO MÉDIO REVENDA'].describe()

<br/>

`.agg`: **agrega (roda)** uma série de funções para os elementos de um dataframe ou de grupos de um dataframe.

In [None]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [None, None, None]],
                  columns=['A', 'B', 'C'])
df

In [None]:
df.agg([sum, min])  # ignora o NaN

In [None]:
grupos = data_final.groupby('REGIÃO')
grupos

In [None]:
# Computa o menor e maior valor do 'PREÇO MÉDIO REVENDA' para cada região (grupo)
grupos['PREÇO MÉDIO REVENDA'].agg([min, max])

<h2>6. Ordenação</h2>
<hr/>

In [None]:
notas = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Alice'],
    'idade': [20, 21, 19, 20],
    'nota_final': [5.0, 10.0, 6.0, 10.0]
})
notas

`.sort_values()`: ordena valores ao longo de um eixo.

In [None]:
notas.sort_values(by='nota_final')

Por padrão, o método retorna uma cópia dos dados ordenados em **ordem crescente (ascendente)**. Podemos alterar isso pelo argumento `ascending`.

In [None]:
notas.sort_values(by='nota_final', ascending=False)

<br/>

Podemos ordenar a partir de **mais de uma coluna**:

In [None]:
notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True])

Ordena os registros, primeiramente, pela coluna 'nota_final' em **ordem descrente**. <br/>
Então, reordena os registros _"empatados"_, ou seja, com a **mesma nota final**, em _ordem alfabética_ (ordem crescente).

<br/>

Note que o dataframe original **não foi alterado** após a ordenação.

In [None]:
notas

Para alterá-lo, use o argumento `inplace=True`:

In [None]:
notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True], inplace=True)

In [None]:
notas

<h2>7. Exercícios</h2>
<hr/>

Vamos aplicar os conceitos que vimos em alguns exercícios. <br/>
Para isso, utilizaremos o dataset de _preços de combustíveis no Brasil_.

In [None]:
data_final

Como há apenas medições de janeiro a junho para o ano de 2019, resolvemos **remover os dados** deste ano da análise.

In [None]:
data_final.query('ANO != 2019')

Note que temos um novo dataframe com 99739 linhas.

In [None]:
df = data_final.query('ANO != 2019')

In [None]:
df

### 7.1 Qual a quantidade de registros de cada produto em cada região?

In [None]:
grupos = df.groupby('PRODUTO')
grupos

In [None]:
grupos['REGIÃO'].value_counts().to_frame()

### 7.2 Como os preços da Gasolina Comum em São Paulo variaram em 2018?

In [None]:
gasolina_sp_2018 = df.query('PRODUTO == "GASOLINA COMUM" and ESTADO == "SAO PAULO" and ANO == 2018')
gasolina_sp_2018.head()

In [None]:
gasolina_sp_2018.shape

#### **Estatísticas Descritivas**

In [None]:
gasolina_sp_2018.describe()

In [None]:
gasolina_sp_2018['PREÇO MÉDIO REVENDA'].describe().to_frame()

### 7.3 Como os preços da Gasolina Comum e do Etanol em São Paulo variaram em 2018?

In [None]:
df.query('(PRODUTO == "GASOLINA COMUM" or PRODUTO == "ETANOL HIDRATADO") and ESTADO == "SAO PAULO" and ANO == 2018')

In [None]:
lista_de_estados = ["GASOLINA COMUM", "ETANOL HIDRATADO"]
df.query('PRODUTO in @lista_de_estados and ESTADO == "SAO PAULO" and ANO == 2018')

In [None]:
gasolina_etanol_sp_2018 = df.query('PRODUTO in ["GASOLINA COMUM", "ETANOL HIDRATADO"] and ESTADO == "SAO PAULO" and ANO == 2018')
gasolina_etanol_sp_2018

In [None]:
# considerando os preços do etanol e da gasolina juntos, teremos essas estatística descritivas 
gasolina_etanol_sp_2018['PREÇO MÉDIO REVENDA'].describe().to_frame()

In [None]:
gasolina_etanol_sp_2018.groupby('PRODUTO')['PREÇO MÉDIO REVENDA'].describe()

<h2>8. Assuntos para continuar os estudos</h2>
<hr/>

- join
- concat
- plot
- data cleaning