## **Pandas Essencial**
**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)** <br/>
xavecoding: https://youtube.com/c/xavecoding <br/>

Neste tutorial, vamos aprender o essencial da biblioteca _Pandas_ para manipulação de dados.<br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

### Pacotes usados neste Notebook

In [6]:
# pacotes usados neste notebook
import pandas as pd

<h1>Manipulação de Dados com Pandas</h1><hr/>

<h2>1. Manipulação Básica de Datasets</h2>
<hr/>

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**. <br/>
Cada *amostra (registro/linha)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o _pandas_ consiga abrí-lo normalmente, convertemos tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento.

### 1.1. Importando o Dataset
Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [65]:
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv')

In [66]:
data

Unnamed: 0,Unnamed: 0;DATA INICIAL;DATA FINAL;REGIÃO;ESTADO;PRODUTO;NÚMERO DE POSTOS PESQUISADOS;UNIDADE DE MEDIDA;PREÇO MÉDIO REVENDA;DESVIO PADRÃO REVENDA;PREÇO MÍNIMO REVENDA;PREÇO MÁXIMO REVENDA;MARGEM MÉDIA REVENDA;COEF DE VARIAÇÃO REVENDA;PREÇO MÉDIO DISTRIBUIÇÃO;DESVIO PADRÃO DISTRIBUIÇÃO;PREÇO MÍNIMO DISTRIBUIÇÃO;PREÇO MÁXIMO DISTRIBUIÇÃO;COEF DE VARIAÇÃO DISTRIBUIÇÃO;MÊS;ANO
0,0;2004-05-09;2004-05-15;CENTRO OESTE;DISTRITO ...
1,1;2004-05-09;2004-05-15;CENTRO OESTE;GOIAS;ETA...
2,2;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
3,3;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
4,4;2004-05-09;2004-05-15;NORDESTE;ALAGOAS;ETANO...
...,...
106818,106818;2019-06-23;2019-06-29;NORDESTE;RIO GRAN...
106819,106819;2019-06-23;2019-06-29;SUL;RIO GRANDE DO...
106820,106820;2019-06-23;2019-06-29;SUL;SANTA CATARIN...
106821,106821;2019-06-23;2019-06-29;SUDESTE;SAO PAULO...


O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era ';' e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [2]:
# Carregando o dataset corretamente -> nesse caso usou separador ';'
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv', sep=';')

In [70]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [6]:
# por padrão as 5 primeiras linhas
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [7]:
# retorna as 10 primeiras linhas do dataset
data.head(10)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,...,2.0,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004


### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 21 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Unnamed: 0                     106823 non-null  int64  
 1   DATA INICIAL                   106823 non-null  object 
 2   DATA FINAL                     106823 non-null  object 
 3   REGIÃO                         106823 non-null  object 
 4   ESTADO                         106823 non-null  object 
 5   PRODUTO                        106823 non-null  object 
 6   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 7   UNIDADE DE MEDIDA              106823 non-null  object 
 8   PREÇO MÉDIO REVENDA            106823 non-null  float64
 9   DESVIO PADRÃO REVENDA          106823 non-null  float64
 10  PREÇO MÍNIMO REVENDA           106823 non-null  float64
 11  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 12  MARGEM MÉDIA REVENDA          

A primeira coluna da tabela, chamada _'Unnamed: 0'_, parece não significar nada. Na verdade, ela parece ser os **índices** da tabela, que foram salvos como uma _coluna_.<br/>
Veremos jajá como **remover tal coluna**.

Outro ponto é que, aparentemente, nenhum atributo/coluna possui valores nulos (_null_), uma vez que o número de registros do dataframe e os números de valores _non-null_ é de **106823**. <br/>
Mas, veremos que não é bem assim para esse caso.

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [9]:
# todo dataset é de fato um DataFrame, carregado da memória.
type(data)

pandas.core.frame.DataFrame

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [10]:
# é uma tupla
data.shape

(106823, 21)

In [None]:
print(
    f'O DataFrame possui {data.shape[0]} linhas/observações/registros e {data.shape[1]} colunas/atributos/variáveis.'
)

#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [11]:
alunos_df = pd.DataFrame(
    {
        'nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
        'idade': [16, 1000, 70],
        'peso': [70, 15, 60],
        'eh jedi': [True, True, False],  # o nome das colunas podem ter espaços
    }
)

In [12]:
alunos_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [13]:
alunos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nome     3 non-null      object
 1   idade    3 non-null      int64 
 2   peso     3 non-null      int64 
 3   eh jedi  3 non-null      bool  
dtypes: bool(1), int64(2), object(1)
memory usage: 207.0+ bytes


In [26]:
# contatos - dataset (extra)
# index,    nome, idade,  telefone,              e-mail, salário
#     0,  samuka,    30, 321654789,   samuka@samuka.com, 2530.78
#     1,  marcos,    27, 123789654,   marcos@marcos.com, 6845.63
#     2, willian,    42, 986547825, willian@willian.com, 9245.63

# transformando/convertido
contato = {
    'nome': ['samuka', 'marcos', 'willian'],
    'idade': [30, 27, 42],
    'telefone': [321654789, 123789654, 986547825],
    'e-mail': [
        'samuka@samuka.com',
        'marcos@marcos.com',
        'willian@willian.com',
    ],
    'salário': [2530.78, 6845.63, 9245.63],
}

# em DataFrame
df = pd.DataFrame(contato)

In [15]:
df

Unnamed: 0,nome,idade,telefone,e-mail,salário
0,samuka,30,321654789,samuka@samuka.com,2530.78
1,marcos,27,123789654,marcos@marcos.com,6845.63
2,willian,42,986547825,willian@willian.com,9245.63


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   nome      3 non-null      object 
 1   idade     3 non-null      int64  
 2   telefone  3 non-null      int64  
 3   e-mail    3 non-null      object 
 4   salário   3 non-null      float64
dtypes: float64(1), int64(2), object(2)
memory usage: 252.0+ bytes


In [None]:
# com índices para os atributos/colunas (extra)
df = pd.DataFrame(contato, index=['a', 'b', 'c'])

In [18]:
df

Unnamed: 0,nome,idade,telefone,e-mail,salário
a,samuka,30,321654789,samuka@samuka.com,2530.78
b,marcos,27,123789654,marcos@marcos.com,6845.63
c,willian,42,986547825,willian@willian.com,9245.63


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   nome      3 non-null      object 
 1   idade     3 non-null      int64  
 2   telefone  3 non-null      int64  
 3   e-mail    3 non-null      object 
 4   salário   3 non-null      float64
dtypes: float64(1), int64(2), object(2)
memory usage: 144.0+ bytes


In [None]:
# por colunas (extra)
df = pd.DataFrame(contato, columns=['nome', 'salário'])

In [21]:
df

Unnamed: 0,nome,salário
0,samuka,2530.78
1,marcos,6845.63
2,willian,9245.63


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   nome     3 non-null      object 
 1   salário  3 non-null      float64
dtypes: float64(1), object(1)
memory usage: 180.0+ bytes


In [None]:
# com ambos, indice e colunas
df = pd.DataFrame(contato, index=['a', 'b', 'c'], columns=['nome', 'salário'])

In [24]:
df

Unnamed: 0,nome,salário
a,samuka,2530.78
b,marcos,6845.63
c,willian,9245.63


In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   nome     3 non-null      object 
 1   salário  3 non-null      float64
dtypes: float64(1), object(1)
memory usage: 72.0+ bytes


#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O método `DataFrame.columns` retorna uma ";lista" com os **nomes de todas as colunas** do data frame.

In [27]:
# retorna um indice com a lista
df.columns

Index(['nome', 'idade', 'telefone', 'e-mail', 'salário'], dtype='object')

In [28]:
type(df.columns)

pandas.core.indexes.base.Index

In [29]:
# agora retorna a lista das colunas na ordem
list(df.columns)

['nome', 'idade', 'telefone', 'e-mail', 'salário']

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [30]:
df

Unnamed: 0,nome,idade,telefone,e-mail,salário
0,samuka,30,321654789,samuka@samuka.com,2530.78
1,marcos,27,123789654,marcos@marcos.com,6845.63
2,willian,42,986547825,willian@willian.com,9245.63


In [None]:
# cria uma cópia, então nao altera o original
df_copy = df.rename(
    columns={
        'nome': 'Nome Completo',  # renomei de 'nome' para 'Nome Completo'
        'idade': 'Idade',
        'telefone': 'Telefone Contado',
        'e-mail': 'E-mail',
        'salário': 'Salário',
    },
)

In [32]:
df_copy

Unnamed: 0,Nome Completo,Idade,Telefone Contado,E-mail,Salário
0,samuka,30,321654789,samuka@samuka.com,2530.78
1,marcos,27,123789654,marcos@marcos.com,6845.63
2,willian,42,986547825,willian@willian.com,9245.63


In [33]:
# permanece sem alterações
df

Unnamed: 0,nome,idade,telefone,e-mail,salário
0,samuka,30,321654789,samuka@samuka.com,2530.78
1,marcos,27,123789654,marcos@marcos.com,6845.63
2,willian,42,986547825,willian@willian.com,9245.63


Para renomear o _próprio_ data frame em questão, utilize o parâmetro `inplace=True`:

In [None]:
# caso queira sem ser uma cópia, passa o inplace True
df.rename(
    columns={
        'nome': 'Nome Completo',
        'idade': 'Idade',
        'salário': 'Salário',
    },
    inplace=True,  # aqui ele vai alterar
)

In [35]:
# modificado direto no DataFrame
df

Unnamed: 0,Nome Completo,Idade,telefone,e-mail,Salário
0,samuka,30,321654789,samuka@samuka.com,2530.78
1,marcos,27,123789654,marcos@marcos.com,6845.63
2,willian,42,986547825,willian@willian.com,9245.63


<br/>

**===>** Uma outra forma de **renomear todas as listas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [None]:
# remomeia os atributos/colunas
df.columns

In [37]:
# recebe uma lisata com os novos nomes respectivamentes
df.columns = ['NOME', 'IDADE', 'FONE', 'E-MAIL', 'SALARIO']

In [38]:
df

Unnamed: 0,NOME,IDADE,FONE,E-MAIL,SALARIO
0,samuka,30,321654789,samuka@samuka.com,2530.78
1,marcos,27,123789654,marcos@marcos.com,6845.63
2,willian,42,986547825,willian@willian.com,9245.63


### 1.3.3 Series

Array uni-dimensional com os dados e rótulos de um eixo.

In [39]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [40]:
# acessando toda coluna Estado
data['ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [41]:
# Essa forma é apenas para atributos que nao tenha, caracteres especiais e ou tenham espaços
data.ESTADO

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [42]:
# É uma Series
type(data['ESTADO'])

pandas.core.series.Series

In [43]:
type(data.ESTADO)

pandas.core.series.Series

In [44]:
# Seleciona a observação/linha indexada no indice [1] do DataFrame
# indice de localização
data.iloc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


In [45]:
# também é uma Series
type(data.iloc[1])

pandas.core.series.Series

#### **Criando uma Series**

Podemos criar um DataFrame a partir de uma lista de elementos.

In [46]:
# cria a propria Series
pd.Series([6.9, 9.4, 8])

0    6.9
1    9.4
2    8.0
dtype: float64

Podemos alterar o **nome dos índices** (veremos melhor jajá) e o **nome da Series** (o que ela representa):

In [None]:
# nome para os indices e Series
pd.Series(
    [6.9, 9.4, 8], index=['Português', 'Matemática', 'Inglês'], name='Nota dos Alunos'
)

Português     6.9
Matemática    9.4
Inglês        8.0
Name: Nota dos Alunos, dtype: float64

In [48]:
# também tem essa forma (Extra)
ex = {
    "Português": 6.9,
    "Matemática": 9.4,
    "Inglês": 8,
}
pd.Series(ex, name='Notas Bimestrais')

Português     6.9
Matemática    9.4
Inglês        8.0
Name: Notas Bimestrais, dtype: float64

In [None]:
# também um novo Index (NaN) (Extra)
ex = {
    "Português": 6.9,
    "Matemática": 9.4,
    "Inglês": 8,
}
pd.Series(
    ex, index=['Português', 'Matemática', 'Hosória', 'Inglês'], name='Notas Bimestrais'
)

Português     6.9
Matemática    9.4
Hosória       NaN
Inglês        8.0
Name: Notas Bimestrais, dtype: float64

#### **VEJA MAIS**
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

### 1.3.4 Atribuindo Dados

#### 1.3.4.1 Atribuindo constantes

In [71]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [None]:
produto_view = data[
    'PRODUTO'
]  # Series retornando referencia a coluna, NAO UMA COPIA, mas sim uma REFERENCIA/VIEW a coluna do dataframe

In [86]:
produto_view

0         Combustível
1         Combustível
2         Combustível
3         Combustível
4         Combustível
             ...     
106818    Combustível
106819    Combustível
106820    Combustível
106821    Combustível
106822    Combustível
Name: PRODUTO, Length: 106823, dtype: object

In [None]:
# pode ser de ambas as formas desde que nao tenha espaços ou acentos
# produto_copy = data.PRODUTO.copy()
produto_copy_bkp = data['PRODUTO'].copy()

In [87]:
produto_copy_bkp

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

In [None]:
# atribuido o valor a cada linha/observacao do dataframe na coluna PRODUTO
data['PRODUTO'] = 'Combustível'

In [91]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Combustível,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Combustível,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Combustível,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Combustível,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Combustível,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [92]:
produto_view

0         Combustível
1         Combustível
2         Combustível
3         Combustível
4         Combustível
             ...     
106818    Combustível
106819    Combustível
106820    Combustível
106821    Combustível
106822    Combustível
Name: PRODUTO, Length: 106823, dtype: object

In [93]:
produto_copy_bkp

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

#### 1.3.4.2 Atribuindo listas ou series

In [95]:
nrows, ncols = data.shape
nrows, ncols

(106823, 21)

In [97]:
novo_produto = [f'Produto {x}' for x in range(nrows)]
len(novo_produto)

106823

In [None]:
# a quantidade a nova lista é igual do numero de linha do dataframe
data.PRODUTO = novo_produto

In [100]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Produto 0,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Produto 4,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,Produto 106818,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,Produto 106819,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,Produto 106820,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,Produto 106821,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


In [101]:
print(produto_view)
print('\n')
print(produto_copy_bkp)

0         Combustível
1         Combustível
2         Combustível
3         Combustível
4         Combustível
             ...     
106818    Combustível
106819    Combustível
106820    Combustível
106821    Combustível
106822    Combustível
Name: PRODUTO, Length: 106823, dtype: object


0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object


In [None]:
# voltando para os produtos originais
data.PRODUTO = produto_copy_bkp  # pruduto_copy tbm é uma Series

In [104]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [54]:
# cria uma coluna a parti de um valor constante/default
# todas a linhas terão o mesmo valor na nova coluna
data['sem nocao'] = 'DEFAULT'
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,sem nocao
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,0.818,0.018,2.756,0,2.756,2.756,0,6,2019,DEFAULT
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019,DEFAULT
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019,DEFAULT
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019,DEFAULT


In [None]:
data.shape[0]  # numero de linhas/observacao

106823

In [None]:
data.shape[1]  # numero de colunas/atrinuto

22

In [55]:
# a parti de uma lista
data['de uma lista'] = range(data.shape[0])  # shape[0] contem todoas a linha (tupla)
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,sem nocao,de uma lista
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,0.018,2.756,0,2.756,2.756,0,6,2019,DEFAULT,106818
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019,DEFAULT,106819
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,0.065,1.998,0,1.9981,1.9981,0,6,2019,DEFAULT,106820
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019,DEFAULT,106821


In [110]:
# dessa forma nao funciona
# onde o numero é menor que o atual dataframe
data['nao funciona'] = ['a', 'b', 'c']
data

ValueError: Length of values (3) does not match length of index (106823)

In [None]:
# ValueError: Length of values (3) does not match length of index (106823)

In [111]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,sem nocao,de uma lista
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4


<br/>

Outro exemplo:

In [56]:
# simulação apenas, não calculo real
# valor a parti de uma coluna/atributo existente
data['PREÇO MÉDIO REVENDA por DOLAR'] = data['PREÇO MÉDIO REVENDA'] * 6.0

In [57]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,sem nocao,de uma lista,PREÇO MÉDIO REVENDA por DOLAR
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0,7.728
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,6.972
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2,8.334
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3,7.572
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4,7.086
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,2.756,0,2.756,2.756,0,6,2019,DEFAULT,106818,21.444
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,2.451,0.402,1.9842,2.8661,0.164,6,2019,DEFAULT,106819,20.406
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,1.998,0,1.9981,1.9981,0,6,2019,DEFAULT,106820,17.472
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,2.374,0.165,2.0179,2.5093,0.07,6,2019,DEFAULT,106821,18.120


**PS:** Obviamente, a lógica correta em converter o preço dos combustíveis em reais para dólares não é considerar uma taxa de câmbio fixa, uma vez que cada preço foi aferido em um momento diferente.

### 1.3.4 Índices

Todo Data Frame possui **índices**, que não são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [118]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,sem nocao,de uma lista,PREÇO MÉDIO REVENDA por DOLAR
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0,7.728
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,6.972
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2,8.334
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3,7.572
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4,7.086
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,2.756,0,2.756,2.756,0,6,2019,DEFAULT,106818,21.444
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,2.451,0.402,1.9842,2.8661,0.164,6,2019,DEFAULT,106819,20.406
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,1.998,0,1.9981,1.9981,0,6,2019,DEFAULT,106820,17.472
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,2.374,0.165,2.0179,2.5093,0.07,6,2019,DEFAULT,106821,18.120


In [119]:
data.index

RangeIndex(start=0, stop=106823, step=1)

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [14]:
pesquisa_de_satisfacao = pd.DataFrame(
    {'bom': [50, 21, 100], 'ruim': [131, 2, 30], 'pessimo': [30, 20, 1]},
    index=['XboxOne', 'Playstation4', 'Switch'],
)

In [121]:
pesquisa_de_satisfacao.head()

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [123]:
pesquisa_de_satisfacao.index

Index(['XboxOne', 'Playstation4', 'Switch'], dtype='object')

### 1.4 Selecionando uma ou mais amostras (Indexação)

In [3]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma observação/linha:**

In [None]:
# seleciona a linha/observação do indice [1]  do dataframe
data.iloc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


**Selecionando múltiplias observação/linhas:**

In [7]:
# selecionando a observações de 0 a 5 (incluso)
data.iloc[:6]  # 6-1

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004


In [8]:
# dessa vez será do intervalo do 10-15 (16)
data.iloc[10:16]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,1.78,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,5,2004
11,11,2004-05-09,2004-05-15,NORDESTE,RIO GRANDE DO NORTE,ETANOL HIDRATADO,131,R$/l,1.276,0.116,...,1.59,0.332,0.091,0.944,0.078,0.7119,1.1386,0.083,5,2004
12,12,2004-05-09,2004-05-15,NORDESTE,SERGIPE,ETANOL HIDRATADO,57,R$/l,1.301,0.109,...,1.75,0.321,0.084,0.98,0.052,0.8267,1.1059,0.053,5,2004
13,13,2004-05-09,2004-05-15,NORTE,ACRE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,...,1.98,0.689,0.074,1.116,0.171,0.767,1.2992,0.153,5,2004
14,14,2004-05-09,2004-05-15,NORTE,AMAPA,ETANOL HIDRATADO,15,R$/l,1.785,0.035,...,1.85,0.412,0.02,1.373,0.167,0.8339,1.4912,0.122,5,2004
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,1.85,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06,5,2004


In [9]:
# podemos selecionar indicies distintos do dataframe como 1, 5, 10, 15
data.iloc[[1, 5, 10, 15]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,1.78,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,5,2004
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,1.85,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06,5,2004


In [None]:
# tbm pode ser na sequencia que escolher 5, 1, 15, 10
# tem que esta entre cochetes iloc[[aqui]]
data.iloc[[5, 1, 15, 10]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,1.85,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06,5,2004
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,1.78,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,5,2004


In [12]:
# tambem pode escolher uma 'celula', como linha/observacao indice [1] da coluna/atributo 4 ['ESTADO']
data.iloc[1, 4]

'GOIAS'

In [None]:
# e assim por diante!

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> row-first, column-second

In [15]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [None]:
# retorna a linha de indice 0 implicito usando iloc
pesquisa_de_satisfacao.iloc[0]

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [None]:
# retorna valor da linha indice 0 e coluna de indice 1, tambem usando iloc
pesquisa_de_satisfacao.iloc[0,1] # 131

np.int64(131)

In [None]:
# retorna a linha cujo o rótulo/label é o 'XboxOne'
pesquisa_de_satisfacao.loc['XboxOne']

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [20]:
# NAO FUNCIONA iloc acessando rótulos
# pesquisa_de_satisfacao.iloc['XboxOne']
# TypeError: Cannot index by location index with a non-integer key

In [22]:
# NAO FUNCIONA loc acessando indices
# pesquisa_de_satisfacao.loc[0]

In [23]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [None]:
# retorna a linha do 'Playstation4' com a coluna 'ruim'
pesquisa_de_satisfacao.loc['Playstation4', 'ruim'] # 2

np.int64(2)

In [None]:
# retona as linhas de indices rotulados 'Playstation4', 'Switch'
pesquisa_de_satisfacao.loc[['Playstation4', 'Switch']]

Unnamed: 0,bom,ruim,pessimo
Playstation4,21,2,20
Switch,100,30,1


In [None]:
# retorna todas as linhas e apenas as colunas com rotulos bom	'ruim', 'pessimo'
pesquisa_de_satisfacao[['bom', 'pessimo']] 

Unnamed: 0,bom,pessimo
XboxOne,50,30
Playstation4,21,20
Switch,100,1


In [34]:
# retorna todas as linhas e apenas as colunas com rotulos bom	'ruim', 'pessimo'
pesquisa_de_satisfacao.loc[:,['bom', 'pessimo']] 

Unnamed: 0,bom,pessimo
XboxOne,50,30
Playstation4,21,20
Switch,100,1


#### Observação
*nesse caso comom temos indice implicito como numero o `loc` e o `iloc` entende como rótulos*

In [33]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [35]:
data.iloc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


In [36]:
data.loc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


### 1.5 Selecionando um ou mais atributos (colunas)

In [37]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [38]:
data['ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [39]:
data.ESTADO

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [42]:
data.loc[:,'ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [49]:
# NÃO FUNCIONA 
# data.DATA INICIAL

# funciona
data['DATA INICIAL']


0         2004-05-09
1         2004-05-09
2         2004-05-09
3         2004-05-09
4         2004-05-09
             ...    
106818    2019-06-23
106819    2019-06-23
106820    2019-06-23
106821    2019-06-23
106822    2019-06-23
Name: DATA INICIAL, Length: 106823, dtype: object

In [50]:
# seleciona multiplas colunas/atributos
data[['DATA INICIAL', 'PRODUTO', 'REGIÃO']]

Unnamed: 0,DATA INICIAL,PRODUTO,REGIÃO
0,2004-05-09,ETANOL HIDRATADO,CENTRO OESTE
1,2004-05-09,ETANOL HIDRATADO,CENTRO OESTE
2,2004-05-09,ETANOL HIDRATADO,CENTRO OESTE
3,2004-05-09,ETANOL HIDRATADO,CENTRO OESTE
4,2004-05-09,ETANOL HIDRATADO,NORDESTE
...,...,...,...
106818,2019-06-23,GNV,NORDESTE
106819,2019-06-23,GNV,SUL
106820,2019-06-23,GNV,SUL
106821,2019-06-23,GNV,SUDESTE


Como o rótulo da coluna 'DATA INICIAL' **possui espaço**, não é possível acessá-la como método: `data.DATA INICIAL`

### 1.6 Removendo um Atributo (Coluna) do Data Frame

In [59]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,sem nocao,de uma lista,PREÇO MÉDIO REVENDA por DOLAR
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0,7.728
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,6.972
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2,8.334
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3,7.572
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4,7.086


Como vimos anteriormente, o atributo 'Unnamed: 0' parece ser um **ruído** em nosso dataset. Desta maneira, vamos eliminá-lo,

In [60]:
# deleta/remove in-place (ou seja, no proprio dataframe) a coluna com o rotulo 'Unnamed: 0'
del data['Unnamed: 0']

In [61]:
data

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,sem nocao,de uma lista,PREÇO MÉDIO REVENDA por DOLAR
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,DEFAULT,0,7.728
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,...,0.763,0.088,0.5013,1.05,0.115,5,2004,DEFAULT,1,6.972
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,...,0.97,0.095,0.5614,1.161,0.098,5,2004,DEFAULT,2,8.334
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,DEFAULT,3,7.572
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,DEFAULT,4,7.086
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,3.499,...,2.756,0,2.756,2.756,0,6,2019,DEFAULT,106818,21.444
106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,3.230,...,2.451,0.402,1.9842,2.8661,0.164,6,2019,DEFAULT,106819,20.406
106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,2.699,...,1.998,0,1.9981,1.9981,0,6,2019,DEFAULT,106820,17.472
106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,2.699,...,2.374,0.165,2.0179,2.5093,0.07,6,2019,DEFAULT,106821,18.120


<br/>
Vamos remover as colunas criadas nas aulas enteriores

'sem nocao', 'de uma lista' e a 'PREÇO MÉDIO REVENDA por DOLAR'
</br>

In [62]:
del data['sem nocao']
del data['de uma lista']
del data['PREÇO MÉDIO REVENDA por DOLAR']

In [64]:
data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso (veja que removemos anteriormente a coluna 'Unnamed: 0' que foi justamente esse caso).<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

In [66]:
data.to_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado.csv', index=False)

### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

In [7]:
data = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019_preprocessado.csv')

In [8]:
data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [9]:
data.ESTADO

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

#### **Selecionando apenas os preços dos Postos de Ceará**

##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

O código abaixo retorna uma ***Series ('array') de booleans***, com o número de linhas (amostras) do Data Frame, que informa os registros de preços dos postos do _estado de Ceará_ (True).

In [11]:

# agrupa por estado
data.ESTADO.unique()

array(['DISTRITO FEDERAL', 'GOIAS', 'MATO GROSSO', 'MATO GROSSO DO SUL',
       'ALAGOAS', 'BAHIA', 'CEARA', 'MARANHAO', 'PARAIBA', 'PERNAMBUCO',
       'PIAUI', 'RIO GRANDE DO NORTE', 'SERGIPE', 'ACRE', 'AMAPA',
       'AMAZONAS', 'PARA', 'RONDONIA', 'RORAIMA', 'TOCANTINS',
       'ESPIRITO SANTO', 'MINAS GERAIS', 'RIO DE JANEIRO', 'SAO PAULO',
       'PARANA', 'RIO GRANDE DO SUL', 'SANTA CATARINA'], dtype=object)

In [15]:
data.ESTADO == 'CEARA'

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821    False
106822    False
Name: ESTADO, Length: 106823, dtype: bool

In [None]:
# guarda essa Series na variavel
selecao = data.ESTADO == 'CEARA'

In [17]:
type(selecao)

pandas.core.series.Series

In [18]:
selecao.shape

(106823,)

In [19]:
data.shape

(106823, 20)

Para **filtrarmos** os registros de postos do estado de Ceará:

In [21]:
# voce pode usar a selecao dentro do dataframe [], desde que seja respectivamente iguais
# retornando exatamente os filtro no caso 'data.ESTADO == 'CEARA'
data[selecao]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004
33,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,1.03,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
60,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,1.03,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
87,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,1.03,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
114,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,1.05,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106705,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL,64,R$/l,3.802,0.071,3.64,3.95,0.456,0.019,3.346,0.096,3.16,3.4781,0.029,6,2019
106732,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL S10,214,R$/l,3.801,0.085,3.59,3.99,0.428,0.022,3.373,0.087,3.15,3.6134,0.026,6,2019
106759,2019-06-23,2019-06-29,NORDESTE,CEARA,GASOLINA COMUM,221,R$/l,4.461,0.164,4.30,4.87,0.426,0.037,4.035,0.102,3.8754,4.3276,0.025,6,2019
106786,2019-06-23,2019-06-29,NORDESTE,CEARA,GLP,131,R$/13Kg,74.659,4.981,65.00,85.00,21.951,0.067,52.708,1.957,46.97,55,0.037,6,2019


O resultado é um Data Frame com _apenas_ os registros desejados após a **filtragem**.<br/>
Podemos ainda utilizar o método `loc` para o mesmo fim:

In [23]:
# pode se usar a Series 'selecao' no loc também, mas verbo
data.loc[selecao]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004
33,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,1.03,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
60,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,1.03,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
87,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,1.03,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
114,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,1.05,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106705,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL,64,R$/l,3.802,0.071,3.64,3.95,0.456,0.019,3.346,0.096,3.16,3.4781,0.029,6,2019
106732,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL S10,214,R$/l,3.801,0.085,3.59,3.99,0.428,0.022,3.373,0.087,3.15,3.6134,0.026,6,2019
106759,2019-06-23,2019-06-29,NORDESTE,CEARA,GASOLINA COMUM,221,R$/l,4.461,0.164,4.30,4.87,0.426,0.037,4.035,0.102,3.8754,4.3276,0.025,6,2019
106786,2019-06-23,2019-06-29,NORDESTE,CEARA,GLP,131,R$/13Kg,74.659,4.981,65.00,85.00,21.951,0.067,52.708,1.957,46.97,55,0.037,6,2019


##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

In [24]:
data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análise feita para os postos de Ceará.

In [28]:
postos_ce = data.query('ESTADO == "CEARA"')

In [29]:
postos_ce

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004
33,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,1.03,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
60,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,1.03,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
87,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,1.03,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
114,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,1.05,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106705,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL,64,R$/l,3.802,0.071,3.64,3.95,0.456,0.019,3.346,0.096,3.16,3.4781,0.029,6,2019
106732,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL S10,214,R$/l,3.801,0.085,3.59,3.99,0.428,0.022,3.373,0.087,3.15,3.6134,0.026,6,2019
106759,2019-06-23,2019-06-29,NORDESTE,CEARA,GASOLINA COMUM,221,R$/l,4.461,0.164,4.30,4.87,0.426,0.037,4.035,0.102,3.8754,4.3276,0.025,6,2019
106786,2019-06-23,2019-06-29,NORDESTE,CEARA,GLP,131,R$/13Kg,74.659,4.981,65.00,85.00,21.951,0.067,52.708,1.957,46.97,55,0.037,6,2019


In [30]:
type(postos_ce) # dataframe

pandas.core.frame.DataFrame

In [31]:
postos_ce.shape

(4263, 20)

In [32]:
postos_ce.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
33,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,1.03,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
60,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,1.03,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
87,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,1.03,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
114,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,1.05,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004


### Resetar Indices
Pode ***resetar o indice*** usando `.reset_index`

In [33]:
postos_ce.reset_index()

Unnamed: 0,index,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.95,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004
1,33,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,...,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
2,60,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,...,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
3,87,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,...,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
4,114,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,...,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4258,106705,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL,64,R$/l,3.802,0.071,...,3.95,0.456,0.019,3.346,0.096,3.16,3.4781,0.029,6,2019
4259,106732,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL S10,214,R$/l,3.801,0.085,...,3.99,0.428,0.022,3.373,0.087,3.15,3.6134,0.026,6,2019
4260,106759,2019-06-23,2019-06-29,NORDESTE,CEARA,GASOLINA COMUM,221,R$/l,4.461,0.164,...,4.87,0.426,0.037,4.035,0.102,3.8754,4.3276,0.025,6,2019
4261,106786,2019-06-23,2019-06-29,NORDESTE,CEARA,GLP,131,R$/13Kg,74.659,4.981,...,85.00,21.951,0.067,52.708,1.957,46.97,55,0.037,6,2019


In [34]:
# remove o index backup criado, e ele é uma cópia
postos_ce.reset_index(drop=True)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004
1,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,1.03,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
2,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,1.03,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
3,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,1.03,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
4,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,1.05,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4258,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL,64,R$/l,3.802,0.071,3.64,3.95,0.456,0.019,3.346,0.096,3.16,3.4781,0.029,6,2019
4259,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL S10,214,R$/l,3.801,0.085,3.59,3.99,0.428,0.022,3.373,0.087,3.15,3.6134,0.026,6,2019
4260,2019-06-23,2019-06-29,NORDESTE,CEARA,GASOLINA COMUM,221,R$/l,4.461,0.164,4.30,4.87,0.426,0.037,4.035,0.102,3.8754,4.3276,0.025,6,2019
4261,2019-06-23,2019-06-29,NORDESTE,CEARA,GLP,131,R$/13Kg,74.659,4.981,65.00,85.00,21.951,0.067,52.708,1.957,46.97,55,0.037,6,2019


In [35]:
# continua pois foi uma copia, precisa usar o inplace
postos_ce

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004
33,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,1.03,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
60,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,1.03,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
87,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,1.03,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
114,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,1.05,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106705,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL,64,R$/l,3.802,0.071,3.64,3.95,0.456,0.019,3.346,0.096,3.16,3.4781,0.029,6,2019
106732,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL S10,214,R$/l,3.801,0.085,3.59,3.99,0.428,0.022,3.373,0.087,3.15,3.6134,0.026,6,2019
106759,2019-06-23,2019-06-29,NORDESTE,CEARA,GASOLINA COMUM,221,R$/l,4.461,0.164,4.30,4.87,0.426,0.037,4.035,0.102,3.8754,4.3276,0.025,6,2019
106786,2019-06-23,2019-06-29,NORDESTE,CEARA,GLP,131,R$/13Kg,74.659,4.981,65.00,85.00,21.951,0.067,52.708,1.957,46.97,55,0.037,6,2019


In [None]:
# agora alterado
postos_ce.reset_index(drop=True, inplace=True)

In [37]:
postos_ce

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004
1,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,1.03,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
2,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,1.03,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
3,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,1.03,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
4,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,1.05,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4258,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL,64,R$/l,3.802,0.071,3.64,3.95,0.456,0.019,3.346,0.096,3.16,3.4781,0.029,6,2019
4259,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL S10,214,R$/l,3.801,0.085,3.59,3.99,0.428,0.022,3.373,0.087,3.15,3.6134,0.026,6,2019
4260,2019-06-23,2019-06-29,NORDESTE,CEARA,GASOLINA COMUM,221,R$/l,4.461,0.164,4.30,4.87,0.426,0.037,4.035,0.102,3.8754,4.3276,0.025,6,2019
4261,2019-06-23,2019-06-29,NORDESTE,CEARA,GLP,131,R$/13Kg,74.659,4.981,65.00,85.00,21.951,0.067,52.708,1.957,46.97,55,0.037,6,2019


In [38]:
# ALTERNATIVA MAIS USADA HOJE
postos_ce = data.query('ESTADO == "CEARA"').reset_index(drop=True)

In [39]:
postos_ce

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,1.03,1.95,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004
1,2004-05-16,2004-05-22,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.451,0.219,1.03,1.95,0.347,0.151,1.104,0.06,0.92,1.27,0.054,5,2004
2,2004-05-23,2004-05-29,NORDESTE,CEARA,ETANOL HIDRATADO,279,R$/l,1.443,0.212,1.03,1.95,0.33,0.147,1.113,0.065,0.849,1.27,0.058,5,2004
3,2004-05-30,2004-06-05,NORDESTE,CEARA,ETANOL HIDRATADO,269,R$/l,1.442,0.206,1.03,1.95,0.333,0.143,1.109,0.07,0.85727,1.27,0.063,5,2004
4,2004-06-06,2004-06-12,NORDESTE,CEARA,ETANOL HIDRATADO,277,R$/l,1.445,0.198,1.05,1.95,0.322,0.137,1.123,0.082,0.85727,1.3021,0.073,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4258,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL,64,R$/l,3.802,0.071,3.64,3.95,0.456,0.019,3.346,0.096,3.16,3.4781,0.029,6,2019
4259,2019-06-23,2019-06-29,NORDESTE,CEARA,ÓLEO DIESEL S10,214,R$/l,3.801,0.085,3.59,3.99,0.428,0.022,3.373,0.087,3.15,3.6134,0.026,6,2019
4260,2019-06-23,2019-06-29,NORDESTE,CEARA,GASOLINA COMUM,221,R$/l,4.461,0.164,4.30,4.87,0.426,0.037,4.035,0.102,3.8754,4.3276,0.025,6,2019
4261,2019-06-23,2019-06-29,NORDESTE,CEARA,GLP,131,R$/13Kg,74.659,4.981,65.00,85.00,21.951,0.067,52.708,1.957,46.97,55,0.037,6,2019


#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**

In [40]:
data.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [41]:
data['ESTADO'] == 'RIO DE JANEIRO'

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821    False
106822    False
Name: ESTADO, Length: 106823, dtype: bool

In [42]:
data['PREÇO MÉDIO REVENDA'] > 2.0

0         False
1         False
2         False
3         False
4         False
          ...  
106818     True
106819     True
106820     True
106821     True
106822     True
Name: PREÇO MÉDIO REVENDA, Length: 106823, dtype: bool

In [43]:
selecao = (data['ESTADO'] == 'RIO DE JANEIRO') & (data['PREÇO MÉDIO REVENDA'] > 2.0)

In [44]:
selecao

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821    False
106822    False
Length: 106823, dtype: bool

Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/amostras do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro e o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

In [46]:
data[selecao]

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
2501,2006-02-26,2006-03-04,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,881,R$/l,2.028,0.148,1.589,2.550,0.222,0.073,1.806,0.11,1.31,2.1358,0.061,2,2006
2528,2006-03-05,2006-03-11,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,889,R$/l,2.125,0.149,1.779,2.550,0.286,0.070,1.839,0.117,1.438,2.2801,0.064,3,2006
2555,2006-03-12,2006-03-18,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,902,R$/l,2.163,0.138,1.799,2.599,0.268,0.064,1.895,0.134,1.43,2.3454,0.071,3,2006
2582,2006-03-19,2006-03-25,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,898,R$/l,2.166,0.146,1.760,2.568,0.231,0.067,1.935,0.14,1.438,2.2925,0.072,3,2006
2609,2006-03-26,2006-04-01,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,890,R$/l,2.172,0.143,1.789,2.550,0.209,0.066,1.963,0.133,1.438,2.2513,0.068,3,2006
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106718,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL,212,R$/l,3.569,0.166,3.179,4.059,0.467,0.047,3.102,0.119,2.886,3.5162,0.038,6,2019
106745,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL S10,335,R$/l,3.697,0.187,3.279,4.389,0.5,0.051,3.197,0.127,2.9772,3.5388,0.04,6,2019
106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,4.599,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019
106799,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,50.000,79.000,17.475,0.089,47.535,3.934,39,58.2,0.083,6,2019


Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (cedilha, acentos) 

In [None]:
# Não funciona
# data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

In [47]:
data.query('ESTADO == "RIO DE JANEIRO" or ESTADO == "SAO PAULO"')

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
22,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,952,R$/l,1.098,0.154,0.740,1.890,0.312,0.140,0.786,0.173,0.326,1.263,0.22,5,2004
23,2004-05-09,2004-05-15,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4047,R$/l,0.768,0.085,0.590,1.150,0.198,0.111,0.57,0.056,0.4271,1.4123,0.098,5,2004
49,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,948,R$/l,1.092,0.157,0.740,1.499,0.284,0.144,0.808,0.175,0.3257,1.2921,0.217,5,2004
50,2004-05-16,2004-05-22,SUDESTE,SAO PAULO,ETANOL HIDRATADO,4066,R$/l,0.766,0.083,0.590,1.150,0.19,0.108,0.576,0.05,0.43204,0.9724,0.087,5,2004
76,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,973,R$/l,1.103,0.140,0.770,1.589,0.281,0.127,0.822,0.166,0.38909,1.1859,0.202,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106778,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.142,0.183,3.769,4.999,0.429,0.044,3.713,0.097,3.52,4.0892,0.026,6,2019
106799,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,50.000,79.000,17.475,0.089,47.535,3.934,39,58.2,0.083,6,2019
106805,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GLP,1017,R$/13Kg,66.893,6.100,50.000,89.900,17.679,0.091,49.214,5.071,40.19,72,0.103,6,2019
106817,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GNV,124,R$/m3,3.111,0.260,2.799,3.799,0.707,0.084,2.404,0.174,2.126,2.7909,0.072,6,2019


**Aprofundando mais ainda**

A primeira comparação `(data['ESTADO'] == 'RIO DE JANEIRO')` checa, linha a linha (amostra a amostra) do DataFrame, quais são aquelas cujo o estado é RIO DE JANEIRO. Nenhuma averiguação de preços é feita nesse momento. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

A segunda comparação `(data['PREÇO MÉDIO REVENDA'] > 2)` checa, linha a linha (amostra a amostra) do DataFrame, quais são os registro cujo preço do combustível é maior que 2 reais. Note que essa comparação checará os postos de **TODOS os estados**. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

Por fim, as duas "perguntas" são unidas pelo AND (&) que retorna a "pergunta completa" que fizemos.

Alguns podem argumentar que tal abordagem é **ineficiente**, uma vez que, para cada condição ("pergunta"), estamos varrendo todas as linhas do DataFrame. <br/>
O Pandas _tenta otimizar_ isso ao máximo por de trás dos panos. Mas, de fato, de tivermos um dataset **muito grande** (centenas de milhares de linhas), tal abordagem se tornará _lenta_.

Assim, poderíamos fazer filtragem com múltiplos condicionais em partes:

In [71]:
selecao_1 = data['ESTADO'] == 'RIO DE JANEIRO'
selecao_1

0         False
1         False
2         False
3         False
4         False
          ...  
106818    False
106819    False
106820    False
106821    False
106822    False
Name: ESTADO, Length: 106823, dtype: bool

In [81]:
posto_rj = data[selecao_1]
posto_rj


Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
22,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,952,R$/l,1.098,0.154,0.740,1.890,0.312,0.140,0.786,0.173,0.326,1.263,0.22,5,2004
49,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,948,R$/l,1.092,0.157,0.740,1.499,0.284,0.144,0.808,0.175,0.3257,1.2921,0.217,5,2004
76,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,973,R$/l,1.103,0.140,0.770,1.589,0.281,0.127,0.822,0.166,0.38909,1.1859,0.202,5,2004
103,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,955,R$/l,1.149,0.156,0.799,1.599,0.3,0.136,0.849,0.188,0.3453,1.3667,0.221,5,2004
130,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,966,R$/l,1.165,0.154,0.830,1.599,0.254,0.132,0.911,0.198,0.4,1.3667,0.217,6,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106718,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL,212,R$/l,3.569,0.166,3.179,4.059,0.467,0.047,3.102,0.119,2.886,3.5162,0.038,6,2019
106745,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL S10,335,R$/l,3.697,0.187,3.279,4.389,0.5,0.051,3.197,0.127,2.9772,3.5388,0.04,6,2019
106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,4.599,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019
106799,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,50.000,79.000,17.475,0.089,47.535,3.934,39,58.2,0.083,6,2019


In [76]:
selecao_2 = posto_rj['PREÇO MÉDIO REVENDA'] > 2.0
selecao_2

22        False
49        False
76        False
103       False
130       False
          ...  
106718     True
106745     True
106772     True
106799     True
106817     True
Name: PREÇO MÉDIO REVENDA, Length: 4263, dtype: bool

In [83]:
posto_rj_preco_maior_2 = posto_rj[selecao_2]
posto_rj_preco_maior_2

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
2501,2006-02-26,2006-03-04,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,881,R$/l,2.028,0.148,1.589,2.550,0.222,0.073,1.806,0.11,1.31,2.1358,0.061,2,2006
2528,2006-03-05,2006-03-11,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,889,R$/l,2.125,0.149,1.779,2.550,0.286,0.070,1.839,0.117,1.438,2.2801,0.064,3,2006
2555,2006-03-12,2006-03-18,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,902,R$/l,2.163,0.138,1.799,2.599,0.268,0.064,1.895,0.134,1.43,2.3454,0.071,3,2006
2582,2006-03-19,2006-03-25,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,898,R$/l,2.166,0.146,1.760,2.568,0.231,0.067,1.935,0.14,1.438,2.2925,0.072,3,2006
2609,2006-03-26,2006-04-01,SUDESTE,RIO DE JANEIRO,ETANOL HIDRATADO,890,R$/l,2.172,0.143,1.789,2.550,0.209,0.066,1.963,0.133,1.438,2.2513,0.068,3,2006
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106718,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL,212,R$/l,3.569,0.166,3.179,4.059,0.467,0.047,3.102,0.119,2.886,3.5162,0.038,6,2019
106745,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,ÓLEO DIESEL S10,335,R$/l,3.697,0.187,3.279,4.389,0.5,0.051,3.197,0.127,2.9772,3.5388,0.04,6,2019
106772,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,422,R$/l,4.928,0.165,4.599,5.859,0.538,0.033,4.39,0.097,4.2,4.618,0.022,6,2019
106799,2019-06-23,2019-06-29,SUDESTE,RIO DE JANEIRO,GLP,221,R$/13Kg,65.010,5.812,50.000,79.000,17.475,0.089,47.535,3.934,39,58.2,0.083,6,2019


#### **Selecionando registros de postos de São Paulo ou do Rio de Janeiro com Gasolina Comum acima de 2 reais**

Podemos fazer a solução do "jeito mais lento", percorrendo o DataFrame inteiro _múltiplas vezes_:

<br/>

Alternativamente:

#### **Selecionando registros dos anos de 2008, 2010 e 2012**

**ALTERNATIVA 1**

**ALTERNATIVA 2**

### **Iterando com DataFrames**

#### For-each `DataFrame.iterrows()` (LENTO ==> apenas indicado para iterar pequenos conjunto de dados)

<h2>2. Preparação dos dados</h2>
<hr/>

### 2.1 Removendo amostras com valores vazios (null / nan) no dataset

De um total de 106823 observações, **não há valores null** / nan para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: P. ex., "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente algumas amostras têm um string ao invés de um número para tais atributos. <br/>

Os atributos *"DATA INICIAL"* e *"DATA FINAL"* deveriam ser do tipo `datetime`.

Em outros casos, alguns **atributos categóricos** são ```objects```, mas poderiam ter o tipo ```category```, que é um tipo especial do pandas. <br/>
Este tipo é necessário para se utilizar algumas funções específicas do pandas. <br/>
**Não** converteremos para este tipo por ora.

#### **Datas**
Como os atributos de data do datset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

#### **Dados Numéricos**

<br/>

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

Várias amostras possuem a _string '-'_ em algumas colunas ao invés de um número de fato. Ou seja, não há aferições destes atributos para estas amostras. <br/>

<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

<br/>

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO DISTRIBUIÇÃO'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

Nosso data frame agora, após essa _limpeza_, ficou mais enxuto, contentdo 103392 registros frente aos 106823 registros originais. <br/>

Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias, p. ex., **confiam na detecção de outliers**, que não veremos neste curso.

#### **Salvando o Dataset Preprocessado**

<h2>3. Estatísticas Descritivas</h2>
<hr/>

O Pandas fornecem algumas funções/métodos ue computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

**Acessando apenas algumas estatísticas**

<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

#### Qual é o menor preço mínimo de revenda?

#### Qual é a média e desvio padrão dos preços mínimos de revenda?

#### Quais são os estados considerados?

#### Quantos registros (aferições) cada estado possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).

<h2>4. Executando funções para cada item de um DataFrame ou Series</h2>
<hr/>

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".


<img src='./imagens/apply_map_applymap.png' width=300/>


Fonte: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff

In [None]:
df = pd.DataFrame(
    {'A': [1, 2, 3, 4], 'B': [10, 20, 30, 40], 'C': [100, 200, 300, 400]},
    index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'],
)

In [None]:
df

`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='./imagens/pandas_axis.jpg' width=500/>

Fonte: https://www.allthesnippets.com/browse/pandas/df_axis.html

<img src='./imagens/apply_axis_1.png' width=250/>

<img src='./imagens/apply_axis_0.png' width=250/>

##### Usando `lambda` functions

<img src='./imagens/apply_axis_1_mean.png' width=350/>

<br/>

`applymap()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de um DataFrame.

In [None]:
df = pd.DataFrame(
    {'A': [1, 2, 3, 4], 'B': [10, 20, 30, 40], 'C': [100, 200, 300, 400]},
    index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'],
)
df

<br/>

`map()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de uma _Series_.

<h2>5. Agrupamento</h2>
<hr/>

`groupby`: Usado para criar **grupo de elementos** (e.x., baseado nos valores de um atributo). <br/>
**Funções** podem então ser aplicadas para os _elementos de cada grupo_, de modo que os **resultados de cada grupo são combinados**.

<br/>

Também podemos ter agrupamentos por mais de um atributo.

<br/>

`.agg`: **agrega (roda)** uma série de funções para os elementos de um dataframe ou de grupos de um dataframe.

In [None]:
df = pd.DataFrame(
    [[1, 2, 3], [4, 5, 6], [7, 8, 9], [np.nan, np.nan, np.nan]], columns=['A', 'B', 'C']
)
df

<h2>6. Ordenação</h2>
<hr/>

In [None]:
notas = pd.DataFrame(
    {
        'nome': ['João', 'Maria', 'José', 'Alice'],
        'idade': [20, 21, 19, 20],
        'nota_final': [5.0, 10.0, 6.0, 10.0],
    }
)
notas

`.sort_values()`: ordena valores ao longo de um eixo.

Por padrão, o método retorna uma cópia dos dados ordenados em **ordem crescente (ascendente)**. Podemos alterar isso pelo argumento `ascending`.

<br/>

Podemos ordenar a partir de **mais de uma coluna**:

Ordena os registros, primeiramente, pela coluna 'nota_final' em **ordem descrente**. <br/>
Então, reordena os registros _"empatados"_, ou seja, com a **mesma nota final**, em _ordem alfabética_ (ordem crescente).

<br/>

Note que o dataframe original **não foi alterado** após a ordenação.

Para alterá-lo, use o argumento `inplace=True`:

<h2>7. Exercícios</h2>
<hr/>

Vamos aplicar os conceitos que vimos em alguns exercícios. <br/>
Para isso, utilizaremos o dataset de _preços de combustíveis no Brasil_.

Como há apenas medições de janeiro a junho para o ano de 2019, resolvemos **remover os dados** deste ano da análise.

Note que temos um novo dataframe com 99739 linhas, mas com índices fora desse intervalo. <br/>
Acontece que os registros mantiveram seus índices originais após a query. <br/>

Para resetar os índices de _0 a num_linhas-1_, basta usarmos o método `.reset_index()`. 

Os índices agora foram **resetados**. Porém, os índices antigos se transformaram em _uma nova coluna_ chamada 'index'. <br/>
Para removê-la durante o _reset_, basta passarmos o argumento `drop=True`.

### 7.1 Qual a proporção de postos pesquisados para cada combustível em cada região

### 7.2 Como os preços da Gasolina Comum em Ceará variaram em 2018?

#### **Estatísticas Descritivas**

### 7.3 Como os preços da Gasolina Comum e do Etanol em São Paulo variaram em 2018?

<h2>8. Assuntos para continuar os estudos</h2>
<hr/>

- join
- concat
- plot
- data cleaning