## **Pandas Essencial**
**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)** <br/>
xavecoding: https://youtube.com/c/xavecoding <br/>

Neste tutorial, vamos aprender o essencial da biblioteca _Pandas_ para manipulação de dados.<br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

### Pacotes usados neste Notebook

In [1]:
# pacotes usados neste notebook
import pandas as pd

<h1>Manipulação de Dados com Pandas</h1><hr/>

<h2>1. Manipulação Básica de Datasets</h2>
<hr/>

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**. <br/>
Cada *amostra (registro/linha)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o _pandas_ consiga abrí-lo normalmente, convertemos tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento.

### 1.1. Importando o Dataset
Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [2]:
dataframe = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv')

In [3]:
dataframe

Unnamed: 0,Unnamed: 0;DATA INICIAL;DATA FINAL;REGIÃO;ESTADO;PRODUTO;NÚMERO DE POSTOS PESQUISADOS;UNIDADE DE MEDIDA;PREÇO MÉDIO REVENDA;DESVIO PADRÃO REVENDA;PREÇO MÍNIMO REVENDA;PREÇO MÁXIMO REVENDA;MARGEM MÉDIA REVENDA;COEF DE VARIAÇÃO REVENDA;PREÇO MÉDIO DISTRIBUIÇÃO;DESVIO PADRÃO DISTRIBUIÇÃO;PREÇO MÍNIMO DISTRIBUIÇÃO;PREÇO MÁXIMO DISTRIBUIÇÃO;COEF DE VARIAÇÃO DISTRIBUIÇÃO;MÊS;ANO
0,0;2004-05-09;2004-05-15;CENTRO OESTE;DISTRITO ...
1,1;2004-05-09;2004-05-15;CENTRO OESTE;GOIAS;ETA...
2,2;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
3,3;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
4,4;2004-05-09;2004-05-15;NORDESTE;ALAGOAS;ETANO...
...,...
106818,106818;2019-06-23;2019-06-29;NORDESTE;RIO GRAN...
106819,106819;2019-06-23;2019-06-29;SUL;RIO GRANDE DO...
106820,106820;2019-06-23;2019-06-29;SUL;SANTA CATARIN...
106821,106821;2019-06-23;2019-06-29;SUDESTE;SAO PAULO...


O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era ';' e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [4]:
dataframe = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv', sep=';')

In [5]:
dataframe

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [6]:
dataframe.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [8]:
dataframe.head(12)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,...,2.0,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004


### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [9]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 21 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Unnamed: 0                     106823 non-null  int64  
 1   DATA INICIAL                   106823 non-null  object 
 2   DATA FINAL                     106823 non-null  object 
 3   REGIÃO                         106823 non-null  object 
 4   ESTADO                         106823 non-null  object 
 5   PRODUTO                        106823 non-null  object 
 6   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 7   UNIDADE DE MEDIDA              106823 non-null  object 
 8   PREÇO MÉDIO REVENDA            106823 non-null  float64
 9   DESVIO PADRÃO REVENDA          106823 non-null  float64
 10  PREÇO MÍNIMO REVENDA           106823 non-null  float64
 11  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 12  MARGEM MÉDIA REVENDA          

A primeira coluna da tabela, chamada _'Unnamed: 0'_, parece não significar nada. Na verdade, ela parece ser os **índices** da tabela, que foram salvos como uma _coluna_.<br/>
Veremos jajá como **remover tal coluna**.

Outro ponto é que, aparentemente, nenhum atributo/coluna possui valores nulos (_null_), uma vez que o número de registros do dataframe e os números de valores _non-null_ é de **106823**. <br/>
Mas, veremos que não é bem assim para esse caso.

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [10]:
type(dataframe)

pandas.core.frame.DataFrame

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [11]:
dataframe.shape

(106823, 21)

In [12]:
print(f'o dataframe possui {dataframe.shape[0]} linhas e {dataframe.shape[1]} colunas')


o dataframe possui 106823 linhas e 21 colunas


#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [13]:
alunos_df = pd.DataFrame({
    'nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade': [16, 1000, 70],
    'peso': [70, 15, 60],
    'eh jedi': [True, True, False]  # o nome das colunas podem ter espaços
})


tensoes = pd.DataFrame({
    'tensao A' : [220, 225, 230, 220, 220.5],
    'tensao B' : [220, 220, 220, 220, 220],
    'tensao C' : [220, 220, 220, 220, 220],
    'medias das tensoes' : [220, 220, 220, 220, 220]
})

In [16]:
tensoes

Unnamed: 0,tensao A,tensao B,tensao C,medias das tensoes
0,220.0,220,220,220
1,225.0,220,220,220
2,230.0,220,220,220
3,220.0,220,220,220
4,220.5,220,220,220


In [17]:
alunos_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [18]:
tensoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   tensao A            5 non-null      float64
 1   tensao B            5 non-null      int64  
 2   tensao C            5 non-null      int64  
 3   medias das tensoes  5 non-null      int64  
dtypes: float64(1), int64(3)
memory usage: 292.0 bytes


In [103]:
tensoes.shape

(5, 4)

#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O método `DataFrame.columns` retorna uma ";lista" com os **nomes de todas as colunas** do data frame.

In [20]:
tensoes.columns

Index(['tensao A', 'tensao B', 'tensao C', 'medias das tensoes'], dtype='object')

In [21]:
alunos_df.columns

Index(['nome', 'idade', 'peso', 'eh jedi'], dtype='object')

In [105]:
type(tensoes.columns)

pandas.core.indexes.base.Index

In [106]:
list(tensoes.columns)

['tensao A', 'tensao B', 'tensao C', 'medias das tensoes']

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [24]:
# renomeia as colunas e gera uma cópia do dataframe
tensoes_rename = tensoes.rename(columns=({
    'tensao A': 'TENSAO A',
    'medias das tensoes' : 'MEDIAS'
}))

In [22]:
tensoes

Unnamed: 0,tensao A,tensao B,tensao C,medias das tensoes
0,220.0,220,220,220
1,225.0,220,220,220
2,230.0,220,220,220
3,220.0,220,220,220
4,220.5,220,220,220


In [26]:
tensoes_rename 

Unnamed: 0,TENSAO A,tensao B,tensao C,MEDIAS
0,220.0,220,220,220
1,225.0,220,220,220
2,230.0,220,220,220
3,220.0,220,220,220
4,220.5,220,220,220


In [27]:
type(tensoes_rename)

pandas.core.frame.DataFrame

In [28]:
# renomea o próprio dataframe, aqui não será gerada uma cópia do dataframe
tensoes.rename(columns=({
    'tensao A': 'TENSAO A',
    'medias das tensoes' : 'MEDIAS'
}), inplace= True)

In [29]:
tensoes

Unnamed: 0,TENSAO A,tensao B,tensao C,MEDIAS
0,220.0,220,220,220
1,225.0,220,220,220
2,230.0,220,220,220
3,220.0,220,220,220
4,220.5,220,220,220


Para renomear o _próprio_ data frame em questão, utilize o parâmetro `inplace=True`:

In [30]:
# renomea o próprio dataframe
tensoes.rename(columns=({
    'tensao A': 'TENSAO A',
    'medias das tensoes' : 'MEDIAS'
}), inplace= True)

In [31]:
tensoes

Unnamed: 0,TENSAO A,tensao B,tensao C,MEDIAS
0,220.0,220,220,220
1,225.0,220,220,220
2,230.0,220,220,220
3,220.0,220,220,220
4,220.5,220,220,220


<br/>

**===>** Uma outra forma de **renomear todas as colunas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [113]:
tensoes.columns

Index(['TENSAO A', 'tensao B', 'tensao C', 'MEDIAS'], dtype='object')

In [114]:
tensoes.columns = ['TENSÃO A', 'TENSÃO B', 'TENSÃO C', 'MÉDIAS']

In [115]:
tensoes

Unnamed: 0,TENSÃO A,TENSÃO B,TENSÃO C,MÉDIAS
0,220.0,220,220,220
1,225.0,220,220,220
2,230.0,220,220,220
3,220.0,220,220,220
4,220.5,220,220,220


### 1.3.3 Series -> LINHAS E COLUNAS COLETADAS DE UM DATAFRAME SÃO SERIES

Array uni-dimensional com os dados e rótulos de um eixo.

Series são um tipo de dado no pandas que podem ser tanto a seleção de um registro como coluna ou como linha, portanto podemos retirar uma series usando os seguintes artificios:

- coluna:
    * dataframe['ESTADO']
    * datafra.ESTADO

- linha:
    * dataframe.iloc[1]


In [32]:
dataframe.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [33]:
# SELECIONAR UMA SERIES (UMA COLUNA INTEIRA)
dataframe['ESTADO']

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [34]:
# esta forma de acesso só funciona para colunas com nomes sem espaço acento ou caracter especial
dataframe.ESTADO

0            DISTRITO FEDERAL
1                       GOIAS
2                 MATO GROSSO
3          MATO GROSSO DO SUL
4                     ALAGOAS
                 ...         
106818    RIO GRANDE DO NORTE
106819      RIO GRANDE DO SUL
106820         SANTA CATARINA
106821              SAO PAULO
106822                SERGIPE
Name: ESTADO, Length: 106823, dtype: object

In [35]:
type(dataframe.ESTADO)

pandas.core.series.Series

In [37]:
# selecionando uma linha com método iloc

dataframe.iloc[1]

Unnamed: 0                                      1
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                      GOIAS
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  387
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.162
DESVIO PADRÃO REVENDA                       0.114
PREÇO MÍNIMO REVENDA                         0.89
PREÇO MÁXIMO REVENDA                        1.449
MARGEM MÉDIA REVENDA                        0.399
COEF DE VARIAÇÃO REVENDA                    0.098
PREÇO MÉDIO DISTRIBUIÇÃO                    0.763
DESVIO PADRÃO DISTRIBUIÇÃO                  0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                    1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.115
MÊS                                             5


In [38]:
linha = dataframe.iloc[2]
linha

Unnamed: 0                                      2
DATA INICIAL                           2004-05-09
DATA FINAL                             2004-05-15
REGIÃO                               CENTRO OESTE
ESTADO                                MATO GROSSO
PRODUTO                          ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                  192
UNIDADE DE MEDIDA                            R$/l
PREÇO MÉDIO REVENDA                         1.389
DESVIO PADRÃO REVENDA                       0.097
PREÇO MÍNIMO REVENDA                         1.18
PREÇO MÁXIMO REVENDA                         1.76
MARGEM MÉDIA REVENDA                        0.419
COEF DE VARIAÇÃO REVENDA                     0.07
PREÇO MÉDIO DISTRIBUIÇÃO                     0.97
DESVIO PADRÃO DISTRIBUIÇÃO                  0.095
PREÇO MÍNIMO DISTRIBUIÇÃO                  0.5614
PREÇO MÁXIMO DISTRIBUIÇÃO                   1.161
COEF DE VARIAÇÃO DISTRIBUIÇÃO               0.098
MÊS                                             5


In [39]:
print(f'tipo de dado que uma coluna representa: {type(linha)}')

tipo de dado que uma coluna representa: <class 'pandas.core.series.Series'>


#### **Criando uma Series**

Podemos criar um DataFrame a partir de uma lista de elementos.

In [121]:
pd.Series([2.2,5,4.5,6.6])

0    2.2
1    5.0
2    4.5
3    6.6
dtype: float64

Podemos alterar o **nome dos índices** (veremos melhor jajá) e o **nome da Series** (o que ela representa):

In [40]:
pd.Series([2.2, 5, 4.5, 6.6], index=['prova 1', 'prova 2', 'prova 3', 'média'], name='Notas do aluno X')

prova 1    2.2
prova 2    5.0
prova 3    4.5
média      6.6
Name: Notas do aluno X, dtype: float64

#### **VEJA MAIS**
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

### 1.3.4 Atribuindo Dados

#### 1.3.4.1 Atribuindo constantes

In [123]:
# ATRIBUINDO UM PONTEIRO QUE APONTA PARA UM VALOR DE MEMÓRIA QUE FAZ REFERENCIA À UMA CONSULTA, VEJA:
product_view = dataframe['PRODUTO']
#product_view = dataframe.PRODUTO


In [124]:
product_view

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

In [125]:
# se eu quiser uma cópia:...
produtc_copy = dataframe['PRODUTO'].copy()

In [126]:
produtc_copy

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

In [127]:
dataframe['PRODUTO'] = 'COMBUSTÍVEL'

In [128]:
dataframe.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,COMBUSTÍVEL,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,COMBUSTÍVEL,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,COMBUSTÍVEL,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,COMBUSTÍVEL,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,COMBUSTÍVEL,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [129]:
produtc_copy

0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object

#### 1.3.4.2 Atribuindo listas ou series

In [130]:
nrows, ncolumn = dataframe.shape
print(nrows)
print(ncolumn)

106823
21


In [131]:
novos_produtos = [f'Produto {i}' for i in range(nrows)]
novos_produtos[:3]

['Produto 0', 'Produto 1', 'Produto 2']

In [132]:
print(f'o tamanho dos novos produtos é {len(novos_produtos)}')

o tamanho dos novos produtos é 106823


In [133]:
# ao fazer isso precisamos passar uma lista com tamanho igual ao número de colunas do
# dataframe, pois senão não irá funcionar

dataframe['PRODUTO'] = novos_produtos

In [134]:
dataframe.head(10)


Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,Produto 0,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,Produto 1,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,Produto 2,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,Produto 3,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,Produto 4,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,Produto 5,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,Produto 6,278,R$/l,1.453,0.218,...,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,Produto 7,105,R$/l,1.631,0.158,...,2.0,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,Produto 8,125,R$/l,1.284,0.13,...,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,Produto 9,423,R$/l,1.224,0.141,...,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004


In [135]:
print(dataframe['PRODUTO'])
print('\n')
print(produtc_copy)

0              Produto 0
1              Produto 1
2              Produto 2
3              Produto 3
4              Produto 4
               ...      
106818    Produto 106818
106819    Produto 106819
106820    Produto 106820
106821    Produto 106821
106822    Produto 106822
Name: PRODUTO, Length: 106823, dtype: object


0         ETANOL HIDRATADO
1         ETANOL HIDRATADO
2         ETANOL HIDRATADO
3         ETANOL HIDRATADO
4         ETANOL HIDRATADO
                ...       
106818                 GNV
106819                 GNV
106820                 GNV
106821                 GNV
106822                 GNV
Name: PRODUTO, Length: 106823, dtype: object


In [136]:
# voltando atrás e atribuindo uma series que contém o valor original da coluna PRODUTOS ao dataframe na posicao PRODUTOS

dataframe['PRODUTO'] = produtc_copy

In [137]:
dataframe

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [138]:
# Quando fazemos isso definimos uma nova coluna com um valor constante para todas as linhas
dataframe['NOVA COLUNA'] = 'VALOR PADRAO'

In [139]:
dataframe

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,NOVA COLUNA
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,VALOR PADRAO
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,VALOR PADRAO
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004,VALOR PADRAO
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,VALOR PADRAO
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,VALOR PADRAO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,0.818,0.018,2.756,0,2.756,2.756,0,6,2019,VALOR PADRAO
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019,VALOR PADRAO
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019,VALOR PADRAO
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019,VALOR PADRAO


In [140]:
dataframe['coluna a partir de lista'] = range(dataframe.shape[0])
dataframe.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,NOVA COLUNA,coluna a partir de lista
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,VALOR PADRAO,0
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,VALOR PADRAO,1
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,VALOR PADRAO,2
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,VALOR PADRAO,3
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,VALOR PADRAO,4


<br/>

Outro exemplo:

In [144]:
#gerando uma coluna a partir de outra e adaptando os valores com base em outra colua também
#gerando uma coluna a partir de outra e adaptando os valores com base em outra colua também
dataframe["PREÇO MÉDIO REVENDA AJUSTADO"] = dataframe["MARGEM MÉDIA REVENDA"] * 6
dataframe

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,NOVA COLUNA,coluna a partir de lista,PREÇO MÉDIO REVENDA AJUSTADO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.825,0.11,0.4201,0.9666,0.133,5,2004,VALOR PADRAO,0,0.4630.4630.4630.4630.4630.463
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.763,0.088,0.5013,1.05,0.115,5,2004,VALOR PADRAO,1,0.3990.3990.3990.3990.3990.399
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.97,0.095,0.5614,1.161,0.098,5,2004,VALOR PADRAO,2,0.4190.4190.4190.4190.4190.419
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,0.83,0.119,0.5991,1.22242,0.143,5,2004,VALOR PADRAO,3,0.4320.4320.4320.4320.4320.432
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.941,0.077,0.7441,1.0317,0.082,5,2004,VALOR PADRAO,4,0.240.240.240.240.240.24
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,2.756,0,2.756,2.756,0,6,2019,VALOR PADRAO,106818,0.8180.8180.8180.8180.8180.818
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,2.451,0.402,1.9842,2.8661,0.164,6,2019,VALOR PADRAO,106819,0.950.950.950.950.950.95
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,1.998,0,1.9981,1.9981,0,6,2019,VALOR PADRAO,106820,0.9140.9140.9140.9140.9140.914
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,2.374,0.165,2.0179,2.5093,0.07,6,2019,VALOR PADRAO,106821,0.6460.6460.6460.6460.6460.646


In [42]:
dataframe.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [44]:
# pegar uma coluna e armazenar numa variavel (ou seja, vou pegar uma series), modificar seu valor e então adicioná-la ao dataframe como uma nova coluna
preco_revenda_medio_reajustado = dataframe['PREÇO MÉDIO REVENDA'] * 2
type(preco_revenda_medio_reajustado)

pandas.core.series.Series

In [48]:
dataframe['PREÇO MÉDIO REVENDA REAJUSTADO'] = preco_revenda_medio_reajustado
dataframe.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA REAJUSTADO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,2.576
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,2.324
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,2.778
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,2.524
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,2.362


In [51]:
dataframe.columns

Index(['Unnamed: 0', 'DATA INICIAL', 'DATA FINAL', 'REGIÃO', 'ESTADO',
       'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO', 'MÊS',
       'ANO', 'PREÇO MÉDIO REVENDA REAJUSTADO'],
      dtype='object')

**PS:** Obviamente, a lógica correta em converter o preço dos combustíveis em reais para dólares não é considerar uma taxa de câmbio fixa, uma vez que cada preço foi aferido em um momento diferente.

### 1.3.4 Índices

Todo Data Frame possui **índices**, que **não** são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [None]:
dataframe

In [55]:
dataframe.index

# tipo rangeindex, que é um intervalo numérico no python.

RangeIndex(start=0, stop=106823, step=1)

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [57]:
pesquisa_de_satisfacao = pd.DataFrame({
    'bom': [50, 21, 100],
    'ruim': [131, 2, 30],
    'pessimo': [30, 20, 1]
}, index=['XboxOne', 'Playstation4', 'Switch'])

pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [59]:
# lista de index
pesquisa_de_satisfacao.index

Index(['XboxOne', 'Playstation4', 'Switch'], dtype='object')

In [60]:
pesquisa_de_satisfacao.head()

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


### 1.4 Selecionando uma ou mais amostras/observações/registros (Indexação)

#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma amostra/linha/observação/registro:**

In [62]:
# selecionando a linha 1, que é o registro de indice 1 do dataframe
dataframe.iloc[1]

Unnamed: 0                                       1
DATA INICIAL                            2004-05-09
DATA FINAL                              2004-05-15
REGIÃO                                CENTRO OESTE
ESTADO                                       GOIAS
PRODUTO                           ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                   387
UNIDADE DE MEDIDA                             R$/l
PREÇO MÉDIO REVENDA                          1.162
DESVIO PADRÃO REVENDA                        0.114
PREÇO MÍNIMO REVENDA                          0.89
PREÇO MÁXIMO REVENDA                         1.449
MARGEM MÉDIA REVENDA                         0.399
COEF DE VARIAÇÃO REVENDA                     0.098
PREÇO MÉDIO DISTRIBUIÇÃO                     0.763
DESVIO PADRÃO DISTRIBUIÇÃO                   0.088
PREÇO MÍNIMO DISTRIBUIÇÃO                   0.5013
PREÇO MÁXIMO DISTRIBUIÇÃO                     1.05
COEF DE VARIAÇÃO DISTRIBUIÇÃO                0.115
MÊS                            

**Selecionando múltiplias amostras/linhas:**

In [64]:
# selecionando as linhas de 0 a 5 (incluso)
# repare que retornará um dataframe, da mesma forma que quando usamos o .head()
dataframe.iloc[:6]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA REAJUSTADO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,2.576
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,2.324
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004,2.778
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004,2.524
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,2.362
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004,2.766


In [65]:
print(type(dataframe.iloc[:6]))

<class 'pandas.core.frame.DataFrame'>


In [67]:
# selecionando as linhas de 10 a 15(incluso)
dataframe.iloc[10:16]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA REAJUSTADO
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,5,2004,3.146
11,11,2004-05-09,2004-05-15,NORDESTE,RIO GRANDE DO NORTE,ETANOL HIDRATADO,131,R$/l,1.276,0.116,...,0.332,0.091,0.944,0.078,0.7119,1.1386,0.083,5,2004,2.552
12,12,2004-05-09,2004-05-15,NORDESTE,SERGIPE,ETANOL HIDRATADO,57,R$/l,1.301,0.109,...,0.321,0.084,0.98,0.052,0.8267,1.1059,0.053,5,2004,2.602
13,13,2004-05-09,2004-05-15,NORTE,ACRE,ETANOL HIDRATADO,33,R$/l,1.805,0.134,...,0.689,0.074,1.116,0.171,0.767,1.2992,0.153,5,2004,3.61
14,14,2004-05-09,2004-05-15,NORTE,AMAPA,ETANOL HIDRATADO,15,R$/l,1.785,0.035,...,0.412,0.02,1.373,0.167,0.8339,1.4912,0.122,5,2004,3.57
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06,5,2004,3.156


In [69]:
# selecionando os registros de indice 1, 5, 10, 15
dataframe.iloc[[1, 5, 10, 15]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA REAJUSTADO
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,2.324
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004,2.766
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,5,2004,3.146
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06,5,2004,3.156


In [75]:
intervalo = list(range(10,15,2))
dataframe.iloc[intervalo]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA REAJUSTADO
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,5,2004,3.146
12,12,2004-05-09,2004-05-15,NORDESTE,SERGIPE,ETANOL HIDRATADO,57,R$/l,1.301,0.109,...,0.321,0.084,0.98,0.052,0.8267,1.1059,0.053,5,2004,2.602
14,14,2004-05-09,2004-05-15,NORTE,AMAPA,ETANOL HIDRATADO,15,R$/l,1.785,0.035,...,0.412,0.02,1.373,0.167,0.8339,1.4912,0.122,5,2004,3.57


In [78]:
# pegando somente os indices par da tabela
intervalo = list(range(0, dataframe.shape[0], 2))
dataframe.iloc[intervalo]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA REAJUSTADO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004,2.576
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004,2.778
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004,2.362
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,0.353,0.150,1.1,0.068,0.7332,1.294,0.062,5,2004,2.906
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.130,...,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004,2.568
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106814,106814,2019-06-23,2019-06-29,NORDESTE,PARAIBA,GNV,11,R$/m3,3.688,0.016,...,0.62,0.004,3.068,0.025,3.0317,3.0676,0.008,6,2019,7.376
106816,106816,2019-06-23,2019-06-29,NORDESTE,PERNAMBUCO,GNV,12,R$/m3,2.698,0.260,...,0.791,0.096,1.907,0.196,1.7116,2.07,0.103,6,2019,5.396
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,0.818,0.018,2.756,0,2.756,2.756,0,6,2019,7.148
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019,5.824


In [80]:
# a ordem dos indices não precisa ser crescentes ou decrescentes, podem ser aleatória
# selecionando os registros 5,1,15,10

dataframe.iloc[[5,1,15,10]]

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO,PREÇO MÉDIO REVENDA REAJUSTADO
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004,2.766
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004,2.324
15,15,2004-05-09,2004-05-15,NORTE,AMAZONAS,ETANOL HIDRATADO,53,R$/l,1.578,0.123,...,0.441,0.078,1.137,0.068,0.9515,1.2109,0.06,5,2004,3.156
10,10,2004-05-09,2004-05-15,NORDESTE,PIAUI,ETANOL HIDRATADO,89,R$/l,1.573,0.134,...,0.494,0.085,1.079,0.078,0.8857,1.2499,0.072,5,2004,3.146


In [81]:
# retornar o valor da linha de indice 1 e coluna 4 (ESTADO)
# OBS: IMPLICITAMENTE AS COLUNAS SÃO INDEXADAS POR INDICES NUMÉRICOS TAMBÉM, EMBORA ELAS TENHAM RÓTULOS

#passamos como se fossem coordenadas cartesianas
dataframe.iloc[1,4]

'GOIAS'

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> ***row-first, column-second***

### VEJA QUE LOC E ILOC SÃO DIFERENTES

* I-loc (i=  indice) ,<br>
* LOC (loc = localização (rotulos))


In [82]:
pesquisa_de_satisfacao.head()

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [84]:
# OBS: MESMO QUE OS INDICES SEJAM RÓTULOS TEXTUAIS, PODEMOS USAR O MÉTODO ILOC (PQ IMPLICITAMENTE EXISTEM NÚMEROS EM RÓTULOS)

pesquisa_de_satisfacao.iloc[0]

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [85]:
# pegar a linha 0 e a coluna 1

pesquisa_de_satisfacao.iloc[0, 1]

np.int64(131)

### observe o método LOC que aceita rótulos nomeados

In [87]:
# retorna uma series que contém a linha, cujo o rótulo do indice é 'XboxOne'
pesquisa_de_satisfacao.loc['XboxOne']

bom         50
ruim       131
pessimo     30
Name: XboxOne, dtype: int64

In [None]:
# CASOS DE USOS QUE NÃO FUNCIONAM COM LOC E ILOC
dataframe.iloc['XboxOne'] # iloc com rotulo nomeado

#### OBSERVAÇÃO IMPORTANTE

**Índices númericos**, por padrão, possuem um rótulo que ***correspondem aos seus valores númericos***, isso quer dizer que podemos usar o loc e pesquisar por um numero, mesmo que seja contra intuitivo, o pandas subentende que um indice númerico quando chamado no loc está se referindo ao seu valor rotulado implicitamente que é um número de mesmo valor, veja abaixo:


In [131]:
#neste caso 'deveríamos' usar o iloc, pois estamos buscando por um indice numérico, porém, conforme o que dito acima, também funciona
dataframe.loc[0]

Unnamed: 0                                       0
DATA INICIAL                            2004-05-09
DATA FINAL                              2004-05-15
REGIÃO                                CENTRO OESTE
ESTADO                            DISTRITO FEDERAL
PRODUTO                           ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                   127
UNIDADE DE MEDIDA                             R$/l
PREÇO MÉDIO REVENDA                          1.288
DESVIO PADRÃO REVENDA                        0.016
PREÇO MÍNIMO REVENDA                          1.19
PREÇO MÁXIMO REVENDA                          1.35
MARGEM MÉDIA REVENDA                         0.463
COEF DE VARIAÇÃO REVENDA                     0.012
PREÇO MÉDIO DISTRIBUIÇÃO                     0.825
DESVIO PADRÃO DISTRIBUIÇÃO                    0.11
PREÇO MÍNIMO DISTRIBUIÇÃO                   0.4201
PREÇO MÁXIMO DISTRIBUIÇÃO                   0.9666
COEF DE VARIAÇÃO DISTRIBUIÇÃO                0.133
MÊS                            

In [134]:
# repare que usando o iloc o series retornado é o mesmo
dataframe.iloc[0]

Unnamed: 0                                       0
DATA INICIAL                            2004-05-09
DATA FINAL                              2004-05-15
REGIÃO                                CENTRO OESTE
ESTADO                            DISTRITO FEDERAL
PRODUTO                           ETANOL HIDRATADO
NÚMERO DE POSTOS PESQUISADOS                   127
UNIDADE DE MEDIDA                             R$/l
PREÇO MÉDIO REVENDA                          1.288
DESVIO PADRÃO REVENDA                        0.016
PREÇO MÍNIMO REVENDA                          1.19
PREÇO MÁXIMO REVENDA                          1.35
MARGEM MÉDIA REVENDA                         0.463
COEF DE VARIAÇÃO REVENDA                     0.012
PREÇO MÉDIO DISTRIBUIÇÃO                     0.825
DESVIO PADRÃO DISTRIBUIÇÃO                    0.11
PREÇO MÍNIMO DISTRIBUIÇÃO                   0.4201
PREÇO MÁXIMO DISTRIBUIÇÃO                   0.9666
COEF DE VARIAÇÃO DISTRIBUIÇÃO                0.133
MÊS                            

In [89]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Playstation4,21,2,20
Switch,100,30,1


In [91]:
# usando loc para acessar os valores de  linha e coluna específicos
pesquisa_de_satisfacao.loc['Playstation4', 'ruim']

np.int64(2)

In [95]:
# VEJA QUE NO CASO ABAIXO CONSEGUIMOS USAR O NÚMERO PARA A LINHA E O RÓTULO PARA A COLUNA NO MÉTODO LOC, ISSO SIM FUNCIONA, O QUE NÃO FUNCIONA É
# CHAMARMOS O LOC E APENAS PASSAR O INDICE NUMERO PARA A LINHA ESPERANDO QUE ELE RETORNE UMA SERIES
dataframe.loc[0,'DATA FINAL']

'2004-05-15'

In [None]:
# ISSO TAMBÉM GERA ERRO (LEMBRE-SE ROW-FIRST, COLUMN-SECOND)
dataframe.loc['DATA FINAL']

In [99]:
# AGORA PODEMOS PASSAR SIM UMA LISTA DE INDICES ROTULADOS SEM PASSAR OS INDICES DAS LINHAS E RECUPERAR UM DATAFRAME DOS ROTULOS PASSADOS
pesquisa_de_satisfacao.loc[['XboxOne', 'Switch']] # ESSES RÓTULOS SÃO *****LINHAS**** POR ISSO FUNCIONA DESTA MANEIRA, SEM PASSAR O NUMERO

Unnamed: 0,bom,ruim,pessimo
XboxOne,50,131,30
Switch,100,30,1


In [101]:
# OUTRA COISA MUITO INTERESSANTE É APLICAR FILTRO DE INDEX USANDO O LOC OU ENTÃO COM FATIAMENTO SEM USAR O LOC, VEJA:

# selecionar todas as linhas somente com as colunas bom e ruim
pesquisa_de_satisfacao[['bom', 'ruim']]

Unnamed: 0,bom,ruim
XboxOne,50,131
Playstation4,21,2
Switch,100,30


In [103]:
pesquisa_de_satisfacao[['bom']]

Unnamed: 0,bom
XboxOne,50
Playstation4,21
Switch,100


In [105]:
# selecionar a mesma coisa de antes, ou seja, todas as linhas com somente algumas colunas, porém agora usando o loc e o conceito de fatiamento
pesquisa_de_satisfacao.loc[ : , ['bom', 'ruim']] #lembre-se que aqui ele espera sempre a linha primeiro, então devemos passá-la como um intervalo omitindo inicio e fim para selecionar tudo

Unnamed: 0,bom,ruim
XboxOne,50,131
Playstation4,21,2
Switch,100,30


In [116]:
pesquisa_de_satisfacao.loc[:'Switch', 'bom']

XboxOne          50
Playstation4     21
Switch          100
Name: bom, dtype: int64

In [120]:
# O MAIS COMUM É ISSO, UM INDICE NÚMERO E UMA COLUNA ROTULADA, LOGO O USO DO LOC MAIS CONVENCIONAL É ESTE ABAIXO
dataframe.loc[ : 3, 'DATA FINAL']

0    2004-05-15
1    2004-05-15
2    2004-05-15
3    2004-05-15
Name: DATA FINAL, dtype: object

In [127]:
dataframe.loc[:3, : 'ESTADO']

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL


In [128]:
dataframe[['ESTADO', 'REGIÃO']]

Unnamed: 0,ESTADO,REGIÃO
0,DISTRITO FEDERAL,CENTRO OESTE
1,GOIAS,CENTRO OESTE
2,MATO GROSSO,CENTRO OESTE
3,MATO GROSSO DO SUL,CENTRO OESTE
4,ALAGOAS,NORDESTE
...,...,...
106818,RIO GRANDE DO NORTE,NORDESTE
106819,RIO GRANDE DO SUL,SUL
106820,SANTA CATARINA,SUL
106821,SAO PAULO,SUDESTE


## **RESUMINHO**

O mais habitual de se encontrar em um dataset é possuir indices de linhas numéricos, indo de 0 num_linhas-1, e os indices de colunas são rotulos nomeados,
desta forma o filtro por indexação mais habitual é usando o método loc para selecionar o intervalo númerico de linhas e passar um valor de rotulos para as colunas selecionadas.

Outra forma de selecionar as colunas específicas de um dataframe é usando somente uma lista de dentro da chamada do dataframe passando uma lista com o nome das colunas ou então somente o nome da coluna

 **-> usando o .loc** <br>
 * dataframe.loc[0, 'ESTADO'] <br>
 * dataframe.loc[0:11, ['ESTADO', 'PREÇO MEDIO DE REVENDA']] <br>
 * dataframe.loc[:3, : 'ESTADO'] <br>

---
 **--> usando a formatação padrão de listas** <br>
 * dataframe[['ESTADO']] <br>
 * dataframe[['ESTADO', 'REGIÃO']] <br>



### 1.5 Selecionando um ou mais atributos (colunas)

Como o rótulo da coluna 'DATA INICIAL' **possui espaço**, não é possível acessá-la como método: `data.DATA INICIAL`

### 1.6 Removendo um Atributo (Coluna) do Data Frame

Como vimos anteriormente, o atributo 'Unnamed: 0' parece ser um **ruído** em nosso dataset. Desta maneira, vamos eliminá-lo,

### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso (veja que removemos anteriormente a coluna 'Unnamed: 0' que foi justamente esse caso).<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

#### **Selecionando apenas os preços dos Postos de São Paulo**

##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

O código abaixo retorna uma ***Series ('array') de booleans***, com o número de linhas (amostras) do Data Frame, que informa os registros de preços dos postos do _estado de São Paulo_ (True).

Para **filtrarmos** os registros de postos do estado de São Paulo:

O resultado é um Data Frame com _apenas_ os registros desejados após a **filtragem**.<br/>
Podemos ainda utilizar o método `loc` para o mesmo fim:

##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análise feita para os postos de São Paulo.

#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**

Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/amostras do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro e o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (cedilha, acentos) 

In [None]:
# Não funciona
# data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

**Aprofundando mais ainda**

A primeira comparação `(data['ESTADO'] == 'RIO DE JANEIRO')` checa, linha a linha (amostra a amostra) do DataFrame, quais são aquelas cujo o estado é RIO DE JANEIRO. Nenhuma averiguação de preços é feita nesse momento. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

A segunda comparação `(data['PREÇO MÉDIO REVENDA'] > 2)` checa, linha a linha (amostra a amostra) do DataFrame, quais são os registro cujo preço do combustível é maior que 2 reais. Note que essa comparação checará os postos de **TODOS os estados**. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

Por fim, as duas "perguntas" são unidas pelo AND (&) que retorna a "pergunta completa" que fizemos.

Alguns podem argumentar que tal abordagem é **ineficiente**, uma vez que, para cada condição ("pergunta"), estamos varrendo todas as linhas do DataFrame. <br/>
O Pandas _tenta otimizar_ isso ao máximo por de trás dos panos. Mas, de fato, de tivermos um dataset **muito grande** (centenas de milhares de linhas), tal abordagem se tornará _lenta_.

Assim, poderíamos fazer filtragem com múltiplos condicionais em partes:

#### **Selecionando registros de postos de São Paulo ou do Rio de Janeiro com Gasolina Comum acima de 2 reais**

Podemos fazer a solução do "jeito mais lento", percorrendo o DataFrame inteiro _múltiplas vezes_:

<br/>

Alternativamente:

#### **Selecionando registros dos anos de 2008, 2010 e 2012**

**ALTERNATIVA 1**

**ALTERNATIVA 2**

### **Iterando com DataFrames**

#### For-each `DataFrame.iterrows()` (LENTO ==> apenas indicado para iterar pequenos conjunto de dados)

<h2>2. Preparação dos dados</h2>
<hr/>

### 2.1 Removendo amostras com valores vazios (null / nan) no dataset

De um total de 106823 observações, **não há valores null** / nan para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: P. ex., "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente algumas amostras têm um string ao invés de um número para tais atributos. <br/>

Os atributos *"DATA INICIAL"* e *"DATA FINAL"* deveriam ser do tipo `datetime`.

Em outros casos, alguns **atributos categóricos** são ```objects```, mas poderiam ter o tipo ```category```, que é um tipo especial do pandas. <br/>
Este tipo é necessário para se utilizar algumas funções específicas do pandas. <br/>
**Não** converteremos para este tipo por ora.

#### **Datas**
Como os atributos de data do datset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

#### **Dados Numéricos**

<br/>

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

Várias amostras possuem a _string '-'_ em algumas colunas ao invés de um número de fato. Ou seja, não há aferições destes atributos para estas amostras. <br/>

<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

<br/>

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO DISTRIBUIÇÃO'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

Nosso data frame agora, após essa _limpeza_, ficou mais enxuto, contentdo 103392 registros frente aos 106823 registros originais. <br/>

Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias, p. ex., **confiam na detecção de outliers**, que não veremos neste curso.

#### **Salvando o Dataset Preprocessado**

<h2>3. Estatísticas Descritivas</h2>
<hr/>

O Pandas fornecem algumas funções/métodos ue computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

**Acessando apenas algumas estatísticas**

<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

#### Qual é o menor preço mínimo de revenda?

#### Qual é a média e desvio padrão dos preços mínimos de revenda?

#### Quais são os estados considerados?

#### Quantos registros (aferições) cada estado possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).

<h2>4. Executando funções para cada item de um DataFrame ou Series</h2>
<hr/>

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".


<img src='./imagens/apply_map_applymap.png' width=300/>


Fonte: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff

In [None]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])

In [None]:
df

`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='./imagens/pandas_axis.jpg' width=500/>

Fonte: https://www.allthesnippets.com/browse/pandas/df_axis.html

<img src='./imagens/apply_axis_1.png' width=250/>

<img src='./imagens/apply_axis_0.png' width=250/>

##### Usando `lambda` functions

<img src='./imagens/apply_axis_1_mean.png' width=350/>

<br/>

`applymap()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de um DataFrame.

In [None]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])
df

<br/>

`map()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de uma _Series_.

<h2>5. Agrupamento</h2>
<hr/>

`groupby`: Usado para criar **grupo de elementos** (e.x., baseado nos valores de um atributo). <br/>
**Funções** podem então ser aplicadas para os _elementos de cada grupo_, de modo que os **resultados de cada grupo são combinados**.

<br/>

Também podemos ter agrupamentos por mais de um atributo.

<br/>

`.agg`: **agrega (roda)** uma série de funções para os elementos de um dataframe ou de grupos de um dataframe.

In [None]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                  columns=['A', 'B', 'C'])
df

<h2>6. Ordenação</h2>
<hr/>

In [None]:
notas = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Alice'],
    'idade': [20, 21, 19, 20],
    'nota_final': [5.0, 10.0, 6.0, 10.0]
})
notas

`.sort_values()`: ordena valores ao longo de um eixo.

Por padrão, o método retorna uma cópia dos dados ordenados em **ordem crescente (ascendente)**. Podemos alterar isso pelo argumento `ascending`.

<br/>

Podemos ordenar a partir de **mais de uma coluna**:

Ordena os registros, primeiramente, pela coluna 'nota_final' em **ordem descrente**. <br/>
Então, reordena os registros _"empatados"_, ou seja, com a **mesma nota final**, em _ordem alfabética_ (ordem crescente).

<br/>

Note que o dataframe original **não foi alterado** após a ordenação.

Para alterá-lo, use o argumento `inplace=True`:

<h2>7. Exercícios</h2>
<hr/>

Vamos aplicar os conceitos que vimos em alguns exercícios. <br/>
Para isso, utilizaremos o dataset de _preços de combustíveis no Brasil_.

Como há apenas medições de janeiro a junho para o ano de 2019, resolvemos **remover os dados** deste ano da análise.

Note que temos um novo dataframe com 99739 linhas, mas com índices fora desse intervalo. <br/>
Acontece que os registros mantiveram seus índices originais após a query. <br/>

Para resetar os índices de _0 a num_linhas-1_, basta usarmos o método `.reset_index()`. 

Os índices agora foram **resetados**. Porém, os índices antigos se transformaram em _uma nova coluna_ chamada 'index'. <br/>
Para removê-la durante o _reset_, basta passarmos o argumento `drop=True`.

### 7.1 Qual a proporção de postos pesquisados para cada combustível em cada região

### 7.2 Como os preços da Gasolina Comum em São Paulo variaram em 2018?

#### **Estatísticas Descritivas**

### 7.3 Como os preços da Gasolina Comum e do Etanol em São Paulo variaram em 2018?

<h2>8. Assuntos para continuar os estudos</h2>
<hr/>

- join
- concat
- plot
- data cleaning