## **Pandas Essencial**
**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)** <br/>
xavecoding: https://youtube.com/c/xavecoding <br/>

Neste tutorial, vamos aprender o essencial da biblioteca _Pandas_ para manipulação de dados.<br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

### Pacotes usados neste Notebook

In [1]:
# pacotes usados neste notebook
import pandas as pd

<h1>Manipulação de Dados com Pandas</h1><hr/>

<h2>1. Manipulação Básica de Datasets</h2>
<hr/>

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**. <br/>
Cada *amostra (registro/linha)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o _pandas_ consiga abrí-lo normalmente, convertemos tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento.

### 1.1. Importando o Dataset
Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [96]:
dataframe = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv')

In [None]:
dataframe

O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era ';' e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [98]:
dataframe = pd.read_csv('./datasets/GasPricesinBrazil_2004-2019.csv', sep=';')

In [None]:
dataframe

### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [None]:
dataframe.head()

In [None]:
dataframe.head(12)

### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [None]:
dataframe.info()

A primeira coluna da tabela, chamada _'Unnamed: 0'_, parece não significar nada. Na verdade, ela parece ser os **índices** da tabela, que foram salvos como uma _coluna_.<br/>
Veremos jajá como **remover tal coluna**.

Outro ponto é que, aparentemente, nenhum atributo/coluna possui valores nulos (_null_), uma vez que o número de registros do dataframe e os números de valores _non-null_ é de **106823**. <br/>
Mas, veremos que não é bem assim para esse caso.

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [None]:
type(dataframe)

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [None]:
dataframe.shape

In [None]:
print(f'o dataframe possui {dataframe.shape[0]} linhas e {dataframe.shape[1]} colunas')


#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [106]:
alunos_df = pd.DataFrame({
    'nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade': [16, 1000, 70],
    'peso': [70, 15, 60],
    'eh jedi': [True, True, False]  # o nome das colunas podem ter espaços
})


tensoes = pd.DataFrame({
    'tensao A' : [220, 225, 230, 220, 220.5],
    'tensao B' : [220, 220, 220, 220, 220],
    'tensao C' : [220, 220, 220, 220, 220],
    'medias das tensoes' : [220, 220, 220, 220, 220]
})

In [None]:
tensoes

In [None]:
alunos_df

In [None]:
tensoes.info()

In [None]:
tensoes.shape

#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O método `DataFrame.columns` retorna uma ";lista" com os **nomes de todas as colunas** do data frame.

In [None]:
tensoes.columns

In [None]:
alunos_df.columns

In [None]:
type(tensoes.columns)

In [None]:
list(tensoes.columns)

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [115]:
# renomeia as colunas e gera uma cópia do dataframe
tensoes_rename = tensoes.rename(columns=({
    'tensao A': 'TENSAO A',
    'medias das tensoes' : 'MEDIAS'
}))

In [None]:
tensoes

In [None]:
tensoes_rename 

In [None]:
type(tensoes_rename)

In [119]:
# renomea o próprio dataframe, aqui não será gerada uma cópia do dataframe
tensoes.rename(columns=({
    'tensao A': 'TENSAO A',
    'medias das tensoes' : 'MEDIAS'
}), inplace= True)

In [None]:
tensoes

Para renomear o _próprio_ data frame em questão, utilize o parâmetro `inplace=True`:

In [121]:
# renomea o próprio dataframe
tensoes.rename(columns=({
    'tensao A': 'TENSAO A',
    'medias das tensoes' : 'MEDIAS'
}), inplace= True)

In [None]:
tensoes

<br/>

**===>** Uma outra forma de **renomear todas as colunas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [None]:
tensoes.columns

In [124]:
tensoes.columns = ['TENSÃO A', 'TENSÃO B', 'TENSÃO C', 'MÉDIAS']

In [None]:
tensoes

### 1.3.3 Series -> LINHAS E COLUNAS COLETADAS DE UM DATAFRAME SÃO SERIES

Array uni-dimensional com os dados e rótulos de um eixo.

Series são um tipo de dado no pandas que podem ser tanto a seleção de um registro como coluna ou como linha, portanto podemos retirar uma series usando os seguintes artificios:

- coluna:
    * dataframe['ESTADO']
    * datafra.ESTADO

- linha:
    * dataframe.iloc[1]


In [None]:
dataframe.head()

In [None]:
# SELECIONAR UMA SERIES (UMA COLUNA INTEIRA)
dataframe['ESTADO']

In [None]:
# esta forma de acesso só funciona para colunas com nomes sem espaço acento ou caracter especial
dataframe.ESTADO

In [None]:
type(dataframe.ESTADO)

In [None]:
# selecionando uma linha com método iloc

dataframe.iloc[1]

In [None]:
linha = dataframe.iloc[2]
linha

In [None]:
print(f'tipo de dado que uma coluna representa: {type(linha)}')

#### **Criando uma Series**

Podemos criar um DataFrame a partir de uma lista de elementos.

In [None]:
pd.Series([2.2,5,4.5,6.6])

Podemos alterar o **nome dos índices** (veremos melhor jajá) e o **nome da Series** (o que ela representa):

In [None]:
pd.Series([2.2, 5, 4.5, 6.6], index=['prova 1', 'prova 2', 'prova 3', 'média'], name='Notas do aluno X')

#### **VEJA MAIS**
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

### 1.3.4 Atribuindo Dados

#### 1.3.4.1 Atribuindo constantes

In [135]:
# ATRIBUINDO UM PONTEIRO QUE APONTA PARA UM VALOR DE MEMÓRIA QUE FAZ REFERENCIA À UMA CONSULTA, VEJA:
product_view = dataframe['PRODUTO']
#product_view = dataframe.PRODUTO


In [None]:
product_view

In [137]:
# se eu quiser uma cópia:...
produtc_copy = dataframe['PRODUTO'].copy()

In [None]:
produtc_copy

In [139]:
dataframe['PRODUTO'] = 'COMBUSTÍVEL'

In [None]:
dataframe.head()

In [None]:
produtc_copy

#### 1.3.4.2 Atribuindo listas ou series

In [None]:
nrows, ncolumn = dataframe.shape
print(nrows)
print(ncolumn)

In [None]:
novos_produtos = [f'Produto {i}' for i in range(nrows)]
novos_produtos[:3]

In [None]:
print(f'o tamanho dos novos produtos é {len(novos_produtos)}')

In [145]:
# ao fazer isso precisamos passar uma lista com tamanho igual ao número de colunas do
# dataframe, pois senão não irá funcionar

dataframe['PRODUTO'] = novos_produtos

In [None]:
dataframe.head(10)


In [None]:
print(dataframe['PRODUTO'])
print('\n')
print(produtc_copy)

In [148]:
# voltando atrás e atribuindo uma series que contém o valor original da coluna PRODUTOS ao dataframe na posicao PRODUTOS

dataframe['PRODUTO'] = produtc_copy

In [None]:
dataframe

#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [150]:
# Quando fazemos isso definimos uma nova coluna com um valor constante para todas as linhas
dataframe['NOVA COLUNA'] = 'VALOR PADRAO'

In [None]:
dataframe

In [None]:
dataframe['coluna a partir de lista'] = range(dataframe.shape[0])
dataframe.head()

<br/>

Outro exemplo:

In [None]:
#gerando uma coluna a partir de outra e adaptando os valores com base em outra colua também
#gerando uma coluna a partir de outra e adaptando os valores com base em outra colua também
dataframe["PREÇO MÉDIO REVENDA AJUSTADO"] = dataframe["MARGEM MÉDIA REVENDA"] * 6
dataframe

In [None]:
dataframe.head()

In [None]:
# pegar uma coluna e armazenar numa variavel (ou seja, vou pegar uma series), modificar seu valor e então adicioná-la ao dataframe como uma nova coluna
preco_revenda_medio_reajustado = dataframe['PREÇO MÉDIO REVENDA'] * 2
type(preco_revenda_medio_reajustado)

In [None]:
dataframe['PREÇO MÉDIO REVENDA REAJUSTADO'] = preco_revenda_medio_reajustado
dataframe.head()

In [None]:
dataframe.columns

**PS:** Obviamente, a lógica correta em converter o preço dos combustíveis em reais para dólares não é considerar uma taxa de câmbio fixa, uma vez que cada preço foi aferido em um momento diferente.

### 1.3.4 Índices

Todo Data Frame possui **índices**, que **não** são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [None]:
dataframe

In [None]:
dataframe.index

# tipo rangeindex, que é um intervalo numérico no python.

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [None]:
pesquisa_de_satisfacao = pd.DataFrame({
    'bom': [50, 21, 100],
    'ruim': [131, 2, 30],
    'pessimo': [30, 20, 1]
}, index=['XboxOne', 'Playstation4', 'Switch'])

pesquisa_de_satisfacao

In [None]:
# lista de index
pesquisa_de_satisfacao.index

In [None]:
pesquisa_de_satisfacao.head()

### 1.4 Selecionando uma ou mais amostras/observações/registros (Indexação)

#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma amostra/linha/observação/registro:**

In [None]:
# selecionando a linha 1, que é o registro de indice 1 do dataframe
dataframe.iloc[1]

**Selecionando múltiplias amostras/linhas:**

In [None]:
# selecionando as linhas de 0 a 5 (incluso)
# repare que retornará um dataframe, da mesma forma que quando usamos o .head()
dataframe.iloc[:6]

In [None]:
print(type(dataframe.iloc[:6]))

In [None]:
# selecionando as linhas de 10 a 15(incluso)
dataframe.iloc[10:16]

In [None]:
# selecionando os registros de indice 1, 5, 10, 15
dataframe.iloc[[1, 5, 10, 15]]

In [None]:
intervalo = list(range(10,15,2))
dataframe.iloc[intervalo]

In [None]:
# pegando somente os indices par da tabela
intervalo = list(range(0, dataframe.shape[0], 2))
dataframe.iloc[intervalo]

In [None]:
# a ordem dos indices não precisa ser crescentes ou decrescentes, podem ser aleatória
# selecionando os registros 5,1,15,10

dataframe.iloc[[5,1,15,10]]

In [None]:
# retornar o valor da linha de indice 1 e coluna 4 (ESTADO)
# OBS: IMPLICITAMENTE AS COLUNAS SÃO INDEXADAS POR INDICES NUMÉRICOS TAMBÉM, EMBORA ELAS TENHAM RÓTULOS

#passamos como se fossem coordenadas cartesianas
dataframe.iloc[1,4]

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> ***row-first, column-second***

### VEJA QUE LOC E ILOC SÃO DIFERENTES

* I-loc (i=  indice) ,<br>
* LOC (loc = localização (rotulos))


In [None]:
pesquisa_de_satisfacao.head()

In [None]:
# OBS: MESMO QUE OS INDICES SEJAM RÓTULOS TEXTUAIS, PODEMOS USAR O MÉTODO ILOC (PQ IMPLICITAMENTE EXISTEM NÚMEROS EM RÓTULOS)

pesquisa_de_satisfacao.iloc[0]

In [None]:
# pegar a linha 0 e a coluna 1

pesquisa_de_satisfacao.iloc[0, 1]

### observe o método LOC que aceita rótulos nomeados

In [None]:
# retorna uma series que contém a linha, cujo o rótulo do indice é 'XboxOne'
pesquisa_de_satisfacao.loc['XboxOne']

In [None]:
# CASOS DE USOS QUE NÃO FUNCIONAM COM LOC E ILOC
dataframe.iloc['XboxOne'] # iloc com rotulo nomeado

#### OBSERVAÇÃO IMPORTANTE

**Índices númericos**, por padrão, possuem um rótulo que ***correspondem aos seus valores númericos***, isso quer dizer que podemos usar o loc e pesquisar por um numero, mesmo que seja contra intuitivo, o pandas subentende que um indice númerico quando chamado no loc está se referindo ao seu valor rotulado implicitamente que é um número de mesmo valor, veja abaixo:


In [None]:
#neste caso 'deveríamos' usar o iloc, pois estamos buscando por um indice numérico, porém, conforme o que dito acima, também funciona
dataframe.loc[0]

In [None]:
# repare que usando o iloc o series retornado é o mesmo
dataframe.iloc[0]

In [None]:
pesquisa_de_satisfacao

In [None]:
# usando loc para acessar os valores de  linha e coluna específicos
pesquisa_de_satisfacao.loc['Playstation4', 'ruim']

In [None]:
# VEJA QUE NO CASO ABAIXO CONSEGUIMOS USAR O NÚMERO PARA A LINHA E O RÓTULO PARA A COLUNA NO MÉTODO LOC, ISSO SIM FUNCIONA, O QUE NÃO FUNCIONA É
# CHAMARMOS O LOC E APENAS PASSAR O INDICE NUMERO PARA A LINHA ESPERANDO QUE ELE RETORNE UMA SERIES
dataframe.loc[0,'DATA FINAL']

In [None]:
# ISSO TAMBÉM GERA ERRO (LEMBRE-SE ROW-FIRST, COLUMN-SECOND)
dataframe.loc['DATA FINAL']

In [None]:
# AGORA PODEMOS PASSAR SIM UMA LISTA DE INDICES ROTULADOS SEM PASSAR OS INDICES DAS LINHAS E RECUPERAR UM DATAFRAME DOS ROTULOS PASSADOS
pesquisa_de_satisfacao.loc[['XboxOne', 'Switch']] # ESSES RÓTULOS SÃO *****LINHAS**** POR ISSO FUNCIONA DESTA MANEIRA, SEM PASSAR O NUMERO

In [None]:
# OUTRA COISA MUITO INTERESSANTE É APLICAR FILTRO DE INDEX USANDO O LOC OU ENTÃO COM FATIAMENTO SEM USAR O LOC, VEJA:

# selecionar todas as linhas somente com as colunas bom e ruim
pesquisa_de_satisfacao[['bom', 'ruim']]

In [None]:
pesquisa_de_satisfacao[['bom']]

In [None]:
# selecionar a mesma coisa de antes, ou seja, todas as linhas com somente algumas colunas, porém agora usando o loc e o conceito de fatiamento
pesquisa_de_satisfacao.loc[ : , ['bom', 'ruim']] #lembre-se que aqui ele espera sempre a linha primeiro, então devemos passá-la como um intervalo omitindo inicio e fim para selecionar tudo

In [None]:
pesquisa_de_satisfacao.loc[:'Switch', 'bom']

In [None]:
# O MAIS COMUM É ISSO, UM INDICE NÚMERO E UMA COLUNA ROTULADA, LOGO O USO DO LOC MAIS CONVENCIONAL É ESTE ABAIXO
dataframe.loc[ : 3, 'DATA FINAL']

In [None]:
dataframe.loc[:3, : 'ESTADO']

In [None]:
dataframe[['ESTADO', 'REGIÃO']]

## **RESUMINHO**

O mais habitual de se encontrar em um dataset é possuir indices de linhas numéricos, indo de 0 num_linhas-1, e os indices de colunas são rotulos nomeados,
desta forma o filtro por indexação mais habitual é usando o método loc para selecionar o intervalo númerico de linhas e passar um valor de rotulos para as colunas selecionadas.

Outra forma de selecionar as colunas específicas de um dataframe é usando somente uma lista de dentro da chamada do dataframe passando uma lista com o nome das colunas ou então somente o nome da coluna

 **-> usando o .loc** <br>
 * dataframe.loc[0, 'ESTADO'] <br>
 * dataframe.loc[0:11, ['ESTADO', 'PREÇO MEDIO DE REVENDA']] <br>
 * dataframe.loc[:3, : 'ESTADO'] <br>

---
 **--> usando a formatação padrão de listas** <br>
 * dataframe[['ESTADO']] <br>
 * dataframe[['ESTADO', 'REGIÃO']] <br>



### 1.5 Selecionando um ou mais atributos (colunas)

In [None]:
dataframe.head()

In [None]:
# pegar a coluna estado
dataframe['ESTADO']

In [None]:
# ESTE MÉTODO DE ACESSO SÓ FUNCIONA SE O NOME DA COLUNA NÃO POSSUIR CARACTERES INVÁLIDOS (' ', '´Ç~', '@')
dataframe.ESTADO

In [None]:
# ISSO NÃO FUNCIONA
dataframe.DATA INICIAL

In [None]:
# PARA SELECIONAR DESTA FORMA PRECISARIAMOS USAR A SELECAO POR STRING
dataframe['DATA INICIAL']
dataframe.loc[:, 'DATA INICIAL']

In [None]:
dataframe.loc[:, 'ESTADO']

In [None]:
# SELEÇÃO DE MULTIPLAS COLUNAS
dataframe[['PRODUTO', 'ESTADO', 'REGIÃO']]

Como o rótulo da coluna 'DATA INICIAL' **possui espaço**, não é possível acessá-la como método: `data.DATA INICIAL`

### 1.6 Removendo um Atributo (Coluna) do Data Frame

Como vimos anteriormente, o atributo 'Unnamed: 0' parece ser um **ruído** em nosso dataset. Desta maneira, vamos eliminá-lo,

In [None]:
dataframe.head()

In [98]:
# remove no próprio dataframe a coluna selecionada
del dataframe['Unnamed: 0']

In [None]:
dataframe.head()

In [None]:
# removendo as colunas que inserimos anteriormente para estudo
del dataframe['NOVA COLUNA']
del dataframe['PREÇO MÉDIO REVENDA AJUSTADO']
del dataframe['PREÇO MÉDIO REVENDA REAJUSTADO']
del dataframe['coluna a partir de lista']

In [None]:
dataframe.head()

### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso (veja que removemos anteriormente a coluna 'Unnamed: 0' que foi justamente esse caso).<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

In [108]:
dataframe.to_csv('./datasets/salvando_arquivo.csv', index=False, sep=',')

### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

In [94]:
# abrindo o arquivo salvo na aula anterior, o '.' indica que é no próprio diretório
dataframe = pd.read_csv('./datasets/salvando_arquivo.csv', sep=',')

In [None]:
dataframe.head()

In [None]:
# o método unique() retorna um array contendo os valores únicos contidos na series (ou seja, pega uma correspondencia de cada valor)
dataframe['ESTADO'].unique()

#### **Selecionando apenas os preços dos Postos de São Paulo**

##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

O código abaixo retorna uma ***Series ('array') de booleans***, com o número de linhas (amostras/observações/registros) do Data Frame, que informa os registros de preços dos postos do _estado de São Paulo_ (True).

In [None]:
# FAZ UMA COMPARAÇÃO ELEMENTO A ELEMENTO DA SERIES, RETORNANDO UMA SERIES DE BOOLEANOS
dataframe['ESTADO'] == 'SAO PAULO'

In [122]:
# SALVANDO ESSA SERIES DE BOOLEANS NA VARIÁVEL
selecao = dataframe['ESTADO'] == 'SAO PAULO'

In [None]:
# passa a lista de booleans na seleção, e isso retornará as linhas que forem true
dataframe[selecao]

***O resultado é um dataframe contendo apenas os registros desejados após a filtragem***

In [None]:
# PODEMOS USAR O MÉTODO LOC PARA O MESMO FIM, VEJA:
dataframe.loc[selecao]

### RESUMINHO

Para fazer um filtro de linhas, com base no valor de uma coluna específica, podemos usar a forma acima, que é basicamente fazer uma comparação do dataframe na coluna desejada com o valor desejado, isso retornará uma Series de linhas contendo True para onde houver o valor comparado e false para onde não houver, quando passada essa series na busca do dataframe obteremos exatamente a filtragem desejada...

O resultado é um Data Frame com _apenas_ os registros desejados após a **filtragem**.<br/>
Podemos ainda utilizar o método `loc` para o mesmo fim:

##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

In [None]:
dataframe.head()

In [None]:
# PODEMOS FAZER A MEMSA FILTRAGEM USANDO UMA CONSULTA (DEVEMOS ATENTAR AS ASPAS)
dataframe.query('ESTADO == "SAO PAULO"')

In [None]:
# QUANDO O NOME DA COLUNA TEM ESPAÇOS PRECISAMOS USAR CRASES ENVOLTA DELE (`)
dataframe.query('`COEF DE VARIAÇÃO REVENDA` == 0.111')

<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análise feita para os postos de São Paulo.

In [None]:
postos_sp = dataframe.query('ESTADO == "SAO PAULO"')
postos_sp

In [None]:
type(postos_sp)

In [None]:
postos_sp.shape

In [None]:
postos_sp

In [157]:
postos_sp = postos_sp.reset_index(drop=True)

In [159]:
postos_sp.reset_index(drop=True, inplace=True)

### **OBSERVE**:
Note que os índices do novo dataframe filtrando herdaram os índices do dataframe original, as veze essa informação poderá ser importante, porém caso queiramos resetar os índices do dataframe filtrado para começar de 0 e ir até n_linhas - 1, para isso usamos o método .reset_index

In [163]:
# alternativa muito comum, é fazer a seleção tudo numa mesma linha, fazer a consulta e já resetar o index na mesma linha
postos_sp = dataframe.query('ESTADO == "SAO PAULO"').reset_index(drop=True)

In [None]:
postos_sp

#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**

In [None]:
dataframe.head()

In [None]:
# pegar os valores de estado para verificar o nome do rio de janeiro
dataframe['ESTADO'].unique()

### VAMOS PENSAR....

Se a gente consegue fazer uma consulta passando uma lista de booleans onde será retornado uma series com as linhas que tiveram resultado true, por que não considerar a união de duas listas de booleans, através de operadores booleanos para gerar uma outra series contendo o resultado da operação booleana, esse resultado é justamente o booleam de onde há as linhas que satisfazem minha condição....

In [None]:
# a primeira series de boolen é pegar as linhas do dataframa onde a coluna estado tem valor rio de janeiro
dataframe['ESTADO'] == 'RIO DE JANEIRO'

In [None]:
# a segunda series de boolean é pegar as linhas do dataframe onde o preço de revenda médio é maior que dois reais
dataframe['PREÇO MÉDIO REVENDA'] > 2.0

In [None]:
# a terceira series, aqui chamada de seleção, é basicamente a operação lógica (ou algebra booleana) que contém o and das outras duas series
# esta series retornará como true somente as linhas que ambas condições satisfazem à nossa condição
selecao = (dataframe['ESTADO'] == 'RIO DE JANEIRO') & (dataframe['PREÇO MÉDIO REVENDA'] > 2.0)
selecao

In [None]:
# dataframe com a seleção que satisfaz a condição (ser do rio de janeiro e o preço médio de revenda é maior que 2)
dataframe[selecao]

Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/amostras do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro e o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

In [None]:
# agora basta passa a series de booleano e esperar retornar apenas os True
dataframe[selecao].head()

In [None]:
# agora vamos gerar um outro dataframe filtrado dos postos do rj que contém preço médio de revenda maior que 2 reais, vamos resetar os indices também

#                                          retira os indices
#                                          antigos.
postos_rj = dataframe[selecao].reset_index(drop=True)
postos_rj

Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (cedilha, acentos) 

In [185]:
# Não funciona
# data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

In [None]:
# MAS USANDO AS CRASES FUNCIONA PEFEITAMENTE E RETORNA O MESMO DATAFRAME
dataframe.query('ESTADO == "RIO DE JANEIRO"  and `PREÇO MÉDIO REVENDA` > 2').reset_index(drop=True)

**Aprofundando mais ainda**

A primeira comparação `(data['ESTADO'] == 'RIO DE JANEIRO')` checa, linha a linha (amostra a amostra) do DataFrame, quais são aquelas cujo o estado é RIO DE JANEIRO. Nenhuma averiguação de preços é feita nesse momento. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

A segunda comparação `(data['PREÇO MÉDIO REVENDA'] > 2)` checa, linha a linha (amostra a amostra) do DataFrame, quais são os registro cujo preço do combustível é maior que 2 reais. Note que essa comparação checará os postos de **TODOS os estados**. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

Por fim, as duas "perguntas" são unidas pelo AND (&) que retorna a "pergunta completa" que fizemos.

Alguns podem argumentar que tal abordagem é **ineficiente**, uma vez que, para cada condição ("pergunta"), estamos varrendo todas as linhas do DataFrame. <br/>
O Pandas _tenta otimizar_ isso ao máximo por de trás dos panos. Mas, de fato, de tivermos um dataset **muito grande** (centenas de milhares de linhas), tal abordagem se tornará _lenta_.

Assim, poderíamos fazer filtragem com múltiplos condicionais em partes:

In [None]:
selecao_1 = dataframe['ESTADO'] == 'RIO DE JANEIRO'
postos_rj_1 = dataframe[selecao_1]
postos_rj_1

In [None]:
selecao_2 = postos_rj_1['PREÇO MÉDIO REVENDA'] > 2
postos_rj_maiorque2 = postos_rj_1[selecao_2]
postos_rj_maiorque2

## ENTENDENDO O QUE FOI FEITO:

Dado o fato de que a pesquisa linha a linha anteriormente feita é ineficiente, podemos refinar nossa busca iterando sobre series cada vez menores, o que melhora e muito o desempenho do código, desta vez, filtraremos do dataframe inteiro somente os postos do rio de janeiro (retornará uma series de 4263 linhas), e dos pontos do rio de janeiro faremos uma varredura somente em cima de 4263 linhas buscando os postos com preço maior que 2 reais. Com isso evitamos duas consultas numa base de dados de 106.823 linhas...

---

#### **Selecionando registros de postos de São Paulo ou do Rio de Janeiro com Gasolina Comum acima de 2 reais**

Podemos fazer a solução do "jeito mais lento", percorrendo o DataFrame inteiro _múltiplas vezes_:

In [None]:
dataframe['PRODUTO'].unique()

In [None]:
# percorre cada uma das 106k de linhas quais correspondem a esta busca
selecao_1 = (dataframe['ESTADO'] == 'SAO PAULO') | (dataframe['ESTADO'] == 'RIO DE JANEIRO')
selecao_1

In [None]:
# percorre cada uma das 106k de linhas vendo quais postos tem gasolina comum com preço acima de 2 reais
selecao_2 =  (dataframe['PRODUTO'] == 'GASOLINA COMUM')
selecao_2

In [None]:
selecao_3 = dataframe['PREÇO MÉDIO REVENDA'] > 2
selecao_3

In [None]:
selecao_final = selecao_1 & selecao_2 & selecao_3
selecao_final

In [None]:
dataframe[selecao_final][['ESTADO', 'PRODUTO']]


In [None]:
estados_filtrados = dataframe[selecao_final]
estados_filtrados['ESTADO'].unique()
estados_filtrados['PRODUTO'].unique()
estados_filtrados['PREÇO MÉDIO REVENDA'].unique()

In [None]:
preco_minimo = estados_filtrados['PREÇO MÉDIO REVENDA'].min()
menor_preco = estados_filtrados['PREÇO MÉDIO REVENDA'] == preco_minimo
preco_minimo
# estados_filtrados[menor_preco]

In [None]:
estados_filtrados.loc[menor_preco]

<br/>

Alternativamente:

In [None]:
selecao_1 = (dataframe['ESTADO'] == 'SAO PAULO') | (dataframe['ESTADO'] == 'RIO DE JANEIRO')
postos_sp_rj = dataframe[selecao_1]

# apenas postos sao paulo ou rio de janeiro
postos_sp_rj

In [None]:
selecao_2 =  (postos_sp_rj['PRODUTO'] == 'GASOLINA COMUM')
selecao_2

In [None]:
postos_sp_rj_gasolina = postos_sp_rj[selecao_2]

# apenas postos de sao paulo e rio de janeiro com gasolina comum
postos_sp_rj_gasolina

In [None]:
selecao_3 = postos_sp_rj_gasolina['PREÇO MÉDIO REVENDA'] > 2
postos_sp_rj_gasolina_maior2 = postos_sp_rj_gasolina[selecao_3]

postos_sp_rj_gasolina_maior2.head()

#### **Selecionando registros dos anos de 2008, 2010 e 2012**

In [None]:
dataframe.head()

**ALTERNATIVA 1**

In [None]:
selecao = (dataframe['ANO'] == 2008) | (dataframe['ANO'] == 2010) | (dataframe['ANO'] == 2012)
dataframe[selecao]['ANO'].unique()
dataframe[selecao]

**ALTERNATIVA 2**

In [None]:
lista_anos = [2008, 2010, 2012]
selecao = dataframe['ANO'].isin(lista_anos) # faz a mesma coisa com menos linhas de código, retorna uma lista de booleanos
dataframe[selecao]


**ALTERNATIVA 3**

In [None]:
# usar o query, devemos usar essa sintaxe com @ para passar uma variável dentro da query

lista_anos = [2008, 2010, 2012]
dataframe.query('ANO in @lista_anos')

### **Iterando com DataFrames**

#### For-each `DataFrame.iterrows()` (LENTO ==> apenas indicado para iterar pequenos conjunto de dados)

In [None]:
for index, row in dataframe.head(10).iterrows(): # iterows retorna uma tupla --> (index, row)
    print(f'INDICE: {index}, LINHA:\n{row}')

In [None]:
# como selecionar uma linha baseado no valor de uma coluna
menor_preco_revenda = dataframe['PREÇO MÉDIO REVENDA'].min()
dataframe.loc[dataframe['PREÇO MÉDIO REVENDA'] == menor_preco_revenda]

In [None]:
# usando query fica mais direto ao ponto, porém precisamos saber usar a sintaxe correta
dataframe.query('`PREÇO MÉDIO REVENDA` == @menor_preco_revenda')

<h2>2. Preparação dos dados</h2>
<hr/>

### 2.1 Removendo amostras com valores vazios (null / nan) no dataset

In [None]:
dataframe.info()

De um total de 106823 observações, **não há valores null** / nan para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: P. ex., "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente algumas amostras têm um string ao invés de um número para tais atributos. <br/>

Os atributos *"DATA INICIAL"* e *"DATA FINAL"* deveriam ser do tipo `datetime`.

Em outros casos, alguns **atributos categóricos** são ```objects```, mas poderiam ter o tipo ```category```, que é um tipo especial do pandas. <br/>
Este tipo é necessário para se utilizar algumas funções específicas do pandas. <br/>
**Não** converteremos para este tipo por ora.

In [None]:
# cria uma copia do dataframe para fazer o pré-processamento
dataframe_copy = dataframe.copy()
dataframe_copy.columns.unique()


In [222]:
del dataframe_copy['Unnamed: 0']
del dataframe_copy['NOVA COLUNA']
del dataframe_copy['coluna a partir de lista']
del dataframe_copy['PREÇO MÉDIO REVENDA AJUSTADO']
del dataframe_copy['PREÇO MÉDIO REVENDA REAJUSTADO']

#### **Datas**
Como os atributos de data do datset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

In [223]:
dataframe_copy['DATA INICIAL'] = pd.to_datetime(dataframe_copy['DATA INICIAL'])
dataframe_copy['DATA FINAL'] =  pd.to_datetime(dataframe_copy['DATA FINAL'])

In [None]:
dataframe_copy.info()

#### **Dados Numéricos**

In [225]:
# convertendo atributos/colunas para 'numeric'
for atributo in ['MARGEM MÉDIA REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO', 'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO', 'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO']:
   # converte cada coluna de valores variados para um tipo numerico,
   # em caso de erro na conversão (string que não representa número), um valor NaN será atribuido no lugar.
   dataframe_copy[atributo] = pd.to_numeric(dataframe_copy[atributo], errors='coerce') 

### OBSERVE O .INFO()

Não existirão valores vazios, e todos tipos foram modificados, porém se observarmos a quantidade de entries total e compararmos com algumas colunas, perceberemos que existem colunas que possuem valores nulos ou NaN.

In [None]:
dataframe_copy.info()

<br/>

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

In [None]:
mask = dataframe_copy['PREÇO MÉDIO DISTRIBUIÇÃO'].isnull()
mask

In [None]:
dataframe_copy[mask]

In [None]:
# verificar o que existia nestas colunas do dataset original

'''
Analisando veremos que na coluna preço médio de distribuição, originalmente, tínhamos um hífen neste campo, o que não é um dado numérico,
esse tipo de ação gera um problema na hora do tratamento de valores, pois na funcao to_numeric() passamos um argumento chamado erros=coerce, que basicamente
faz com que onde não foi possível converter o dado que seja colocado um NaN, que é exatamente este caso...
'''
dataframe[mask]

Várias amostras possuem a _string '-'_ em algumas colunas ao invés de um número de fato. Ou seja, não há aferições destes atributos para estas amostras. <br/>

<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

In [230]:
# retorna uma cópia que substitui todos os NaN por um valor padrão, que neste caso estou passando 0.
# para alterar  o próprio dataframe use o argumento inplace = true
dataframe_copy_fill = dataframe_copy.fillna(0)

In [None]:
dataframe_copy_fill[mask]

In [232]:
# usando o fillna() ainda podemos passar um dicionário contendo as colunas e os seus valores padrão,
# de forma a personalizar o processamento

dataframe_copy_fill = dataframe_copy.fillna(value={
    'PREÇO MÉDIO DISTRIBUIÇÃO' : 10,
    'DESVIO PADRÃO DISTRIBUIÇÃO': 20,
    'PREÇO MÍNIMO DISTRIBUIÇÃO' : 30,
    'PREÇO MÁXIMO DISTRIBUIÇÃO' : 'vazio'
})



In [None]:
dataframe_copy_fill[mask]

<br/>

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO DISTRIBUIÇÃO'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

In [None]:
# remove no dataframe todas as linhas com valores NaN (vazios) em quaisquer colunas
dataframe_copy.dropna(inplace=True)
dataframe_copy

In [None]:
dataframe_copy.info()

Nosso data frame agora, após essa _limpeza_, ficou mais enxuto, contentdo 103392 registros frente aos 106823 registros originais. <br/>

Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias, p. ex., **confiam na detecção de outliers**, que não veremos neste curso.

#### **Salvando o Dataset Preprocessado**

In [238]:
dataframe_copy.to_csv('./datasets/dataframe_processado.csv', sep=',', index=False)

<h2>3. Estatísticas Descritivas</h2>
<hr/>

O Pandas fornecem algumas funções/métodos ue computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

In [4]:
data_final = pd.read_csv('./datasets/dataframe_processado.csv')

In [None]:
data_final

<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

In [None]:
# podemos pegar a descrição analítica de todo o dataframe
describes = data_final.describe()
describes

In [None]:
# ou podemos pegar a descrição analítica de uma dada coluna
data_final['PREÇO MÉDIO REVENDA'].describe()

In [None]:
# selecionando somente as duas primeira linhas
data_final.iloc[0:1].describe()

In [None]:
combustivel_mais_barato = describes.loc["min", "PREÇO MÉDIO REVENDA"]
combustivel_mais_barato

In [None]:
# aqui temos um método mais eficiente de acesso
data_final[['PREÇO MÉDIO REVENDA', 'MARGEM MÉDIA REVENDA', 'NÚMERO DE POSTOS PESQUISADOS']].describe()

In [None]:
describes.loc[['min','max','mean'], 'PREÇO MÉDIO REVENDA']

In [None]:
describes.loc[['min','max','mean'], ['PREÇO MÉDIO REVENDA', 'PREÇO MÍNIMO REVENDA']]

**Acessando apenas algumas estatísticas**

<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

In [None]:
data_final.head()

#### Qual é o menor preço mínimo de revenda?

In [None]:
data_final['PREÇO MÍNIMO REVENDA'].min()

#### Qual é a média e desvio padrão dos preços mínimos de revenda?

In [None]:
mean = data_final['PREÇO MÍNIMO REVENDA'].mean()
std = data_final['PREÇO MÍNIMO REVENDA'].std()

print(f'a média dos preços mínimos de revenda é {mean:.2f} +- {std:.2f}')

#### Quais são os estados considerados?

In [None]:
estados = list(data_final['ESTADO'].unique())
sorted(estados)

#### Quantos registros (aferições) cada estado possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).

In [None]:
data_final['ESTADO'].value_counts() # retorna em ordemd decrescente a quantidade de registros/linhas para cada atributo/coluna

In [None]:
# toda Series pode ser convertida para um dataframe
qtd_estados = data_final['ESTADO'].value_counts().to_frame()
qtd_estados= qtd_estados.rename(columns={
    'count': 'QUANTIDADE'
})

qtd_estados

<h2>4. Executando funções para cada item de um DataFrame ou Series</h2>
<hr/>

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".


<img src='./imagens/apply_map_applymap.png' width=300/>


Fonte: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff

In [19]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])

In [None]:
df

`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='./imagens/pandas_axis.jpg' width=500/>

Fonte: https://www.allthesnippets.com/browse/pandas/df_axis.html

In [21]:
def nossa_soma(linha):
    return linha.sum() # retorna a soma de toda a linha

In [None]:
df.apply(nossa_soma, axis=1)

In [None]:
df['SOMA (A,B,C)'] = df.apply(nossa_soma, axis=1)
df

<img src='./imagens/apply_axis_1.png' width=250/>

In [None]:
df.loc['linha 5'] = df.apply(nossa_soma, axis=0)
df

<img src='./imagens/apply_axis_0.png' width=250/>

##### Usando `lambda` functions

In [32]:
df['MEDIA (A,B,C)'] = df[['A','B','C']].apply(lambda series: series.mean(), axis=1)


<img src='./imagens/apply_axis_1_mean.png' width=350/>

In [None]:
# aplicando a lambda em outro exemplo, aplicando o quadrado de cada elemento da series
df['A^2'] = df[['A']].apply(lambda x: x**2, axis=0)
df

<br/>

`applymap()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de um DataFrame.

**SÓ FUNCIONA COM DATAFRAMES**

In [44]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])


In [None]:
# funciona da mesma forma que a função anterior, porém só ser usada em dataframes
# aplica uma função em todos elementos
df.applymap(lambda x: x**2)


<br/>

`map()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de uma **_Series_**.

In [None]:
nomes = pd.Series(['João', 'Maria', 'Alice', 'Pedro'])
nomes

In [None]:
# retorna uma cópia da series, não faz a alteração inplace...
nomes.map(lambda nome: nome.upper())

In [None]:
nomes.str.lower()
nomes

In [None]:
# O PANDAS JÁ FORNECE UMA SÉRIE DE MÉTODOS PARA MANIPULAÇÃO DE STRINGS, UMA DELAS É O MÉTODO ABAIXO.
nomes.str.upper()

<h2>5. Agrupamento</h2>
<hr/>

`groupby`: Usado para criar **grupo de elementos** (e.x., baseado nos valores de um atributo). <br/>
**Funções** podem então ser aplicadas para os _elementos de cada grupo_, de modo que os **resultados de cada grupo são combinados**.

In [2]:
data_final = pd.read_csv('./datasets/dataframe_processado.csv', sep=',')

In [None]:
data_final.head()

In [4]:
# retorna um objeto do tipo dataframegroup que é basicamente um agrupamento das informações a partir da coluna que passarmos
# como parâmetro pra funcao groupby
grupos = data_final.groupby('REGIÃO')

In [None]:
# retorna um dicionário contendo os indices dos registros de cada região
grupos.groups

In [None]:
# agora selecionamos uma única chave
grupos.groups['SUL']


In [None]:
grupos.groups.keys()

In [None]:
grupos.indices

In [None]:
# get_group permite pegar um dataframe específico a partir de um dado agrupamento
grupos.get_group('CENTRO OESTE')

<br/>

Também podemos ter agrupamentos por mais de um atributo.

In [None]:
# descreva algumas estatísticas descritivas para os registros de cada grupo
grupos.describe()

In [None]:
grupos.min()

In [None]:
data_final.info()
data_final.fillna(0, inplace=True)

In [None]:
data_final.groupby('REGIÃO').max()

In [None]:
data_final.head()

**QUAL É O PREÇO MÉDIO DE CADA COMBUSTIVEL PARA CADA REGIÃO?**


In [None]:
grupos = data_final.groupby(['REGIÃO', 'PRODUTO'])
data_final.info()

In [None]:
grupos.groups

In [None]:
# verifiquemos quais colunas não são numéricas, aplicar a mean() em todo grupo geraria
# um erro por conta destas colunas
colunas_nao_numericas = data_final.select_dtypes(exclude='number').columns
colunas_nao_numericas

In [None]:
# precisamos calcular a média excluindo as colunas categóricas ou descritivas
colunas_numericas =  data_final.select_dtypes(include='number').columns
colunas_numericas

data_final.groupby(['REGIÃO', 'PRODUTO'])[colunas_numericas].mean()

In [None]:
grupos['PREÇO MÉDIO REVENDA'].mean()

In [None]:
grupos['PREÇO MÉDIO REVENDA'].describe()

<br/>

`.agg`: **agrega (roda)** uma série de funções para os elementos de um dataframe ou de grupos de um dataframe.

In [None]:
import numpy as np


# REPARE QUE ESTA É UMA FORMA DIFERENTE DE CRIAR UM DATAFRAME, PODEMOS USAR UMA LISTA DE LISTAS, ONDE CADA SUBLISTA É UMA LINHA CONTENDO OS VALORES DAS COLUNAS

df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                  columns=['A', 'B', 'C'])
df

In [None]:
df.agg([pd.Series.sum, pd.Series.min])

In [None]:
df.agg([pd.Series.sum, pd.Series.min], axis=1)

In [None]:
grupos = data_final.groupby('REGIÃO')
grupos

In [None]:
grupos['PREÇO MÉDIO REVENDA'].agg([pd.Series.min, pd.Series.max])

<h2>6. Ordenação</h2>
<hr/>

In [None]:
notas = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Alice'],
    'idade': [20, 21, 19, 20],
    'nota_final': [5.0, 10.0, 6.0, 10.0]
})
notas

`.sort_values()`: ordena valores ao longo de um eixo.

In [None]:
notas.sort_values(by='nota_final')

Por padrão, o método retorna uma cópia dos dados ordenados em **ordem crescente (ascendente)**. Podemos alterar isso pelo argumento `ascending`.

In [None]:
notas.sort_values(by='nota_final', ascending=False)

<br/>

Podemos ordenar a partir de **mais de uma coluna**:

In [None]:
# essa linha diz o seguinte: ordene as notas pela nota final e pelo nome, sendo que pela nota final eu quero que ordene do maior pro menor e pelo nome eu quero que ordene em ordem
# alfabética, logo, para fazer isso usamos o argumento ascending que recebe uma lista que se refere à lista passada no by, cada indice do ascending é um indice do by, respeitando a posicao
notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True])
#                                                  nota_final, nome


Ordena os registros, primeiramente, pela coluna 'nota_final' em **ordem descrente**. <br/>
Então, reordena os registros _"empatados"_, ou seja, com a **mesma nota final**, em _ordem alfabética_ (ordem crescente).

<br/>

Note que o dataframe original **não foi alterado** após a ordenação.

In [None]:
notas

Para alterá-lo, use o argumento `inplace=True`:

In [53]:
notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True], inplace=True)


In [None]:
notas

**RESET DE INDICES**

Repare que os indices ficam desordenados, para ordená-los se for interessante isso, usemos o método reset_index

In [None]:
notas.reset_index(drop=True)

In [None]:
notas.reset_index(inplace=True, drop=True)
notas

<h2>7. Exercícios</h2>
<hr/>

Vamos aplicar os conceitos que vimos em alguns exercícios. <br/>
Para isso, utilizaremos o dataset de _preços de combustíveis no Brasil_.

Como há apenas medições de janeiro a junho para o ano de 2019, resolvemos **remover os dados** deste ano da análise.

In [183]:
dataframe =  pd.read_csv('./datasets/dataframe_processado.csv', sep=',')

In [184]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103392 entries, 0 to 103391
Data columns (total 20 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   DATA INICIAL                   103392 non-null  object 
 1   DATA FINAL                     103392 non-null  object 
 2   REGIÃO                         103392 non-null  object 
 3   ESTADO                         103392 non-null  object 
 4   PRODUTO                        103392 non-null  object 
 5   NÚMERO DE POSTOS PESQUISADOS   103392 non-null  int64  
 6   UNIDADE DE MEDIDA              103392 non-null  object 
 7   PREÇO MÉDIO REVENDA            103392 non-null  float64
 8   DESVIO PADRÃO REVENDA          103392 non-null  float64
 9   PREÇO MÍNIMO REVENDA           103392 non-null  float64
 10  PREÇO MÁXIMO REVENDA           103392 non-null  float64
 11  MARGEM MÉDIA REVENDA           103392 non-null  float64
 12  COEF DE VARIAÇÃO REVENDA      

In [185]:
dataframe['DATA INICIAL'] = pd.to_datetime(dataframe['DATA INICIAL'])
dataframe['DATA FINAL'] = pd.to_datetime(dataframe['DATA FINAL'])
dataframe.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103392 entries, 0 to 103391
Data columns (total 20 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   103392 non-null  datetime64[ns]
 1   DATA FINAL                     103392 non-null  datetime64[ns]
 2   REGIÃO                         103392 non-null  object        
 3   ESTADO                         103392 non-null  object        
 4   PRODUTO                        103392 non-null  object        
 5   NÚMERO DE POSTOS PESQUISADOS   103392 non-null  int64         
 6   UNIDADE DE MEDIDA              103392 non-null  object        
 7   PREÇO MÉDIO REVENDA            103392 non-null  float64       
 8   DESVIO PADRÃO REVENDA          103392 non-null  float64       
 9   PREÇO MÍNIMO REVENDA           103392 non-null  float64       
 10  PREÇO MÁXIMO REVENDA           103392 non-null  float64       
 11  

In [186]:
# FORMA 1 DE RETIRAR O ANO DE 2019
filtro = dataframe['ANO'] != 2019
dataframe_filtrado = dataframe[filtro]
dataframe_filtrado['ANO'].unique()

array([2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014,
       2015, 2016, 2017, 2018])

In [187]:
# FORMA 2 DE RETIRAR O ANO DE 2019
dataframe_filtrado = dataframe.query('ANO != 2019')
dataframe_filtrado['ANO'].unique()

array([2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014,
       2015, 2016, 2017, 2018])

In [188]:
dataframe_filtrado

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.190,1.350,0.463,0.012,0.825,0.110,0.4201,0.96660,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.890,1.449,0.399,0.098,0.763,0.088,0.5013,1.05000,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.180,1.760,0.419,0.070,0.970,0.095,0.5614,1.16100,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,1.090,1.509,0.432,0.055,0.830,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.050,1.400,0.240,0.066,0.941,0.077,0.7441,1.03170,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99734,2018-12-30,2019-01-05,SUDESTE,RIO DE JANEIRO,GNV,122,R$/m3,3.080,0.262,2.798,3.999,0.699,0.085,2.381,0.161,2.1670,2.86970,0.068,12,2018
99735,2018-12-30,2019-01-05,NORDESTE,RIO GRANDE DO NORTE,GNV,10,R$/m3,3.465,0.060,3.370,3.590,0.759,0.017,2.706,0.000,2.7059,2.70590,0.000,12,2018
99736,2018-12-30,2019-01-05,SUL,RIO GRANDE DO SUL,GNV,16,R$/m3,3.402,0.103,3.199,3.499,1.296,0.030,2.106,0.249,1.8775,2.37240,0.118,12,2018
99737,2018-12-30,2019-01-05,SUL,SANTA CATARINA,GNV,15,R$/m3,2.944,0.124,2.790,3.199,0.670,0.042,2.274,0.283,1.8738,2.27400,0.124,12,2018


Note que temos um novo dataframe com 99739 linhas, mas com índices fora desse intervalo. <br/>
Acontece que os registros mantiveram seus índices originais após a query. <br/>

Para resetar os índices de _0 a num_linhas-1_, basta usarmos o método `.reset_index()`. 

In [189]:
dataframe_filtrado.reset_index(inplace=True, drop=True)

Os índices agora foram **resetados**. Porém, os índices antigos se transformaram em _uma nova coluna_ chamada 'index'. <br/>
Para removê-la durante o _reset_, basta passarmos o argumento `drop=True`.

In [190]:
dataframe_filtrado.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


### 7.1 Qual a proporção de postos pesquisados para cada combustível em cada região

In [191]:
dataframe_filtrado.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [192]:
grupos = dataframe_filtrado.groupby(['PRODUTO', 'REGIÃO'])
grupos['NÚMERO DE POSTOS PESQUISADOS'].count().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,NÚMERO DE POSTOS PESQUISADOS
PRODUTO,REGIÃO,Unnamed: 2_level_1
ETANOL HIDRATADO,CENTRO OESTE,3022
ETANOL HIDRATADO,NORDESTE,6821
ETANOL HIDRATADO,NORTE,5021
ETANOL HIDRATADO,SUDESTE,3039
ETANOL HIDRATADO,SUL,2278
GASOLINA COMUM,CENTRO OESTE,3034
GASOLINA COMUM,NORDESTE,6838
GASOLINA COMUM,NORTE,5289
GASOLINA COMUM,SUDESTE,3040
GASOLINA COMUM,SUL,2279


### 7.2 Como os preços da Gasolina Comum em São Paulo variaram em 2018?

In [163]:
dataframe_filtrado.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [170]:
dataframe_filtrado['PRODUTO'].unique()

array(['ETANOL HIDRATADO', 'GASOLINA COMUM', 'GLP', 'GNV', 'ÓLEO DIESEL',
       'ÓLEO DIESEL S10'], dtype=object)

In [171]:
dataframe_filtrado['ESTADO'].unique()

array(['DISTRITO FEDERAL', 'GOIAS', 'MATO GROSSO', 'MATO GROSSO DO SUL',
       'ALAGOAS', 'BAHIA', 'CEARA', 'MARANHAO', 'PARAIBA', 'PERNAMBUCO',
       'PIAUI', 'RIO GRANDE DO NORTE', 'SERGIPE', 'ACRE', 'AMAPA',
       'AMAZONAS', 'PARA', 'RONDONIA', 'RORAIMA', 'TOCANTINS',
       'ESPIRITO SANTO', 'MINAS GERAIS', 'RIO DE JANEIRO', 'SAO PAULO',
       'PARANA', 'RIO GRANDE DO SUL', 'SANTA CATARINA'], dtype=object)

In [203]:
# FORMA 1 DE FAZER ISSO (SEM USAR QUERY) e da forma mais eficiente possível

# primeiros pegamos todos os postos de SP
filtro1 = dataframe_filtrado['ESTADO'] == 'SAO PAULO'
postos_sp = dataframe_filtrado[filtro1]

# depois pegamos somente o produto gasolina comum dos postos de são paulo
filtro2 = postos_sp['PRODUTO'] == 'GASOLINA COMUM'
postos_sp_gasolina_comum = postos_sp[filtro2]

# agora dos postos de são paulo que vendem gasolina comum, pegamos somente os dados de 2018
filtro3 = postos_sp_gasolina_comum['ANO'] == 2018
postos_sp_gasolina_comum_2018 = postos_sp_gasolina_comum[filtro3]
postos_sp_gasolina_comum_2018.head()


Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
92319,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,3.988,0.156,3.499,4.599,0.411,0.039,3.577,0.104,2.99,3.951,0.029,1,2018
92465,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.002,0.155,3.549,4.499,0.412,0.039,3.59,0.102,2.99,3.9014,0.028,1,2018
92610,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.006,0.16,3.499,4.899,0.41,0.04,3.596,0.102,2.99,3.9014,0.028,1,2018
92755,2018-01-28,2018-02-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.019,0.156,3.579,4.699,0.423,0.039,3.596,0.107,2.924,3.9537,0.03,1,2018
92901,2018-02-04,2018-02-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1646,R$/l,4.004,0.157,3.579,4.597,0.416,0.039,3.588,0.102,2.99,3.9537,0.028,2,2018


In [205]:
# FORMA 2 DE FAZER ISSO (SEM USAR QUERY) e de forma mais ineficiente, mais lenta, porém também válida

filtro = (dataframe_filtrado['ESTADO'] == 'SAO PAULO') & (dataframe_filtrado['PRODUTO'] == 'GASOLINA COMUM') & (dataframe_filtrado['ANO'] == 2018)
postos_sp_gasolina_comum_2018 = dataframe_filtrado[filtro]
postos_sp_gasolina_comum_2018.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
92319,2018-01-07,2018-01-13,SUDESTE,SAO PAULO,GASOLINA COMUM,1641,R$/l,3.988,0.156,3.499,4.599,0.411,0.039,3.577,0.104,2.99,3.951,0.029,1,2018
92465,2018-01-14,2018-01-20,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.002,0.155,3.549,4.499,0.412,0.039,3.59,0.102,2.99,3.9014,0.028,1,2018
92610,2018-01-21,2018-01-27,SUDESTE,SAO PAULO,GASOLINA COMUM,1648,R$/l,4.006,0.16,3.499,4.899,0.41,0.04,3.596,0.102,2.99,3.9014,0.028,1,2018
92755,2018-01-28,2018-02-03,SUDESTE,SAO PAULO,GASOLINA COMUM,1644,R$/l,4.019,0.156,3.579,4.699,0.423,0.039,3.596,0.107,2.924,3.9537,0.03,1,2018
92901,2018-02-04,2018-02-10,SUDESTE,SAO PAULO,GASOLINA COMUM,1646,R$/l,4.004,0.157,3.579,4.597,0.416,0.039,3.588,0.102,2.99,3.9537,0.028,2,2018


In [214]:
# FORMA 3 DE FAZER ISSO, USANDO QUERY (muito mais simples, porém pode ser mais lento, e temos que nos atentar as aspas)
postos_sp_gasolina_comum_2018 = dataframe_filtrado.query('ESTADO == "SAO PAULO" and PRODUTO == "GASOLINA COMUM" and ANO == 2018')
postos_sp_gasolina_comum_2018.shape

(52, 20)

#### **Estatísticas Descritivas**

In [215]:
postos_sp_gasolina_comum_2018.describe()

Unnamed: 0,DATA INICIAL,DATA FINAL,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
count,52,52,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0
mean,2018-07-04 12:00:00,2018-07-10 12:00:00,1610.211538,4.202769,0.1755,3.6715,4.97575,0.442481,0.04175,3.760288,0.109654,3.31295,4.139454,0.029096,6.615385,2018.0
min,2018-01-07 00:00:00,2018-01-13 00:00:00,102.0,3.97,0.15,3.369,4.499,0.366,0.034,3.563,0.087,2.924,3.8875,0.023,1.0,2018.0
25%,2018-04-06 06:00:00,2018-04-12 06:00:00,1639.0,4.008,0.15975,3.499,4.899,0.4045,0.039,3.62025,0.102,2.99,3.965775,0.028,4.0,2018.0
50%,2018-07-04 12:00:00,2018-07-10 12:00:00,1642.0,4.202,0.173,3.679,4.999,0.4215,0.04,3.7565,0.108,3.35,4.0955,0.029,7.0,2018.0
75%,2018-10-01 18:00:00,2018-10-07 18:00:00,1644.0,4.33625,0.189,3.784,5.099,0.47025,0.044,3.86225,0.11625,3.5325,4.259,0.03,9.25,2018.0
max,2018-12-30 00:00:00,2019-01-05 00:00:00,1649.0,4.512,0.216,3.969,5.299,0.64,0.051,4.085,0.144,3.76,4.551,0.037,12.0,2018.0
std,,,213.627432,0.180672,0.017955,0.163808,0.211198,0.063271,0.003965,0.163664,0.010712,0.26684,0.195897,0.00246,3.470627,0.0


In [218]:
postos_sp_gasolina_comum_2018['PREÇO MÍNIMO REVENDA'].describe().to_frame()

Unnamed: 0,PREÇO MÍNIMO REVENDA
count,52.0
mean,3.6715
std,0.163808
min,3.369
25%,3.499
50%,3.679
75%,3.784
max,3.969


### 7.3 Como os preços da Gasolina Comum e do Etanol em São Paulo variaram em 2018?

In [None]:
# FORMA 1, REDUZINDO O NUMERO DE CONSULTAS NO DATAFRAME

# pegar os postos de sp
filtro1 = dataframe_filtrado['ESTADO'] == 'SAO PAULO'
postos_sp = dataframe_filtrado[filtro1]

# pegar os postos de sp que vendam gasolina comum e etanol
filtro2 = (postos_sp['PRODUTO'] == 'GASOLINA COMUM') | (postos_sp['PRODUTO'] == 'ETANOL HIDRATADO')
postos_sp_gasolina_etanol = postos_sp[filtro2]

# agora pegamos o ano de 2018
filtro3 = postos_sp_gasolina_etanol['ANO'] == 2018
postos_sp_gasolina_etanol_2018 = postos_sp_gasolina_etanol[filtro3]
postos_sp_gasolina_etanol_2018

In [230]:
postos_sp_gasolina_etanol_2018['PREÇO MÉDIO REVENDA'].describe().to_frame()

Unnamed: 0,PREÇO MÉDIO REVENDA
count,104.0
mean,3.457337
std,0.766239
min,2.393
25%,2.726
50%,3.431
75%,4.199
max,4.512


In [234]:
# FORMA 3 DE FAZER ISSO, USANDO QUERY (muito mais simples, porém pode ser mais lento, e temos que nos atentar as aspas)
postos_sp_gasolina_etanol_2018 = dataframe_filtrado.query('ESTADO == "SAO PAULO" and (PRODUTO == "GASOLINA COMUM" or PRODUTO == "ETANOL HIDRATADO") and ANO == 2018')
postos_sp_gasolina_etanol_2018
postos_sp_gasolina_etanol_2018['PREÇO MÉDIO REVENDA'].describe().to_frame()

Unnamed: 0,PREÇO MÉDIO REVENDA
count,104.0
mean,3.457337
std,0.766239
min,2.393
25%,2.726
50%,3.431
75%,4.199
max,4.512


In [236]:
# FORMA 3 DE FAZER ISSO, USANDO QUERY (muito mais simples, porém pode ser mais lento, e temos que nos atentar as aspas)
postos_sp_gasolina_etanol_2018 = dataframe_filtrado.query('PRODUTO in ["GASOLINA COMUM", "ETANOL HIDRATADO"] and ESTADO == "SAO PAULO" and ANO == 2018')
postos_sp_gasolina_etanol_2018
postos_sp_gasolina_etanol_2018['PREÇO MÉDIO REVENDA'].describe().to_frame()

Unnamed: 0,PREÇO MÉDIO REVENDA
count,104.0
mean,3.457337
std,0.766239
min,2.393
25%,2.726
50%,3.431
75%,4.199
max,4.512


In [246]:
grupos = postos_sp_gasolina_etanol_2018.groupby('PRODUTO')

# PEGA SOMENTE A COLUNA DE PREÇO MÉDIO DE REVENDA E ANALISE EM CIMA DELA
grupos['PREÇO MÉDIO REVENDA'].describe()


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
PRODUTO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
ETANOL HIDRATADO,52.0,2.711904,0.141365,2.393,2.6315,2.72,2.83825,2.892
GASOLINA COMUM,52.0,4.202769,0.180672,3.97,4.008,4.202,4.33625,4.512


<h2>8. Assuntos para continuar os estudos</h2>
<hr/>

- join
- concat
- plot
- data cleaning