## **Pandas Essencial**
**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)** <br/>
xavecoding: https://youtube.com/c/xavecoding <br/>

Neste tutorial, vamos aprender o essencial da biblioteca _Pandas_ para manipulação de dados.<br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

### Pacotes usados neste Notebook

In [334]:
# pacotes usados neste notebook
import pandas as pd
import zipfile
import csv

<h1>Manipulação de Dados com Pandas</h1><hr/>

<h2>1. Manipulação Básica de Datasets</h2>
<hr/>

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019**. <br/>
Cada *amostra (registro/linha)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.


\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o _pandas_ consiga abrí-lo normalmente, convertemos tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento.

### 1.1. Importando o Dataset
Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [335]:
#O aquivo que estava para download estava em formato TSV e em zip, então foi necessário converter para CSV 
# Caminho para o arquivo ZIP
zip_file = r"C:\Users\Jair\Documents\Estudos Jair\projeto_machine_learning\projeto_pandas\2004-2021.tsv.zip"

#Caminho para salvar o arquivo TSV
tsv_file = r"C:\Users\Jair\Documents\Estudos Jair\projeto_machine_learning\projeto_pandas\2004-2021.tsv.zip"

#Caminho para salvar o qrquivo CSV
csv_file = r"C:\Users\Jair\Documents\Estudos Jair\projeto_machine_learning\projeto_pandas\2004-2021.tsv.zip"

#ler o arquivo TSV
data = pd.read_csv(tsv_file)

#Salvar o arquivo com CSV
data.to_csv(csv_file, index=False)
print(f"Arquivo CSV salvo em {csv_file}")







Arquivo CSV salvo em C:\Users\Jair\Documents\Estudos Jair\projeto_machine_learning\projeto_pandas\2004-2021.tsv.zip


In [336]:
data

Unnamed: 0,","","""",""""""""DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO"""""""""""""""
0,"0,0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTR..."
1,"1,1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS..."
2,"2,2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO ..."
3,"3,3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO ..."
4,"4,4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,E..."
...,...
120818,"120818,120818,120818,2021-04-25,2021-05-01,NOR..."
120819,"120819,120819,120819,2021-04-25,2021-05-01,SUL..."
120820,"120820,120820,120820,2021-04-25,2021-05-01,SUD..."
120821,"120821,120821,120821,2021-04-25,2021-05-01,NOR..."


O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era ';' e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [337]:
#Carregando o seprador corretamente, neste casoe o delimiter="\t"
data = pd.read_csv(tsv_file, delimiter="\t")

In [338]:
data

Unnamed: 0,","","""",""""""""DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO"""""""""""""""
0,"0,0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTR..."
1,"1,1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS..."
2,"2,2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO ..."
3,"3,3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO ..."
4,"4,4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,E..."
...,...
120818,"120818,120818,120818,2021-04-25,2021-05-01,NOR..."
120819,"120819,120819,120819,2021-04-25,2021-05-01,SUL..."
120820,"120820,120820,120820,2021-04-25,2021-05-01,SUD..."
120821,"120821,120821,120821,2021-04-25,2021-05-01,NOR..."


### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [339]:
#Exibe os primeiros  10 primeiras linhas
data.head(10)

Unnamed: 0,","","""",""""""""DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO"""""""""""""""
0,"0,0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTR..."
1,"1,1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS..."
2,"2,2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO ..."
3,"3,3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO ..."
4,"4,4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,E..."
5,"5,5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETA..."
6,"6,6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETA..."
7,"7,7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,..."
8,"8,8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,E..."
9,"9,9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUC..."


### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [340]:
data.info(20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120823 entries, 0 to 120822
Data columns (total 1 columns):
 #   Column                                                                                                                                                                                                                                                                                                                                                                                 Non-Null Count   Dtype 
---  ------                                                                                                                                                                                                                                                                                                                                                                                 --------------   ----- 
 0   ,","",""""DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQ

A primeira coluna da tabela, chamada _'Unnamed: 0'_, parece não significar nada. Na verdade, ela parece ser os **índices** da tabela, que foram salvos como uma _coluna_.<br/>
Veremos jajá como **remover tal coluna**.

Outro ponto é que, aparentemente, nenhum atributo/coluna possui valores nulos (_null_), uma vez que o número de registros do dataframe e os números de valores _non-null_ é de **106823**. <br/>
Mas, veremos que não é bem assim para esse caso.

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [341]:
type(data)

pandas.core.frame.DataFrame

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [342]:
data.shape

(120823, 1)

In [343]:
print(f'O datafrme possui {data.shape[0]} linhas/obsrvaçõs e {data.shape[1]} colunas/atributos/variaveis')

O datafrme possui 120823 linhas/obsrvaçõs e 1 colunas/atributos/variaveis


#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [344]:

personagens_df = pd.DataFrame({
    'nome' : ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade' : [16, 1000, 70],
    'peso' : [70.5, 15.12, 60.1 ],
    'ed jedi' : [True, True, False] #O nome das colunas podem ter espaços
})
    




In [345]:
personagens_df

Unnamed: 0,nome,idade,peso,ed jedi
0,Luke Skywalker,16,70.5,True
1,Yoda,1000,15.12,True
2,Palpatine,70,60.1,False


In [346]:
personagens_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   nome     3 non-null      object 
 1   idade    3 non-null      int64  
 2   peso     3 non-null      float64
 3   ed jedi  3 non-null      bool   
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 207.0+ bytes


#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O método `DataFrame.columns` retorna uma ";lista" com os **nomes de todas as colunas** do data frame.

In [347]:
personagens_df.columns

Index(['nome', 'idade', 'peso', 'ed jedi'], dtype='object')

In [348]:
type(personagens_df.columns)

pandas.core.indexes.base.Index

In [349]:
list(personagens_df.columns)


['nome', 'idade', 'peso', 'ed jedi']

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [350]:
personagens_df

Unnamed: 0,nome,idade,peso,ed jedi
0,Luke Skywalker,16,70.5,True
1,Yoda,1000,15.12,True
2,Palpatine,70,60.1,False


In [351]:
personagens_df_renomeado = personagens_df.rename(columns={
   'nome' : 'nome completo', #Renomeando a coluna 'nome' para 'nome completo'
   'idade' : 'Idade'
})

In [352]:
personagens_df

Unnamed: 0,nome,idade,peso,ed jedi
0,Luke Skywalker,16,70.5,True
1,Yoda,1000,15.12,True
2,Palpatine,70,60.1,False


In [353]:
personagens_df.rename(columns={'nome' : 'nome completo','idade' : 'Idade' }, inplace=True)


Para renomear o _próprio_ data frame em questão, utilize o parâmetro `inplace=True`:

In [354]:
personagens_df

Unnamed: 0,nome completo,Idade,peso,ed jedi
0,Luke Skywalker,16,70.5,True
1,Yoda,1000,15.12,True
2,Palpatine,70,60.1,False


<br/>

**===>** Uma outra forma de **renomear todas as listas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [355]:
personagens_df.columns

Index(['nome completo', 'Idade', 'peso', 'ed jedi'], dtype='object')

In [356]:
personagens_df.columns = ['NOME', 'IDADE', 'PESO', 'ED_JEDI']

In [357]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI
0,Luke Skywalker,16,70.5,True
1,Yoda,1000,15.12,True
2,Palpatine,70,60.1,False


### 1.3.3 Series

Array uni-dimensional com os dados e rótulos de um eixo.

In [358]:
personagens_df.head()

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI
0,Luke Skywalker,16,70.5,True
1,Yoda,1000,15.12,True
2,Palpatine,70,60.1,False


In [359]:
#SELECIONAR A COLUNA INTEIRA
personagens_df['IDADE']

0      16
1    1000
2      70
Name: IDADE, dtype: int64

In [360]:
#selecionar a coluna inteira
#Esta forma de acesso só funciomana se o nome da coluna não tiver espaços,acentos ou caracteres especiais
personagens_df.IDADE

0      16
1    1000
2      70
Name: IDADE, dtype: int64

In [361]:
type(personagens_df.IDADE)

pandas.core.series.Series

In [362]:
#seleciona  a observações indexada no index [1] do dataframe
personagens_df.iloc[1]

NOME        Yoda
IDADE       1000
PESO       15.12
ED_JEDI     True
Name: 1, dtype: object

In [363]:
type(personagens_df.iloc[1])

pandas.core.series.Series

#### **Criando uma Series**

Podemos criar um DataFrame a partir de uma lista de elementos.

In [364]:
pd.Series([5.5, 6.0, 9.5])

0    5.5
1    6.0
2    9.5
dtype: float64

Podemos alterar o **nome dos índices** (veremos melhor jajá) e o **nome da Series** (o que ela representa):

In [365]:
pd.Series([5.5, 6.0, 9.5], index=['Prova ', 'Prova 2', 'Projeto'], name='Notas do luke Skywalker')

Prova      5.5
Prova 2    6.0
Projeto    9.5
Name: Notas do luke Skywalker, dtype: float64

#### **VEJA MAIS**
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

### 1.3.4 Atribuindo Dados

In [366]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI
0,Luke Skywalker,16,70.5,True
1,Yoda,1000,15.12,True
2,Palpatine,70,60.1,False


#### 1.3.4.1 Atribuindo constantes

In [367]:
nome_view = personagens_df['NOME']   # A series referente a coluna, NÇAO É UMA CÓPIA, mas sim uma referencia a coluna do dataframe
nome_view

0    Luke Skywalker
1              Yoda
2         Palpatine
Name: NOME, dtype: object

In [368]:
nome_view_BKP = personagens_df['NOME'].copy() #Cria uma cópia da coluna ou da linha do dataframe
nome_view_BKP

0    Luke Skywalker
1              Yoda
2         Palpatine
Name: NOME, dtype: object

In [369]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI
0,Luke Skywalker,16,70.5,True
1,Yoda,1000,15.12,True
2,Palpatine,70,60.1,False


In [370]:
#criei uma nova coluna no dataframe
personagens_df['poder'] = 100
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,poder
0,Luke Skywalker,16,70.5,True,100
1,Yoda,1000,15.12,True,100
2,Palpatine,70,60.1,False,100


In [371]:
personagens_df.rename(columns={'poder' : 'PODER'}, inplace=True)
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER
0,Luke Skywalker,16,70.5,True,100
1,Yoda,1000,15.12,True,100
2,Palpatine,70,60.1,False,100


#### 1.3.4.2 Atribuindo listas ou series

In [372]:
nrows, ncols = personagens_df.shape
nrows, ncols

(3, 5)

In [373]:
level_poder = [f'{i}' for i in range(nrows)]
level_poder

['0', '1', '2']

In [374]:
personagens_df['PODER'] = level_poder
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER
0,Luke Skywalker,16,70.5,True,0
1,Yoda,1000,15.12,True,1
2,Palpatine,70,60.1,False,2


In [375]:
print(nome_view)
print('\n')
print(nome_view_BKP)


0    Luke Skywalker
1              Yoda
2         Palpatine
Name: NOME, dtype: object


0    Luke Skywalker
1              Yoda
2         Palpatine
Name: NOME, dtype: object


In [376]:
#Usado para voltar para NOME originais
personagens_df['NOME'] = nome_view_BKP # nome_view_BKP é uma sireis
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER
0,Luke Skywalker,16,70.5,True,0
1,Yoda,1000,15.12,True,1
2,Palpatine,70,60.1,False,2


#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [377]:
personagens_df['Coluna sem noção'] = 'Default'
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção
0,Luke Skywalker,16,70.5,True,0,Default
1,Yoda,1000,15.12,True,1,Default
2,Palpatine,70,60.1,False,2,Default


In [378]:
personagens_df['Coluna a partir de lista'] = range(personagens_df.shape[0])
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção,Coluna a partir de lista
0,Luke Skywalker,16,70.5,True,0,Default,0
1,Yoda,1000,15.12,True,1,Default,1
2,Palpatine,70,60.1,False,2,Default,2


In [379]:
#Não funciona pq quantidade de elementos na lista (a serem atribuidos na nova coluna) deve ser igual
# a quantidae de linhas do dataframe
#personagens_df['não combina'] = [0, 1]
#personagens_df

<br/>

Outro exemplo:

In [380]:
#não funcionou Pq a coluna PODER é do type object e não int ou float
personagens_df['PODER(Pós Arco)'] = personagens_df['PODER'] *3
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,Default,0,0
1,Yoda,1000,15.12,True,1,Default,1,111
2,Palpatine,70,60.1,False,2,Default,2,222


In [381]:
#Converte a coluna 'PODER' para numérico (se necessário) para cálculos
personagens_df['PODER'] = pd.to_numeric(personagens_df['PODER'])

personagens_df['PODER(Pós Arco)'] = personagens_df['PODER'] *3
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,Default,0,0
1,Yoda,1000,15.12,True,1,Default,1,3
2,Palpatine,70,60.1,False,2,Default,2,6


**PS:** Obviamente, a lógica correta em converter o preço dos combustíveis em reais para dólares não é considerar uma taxa de câmbio fixa, uma vez que cada preço foi aferido em um momento diferente.

### 1.3.4 Índices

Todo Data Frame possui **índices**, que não são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [382]:
personagens_df.index

RangeIndex(start=0, stop=3, step=1)

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [383]:
pesquisa_de_satisfacao = pd.DataFrame({
    'bom' :[50, 21, 100],
    'ruim' :[131, 2, 30],
    'pessimo' :[30, 20 ,1],
}, index=['Xboxone', 'Plastation4', 'swith'])

In [384]:
pesquisa_de_satisfacao.head()

Unnamed: 0,bom,ruim,pessimo
Xboxone,50,131,30
Plastation4,21,2,20
swith,100,30,1


In [385]:
pesquisa_de_satisfacao.index

Index(['Xboxone', 'Plastation4', 'swith'], dtype='object')

### 1.4 Selecionando uma ou mais amostras (Indexação)

#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma amostra/linha:**

In [386]:
#selecionando a linha 1 ===> observação do indice 1 do parsonagens_df
personagens_df.iloc[1]

NOME                           Yoda
IDADE                          1000
PESO                          15.12
ED_JEDI                        True
PODER                             1
Coluna sem noção            Default
Coluna a partir de lista          1
PODER(Pós Arco)                   3
Name: 1, dtype: object

**Selecionando múltiplias amostras/linhas:**

In [387]:
#Selecionando as linhas do indice de 0 a 2
personagens_df.iloc[0:3]

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,Default,0,0
1,Yoda,1000,15.12,True,1,Default,1,3
2,Palpatine,70,60.1,False,2,Default,2,6


In [388]:
#Selecionando os indeces de 0 a 1
personagens_df.iloc[:2]

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,Default,0,0
1,Yoda,1000,15.12,True,1,Default,1,3


In [389]:
#Selecionando as linhas e indices 0 e 2
personagens_df.iloc[[0,2]]

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,Default,0,0
2,Palpatine,70,60.1,False,2,Default,2,6


In [390]:
#Retornar i valor do indice 1 e da coluna 3(ED_JEDI)
personagens_df.iloc[1, 3]

np.True_

In [391]:
# e assim por diante!

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> row-first, column-second

In [392]:
pesquisa_de_satisfacao

Unnamed: 0,bom,ruim,pessimo
Xboxone,50,131,30
Plastation4,21,2,20
swith,100,30,1


In [393]:
#Retorna a linha 0 mesmo que seja o xboxone
pesquisa_de_satisfacao.iloc[0]

bom         50
ruim       131
pessimo     30
Name: Xboxone, dtype: int64

In [394]:
#Retorna o valor da linha 0 e coluna 1
pesquisa_de_satisfacao.iloc[0,1]

np.int64(131)

In [395]:
#Retorna a linha cujo o rotulo do index é "Xboxone"
pesquisa_de_satisfacao.loc['Xboxone']

bom         50
ruim       131
pessimo     30
Name: Xboxone, dtype: int64

In [396]:
#Não funciona o iloc tentando acessar index com rotulos
#pesquisa_de_satisfacao.iloc['Xboxone']

In [397]:
#Não funciona o loc tentando acessar index rotulados com numeros   
#pesquisa_de_satisfacao.loc[2]

In [398]:
#Retorna o valor da linha Plastation4 e coluna ruin
pesquisa_de_satisfacao.loc['Plastation4', 'ruim']

np.int64(2)

In [399]:
#Seleciona a linhas com indices  rotulados 'Xboxone' e 'swith'
pesquisa_de_satisfacao.loc[['Xboxone', 'swith']]

Unnamed: 0,bom,ruim,pessimo
Xboxone,50,131,30
swith,100,30,1


In [400]:
#Retorna todas as linhas e apenas colunas com bom e pessimo
pesquisa_de_satisfacao[['bom', 'pessimo']]

Unnamed: 0,bom,pessimo
Xboxone,50,30
Plastation4,21,20
swith,100,1


In [401]:
#Retorna todas as linhas e apenas colunas com bom e pessimo
pesquisa_de_satisfacao.loc[:, ['bom', 'pessimo']]

Unnamed: 0,bom,pessimo
Xboxone,50,30
Plastation4,21,20
swith,100,1


In [402]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,Default,0,0
1,Yoda,1000,15.12,True,1,Default,1,3
2,Palpatine,70,60.1,False,2,Default,2,6


In [403]:
#Implicitamente o Pandas entende que indices numerados possuem rotulos que indentificam eles
personagens_df.loc[0]

NOME                        Luke Skywalker
IDADE                                   16
PESO                                  70.5
ED_JEDI                               True
PODER                                    0
Coluna sem noção                   Default
Coluna a partir de lista                 0
PODER(Pós Arco)                          0
Name: 0, dtype: object

### 1.5 Selecionando um ou mais atributos (colunas)

In [404]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna sem noção,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,Default,0,0
1,Yoda,1000,15.12,True,1,Default,1,3
2,Palpatine,70,60.1,False,2,Default,2,6


In [405]:
personagens_df['IDADE']

0      16
1    1000
2      70
Name: IDADE, dtype: int64

In [406]:
personagens_df.IDADE

0      16
1    1000
2      70
Name: IDADE, dtype: int64

In [407]:
personagens_df.loc[:, ['IDADE']]

Unnamed: 0,IDADE
0,16
1,1000
2,70


In [408]:
personagens_df[['IDADE', 'NOME', 'ED_JEDI']]

Unnamed: 0,IDADE,NOME,ED_JEDI
0,16,Luke Skywalker,True
1,1000,Yoda,True
2,70,Palpatine,False


Como o rótulo da coluna 'DATA INICIAL' **possui espaço**, não é possível acessá-la como método: `data.DATA INICIAL`

### 1.6 Removendo um Atributo (Coluna) do Data Frame

Como vimos anteriormente, o atributo 'Unnamed: 0' parece ser um **ruído** em nosso dataset. Desta maneira, vamos eliminá-lo,

In [409]:
#deleta/remove  in place (ou seja o proprio darta frame) a coluna de rotulo
del personagens_df['Coluna sem noção']

In [410]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6


### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso (veja que removemos anteriormente a coluna 'Unnamed: 0' que foi justamente esse caso).<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

In [411]:
personagens_df.to_csv(r'C:\Users\Jair\Documents\Estudos Jair\projeto_machine_learning\projeto_pandas\personagens.csv', index=False)


### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

In [412]:
personagens_df = pd.read_csv(r'C:\Users\Jair\Documents\Estudos Jair\projeto_machine_learning\projeto_pandas\personagens.csv')

In [413]:
personagens_df.head()

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6


In [414]:
#mostra todos os nomes unicos da coluna NOME
personagens_df['NOME'].unique()

array(['Luke Skywalker', 'Yoda', 'Palpatine'], dtype=object)

#### **Selecionando apenas os preços dos Postos de São Paulo**

##### **==> Alternativa 1: Seleção Condicional (Comparações diretas)**

O código abaixo retorna uma ***Series ('array') de booleans***, com o número de linhas (amostras) do Data Frame, que informa os registros de preços dos postos do _estado de São Paulo_ (True).

In [415]:
#Faz uma comparação de elemento a elemento da series, retornando um valor booleans
personagens_df['NOME'] == 'Luke Skywalker'

0     True
1    False
2    False
Name: NOME, dtype: bool

In [416]:
selecao = personagens_df['NOME'] == 'Luke Skywalker'

In [417]:
type(selecao)

pandas.core.series.Series

In [418]:
selecao.shape

(3,)

In [419]:
personagens_df.shape

(3, 7)

In [420]:
novas_linhas = pd.DataFrame([
    {
        'NOME' : 'Luke Skywalker',
        'IDADE' : 33,
        'PESO' : 75.5,
        'ED_JEDI' : True,
        'PODER' : 3,
        'Coluna a partir de lista' : 3,
        'PODER(Pós Arco)' : 6
    }

]) 
personagens_df = pd.concat([personagens_df, novas_linhas], ignore_index=True)
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


In [421]:

#Falta linkar as novas linhas com as operações das colunas


Para **filtrarmos** os registros de postos do estado de São Paulo:

In [422]:
# tive que fazer isso de novo pq o antigo 'selecao' não continha a nova linha
# do luque skywalker, e assim dava diferença de linhas
# entre o dataframe e a selecao
selecao = personagens_df['NOME'] == 'Luke Skywalker'

In [423]:
personagens_df[selecao]

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
3,Luke Skywalker,33,75.5,True,3,3,6


O resultado é um Data Frame com _apenas_ os registros desejados após a **filtragem**.<br/>
Podemos ainda utilizar o método `loc` para o mesmo fim:

In [424]:
#Faz a mesma coisa da função anterior
personagens_df.loc[selecao]

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
3,Luke Skywalker,33,75.5,True,3,3,6


##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

In [425]:
personagens_df.query('NOME == "Luke Skywalker"')

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
3,Luke Skywalker,33,75.5,True,3,3,6


<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análise feita para os postos de São Paulo.

In [426]:
dados_luke = personagens_df.query('NOME == "Luke Skywalker"')

In [427]:
#Agora o 'dados_like' é um dataframe e não mais uma series
#Podendo usar atributos de dataframes
dados_luke

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
3,Luke Skywalker,33,75.5,True,3,3,6


In [428]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


In [429]:
dados_luke

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
3,Luke Skywalker,33,75.5,True,3,3,6


In [430]:
#Dessa forma eu resetei os indices do dataframe
#Mas não foi uma copia, foi uma referencia
dados_luke.reset_index()

Unnamed: 0,index,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,0,Luke Skywalker,16,70.5,True,0,0,0
1,3,Luke Skywalker,33,75.5,True,3,3,6


In [431]:
#Como pode ver o index foi resetado, mas o index original ainda está lá
dados_luke

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
3,Luke Skywalker,33,75.5,True,3,3,6


In [432]:
dados_luke.reset_index(drop=True)

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Luke Skywalker,33,75.5,True,3,3,6


In [433]:
#Porem o dataframe original ainda não foi alterado
dados_luke


Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
3,Luke Skywalker,33,75.5,True,3,3,6


In [434]:
#Mas usando o parametro implace=True, o dataframe original é alterado
dados_luke.reset_index(drop=True,inplace=True)

#Agora o index foi resetado e o dataframe original foi alterado
dados_luke

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Luke Skywalker,33,75.5,True,3,3,6


In [435]:
#O método mais comun é pegando a copy do dataframe e restando os indices na mesma linha
dados_luke = personagens_df.query('NOME == "Luke Skywalker"').reset_index(drop=True)

dados_luke

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Luke Skywalker,33,75.5,True,3,3,6


#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**###

In [436]:
#Selecionando se o PODER do luke é igual a 0 ou 3

personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


In [437]:
#Usei a função unique para saber quem esta na coluna NOME e a gramatica da escrita
personagens_df['NOME'].unique()


array(['Luke Skywalker', 'Yoda', 'Palpatine'], dtype=object)

In [438]:
personagens_df['NOME'] == 'Luke Skywalker'


0     True
1    False
2    False
3     True
Name: NOME, dtype: bool

In [439]:
#Para pegar os valores 0 ou 1 têm que usar o operador | (ou) usando parenteses 
(personagens_df['PODER'] == 0) | (personagens_df['PODER'] == 3)

0     True
1    False
2    False
3     True
Name: PODER, dtype: bool

In [440]:
####**Achando poder maior que 1**####

In [441]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


In [442]:
personagens_df['PODER'] > 1

0    False
1    False
2     True
3     True
Name: PODER, dtype: bool

In [443]:
#Personagens com o PODER(Pós Arco) igual a 6
personagens_df['PODER(Pós Arco)'] == 6

0    False
1    False
2     True
3     True
Name: PODER(Pós Arco), dtype: bool

In [444]:
#Juntei as dus operações com o operador '&' que é 'and' 
select = (personagens_df['PODER'] > 1 ) & (personagens_df['PODER(Pós Arco)'] == 6)

select

0    False
1    False
2     True
3     True
dtype: bool

Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/amostras do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro e o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

In [445]:
#Fazendo dessa forma vai mostrar os registros True
personagens_df[select]

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (cedilha, acentos) 

In [446]:
# Não funciona
# data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

**Aprofundando mais ainda**

A primeira comparação `(data['ESTADO'] == 'RIO DE JANEIRO')` checa, linha a linha (amostra a amostra) do DataFrame, quais são aquelas cujo o estado é RIO DE JANEIRO. Nenhuma averiguação de preços é feita nesse momento. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

A segunda comparação `(data['PREÇO MÉDIO REVENDA'] > 2)` checa, linha a linha (amostra a amostra) do DataFrame, quais são os registro cujo preço do combustível é maior que 2 reais. Note que essa comparação checará os postos de **TODOS os estados**. Como resultado, temos uma Series de booleans que responde **apenas** a essa "pergunta" feita.

Por fim, as duas "perguntas" são unidas pelo AND (&) que retorna a "pergunta completa" que fizemos.

Alguns podem argumentar que tal abordagem é **ineficiente**, uma vez que, para cada condição ("pergunta"), estamos varrendo todas as linhas do DataFrame. <br/>
O Pandas _tenta otimizar_ isso ao máximo por de trás dos panos. Mas, de fato, de tivermos um dataset **muito grande** (centenas de milhares de linhas), tal abordagem se tornará _lenta_.

Assim, poderíamos fazer filtragem com múltiplos condicionais em partes:

In [447]:
select2 = personagens_df['PODER'] > 0
forca = personagens_df[select2]
forca

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


In [448]:
igual = forca['PODER(Pós Arco)'] == 6
igual

1    False
2     True
3     True
Name: PODER(Pós Arco), dtype: bool

In [449]:
semelhante = forca[igual]
semelhante

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


#### **Selecionando registros de postos de São Paulo ou do Rio de Janeiro com Gasolina Comum acima de 2 reais**

Podemos fazer a solução do "jeito mais lento", percorrendo o DataFrame inteiro _múltiplas vezes_:

In [450]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


In [451]:
persona = (personagens_df['NOME'] == 'Luke Skywalker' ) | (personagens_df['NOME'] == 'Yoda' )
persona2 = personagens_df['ED_JEDI'] == True
persona3 = personagens_df['PESO'] < 73.00

persona_final = persona & persona2 & persona3
personagens_df[persona_final]


Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3


In [452]:
persona_filtrado = personagens_df[persona_final]
print(persona_filtrado['NOME'].unique())
print(persona_filtrado['ED_JEDI'].unique())
print(persona_filtrado['PESO'].unique())


['Luke Skywalker' 'Yoda']
[ True]
[70.5  15.12]


<br/>

Alternativamente:

In [453]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3
2,Palpatine,70,60.1,False,2,2,6
3,Luke Skywalker,33,75.5,True,3,3,6


In [454]:
sera = (personagens_df['NOME'] == 'Luke Skywalker' ) | (personagens_df['NOME'] == 'Yoda' )
sera2 = personagens_df[sera]

In [455]:
sera3= sera2['ED_JEDI'] == True
sera4 = sera2[sera3]



In [456]:
sera5 = sera4['PESO'] < 73.00
sera4[sera5]


Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco)
0,Luke Skywalker,16,70.5,True,0,0,0
1,Yoda,1000,15.12,True,1,1,3


#### **Selecionando registros dos anos de 2008, 2010 e 2012**

In [457]:


personagens_df['ANO'] = [2008, 2010, 2012,2011]

personagens_df


Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco),ANO
0,Luke Skywalker,16,70.5,True,0,0,0,2008
1,Yoda,1000,15.12,True,1,1,3,2010
2,Palpatine,70,60.1,False,2,2,6,2012
3,Luke Skywalker,33,75.5,True,3,3,6,2011


**ALTERNATIVA 1**

In [458]:

datas = (personagens_df['ANO'] == 2008) | (personagens_df['ANO'] == 2010) | (personagens_df["ANO"] == 2012)
personagens_df[datas]['ANO'].unique()

array([2008, 2010, 2012])

In [459]:
lista_anos = [2008, 2012, 2010]

variavel = personagens_df['ANO'].isin(lista_anos)   
personagens_df[variavel]


Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco),ANO
0,Luke Skywalker,16,70.5,True,0,0,0,2008
1,Yoda,1000,15.12,True,1,1,3,2010
2,Palpatine,70,60.1,False,2,2,6,2012


**ALTERNATIVA 2**

In [460]:
personagens_df.query('ANO in @lista_anos') #Outra opção é usar o query


Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco),ANO
0,Luke Skywalker,16,70.5,True,0,0,0,2008
1,Yoda,1000,15.12,True,1,1,3,2010
2,Palpatine,70,60.1,False,2,2,6,2012


### **Iterando com DataFrames**

#### For-each `DataFrame.iterrows()` (LENTO ==> apenas indicado para iterar pequenos conjunto de dados)

In [461]:
for index, row in personagens_df.head(4).iterrows():
        print(f'indice{index}/ linha/ {row["NOME"]}  ')

indice0/ linha/ Luke Skywalker  
indice1/ linha/ Yoda  
indice2/ linha/ Palpatine  
indice3/ linha/ Luke Skywalker  


<h2>2. Preparação dos dados</h2>
<hr/>

### 2.1 Removendo amostras com valores vazios (null / nan) no dataset

In [462]:
personagens_df.info()
personagens_df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   NOME                      4 non-null      object 
 1   IDADE                     4 non-null      int64  
 2   PESO                      4 non-null      float64
 3   ED_JEDI                   4 non-null      bool   
 4   PODER                     4 non-null      int64  
 5   Coluna a partir de lista  4 non-null      int64  
 6   PODER(Pós Arco)           4 non-null      int64  
 7   ANO                       4 non-null      int64  
dtypes: bool(1), float64(1), int64(5), object(1)
memory usage: 360.0+ bytes


Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco),ANO
0,Luke Skywalker,16,70.5,True,0,0,0,2008
1,Yoda,1000,15.12,True,1,1,3,2010
2,Palpatine,70,60.1,False,2,2,6,2012
3,Luke Skywalker,33,75.5,True,3,3,6,2011


De um total de 106823 observações, **não há valores null** / nan para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: P. ex., "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente algumas amostras têm um string ao invés de um número para tais atributos. <br/>

Os atributos *"DATA INICIAL"* e *"DATA FINAL"* deveriam ser do tipo `datetime`.

Em outros casos, alguns **atributos categóricos** são ```objects```, mas poderiam ter o tipo ```category```, que é um tipo especial do pandas. <br/>
Este tipo é necessário para se utilizar algumas funções específicas do pandas. <br/>
**Não** converteremos para este tipo por ora.

In [471]:
#personagens_df.drop('DATA' , axis=1 , inplace=True) #Oaxis=0 remove linhas e o axis=1 remove colunas

personagens_df


Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco),ANO
0,Luke Skywalker,16,70.5,True,0,0,0,2008
1,Yoda,1000,15.12,True,1,1,3,2010
2,Palpatine,70,60.1,False,2,2,6,2012
3,Luke Skywalker,33,75.5,True,3,3,6,2011


In [168]:
personagens_df['DATA'] = '2004/05/09' , '2004/05/09', '2004/05/09' , '2004/05/09' 
personagens_df

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco),ANO,DATA
0,Luke Skywalker,16,70.5,True,0,0,0,2008,2004/05/09
1,Yoda,1000,15.12,True,1,1,3,2010,2004/05/09
2,Palpatine,70,60.1,False,2,2,6,2012,2004/05/09
3,Luke Skywalker,33,75.5,True,3,3,6,2011,2004/05/09


In [173]:
pre_persona = personagens_df.copy()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   NOME                      4 non-null      object 
 1   IDADE                     4 non-null      int64  
 2   PESO                      4 non-null      float64
 3   ED_JEDI                   4 non-null      bool   
 4   PODER                     4 non-null      int64  
 5   Coluna a partir de lista  4 non-null      int64  
 6   PODER(Pós Arco)           4 non-null      int64  
 7   ANO                       4 non-null      int64  
 8   DATA                      4 non-null      object 
dtypes: bool(1), float64(1), int64(5), object(2)
memory usage: 392.0+ bytes


In [175]:
#Usando a função pd.to_datetime para tranformar a DATA em datetime

pre_persona['DATA'] = pd.to_datetime(pre_persona['DATA'])

pre_persona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   NOME                      4 non-null      object        
 1   IDADE                     4 non-null      int64         
 2   PESO                      4 non-null      float64       
 3   ED_JEDI                   4 non-null      bool          
 4   PODER                     4 non-null      int64         
 5   Coluna a partir de lista  4 non-null      int64         
 6   PODER(Pós Arco)           4 non-null      int64         
 7   ANO                       4 non-null      int64         
 8   DATA                      4 non-null      datetime64[ns]
dtypes: bool(1), datetime64[ns](1), float64(1), int64(5), object(1)
memory usage: 392.0+ bytes


#### **Datas**
Como os atributos de data do datset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

In [200]:
pre_persona['COISA'] = 'aaaaaa'

In [201]:
pre_persona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   NOME                      4 non-null      object        
 1   IDADE                     4 non-null      int64         
 2   PESO                      4 non-null      float64       
 3   ED_JEDI                   4 non-null      bool          
 4   PODER                     4 non-null      int64         
 5   Coluna a partir de lista  4 non-null      int64         
 6   PODER(Pós Arco)           4 non-null      int64         
 7   ANO                       4 non-null      int64         
 8   DATA                      4 non-null      datetime64[ns]
 9   NADA                      4 non-null      int64         
 10  COISA                     4 non-null      object        
dtypes: bool(1), datetime64[ns](1), float64(1), int64(6), object(2)
memory usage: 456.0+ byte

In [202]:
#Convertendo atributos em colunas numericas

for atributos in ['NADA', 'COISA']:
    #Convertendo as colunas para um tipo numerico
    #Em cado de erro na conversão (ex. uma string que não representa um numero) seá convertida para (nul/nam)
    pre_persona[atributos] = pd.to_numeric(pre_persona[atributos], errors='coerce')

In [203]:
pre_persona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   NOME                      4 non-null      object        
 1   IDADE                     4 non-null      int64         
 2   PESO                      4 non-null      float64       
 3   ED_JEDI                   4 non-null      bool          
 4   PODER                     4 non-null      int64         
 5   Coluna a partir de lista  4 non-null      int64         
 6   PODER(Pós Arco)           4 non-null      int64         
 7   ANO                       4 non-null      int64         
 8   DATA                      4 non-null      datetime64[ns]
 9   NADA                      4 non-null      int64         
 10  COISA                     0 non-null      float64       
dtypes: bool(1), datetime64[ns](1), float64(2), int64(6), object(1)
memory usage: 456.0+ byte

In [None]:
#Perceba que a coluna coisa esta nula 

#### **Dados Numéricos**

In [473]:
pre_persona

Unnamed: 0,NOME,IDADE,PESO,ED_JEDI,PODER,Coluna a partir de lista,PODER(Pós Arco),ANO,DATA,NADA,COISA
0,Luke Skywalker,16,70.5,True,0,0,0,2008,2004-05-09,3763737,
1,Yoda,1000,15.12,True,1,1,3,2010,2004-05-09,3763737,
2,Palpatine,70,60.1,False,2,2,6,2012,2004-05-09,3763737,
3,Luke Skywalker,33,75.5,True,3,3,6,2011,2004-05-09,3763737,


<br/>

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

In [None]:
#Uma forma de alterar um valor especifico de uma coluna e linha com a função loc
pre_persona.loc[0,'COISA'] = 22222 

In [476]:
pre_persona['COISA'].isnull()

0    False
1     True
2     True
3     True
Name: COISA, dtype: bool

Várias amostras possuem a _string '-'_ em algumas colunas ao invés de um número de fato. Ou seja, não há aferições destes atributos para estas amostras. <br/>

<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

<br/>

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO DISTRIBUIÇÃO'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

Nosso data frame agora, após essa _limpeza_, ficou mais enxuto, contentdo 103392 registros frente aos 106823 registros originais. <br/>

Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias, p. ex., **confiam na detecção de outliers**, que não veremos neste curso.

#### **Salvando o Dataset Preprocessado**

<h2>3. Estatísticas Descritivas</h2>
<hr/>

O Pandas fornecem algumas funções/métodos ue computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

**Acessando apenas algumas estatísticas**

<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

#### Qual é o menor preço mínimo de revenda?

#### Qual é a média e desvio padrão dos preços mínimos de revenda?

#### Quais são os estados considerados?

#### Quantos registros (aferições) cada estado possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).

<h2>4. Executando funções para cada item de um DataFrame ou Series</h2>
<hr/>

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".


<img src='./imagens/apply_map_applymap.png' width=300/>


Fonte: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff

In [298]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])

`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='./imagens/pandas_axis.jpg' width=500/>

Fonte: https://www.allthesnippets.com/browse/pandas/df_axis.html

<img src='./imagens/apply_axis_1.png' width=250/>

<img src='./imagens/apply_axis_0.png' width=250/>

##### Usando `lambda` functions

<img src='./imagens/apply_axis_1_mean.png' width=350/>

<br/>

`applymap()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de um DataFrame.

In [None]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])
df

<br/>

`map()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de uma _Series_.

<h2>5. Agrupamento</h2>
<hr/>

`groupby`: Usado para criar **grupo de elementos** (e.x., baseado nos valores de um atributo). <br/>
**Funções** podem então ser aplicadas para os _elementos de cada grupo_, de modo que os **resultados de cada grupo são combinados**.

<br/>

Também podemos ter agrupamentos por mais de um atributo.

<br/>

`.agg`: **agrega (roda)** uma série de funções para os elementos de um dataframe ou de grupos de um dataframe.

In [None]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                  columns=['A', 'B', 'C'])
df

<h2>6. Ordenação</h2>
<hr/>

In [None]:
notas = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Alice'],
    'idade': [20, 21, 19, 20],
    'nota_final': [5.0, 10.0, 6.0, 10.0]
})
notas

`.sort_values()`: ordena valores ao longo de um eixo.

Por padrão, o método retorna uma cópia dos dados ordenados em **ordem crescente (ascendente)**. Podemos alterar isso pelo argumento `ascending`.

<br/>

Podemos ordenar a partir de **mais de uma coluna**:

Ordena os registros, primeiramente, pela coluna 'nota_final' em **ordem descrente**. <br/>
Então, reordena os registros _"empatados"_, ou seja, com a **mesma nota final**, em _ordem alfabética_ (ordem crescente).

<br/>

Note que o dataframe original **não foi alterado** após a ordenação.

Para alterá-lo, use o argumento `inplace=True`:

<h2>7. Exercícios</h2>
<hr/>

Vamos aplicar os conceitos que vimos em alguns exercícios. <br/>
Para isso, utilizaremos o dataset de _preços de combustíveis no Brasil_.

Como há apenas medições de janeiro a junho para o ano de 2019, resolvemos **remover os dados** deste ano da análise.

Note que temos um novo dataframe com 99739 linhas, mas com índices fora desse intervalo. <br/>
Acontece que os registros mantiveram seus índices originais após a query. <br/>

Para resetar os índices de _0 a num_linhas-1_, basta usarmos o método `.reset_index()`. 

Os índices agora foram **resetados**. Porém, os índices antigos se transformaram em _uma nova coluna_ chamada 'index'. <br/>
Para removê-la durante o _reset_, basta passarmos o argumento `drop=True`.

### 7.1 Qual a proporção de postos pesquisados para cada combustível em cada região

### 7.2 Como os preços da Gasolina Comum em São Paulo variaram em 2018?

#### **Estatísticas Descritivas**

### 7.3 Como os preços da Gasolina Comum e do Etanol em São Paulo variaram em 2018?

<h2>8. Assuntos para continuar os estudos</h2>
<hr/>

- join
- concat
- plot
- data cleaning