## Pandas Essencial

**Prof. Dr. Samuel Martins (@hisamuka @xavecoding)**  
xavecoding: https://youtube.com/c/xavecoding

![image.png](attachment:image.png)  
This work is licensed under a [Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License](http://creativecommons.org/licenses/by-nc-sa/4.0/).

# Sumário

- [1. Manipulação básica de Datasets](#1-manipulação-básica-de-datasets)  
    - [1.1 Importando o Data Set](#11-importando-o-dataset)  
    - [1.2 Exibindo as primeiras linhas do Data Set](#12-exibindo-as-primeiras-linhas-do-dataset)  
    - [1.3 Informações do Data Set e elementos chave](#13-informações-do-dataset-e-elementos-chave)  
        - [1.3.1 Informações Gerais sobre o Data Set](#131-informações-gerais-sobre-o-dataset)  
        - [1.3.2 Data Frame](#132-data-frame)  
            - [Criando um Data Frame](#criando-um-dataframe)  
            - [Renomeando as colunas de um Data Frame](#renomeando-as-colunas-de-um-dataframe)  


### Pacotes usados neste notebook

In [1]:
# pacotes usados neste notebook
import pandas as pd

# Manipulação de Dados com Pandas
***
## 1. Manipulação básica de Datasets
***
**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/datasets/matheusfreitag/gas-prices-in-brazil

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos 2004 e 2019**. Cada observação (registro/linha) consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade no Brasil. Alguns dos princípais atributos (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.

\* O arquivo disponibilizado no Kaggle está no formato *tsv*. Embora o *pandas* consiga abrí-lo normalmente, converteu-se tal arquivo para o formato *CSV*, que é um dos formatos mais utilizados, e mudou-se seu separado para ";", apenas para mostrar algumas opções da função de carregamento.



### 1.1 Importando o Dataset

Para carregar um dataset no formato csv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera ',' como separador.

In [2]:
data = pd.read_csv('.\datasets\GasPricesinBrazil_2004-2019.csv')

In [3]:
data

Unnamed: 0,Unnamed: 0;DATA INICIAL;DATA FINAL;REGIÃO;ESTADO;PRODUTO;NÚMERO DE POSTOS PESQUISADOS;UNIDADE DE MEDIDA;PREÇO MÉDIO REVENDA;DESVIO PADRÃO REVENDA;PREÇO MÍNIMO REVENDA;PREÇO MÁXIMO REVENDA;MARGEM MÉDIA REVENDA;COEF DE VARIAÇÃO REVENDA;PREÇO MÉDIO DISTRIBUIÇÃO;DESVIO PADRÃO DISTRIBUIÇÃO;PREÇO MÍNIMO DISTRIBUIÇÃO;PREÇO MÁXIMO DISTRIBUIÇÃO;COEF DE VARIAÇÃO DISTRIBUIÇÃO;MÊS;ANO
0,0;2004-05-09;2004-05-15;CENTRO OESTE;DISTRITO ...
1,1;2004-05-09;2004-05-15;CENTRO OESTE;GOIAS;ETA...
2,2;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
3,3;2004-05-09;2004-05-15;CENTRO OESTE;MATO GROS...
4,4;2004-05-09;2004-05-15;NORDESTE;ALAGOAS;ETANO...
...,...
106818,106818;2019-06-23;2019-06-29;NORDESTE;RIO GRAN...
106819,106819;2019-06-23;2019-06-29;SUL;RIO GRANDE DO...
106820,106820;2019-06-23;2019-06-29;SUL;SANTA CATARIN...
106821,106821;2019-06-23;2019-06-29;SUDESTE;SAO PAULO...


O dataset não foi carregado corretamente pois o separador utilizado no arquivo CSV era ";" e não ",".

Vamos carregá-lo então corretamente:

In [4]:
# carregando o dataset corretamente ==> neste caso, usa o separador ';'
data = pd.read_csv('.\datasets\GasPricesinBrazil_2004-2019.csv', sep=';')

In [5]:
data

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.350,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.760,0.419,0.070,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.070,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.400,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106818,106818,2019-06-23,2019-06-29,NORDESTE,RIO GRANDE DO NORTE,GNV,7,R$/m3,3.574,0.065,...,3.690,0.818,0.018,2.756,0,2.756,2.756,0,6,2019
106819,106819,2019-06-23,2019-06-29,SUL,RIO GRANDE DO SUL,GNV,23,R$/m3,3.401,0.129,...,3.789,0.95,0.038,2.451,0.402,1.9842,2.8661,0.164,6,2019
106820,106820,2019-06-23,2019-06-29,SUL,SANTA CATARINA,GNV,24,R$/m3,2.912,0.190,...,3.499,0.914,0.065,1.998,0,1.9981,1.9981,0,6,2019
106821,106821,2019-06-23,2019-06-29,SUDESTE,SAO PAULO,GNV,52,R$/m3,3.020,0.229,...,3.490,0.646,0.076,2.374,0.165,2.0179,2.5093,0.07,6,2019


## 1.2 Exibindo as primeiras linhas do DataSet

A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [6]:
data.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


In [7]:
# exibe as 10 primeiras linhas do dataframe
data.head(10)

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004
5,5,2004-05-09,2004-05-15,NORDESTE,BAHIA,ETANOL HIDRATADO,408,R$/l,1.383,0.132,...,2.05,0.426,0.095,0.957,0.128,0.5686,1.35,0.134,5,2004
6,6,2004-05-09,2004-05-15,NORDESTE,CEARA,ETANOL HIDRATADO,278,R$/l,1.453,0.218,...,1.95,0.353,0.15,1.1,0.068,0.7332,1.294,0.062,5,2004
7,7,2004-05-09,2004-05-15,NORDESTE,MARANHAO,ETANOL HIDRATADO,105,R$/l,1.631,0.158,...,2.0,0.515,0.097,1.116,0.091,0.9923,1.36183,0.082,5,2004
8,8,2004-05-09,2004-05-15,NORDESTE,PARAIBA,ETANOL HIDRATADO,125,R$/l,1.284,0.13,...,1.699,0.353,0.101,0.931,0.072,0.7577,1.2972,0.077,5,2004
9,9,2004-05-09,2004-05-15,NORDESTE,PERNAMBUCO,ETANOL HIDRATADO,423,R$/l,1.224,0.141,...,1.7,0.277,0.115,0.947,0.091,0.5643,1.3541,0.096,5,2004


## 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 21 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Unnamed: 0                     106823 non-null  int64  
 1   DATA INICIAL                   106823 non-null  object 
 2   DATA FINAL                     106823 non-null  object 
 3   REGIÃO                         106823 non-null  object 
 4   ESTADO                         106823 non-null  object 
 5   PRODUTO                        106823 non-null  object 
 6   NÚMERO DE POSTOS PESQUISADOS   106823 non-null  int64  
 7   UNIDADE DE MEDIDA              106823 non-null  object 
 8   PREÇO MÉDIO REVENDA            106823 non-null  float64
 9   DESVIO PADRÃO REVENDA          106823 non-null  float64
 10  PREÇO MÍNIMO REVENDA           106823 non-null  float64
 11  PREÇO MÁXIMO REVENDA           106823 non-null  float64
 12  MARGEM MÉDIA REVENDA          

A primeira coluna da tabela, *Unnamed: 0*, parece não significar nada. Na verdade, ela parece ser os **índices** da tabela, que foram salvos como uma coluna. Veremos jajá como **remover tal coluna**.

Outro ponto é que, aparentemente, nenhum atributo/coluna possui valores nulos (*null*), uma vez que o número de registro do dataframe e os números de valores *non-null* é de **106823**.

Porém, veremos que não é bem assim para esse caso.

Além disso, note que alguns atributos/colunas, por ex., 'PREÇO MÉDIOI DISTRIBUIÇÃO', possui tipo de dado `object` ao invés de `float`. Esse `object`, no geral, representa strings. Veremos se isso é problemático mais pra frente.

### 1.3.2 Data Frame

Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos (diferentes).

In [9]:
type(data)

pandas.core.frame.DataFrame

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo .shape do Data Frame.

In [10]:
data.shape # retorna uma tupla

(106823, 21)

In [11]:
print(f'O DataFrame possui {data.shape[0]} linhas/registros/observações e {data.shape[1]} colunas/atributos.')

O DataFrame possui 106823 linhas/registros/observações e 21 colunas/atributos.


### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um *dicionário*, onde cada **chave** possui uma **lista de elementos de igual tamanho**. As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [12]:
personagens_df = pd.DataFrame({
    'nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade': [16, 1000, 70],
    'peso': [70 ,15 , 60],
    'eh jedi': [True, True, False] # o nome da coluna pode ter espaços
})

In [13]:
personagens_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [14]:
personagens_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nome     3 non-null      object
 1   idade    3 non-null      int64 
 2   peso     3 non-null      int64 
 3   eh jedi  3 non-null      bool  
dtypes: bool(1), int64(2), object(1)
memory usage: 203.0+ bytes


### **VEJA MAIS**

Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

### **Renomeando as colunas de um DataFrame**

==> O atributo `DataFrame.columns` retorna uma ";lista" com os **nomes de todas as colunas** do data frame.

In [15]:
personagens_df.columns

Index(['nome', 'idade', 'peso', 'eh jedi'], dtype='object')

In [16]:
type(personagens_df.columns)

pandas.core.indexes.base.Index

In [17]:
list(personagens_df.columns)

['nome', 'idade', 'peso', 'eh jedi']

==> Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma *cópia* do data frame com as colunas renomeadas:

In [18]:
personagens_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [19]:
personagens_df_renomeado = personagens_df.rename(columns={
    'nome' : 'Nome Completo', # renomeia a coluna de nome 'nome' para 'Nome Completo'
    'idade' : 'Idade'
})

In [20]:
personagens_df_renomeado

Unnamed: 0,Nome Completo,Idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


In [21]:
personagens_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


Para renomear o próprio data frame em questão, utilize o parâmetro `inplace=True`:

In [22]:
personagens_df.rename(columns={'nome' : 'Nome Completo', 'idade' : 'Idade'}, inplace=True)

In [23]:
personagens_df

Unnamed: 0,Nome Completo,Idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


==> Uma outra forma de **renomear todas as colunas** de um data frame é passar uma lista com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [24]:
personagens_df.columns

Index(['Nome Completo', 'Idade', 'peso', 'eh jedi'], dtype='object')

In [25]:
personagens_df.columns = ['NOME', 'IDADE', 'PESO', 'EH JEDI']

In [26]:
personagens_df

Unnamed: 0,NOME,IDADE,PESO,EH JEDI
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False
