# Pandas

O **Pandas** é uma biblioteca para manipulação, análise e visualização de Dados. Foi desenvolvida com base no **Numpy e Matplotlib**.

Lembrando que: se você não estiver utilizando a distribuição Anaconda, é preciso realizar a instalação do Pandas através de um gerenciador de pacotes:

```
pip install pandas
```

**Site oficial:** [https://pandas.pydata.org](https://pandas.pydata.org/)

**Documentação oficial:** [Documentação](https://pandas.pydata.org/docs/)

# Carregando dados com o Pandas

O Pandas possui uma variedade de métodos que nos permitem ler dados de diversas fontes.
Vamos ver aqui os principais métodos!

In [1]:
import pandas as pd

## Arquivos CSV

CVS (**C**omma **S**eparated **V**alues) é um formato específico de arquivo texto utilizado para armazenar dados. Eles utilizam um separador em sua estrutura para delimitar as linhas e colunas.

Esse separador poder ser qualquer caractere, mas os mais utilizados são: vírgula, ponto e vírgula e tabulação (TSV).

Para carregar arquivos CSV no Pandas, utilizamos o método **read_csv()**:

```python
df = pd.read_csv('nome_do_arquivo.csv', sep='separador')
```

In [2]:
# CSV delimitador - vírgula
df = pd.read_csv('datasets/base_vendas.csv')
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [3]:
# CSV delimitador - ponto e vírgula
df = pd.read_csv('datasets/base_vendas_ponto_virgula.csv', sep=';')
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [5]:
# CSV delimitador - tabulação (pode ter também a extensão .tsv)
df = pd.read_csv('datasets/base_vendas_tab.tsv', sep='\t')
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


## Arquivos Excel

Outro tipo de arquivo muito utilizado para dados são os arquivo Excel (.xlsx). 

Um detalhe importante é: para ler arquivos Excel com o Pandas, precisamos ter instalada a biblioteca **openpyxl**. Ela já vem pré-instalada no Anaconda. Então, caso não esteja utilizando o Anaconda, é necessário instalar, além do Pandas, o openpyxl:

```
pip install openpyxl
```

Para carregar arquivos Excel no Pandas, utilizamos o método **read_excel()**:

```python
df = pd.read_excel('nome_do_arquivo.xlsx', sheet_name='nome_da_aba')
```

In [6]:
import pandas as pd

In [8]:
df = pd.read_excel('datasets/Vendas.xlsx', sheet_name = 'base_vendas')

In [11]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,210.9,404.1,1,,2020-09-28 16:19:00,2020-10-05 16:31:00
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,109.9,249.9,1,,2020-03-07 12:47:00,2020-03-08 12:47:00
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,699.9,1346.9,1,,2019-04-21 10:48:00,2019-04-23 15:55:00
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,899.9,1676.9,1,,2020-05-07 17:59:00,2020-05-08 14:31:00
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099.0,1709.1,1,0.05,2019-08-14 16:56:00,2019-08-19 15:52:00


In [12]:
df.tail()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
2995,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10006,Aspirador de pó,Casa,88.9,189.9,3,,2019-11-04 15:40:00,2019-11-05 10:40:00
2996,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10011,Liquidificador,Cozinha,59.9,142.4,3,,2019-06-24 09:04:00,2019-06-24 10:50:00
2997,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10007,Batedeira,Cozinha,49.9,95.9,3,,2020-08-08 14:46:00,2020-08-09 14:07:00
2998,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10010,Fritadeira elétrica,Cozinha,187.9,340.0,3,,2019-12-19 09:21:00,2019-12-19 10:51:00
2999,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10004,Máquina Lavar Roupa,Eletrodomésticos,1099.0,1709.1,3,0.09,2019-03-18 15:40:00,2019-03-23 17:52:00


## Arquivos HTML

Quando precisamos buscar dados de um site na internet, utilizamos uma técnica chamada de **web scraping**.

O Pandas possui um método para isso, mas ele possui algumas limitações:

- ele só busca por dados em formato tabular
- retorna uma lista na qual os elementos são DataFrames das tabelas encontradas na pagina HTML
- muitas vezes precisamos buscar o código HTML através de outras bibliotecas que simulem um browser (requests, por exemplo), pois o site pode bloquear a leitura direta no Pandas

O método utilizado para ler arquivos HTML é o **read_html()**:

```python
df = pd.read_html('nome_do_arquivo.html')
```

In [14]:
tabelas = pd.read_html('datasets/base_vendas.html')

In [15]:
type(tabelas)

list

In [16]:
len(tabelas)

1

In [18]:
df = tabelas[0]

In [19]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [20]:
type(df)

pandas.core.frame.DataFrame

## Arquivos HDF5

**Hierarchical Data Format**: formato desenvolvido pela National Center for Supercomputing Applications para armazenar grandes quantidades de dados. 

O Pandas disponibiliza o método **read_hdf()** para ler esse tipo de arquivo:

```python
df = pd.read_hdf('nome_do_arquivo.h5')
```

In [21]:
df = pd.read_hdf('datasets/base_vendas.h5')

In [22]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


## Banco de Dados

Podemos ler dados de um Banco de Dados relacional ou não relacional utilizando o Pandas.

Porém, precisamos utilizar a biblioteca correta para fazer a conexão com o banco, que será então passada ao Pandas.

Para essa finalidade, temos os seguintes métodos: **read_sql()**, **read_sql_query()** e **read_sql_table()**.

No nosso exemplo, vamos utilizar o SQLite que é um banco de dados relacional que não precisa ser instalado e que o Python já possui um módulo nativo para conexão. Iremos utilizar o método **read_sql_query()**:

```python
df = pd.read_sql_query('query', conexao)
```


In [23]:
import pandas as pd
import sqlite3

In [24]:
conn = sqlite3.connect('datasets/vendas.db')

In [25]:
df = pd.read_sql_query('SELECT * FROM pedidos', conn)

In [26]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [27]:
df.tail()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
95,123456111,José Maria,Vendedor,CL001,Loja Matriz,10017,Cama Box,Casa,11899,18995,3,,05/03/2020 12:58,11/03/2020 10:27
96,123456111,José Maria,Vendedor,CL001,Loja Matriz,10005,Notebook,Eletrônicos,22999,3199,3,,07/08/2020 13:11,07/08/2020 14:53
97,123456111,José Maria,Vendedor,CL001,Loja Matriz,10020,Impressora,Eletrônicos,3299,6741,3,,29/09/2019 09:05,29/09/2019 12:15
98,123456111,José Maria,Vendedor,CL001,Loja Matriz,10012,Processador de alimentos,Cozinha,110,1899,3,,30/09/2019 16:49,01/10/2019 14:55
99,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,3,,08/11/2020 14:32,09/11/2020 09:48


In [28]:
type(df)

pandas.core.frame.DataFrame

## Arquivos XML

A sigla significa “eXtensible Markup Language” em inglês, que é basicamente um formato de arquivo universal usado para criar documentos com dados organizados.

É amplamente utilizado para troca de dados entre sistemas.

No Pandas, podemos utilizar o método **read_xml()** para ler dados de arquivos XML.

```python
df = pd.read_xml('nome_do_arquivo.xml')
```

In [29]:
import pandas as pd

In [32]:
df = pd.read_xml('datasets/base_vendas.xml')

In [33]:
df.head()

Unnamed: 0,index,matricula_funcionario,nome_funcionario,cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [34]:
df.tail()

Unnamed: 0,index,matricula_funcionario,nome_funcionario,cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
2995,2995,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10006,Aspirador de pó,Casa,889,1899,3,,04/11/2019 15:40,05/11/2019 10:40
2996,2996,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10011,Liquidificador,Cozinha,599,1424,3,,24/06/2019 09:04,24/06/2019 10:50
2997,2997,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10007,Batedeira,Cozinha,499,959,3,,08/08/2020 14:46,09/08/2020 14:07
2998,2998,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10010,Fritadeira elétrica,Cozinha,1879,340,3,,19/12/2019 09:21,19/12/2019 10:51
2999,2999,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,3,9.0,18/03/2019 15:40,23/03/2019 17:52


In [35]:
type(df)

pandas.core.frame.DataFrame

## Arquivos JSON

**JSON** (Javascript Object Notation) é um formato que armazena informações estruturadas e é principalmente utilizado para transferir dados entre um servidor e um cliente.

O arquivo é basicamente uma alternativa simples e mais leve ao XML (Extensive Markup Language), que tem funções similares.

Atualmente é o formato padrão utilizado por **APIs** e **Webservices**.

Para carregar arquivos no formato JSON, utilizamos o método **read_json()**.

```python
df = pd.read_json('nome_do_arquivo.json')
```

In [36]:
df = pd.read_json('datasets/base_vendas.json')

In [37]:
df.head()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
0,123456111,José Maria,Vendedor,CL001,Loja Matriz,10013,Fogão,Eletrodomésticos,2109,4041,1,,28/09/2020 16:19,05/10/2020 16:31
1,123456111,José Maria,Vendedor,CL001,Loja Matriz,10018,Colchão,Casa,1099,2499,1,,07/03/2020 12:47,08/03/2020 12:47
2,123456111,José Maria,Vendedor,CL001,Loja Matriz,10014,Geladeira,Eletrodomésticos,6999,13469,1,,21/04/2019 10:48,23/04/2019 15:55
3,123456111,José Maria,Vendedor,CL001,Loja Matriz,10001,Smartphone,Eletrônicos,8999,16769,1,,07/05/2020 17:59,08/05/2020 14:31
4,123456111,José Maria,Vendedor,CL001,Loja Matriz,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,1,5.0,14/08/2019 16:56,19/08/2019 15:52


In [38]:
df.tail()

Unnamed: 0,matricula_funcionario,Nome Funcionario,Cargo,codigo_loja,nome_loja,codigo_produto,descricao_produto,Categoria,preco_custo,valor_unitario,quantidade,comissao,dt_venda,dt_entrega
2995,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10006,Aspirador de pó,Casa,889,1899,3,,04/11/2019 15:40,05/11/2019 10:40
2996,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10011,Liquidificador,Cozinha,599,1424,3,,24/06/2019 09:04,24/06/2019 10:50
2997,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10007,Batedeira,Cozinha,499,959,3,,08/08/2020 14:46,09/08/2020 14:07
2998,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10010,Fritadeira elétrica,Cozinha,1879,340,3,,19/12/2019 09:21,19/12/2019 10:51
2999,123457113,Victor Hugo,Vendedor,CL004,Filial ES,10004,Máquina Lavar Roupa,Eletrodomésticos,1099,17091,3,9.0,18/03/2019 15:40,23/03/2019 17:52


In [39]:
type(df)

pandas.core.frame.DataFrame