O que é Pandas?

Pandas é uma biblioteca Python usada para trabalhar com conjuntos de dados.
Ele tem funções para analisar, limpar, explorar e manipular dados.
O nome "Pandas" faz referência tanto a "Panel Data" quanto a "Python Data Analysis" e foi criado por Wes McKinney em 2008.

Por que usar o Pandas?

O Pandas nos permite analisar big data e tirar conclusões baseadas em teorias estatísticas.
Os Pandas podem limpar conjuntos de dados confusos e torná-los legíveis e relevantes.
Dados relevantes são muito importantes na ciência de dados.

- Importando o Pandas

In [30]:
import pandas as pd

- Criando um dataframe a partir de um dicionário

Em Python, um DataFrame é uma estrutura de dados bidimensional, semelhante a uma tabela de uma planilha, onde os dados são organizados em linhas e colunas.

Os DataFrames são criados a partir de dicionários em python.

In [31]:
# data = {
#     'Nome': ['Carlos', 'Vinicius', 'Maria'],
#     'Idade': [58, 23, 60],
#     'Cidade': ['Amapa', 'Fortaleza', 'Recife']
# }

# # Criando um DataFrame
# tabela_info = pd.DataFrame(data)

Visualização dos Dados

- Print
- Display

In [32]:
# print(tabela_info)
# display(tabela_info)

Importando arquivos e bases de dados

 - "Read em Pandas" se refere ao conjunto de funções na biblioteca Pandas do Python utilizadas para ler dados de diferentes formatos e fontes para dentro de estruturas de dados do Pandas, principalmente o DataFrame. 

In [33]:
tabela_vendas = pd.read_excel('Vendas.xlsx')
display(tabela_vendas)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570


Resumo de Visualização de Dados simples e úteis

- Head:
     Retorna as primeiras linhas do DataFrame.

    Uso: df.head(n) — por padrão, retorna as 5 primeiras linhas.

- Shape:
    Retorna uma tupla com o número de linhas e colunas do DataFrame.

    Uso: df.shape
    
- Describe:
    Fornece estatísticas descritivas para colunas numéricas (por padrão).

    Inclui: contagem, média, desvio padrão, mínimo, percentis (25%, 50%, 75%) e máximo.

    Uso: df.describe()


In [34]:
# Você filtra o número de linhas que quer visualizar
display(tabela_vendas.head(10))
# Vai exibir o numero de linhas e colunas do DataFrame
print(tabela_vendas.shape)
# Vai exibir as principais estatisticas das vendas
display(tabela_vendas.describe())

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
5,3,2019-01-02,Rio Mar Shopping Fortaleza,Cinto Linho,1,248,248
6,5,2019-01-02,Shopping Barra,Calça,1,170,170
7,6,2019-01-02,Shopping Ibirapuera,Polo Listrado,4,149,596
8,7,2019-01-02,Norte Shopping,Camisa Gola V Listrado,1,116,116
9,7,2019-01-02,Norte Shopping,Camisa Liso,1,105,105


(93910, 7)


Unnamed: 0,Código Venda,Data,Quantidade,Valor Unitário,Valor Final
count,93910.0,93910,93910.0,93910.0,93910.0
mean,32464.762155,2019-06-16 23:52:28.265360896,2.166553,191.725886,414.862656
min,1.0,2019-01-01 00:00:00,1.0,30.0,30.0
25%,16204.0,2019-03-26 00:00:00,1.0,100.0,156.0
50%,32367.0,2019-06-17 00:00:00,2.0,155.0,274.0
75%,48793.75,2019-09-08 00:00:00,3.0,248.0,524.0
max,65014.0,2019-11-30 00:00:00,5.0,750.0,3750.0
std,18809.007093,,1.258732,145.215519,434.846228


Pegar as informações de uma coluna da tabela (pd.Series)

IMPORTANTE: É muito importante ressaltar que sempre que tivermos pd.series quer dizer que temos uma série do pandas, o que é isso?

Nada mais é do que uma única coluna ou uma única linha do seu dataframe.

E se você pegar apenas uma coluna, vai ver que mesmo com o método display, ela não vai aparecer toda formatada e bonita.

Então quando utilizarmos dessa forma: produtos = vendas_df[‘Produto’] teremos apenas uma única coluna não formatada.

Agora para mais colunas já podemos colocar outros 2 colchetes e trazer normalmente, já formatado.


In [35]:
produtos = tabela_vendas[['ID Loja', 'Produto']]
display(produtos)

Unnamed: 0,ID Loja,Produto
0,Iguatemi Esplanada,Sapato Estampa
1,Iguatemi Esplanada,Camiseta
2,Iguatemi Esplanada,Sapato Xadrez
3,Norte Shopping,Relógio
4,Norte Shopping,Chinelo Liso
...,...,...
93905,Shopping Vila Velha,Mochila Xadrez
93906,Ribeirão Shopping,Pulseira Listrado
93907,Ribeirão Shopping,Cueca Listrado
93908,Shopping Morumbi,Pulseira Linho


Método .Loc

É um método de indexação em pandas usado para acessar linhas e colunas de um DataFrame com base nos rótulos (nomes dos índices e colunas), e não nas posições numéricas.

Ele é útil para:

    - Selecionar linhas ou colunas específicas por nome

    - Filtrar dados com condições

    - Modificar valores

Estrutura da sintaxe:

- df.loc[linha(s), coluna(s)]



In [36]:
# pegando uma linha
display(tabela_vendas.loc[1:5])

# Selecionar linhas de uma determinada condição
display(tabela_vendas.loc[tabela_vendas['ID Loja'] == 'Iguatemi Esplanada'])

# Pegar várias linhas e colunas usando loc
                                                        #linhas filtradas                               Colunas
vendas_Iguatemi_Esplanada = tabela_vendas.loc[tabela_vendas['ID Loja'] == 'Iguatemi Esplanada', ['ID Loja','Produto', 'Quantidade',]]
display(vendas_Iguatemi_Esplanada)

# Pegar um valor específico
print(tabela_vendas.loc[1, 'Produto'])

# Procurando apenas camiseta
display(tabela_vendas.loc[tabela_vendas['Produto'] == 'Camiseta'])

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
5,3,2019-01-02,Rio Mar Shopping Fortaleza,Cinto Linho,1,248,248


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
26,21,2019-01-02,Iguatemi Esplanada,Camisa Gola V Listrado,2,116,232
44,34,2019-01-02,Iguatemi Esplanada,Sapato Listrado,1,363,363
...,...,...,...,...,...,...,...
93745,64908,2019-11-30,Iguatemi Esplanada,Meia,4,30,120
93776,64928,2019-11-30,Iguatemi Esplanada,Tênis Xadrez,3,259,777
93880,64993,2019-11-30,Iguatemi Esplanada,Bermuda Liso,2,157,314
93881,64993,2019-11-30,Iguatemi Esplanada,Chinelo Xadrez,1,66,66


Unnamed: 0,ID Loja,Produto,Quantidade
0,Iguatemi Esplanada,Sapato Estampa,1
1,Iguatemi Esplanada,Camiseta,2
2,Iguatemi Esplanada,Sapato Xadrez,1
26,Iguatemi Esplanada,Camisa Gola V Listrado,2
44,Iguatemi Esplanada,Sapato Listrado,1
...,...,...,...
93745,Iguatemi Esplanada,Meia,4
93776,Iguatemi Esplanada,Tênis Xadrez,3
93880,Iguatemi Esplanada,Bermuda Liso,2
93881,Iguatemi Esplanada,Chinelo Xadrez,1


Camiseta


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
15,11,2019-01-02,Shopping Recife,Camiseta,1,180,180
119,93,2019-01-02,Novo Shopping Ribeirão Preto,Camiseta,1,180,180
206,148,2019-01-02,Shopping Center Interlagos,Camiseta,2,180,360
276,199,2019-01-02,Passei das Águas Shopping,Camiseta,2,180,360
...,...,...,...,...,...,...,...
92991,64379,2019-11-27,Shopping Recife,Camiseta,1,180,180
93050,64427,2019-11-27,Passei das Águas Shopping,Camiseta,2,180,360
93071,64443,2019-11-28,Shopping Barra,Camiseta,1,180,180
93577,64787,2019-11-29,Passei das Águas Shopping,Camiseta,5,180,900


- Adicionar uma coluna

Existem duas maneiras, a primeira que é utilizando uma coluna já existente para compor a nova, ou atribuindo um valor padrão a todas as informações dessa coluna.

OBS: Lembrando que quando utilizamos os : (dois pontos) dentro do loc isso significa que estamos querendo selecionar todas as linhas ou colunas (depende de onde colocou).

In [37]:
# Criando uma coluna a partir de um existente
tabela_vendas['Comissão'] = tabela_vendas['Valor Final'] * 0.05

# Criando uma coluna do zero
tabela_vendas.loc[:, 'Impostos'] = 0
display(tabela_vendas)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Impostos
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,0
...,...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30,0
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90,0
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05,0
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50,0


- Adicionando uma linha

Neste caso estamos importando novamente para o Python a base de vendas que contém todas as vendas de dezembro.

Em seguida vamos fazer a junção desses dados para que nossa base de dados fique completa com os dados que temos, mais os dados de dezembro.

Para isso vamos utilizar o método pd.concat() para indicar que queremos inserir ao vendas_df as informações da base vendas_dezembro.

Quando você combina dois ou mais DataFrames, cada um pode ter seus próprios índices. O ignore_index=True faz com que o pandas ignore os índices originais e reescreva os índices sequencialmente (0, 1, 2, ...) no novo DataFrame resultante.

In [38]:
# Adicionando linhas a partir de outra tabela

# Importando a nova tabela
vendas_dezembro = pd.read_excel("Vendas - Dez.xlsx")

# Adicionando as linhas
tabela_completa = pd.concat([tabela_vendas, vendas_dezembro], ignore_index=True)

display(tabela_completa)


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Impostos
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,0.0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,0.0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,0.0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,0.0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,0.0
...,...,...,...,...,...,...,...,...,...
100994,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,,
100995,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,,
100996,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,,
100997,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,,


- Excluir linhas e colunas

Nesse caso é importante verificar os argumentos do método .drop(), pois no primeiro argumento vamos precisar do número da linha ou nome da coluna.

E no segundo argumento temos que ter o eixo que essa ação vai acontecer, então se o eixo for igual a 0 estaremos no eixo das linhas, caso o eixo seja igual a 1 estaremos no eixo das colunas.

In [39]:
# Excluindo uma coluna
tabela_completa = tabela_completa.drop('Impostos', axis=1)

# atualizando a coluna de comissão
tabela_completa['Comissão'] = 0
tabela_completa['Comissão'] = tabela_completa['Valor Final'] * 0.05
display(tabela_completa)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
100994,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,10.20
100995,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,54.00
100996,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,4.35
100997,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,5.40


### Valores vazios

O método **.dropna()** no pandas é usado para remover valores ausentes (NaN) de um DataFrame ou Series.

Ex.:

1. Remover linhas com qualquer valor ausente: **df.dropna()**
2. Remover colunas com valores ausentes: df.dropna(axis=1) - Remove as colunas que têm pelo menos um NaN
3. Manter linhas apenas se todas as colunas forem NaN: **df.dropna(how='all')** - Só remove a linha se todos os valores estiverem ausentes.

O método **.fillna()** no pandas é usado para preencher valores ausentes (NaN) em um DataFrame ou Series com algum valor específico.

O método **.mean()** no pandas é usado para calcular a média (média aritmética) dos valores numéricos de uma coluna ou de todo um DataFrame.

O **ffill** (abreviação de forward fill) é um método no pandas usado para preencher valores ausentes (NaN) com o último valor conhecido que aparece acima na mesma coluna.


In [40]:
# deletando colunas totalmente vazias
# tabela_completa = tabela_completa.dropna(how=all, axis=1)

# Deletar linhas que possuem pelo menos um valor vazio
# tabela_completa = tabela_completa.dropna()

# Preencher Valores vazios
# Preencher com a media da coluna
tabela_completa['Comissão'] = tabela_completa['Comissão'].fillna(tabela_completa['Comissão'].mean())
display(tabela_completa)

# Preencher com o último valor
tabela_completa = tabela_completa.ffill()

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
100994,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,10.20
100995,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,54.00
100996,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,4.35
100997,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,5.40


### Calcular Indicadores

No primeiro exemplo temos o método **.value_counts()** que serve para contar os valores que temos dentro de uma coluna.

Neste caso estamos contando a **quantidade de transações** que foi feita por loja, então teremos um resumo de quantas transações cada loja fez de forma fácil e rápida.

No segundo exemplo vamos utilizar o método **.groupby()** que é para agrupar por. Em seguida vamos colocar dentro desse agrupamento nós vamos fazer a soma dessas informações com o **.sum()**.

Neste caso estamos mostrando somente duas colunas, pois algumas vezes não queremos mostrar toda a tabela, então é importante ocultar alguns detalhes quando necessário.

Por fim estamos agrupando por produtos, ou seja, vamos ter todos os produtos e vamos somar o valor final de cada um deles, desta forma vamos saber qual o valor total de cada um dos produtos dessa loja.

**✅ Para que serve numeric_only=True?**

Ele ignora colunas que não são numéricas, como:

datas (datetime64)

textos (object ou string)

categorias (category)

In [44]:
# value counts
transacoes_lojas = tabela_completa['ID Loja'].value_counts()
display(transacoes_lojas)

# Group by
faturamento_produtos = tabela_completa[['Produto', 'Valor Final']].groupby('Produto').sum()
display(faturamento_produtos)

ID Loja
Shopping Vila Velha                 4234
Palladium Shopping Curitiba         4210
Norte Shopping                      4179
Rio Mar Shopping Fortaleza          4118
Bourbon Shopping SP                 4116
Iguatemi Campinas                   4108
Rio Mar Recife                      4099
Shopping Center Leste Aricanduva    4093
Shopping SP Market                  4080
Shopping Ibirapuera                 4051
Novo Shopping Ribeirão Preto        4049
Ribeirão Shopping                   4048
Salvador Shopping                   4030
Shopping Iguatemi Fortaleza         4021
Shopping Center Interlagos          4021
Center Shopping Uberlândia          4013
Shopping Eldorado                   4002
Passei das Águas Shopping           4000
Shopping União de Osasco            3995
Iguatemi Esplanada                  3980
Shopping Barra                      3962
Shopping Morumbi                    3960
Parque Dom Pedro Shopping           3902
Shopping Recife                     3891
Shopping

Unnamed: 0_level_0,Valor Final
Produto,Unnamed: 1_level_1
Bermuda,272250
Bermuda Estampa,291694
Bermuda Linho,394680
Bermuda Liso,275692
Bermuda Listrado,293237
...,...
Tênis Estampa,457728
Tênis Linho,538608
Tênis Liso,474544
Tênis Listrado,481032


### Mesclar 2 Dataframes (Procurar inforemações de um dataframe em outro)

Agora vamos para o último método que vamos explicar nessa aula, que é o método para mesclar 2 dataframes, ou seja, nós vamos conseguir procurar informações de uma dataframe no outro.

Isso quer dizer que vamos conseguir fazer uma busca entre duas tabelas diferentes.

IMPORTANTE: É necessário que essas duas tabelas tenham uma coluna com informações em comum para que a busca possa ser feita.

O merge no pandas é um método usado para juntar dois DataFrames com base em colunas em comum, assim como um JOIN no SQL.

In [46]:
# Importando a base
gerentes_lojas = pd.read_excel("Gerentes.xlsx")

# Mesclando as tabelas, os valores vão se relacionar pelo ID Loja
tabela_completa = tabela_completa.merge(gerentes_lojas)
display(tabela_completa)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Gerente
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,Salvador
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,Salvador
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,Salvador
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,Joana
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,Joana
...,...,...,...,...,...,...,...,...,...
100994,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,10.20,Andressa
100995,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,54.00,Andressa
100996,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,4.35,Andressa
100997,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,5.40,Fábio
