# Cartilha Pandas


Usado para consultas

### Importando o pandas

In [1]:
import pandas as pd 

### Criando um dataframe a partir de um dicionário

In [2]:
# dataframe = pd.DataFrame()
venda = {'data': ['15/02/2021', '16/02/2021'],
         'valor': [500, 300],
         'produto': ['feijao', 'arroz'],
         'qtde': [50, 70],
        }
vendas_df = pd.DataFrame(venda)

### Visualização dos Dados
    - print
    - display

In [3]:
display(vendas_df)

Unnamed: 0,data,valor,produto,qtde
0,15/02/2021,500,feijao,50
1,16/02/2021,300,arroz,70


### Importando arquivos e bases de dados

In [4]:
vendas_df = pd.read_excel('Vendas.xlsx')
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570


### Resumos de Visualização de Dados simples e úteis
    - head
    - shape
    - describe

In [5]:
# Mostrar apenas as 10 primeiras linhas do dataframe
display(vendas_df.head(10))

# Mostrar a quantidade de linhas e colunas da tabela sem precisar gastar muito processamento
print(vendas_df.shape)

# Mostrar dados relevantes sobre o dataframe (quantidade, média, desv. pad., quartis, valor mín e valor max)
display(vendas_df.drop(['Código Venda'], axis=1).describe())

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
5,3,2019-01-02,Rio Mar Shopping Fortaleza,Cinto Linho,1,248,248
6,5,2019-01-02,Shopping Barra,Calça,1,170,170
7,6,2019-01-02,Shopping Ibirapuera,Polo Listrado,4,149,596
8,7,2019-01-02,Norte Shopping,Camisa Gola V Listrado,1,116,116
9,7,2019-01-02,Norte Shopping,Camisa Liso,1,105,105


(93910, 7)


Unnamed: 0,Quantidade,Valor Unitário,Valor Final
count,93910.0,93910.0,93910.0
mean,2.166553,191.725886,414.862656
std,1.258732,145.215519,434.846228
min,1.0,30.0,30.0
25%,1.0,100.0,156.0
50%,2.0,155.0,274.0
75%,3.0,248.0,524.0
max,5.0,750.0,3750.0


### Pegar 1 coluna (e os pd.Series)

In [6]:
# pd.Series é uma coluna do Pandas (Não é um dataframe)
produto = vendas_df['Produto']
display(produto)

# Pegar 2 colunas --> Agora passa a ser um dataframe
itens = vendas_df[['Produto', 'Quantidade']]
display(itens)

0           Sapato Estampa
1                 Camiseta
2            Sapato Xadrez
3                  Relógio
4             Chinelo Liso
               ...        
93905       Mochila Xadrez
93906    Pulseira Listrado
93907       Cueca Listrado
93908       Pulseira Linho
93909        Casaco Xadrez
Name: Produto, Length: 93910, dtype: object

Unnamed: 0,Produto,Quantidade
0,Sapato Estampa,1
1,Camiseta,2
2,Sapato Xadrez,1
3,Relógio,3
4,Chinelo Liso,1
...,...,...
93905,Mochila Xadrez,2
93906,Pulseira Listrado,2
93907,Cueca Listrado,3
93908,Pulseira Linho,5


### .loc, um método muito importante
    - Pegar 1 linha
    - Pegar linhas de acordo com alguma condição
    - Pegar linhas e colunas específicas
    - Pegar 1 valor específico

In [7]:
''' .loc
Ex: vendas_df.loc[linha, coluna]
'''

# Pegar linha 0 até a 3
display(vendas_df.loc[0:3])
# Se utilizar vendas_df.loc[:3,0], o programa irá pegar as 3 primeiras linhas e a primeira coluna do dataframe
# Se quiser visualizar as últimas linhas do dataframe --> vendas_df.iloc[-5:]

# Pegar linhas aplicando condição
vendas_norteshopping = vendas_df.loc[vendas_df['ID Loja']=='Norte Shopping']
display(vendas_norteshopping)

# Pegar linhas e colunas específicas
vendas_norteshopping = vendas_df.loc[vendas_df['ID Loja']=='Norte Shopping', ["ID Loja", "Quantidade"]]
display(vendas_norteshopping)

# Pegar um valor específico
print(vendas_df.loc[1, "Produto"])

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
8,7,2019-01-02,Norte Shopping,Camisa Gola V Listrado,1,116,116
9,7,2019-01-02,Norte Shopping,Camisa Liso,1,105,105
100,73,2019-01-02,Norte Shopping,Cueca Xadrez,5,60,300
...,...,...,...,...,...,...,...
93716,64888,2019-11-30,Norte Shopping,Polo Xadrez,1,142,142
93754,64914,2019-11-30,Norte Shopping,Calça Liso,1,190,190
93755,64914,2019-11-30,Norte Shopping,Casaco Estampa,2,256,512
93756,64914,2019-11-30,Norte Shopping,Gorro,2,80,160


Unnamed: 0,ID Loja,Quantidade
3,Norte Shopping,3
4,Norte Shopping,1
8,Norte Shopping,1
9,Norte Shopping,1
100,Norte Shopping,5
...,...,...
93716,Norte Shopping,1
93754,Norte Shopping,1
93755,Norte Shopping,2
93756,Norte Shopping,2


Camiseta


### Adicionar 1 coluna

In [8]:
# A partir de uma coluna que existe
vendas_df['Comissão'] = vendas_df['Valor Final'] * 0.05
display(vendas_df)

# Criar coluna com valor padrão
# Jeito com mais esforço
  #vendas_df['Imposto'] = 0
# Jeito com menos esfoço  (Obs: Os ':' servem para indicar que todas as linhas serão afetadas)
vendas_df.loc[:, 'Imposto'] = 0
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Imposto
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,0
...,...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30,0
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90,0
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05,0
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50,0


### Adicionar 1 linha
    - Linhas de um complemento da base de dados

In [9]:
# Adiciona as vendas de dezembro no dataframe principal
vendas_dez_df = pd.read_excel('Vendas - Dez.xlsx')
vendas_df = vendas_df.append(vendas_dez_df)

display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Imposto
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,0.0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,0.0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,0.0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,0.0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,0.0
...,...,...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,,
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,,
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,,
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,,


### Excluir linhas e colunas

In [10]:
'''
axis=0 --> Linha
axis=1 --> Coluna

Se não colocar nada, Pandas considerará como linha
'''

vendas_df = vendas_df.drop('Imposto', axis=1)
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,


### Valores Vazios
    - Deletar linhas/colunas vazias
    - Deletar linhas que possuem valores vazios
    - Preencher valores vazios (média e último valor)

In [11]:
''' Deletar linhas e colunas completamente vazias
# dropna --> Exclui os valores vazios
vendas_df = vendas_df.dropna(how='all', axis=1)
'''

''' Deletar linhas que possuem pelo menos 1 valor vazio
vendas_df = vendas_df.dropna()
'''

# Preencher valores vazios
# Preencher com a média da coluna
vendas_df['Comissão'] = vendas_df['Comissão'].fillna(vendas_df['Comissão'].mean())
display(vendas_df)

# Preencher com o último valor
vendas_df = vendas_df.ffill()

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.900000
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.000000
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.400000
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.000000
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.550000
...,...,...,...,...,...,...,...,...
7084,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,20.743133
7085,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,20.743133
7086,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,20.743133
7087,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,20.743133


### Calcular Indicadores
    - Groupby
    - Value Counts

In [12]:
# Value Counts --> conta os valores
transacoes_loja = vendas_df['ID Loja'].value_counts()
display(transacoes_loja)

# Group By --> Agrupa uma coluna e realiza operações em outras
faturamento_prod = vendas_df[['Produto', 'Valor Final']].groupby('Produto').sum()
display(faturamento_prod)

Shopping Vila Velha                 4234
Palladium Shopping Curitiba         4210
Norte Shopping                      4179
Rio Mar Shopping Fortaleza          4118
Bourbon Shopping SP                 4116
Iguatemi Campinas                   4108
Rio Mar Recife                      4099
Shopping Center Leste Aricanduva    4093
Shopping SP Market                  4080
Shopping Ibirapuera                 4051
Novo Shopping Ribeirão Preto        4049
Ribeirão Shopping                   4048
Salvador Shopping                   4030
Shopping Iguatemi Fortaleza         4021
Shopping Center Interlagos          4021
Center Shopping Uberlândia          4013
Shopping Eldorado                   4002
Passei das Águas Shopping           4000
Shopping União de Osasco            3995
Iguatemi Esplanada                  3980
Shopping Barra                      3962
Shopping Morumbi                    3960
Parque Dom Pedro Shopping           3902
Shopping Recife                     3891
Shopping Midway 

Unnamed: 0_level_0,Valor Final
Produto,Unnamed: 1_level_1
Bermuda,272250
Bermuda Estampa,291694
Bermuda Linho,394680
Bermuda Liso,275692
Bermuda Listrado,293237
...,...
Tênis Estampa,457728
Tênis Linho,538608
Tênis Liso,474544
Tênis Listrado,481032


### Mesclar 2 dataframes (Procurar informações de um dataframe em outro)

In [13]:
gerentes_df = pd.read_excel('Gerentes.xlsx')
display(gerentes_df)

# O merge acontece sem nenhuma problema pois a tabela de gerentes_df e vendas_df possuem o campo 'ID Loja' em comum
vendas_df = vendas_df.merge(gerentes_df)
display(vendas_df)

Unnamed: 0,ID Loja,Gerente
0,Iguatemi Esplanada,Salvador
1,Norte Shopping,Joana
2,Rio Mar Shopping Fortaleza,Maria
3,Shopping Barra,Letícia
4,Shopping Ibirapuera,Helena
5,Iguatemi Campinas,Luiza
6,Shopping Center Leste Aricanduva,Julia
7,Passei das Águas Shopping,Nicole
8,Shopping Recife,André
9,Shopping Midway Mall,João


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Gerente
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.900000,Salvador
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.000000,Salvador
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.400000,Salvador
3,21,2019-01-02,Iguatemi Esplanada,Camisa Gola V Listrado,2,116,232,11.600000,Salvador
4,34,2019-01-02,Iguatemi Esplanada,Sapato Listrado,1,363,363,18.150000,Salvador
...,...,...,...,...,...,...,...,...,...
100994,69846,2019-12-25,Salvador Shopping,Short Estampa,2,96,192,20.743133,Mateus
100995,69846,2019-12-25,Salvador Shopping,Tênis Estampa,5,256,1280,20.743133,Mateus
100996,69850,2019-12-25,Salvador Shopping,Calça Estampa,4,177,708,20.743133,Mateus
100997,69972,2019-12-26,Salvador Shopping,Terno Liso,3,720,2160,20.743133,Mateus


In [16]:
# Comando isin --> isin is permite selecionar dados cujo valor está uma lista de valores.
vendas_df.loc[vendas_df.Produto.isin(['Sapato Estampa', 'Sapato Xadrez'])]

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Gerente
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.900000,Salvador
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.400000,Salvador
17,184,2019-01-02,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.900000,Salvador
79,1238,2019-01-08,Iguatemi Esplanada,Sapato Xadrez,3,368,1104,55.200000,Salvador
116,2369,2019-01-14,Iguatemi Esplanada,Sapato Xadrez,2,368,736,36.800000,Salvador
...,...,...,...,...,...,...,...,...,...
100918,68815,2019-12-20,Salvador Shopping,Sapato Xadrez,5,368,1840,20.743133,Mateus
100920,68815,2019-12-20,Salvador Shopping,Sapato Xadrez,3,368,1104,20.743133,Mateus
100926,68918,2019-12-20,Salvador Shopping,Sapato Xadrez,3,368,1104,20.743133,Mateus
100988,69701,2019-12-24,Salvador Shopping,Sapato Xadrez,1,368,368,20.743133,Mateus
