# pandas - "A melhor biblioteca do Python para Dados"

- Quase sempre que você for trabalhar com dados no Python você vai usar o pandas, então é importante você saber trabalhar com essa biblioteca muito bem

- Vamos aprender os principais comandos e os princípios básicos do pandas

### Importando o pandas

In [15]:
import pandas as pd         # 'as pd' é utilizado para simplificar a escrita do código

### Criando um dataframe a partir de um dicionário

In [14]:
# dataframe = pd.DataFrame()    / 'Dataframe' é uma tabela no Python
vendas = {'data': ['15/02/2021', '16/02/2021'],
         'valor': [500, 300],
         'produto': ['feijao', 'arroz'],
         'qtde': [50, 70],
        }
vendas_df = pd.DataFrame(vendas) # Cria um dataframe no pandas com as info do dicionário 'vendas'

### Visualização dos Dados
    - print
    - display

In [13]:
display(vendas_df) # Printa as informações de forma mais estilizada

Unnamed: 0,data,valor,produto,qtde
0,15/02/2021,500,feijao,50
1,16/02/2021,300,arroz,70


### Importando arquivos e bases de dados

In [16]:
vendas_df = pd.read_excel("Vendas.xlsx")
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570


### Resumos de Visualização de Dados simples e úteis
    - head
    - shape
    - describe

In [20]:
# '.head()' utilizado para visualizar quantas linhas desejar
display(vendas_df.head(10))

# '.shape' mostra quantas linhas e quantas colunas tem na tabela
print(vendas_df.shape)

# Descreve as estatísticas de cada coluna
display(vendas_df.describe()) 

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71
5,3,2019-01-02,Rio Mar Shopping Fortaleza,Cinto Linho,1,248,248
6,5,2019-01-02,Shopping Barra,Calça,1,170,170
7,6,2019-01-02,Shopping Ibirapuera,Polo Listrado,4,149,596
8,7,2019-01-02,Norte Shopping,Camisa Gola V Listrado,1,116,116
9,7,2019-01-02,Norte Shopping,Camisa Liso,1,105,105


(93910, 7)


Unnamed: 0,Código Venda,Data,Quantidade,Valor Unitário,Valor Final
count,93910.0,93910,93910.0,93910.0,93910.0
mean,32464.762155,2019-06-16 23:52:28.265360896,2.166553,191.725886,414.862656
min,1.0,2019-01-01 00:00:00,1.0,30.0,30.0
25%,16204.0,2019-03-26 00:00:00,1.0,100.0,156.0
50%,32367.0,2019-06-17 00:00:00,2.0,155.0,274.0
75%,48793.75,2019-09-08 00:00:00,3.0,248.0,524.0
max,65014.0,2019-11-30 00:00:00,5.0,750.0,3750.0
std,18809.007093,,1.258732,145.215519,434.846228


### Pegar 1 coluna (e os pd.Series)

In [22]:
produtos = vendas_df[['Produto','ID Loja']] # para visualizar uma coluna específica da tabela
display(produtos)

Unnamed: 0,Produto,ID Loja
0,Sapato Estampa,Iguatemi Esplanada
1,Camiseta,Iguatemi Esplanada
2,Sapato Xadrez,Iguatemi Esplanada
3,Relógio,Norte Shopping
4,Chinelo Liso,Norte Shopping
...,...,...
93905,Mochila Xadrez,Shopping Vila Velha
93906,Pulseira Listrado,Ribeirão Shopping
93907,Cueca Listrado,Ribeirão Shopping
93908,Pulseira Linho,Shopping Morumbi


### .loc, um método muito importante
    - Pegar 1 linha
    - Pegar linhas de acordo com alguma condição
    - Pegar linhas e colunas específicas
    - Pegar 1 valor específico

In [42]:
# Visualizar uma ou mais linhas específica
display(vendas_df.loc[1:5])

# Visualizar linhas que correspondem a uma condição e armazená-las em uma variável
vendas_norteshopping_df = vendas_df.loc[vendas_df['ID Loja'] == 'Norte Shopping']

# Visualizar várias linhas e colunas específicas usando '.loc'
vendas_norteshopping_df = vendas_df.loc[vendas_df['ID Loja'] == 'Norte Shopping', ["ID Loja", "Produto", "Quantidade"]]
display(vendas_norteshopping_df)

# Visualizar 1 valor específico
display(vendas_df.loc[1, 'Produto']) # .loc[linhas, colunas]

Unnamed: 0,ID Loja,Produto,Quantidade
3,Norte Shopping,Relógio,3
4,Norte Shopping,Chinelo Liso,1
8,Norte Shopping,Camisa Gola V Listrado,1
9,Norte Shopping,Camisa Liso,1
100,Norte Shopping,Cueca Xadrez,5
...,...,...,...
93716,Norte Shopping,Polo Xadrez,1
93754,Norte Shopping,Calça Liso,1
93755,Norte Shopping,Casaco Estampa,2
93756,Norte Shopping,Gorro,2


### Adicionar 1 coluna

In [47]:
# A partir de uma coluna que existe
vendas_df['Comissão'] = vendas_df['Valor Final'] * 0.05 # Comissão = 5% do Valor Final
display(vendas_df)


# Criar uma coluna com valor padrão
vendas_df.loc[:, "Imposto"] = 0 # ':' para atribuir a todas as linhas (ou todas as colunas)
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Imposto
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,0
...,...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30,0
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90,0
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05,0
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50,0


### Adicionar 1 linha
    - Linhas de um complemento da base de dados

In [53]:
vendas_dez_df = pd.read_excel("Vendas - Dez.xlsx")

# Adicionar as linhas da tabela de vendas de dezembro na tabela vendas
vendas_df = vendas_df.append(vendas_dez_df)
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Imposto
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,0.0
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,0.0
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,0.0
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,0.0
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,0.0
...,...,...,...,...,...,...,...,...,...
108083,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,,
108084,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,,
108085,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,,
108086,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,,


### Excluir linhas e colunas

In [54]:
vendas_df = vendas_df.drop("Imposto", axis=1) # axis=0 -> linhas , axis=1 -> colunas
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
108083,69996,2019-12-26,Center Shopping Uberlândia,Short Listrado,2,102,204,
108084,69996,2019-12-26,Center Shopping Uberlândia,Mochila,4,270,1080,
108085,69996,2019-12-26,Center Shopping Uberlândia,Pulseira Estampa,1,87,87,
108086,69997,2019-12-26,Ribeirão Shopping,Camisa Listrado,1,108,108,


### Valores Vazios
    - Deletar linhas/colunas vazias
    - Deletar linhas que possuem valores vazios
    - Preencher valores vazios (média e último valor)

In [57]:
# Deletar linhas e colunas completamente vazias
vendas_df = vendas_df.dropna(how='all', axis=0)

# Deletar linhas que possuem pelo menos 1 valor vazio
vendas_df = vendas_df.dropna()

# Preencher valores vazios :

# preecher com a média da coluna
vendas_df['Comissão'] = vendas_df['Comissão'].fillna(vendas_df['Comissão'].mean()) # '.mean()' calcula a média da coluna Comissão
display(vendas_df)

# preencher com o último valor
vendas_df = vendas_df.ffill() # '.ffill()' preenche com o primeiro valor acima dele

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55
...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50


### Calcular Indicadores
    - Groupby
    - Value Counts

In [63]:
# Value counts
transacoes_loja = vendas_df['ID Loja'].value_counts()
display(transacoes_loja)

# Group by
faturamento_produto = vendas_df[['Produto', 'Valor Final']].groupby('Produto').sum()
display(faturamento_produto)

ID Loja
Shopping Vila Velha                 3935
Norte Shopping                      3924
Palladium Shopping Curitiba         3909
Shopping Center Leste Aricanduva    3863
Bourbon Shopping SP                 3830
Rio Mar Shopping Fortaleza          3824
Novo Shopping Ribeirão Preto        3810
Shopping SP Market                  3808
Iguatemi Campinas                   3793
Shopping Ibirapuera                 3778
Ribeirão Shopping                   3771
Shopping Center Interlagos          3767
Rio Mar Recife                      3733
Shopping Iguatemi Fortaleza         3731
Salvador Shopping                   3728
Iguatemi Esplanada                  3722
Center Shopping Uberlândia          3713
Passei das Águas Shopping           3711
Shopping União de Osasco            3711
Shopping Barra                      3702
Shopping Eldorado                   3698
Shopping Morumbi                    3654
Parque Dom Pedro Shopping           3612
Shopping Recife                     3605
Shopping

Unnamed: 0_level_0,Valor Final
Produto,Unnamed: 1_level_1
Bermuda,253800
Bermuda Estampa,273104
Bermuda Linho,369135
Bermuda Liso,257009
Bermuda Listrado,273025
...,...
Tênis Estampa,425728
Tênis Linho,503622
Tênis Liso,440496
Tênis Listrado,455094


### Mesclar 2 dataframes (Procurar informações de um dataframe em outro)

In [66]:
gerentes_df = pd.read_excel("Gerentes.xlsx")
display(gerentes_df)

# Passar as informações da tabela Gerentes para a tabela Vendas
vendas_df = vendas_df.merge(gerentes_df) # '.merge()' mescla as tabelas
display(vendas_df)

Unnamed: 0,ID Loja,Gerente
0,Iguatemi Esplanada,Salvador
1,Norte Shopping,Joana
2,Rio Mar Shopping Fortaleza,Maria
3,Shopping Barra,Letícia
4,Shopping Ibirapuera,Helena
5,Iguatemi Campinas,Luiza
6,Shopping Center Leste Aricanduva,Julia
7,Passei das Águas Shopping,Nicole
8,Shopping Recife,André
9,Shopping Midway Mall,João


Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Comissão,Gerente
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,17.90,Salvador
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,18.00,Salvador
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,18.40,Salvador
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600,30.00,Joana
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71,3.55,Joana
...,...,...,...,...,...,...,...,...,...
93905,65012,2019-11-30,Shopping Vila Velha,Mochila Xadrez,2,283,566,28.30,Pablo
93906,65013,2019-11-30,Ribeirão Shopping,Pulseira Listrado,2,79,158,7.90,Fábio
93907,65013,2019-11-30,Ribeirão Shopping,Cueca Listrado,3,67,201,10.05,Fábio
93908,65014,2019-11-30,Shopping Morumbi,Pulseira Linho,5,114,570,28.50,Gisele
