 # O Pandas trabalha com DataFrames, que são nada mais nada menos que tabelas dentro do python.

In [1]:
import pandas as pd
from IPython.display import display # impote adicional apenas para usar a função display

### Para você criar um DataFrame, pasta rodar o comando a seguir:

In [2]:
df = pd.DataFrame()

### Criando um df a partir de um dicionário:

In [3]:
venda = {'data': ['15/02/2021', '16/02/2021'],
'valor': [500, 300],
'produto': ['feijao', 'arroz'],
'qtde': [50, 70],
}

vendas_df = pd.DataFrame(venda)

print(vendas_df)
# display(vendas_df)

         data  valor produto  qtde
0  15/02/2021    500  feijao    50
1  16/02/2021    300   arroz    70


### Criando um df a partir de uma importação dos dados

In [4]:
# usando a funcao read_excel, do pandas, para ler os dados a partir de um arquivo excel e criar um df
vendas_df = pd.read_excel("Vendas.xlsx")

### Alguns métodos de visualização dos dados:

In [5]:
display(vendas_df.head()) # pode ser print tbm
print(f"Quantidade de linhas e colunas do dataframe: {vendas_df.shape}")
display(vendas_df.describe())

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368
3,2,2019-01-02,Norte Shopping,Relógio,3,200,600
4,2,2019-01-02,Norte Shopping,Chinelo Liso,1,71,71


Quantidade de linhas e colunas do dataframe: (93910, 7)


Unnamed: 0,Código Venda,Data,Quantidade,Valor Unitário,Valor Final
count,93910.0,93910,93910.0,93910.0,93910.0
mean,32464.762155,2019-06-16 23:52:28.265360896,2.166553,191.725886,414.862656
min,1.0,2019-01-01 00:00:00,1.0,30.0,30.0
25%,16204.0,2019-03-26 00:00:00,1.0,100.0,156.0
50%,32367.0,2019-06-17 00:00:00,2.0,155.0,274.0
75%,48793.75,2019-09-08 00:00:00,3.0,248.0,524.0
max,65014.0,2019-11-30 00:00:00,5.0,750.0,3750.0
std,18809.007093,,1.258732,145.215519,434.846228


### Pegando apenas 1 coluna (e pd.Series):

In [6]:
# nesse caso, a var produtos não é um dataframe do pandas, mas sim uma Series do pandas
# ou seja, em um dataframe do pandas, cada coluna e cada linha é uma Series do pandas

produtos = vendas_df['Produto']
print(produtos)

# agora, se voce quiser pegar mais de uma coluna (isso ja é um df):
teste = vendas_df[['Produto', 'Data']]
display(teste)

0           Sapato Estampa
1                 Camiseta
2            Sapato Xadrez
3                  Relógio
4             Chinelo Liso
               ...        
93905       Mochila Xadrez
93906    Pulseira Listrado
93907       Cueca Listrado
93908       Pulseira Linho
93909        Casaco Xadrez
Name: Produto, Length: 93910, dtype: object


Unnamed: 0,Produto,Data
0,Sapato Estampa,2019-01-01
1,Camiseta,2019-01-01
2,Sapato Xadrez,2019-01-01
3,Relógio,2019-01-02
4,Chinelo Liso,2019-01-02
...,...,...
93905,Mochila Xadrez,2019-11-30
93906,Pulseira Listrado,2019-11-30
93907,Cueca Listrado,2019-11-30
93908,Pulseira Linho,2019-11-30


### .loc, um método muito importante

In [7]:
# o .loc permite que voce pegue linhas e colunas específicas

# pegando apenas uma linha
primeira_linha = vendas_df.loc[1]
# print(primeira_linha)

# pegando linhas em um dado intervalo
df_auxiliar = vendas_df.loc[1:5]
# print(df_auxiliar)

# pegando apenas as linhas que atendem a uma determinada condição
ID_loja = vendas_df['ID Loja']
vendasNorteShopping = vendas_df.loc[ID_loja == 'Norte Shopping']
# display(vendasNorteShopping)

# pegando linhas e colunas especificas
# o loc permite que voce escolha quais linhas vc quer e quais colunas --> .loc[linhas, colunas]

# display(vendas_df.loc[ID_loja == 'Norte Shopping', ["Produto", "Quantidade"]])

# pegar 1 valor especifico
valor_esp = vendas_df.loc[1, "Produto"]
print(valor_esp)

Camiseta


### Adicionar 1 Coluna
No Pandas existem duas formas de adicionarmos uma coluna nova: ou fazemos isso a partir de uma coluna que já existe, ou criamos uma nova coluna.

In [None]:
# a partir de uma coluna que existe
# se essa coluna ja existe, ele substitui o valor. se ela não existir, o Pandas cria ela
vendas_df['Comissão'] = vendas_df['Valor Final'] * 0.05  # essa nova coluna é 5% o valor da coluna "Valor Final"
#print(vendas_df)

# criando uma coluna com um valor padrão
# preenchendo, para todas as linhas, a coluna Imposto (que esta sendo criada agr) com o valor 0
vendas_df.loc[:, "Imposto"] = 0
display(vendas_df)

#### Adicionando 1 Linha

In [None]:
vendas_df_dezembro = pd.read_excel("Vendas - Dez.xlsx")
#print(vendas_df_dezembro)

# add esse df ao final do nosso vendas_df
vendas_df = pd.concat([vendas_df, vendas_df_dezembro], ignore_index=True)
display(vendas_df)

### Excluir Linhas e Colunas

In [None]:
vendas_df = vendas_df.drop("Data", axis=1) # axis é o eixo. 0=linha e 1=coluna
display(vendas_df)

# removendo a linha 7
vendas_df = vendas_df.drop(7, axis=0)
display(vendas_df)

### Tratar Valores Vazios

In [None]:
# deletar linhas e colunas completamente vazias
#vendas_df = vendas_df.dropna(how='all', axis=1) # no caso aqui ele vai deletar a linha que contem todos os valores vazios

# deletar linhas que possuem pelo menos 1 valor vazio
#vendas_df = vendas_df.dropna()

# preencher valores vazios

# preencher com a media da coluna
vendas_df['Comissão'] = vendas_df['Comissão'].fillna(vendas_df['Comissão'].mean())
display(vendas_df)

# preencher com o ultimo valor
vendas_df = vendas_df.ffill() # ele vai em cada coluna que esta vazia e vai preencher esse espaço com o valor que esta acima

### Calcular Indicadores
- Groupby
- Value Counts

In [None]:
# primeiro, como eu descubro quantas transações teve por loja? ou seja, quantas linhas eu tenho em cada loja (??)
transacoes_loja = vendas_df['ID Loja'].value_counts()
# display(transacoes_loja)

# agrupando as informações
# exemplo: como eu descubro o faturamento de todos os produtos? ou seja, nesse caso eu quero juntar todas as colunas onde
# o produto é "Camisa", por exemplo, e eu quero que ele some a coluna "Valor Final" desses caras
# de forma resumida: eu quero ele agrupe a coluna "Produto" e com isso some o valor da coluna "Valor Final"

faturamento_produto = vendas_df.groupby('Produto')['Valor Final'].sum()
# display(faturamento_produto)

# agrupando uma coluna e realizando uma operação de agregação em mais de uma outra coluna
aux = vendas_df.groupby('Produto', as_index=False)[['Valor Final', 'Valor Unitário']].sum()

# agrupando uma coluna e realizando uma operação de agregação DIFERENTE em mais de uma outra coluna
aux1 = vendas_df.groupby('Produto', as_index=False).agg({'Valor Final': 'sum', 'Quantidade': 'mean'})

### Mesclar 2 Dataframes (Procurar informações de 1 dataframe em outro)

In [8]:
gerentes_df = pd.read_excel("Gerentes.xlsx")

# eu quero que a minha tabela vendas_df final tenha a coluna com o Gerente
vendas_df = vendas_df.merge(gerentes_df) # funciona assim de forma simples pois as duas tabelas possuem uma coluna em comum. a coluna 'ID Loja'
display(vendas_df)

Unnamed: 0,Código Venda,Data,ID Loja,Produto,Quantidade,Valor Unitário,Valor Final,Gerente
0,1,2019-01-01,Iguatemi Esplanada,Sapato Estampa,1,358,358,Salvador
1,1,2019-01-01,Iguatemi Esplanada,Camiseta,2,180,360,Salvador
2,1,2019-01-01,Iguatemi Esplanada,Sapato Xadrez,1,368,368,Salvador
3,21,2019-01-02,Iguatemi Esplanada,Camisa Gola V Listrado,2,116,232,Salvador
4,34,2019-01-02,Iguatemi Esplanada,Sapato Listrado,1,363,363,Salvador
...,...,...,...,...,...,...,...,...
93905,64922,2019-11-30,Salvador Shopping,Casaco Listrado,1,269,269,Mateus
93906,64922,2019-11-30,Salvador Shopping,Camiseta Xadrez,4,200,800,Mateus
93907,64982,2019-11-30,Salvador Shopping,Cueca Linho,5,93,465,Mateus
93908,64982,2019-11-30,Salvador Shopping,Terno Liso,1,720,720,Mateus
