In [None]:
import pandas as pd

## Criação do DataFrame de Vendas

In [None]:
datas = pd.to_datetime(['2025-05-13', '2025-05-14', '2025-05-15'])

df = pd.DataFrame({
    'id_venda': list(range(1, 21)),
    'id_produto': [101, 102, 103, 104, 105] * 4,
    'quantidade': [2, 1, 5, 3, 4, 1, 2, 1, 3, 2, 4, 1, 2, 3, 5, 2, 3, 4, 1, 2],
    'preco_unitario': [2.50, 2.00, 3.50, 12.00, 8.00] * 4,
    'data_venda':     [datas[i % len(datas)] for i in range(20)]
})

display(df)

## Explorando o DataFrame

Métodos também existentes em objetos do tipo Series

In [None]:
df.head(10)

In [None]:
df.tail()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df['id_venda']

In [None]:
df[df['quantidade'] > 2]

In [None]:
df['preco_unitario']/5.65

## Podemos explorar o DataFrame e realizar operações nos dados

Ordenar baseado em valor

In [None]:
df.sort_values(by = 'preco_unitario', ascending=False)

Criar uma nova Serie/Coluna a partir de operações entre Series/Colunas existentes

In [None]:
df['quantidade_total'] = df['quantidade'] * df['preco_unitario']

Uma boa prática ao trabalhar com tabelas em qualquer ambiente, é padronizar os nomes das colunas. Iremos utilizar camelCase e utilizar prefixo vl para campos de valor.

In [None]:
map_rename = {'id_venda':'idVenda',
              'id_produto':'idProduto',
              'quantidade':'qtUnidades',
              'preco_unitario':'vlPrecoUnitario',
              'data_venda':'dtVenda',
              'quantidade_total':'vlVenda'}

Usar inplace redefine o objeto dataframe, sem que seja necessário reatribuí-lo

In [None]:
df.rename(map_rename, axis = 1, inplace=True)

Podemos reordenar as colunas

In [None]:
df = df[['idVenda','idProduto','vlPrecoUnitario','vlVenda','qtUnidades','dtVenda']]

In [None]:
df

In [None]:
df.groupby('idProduto')['qtUnidades'].sum()

Podemos retornar amostras aleatorias de dados usando a biblioteca random

In [None]:
import random

In [None]:
n1 = random.randint(0,15)

n2 = n1+4

print(f'N1:{n1}, N2:{n2}')

display(df.loc[n1:n2])

In [None]:
df.loc[4,'idVenda'].item()

In [None]:
df.iloc[4,0]

## Trazendo um segundo Dataframe para enriquecer as informações de Vendas, vamos descobrir o nome dos produtos

In [None]:
df_produtos = pd.DataFrame({
    'idProduto': [101, 102, 103, 104, 105,106],
    'nomeProduto': ['Caneta', 'Borracha', 'Apontador', 'Caderno', 'Marcador','Cartolina'],
    'categoria':   ['Escrita', 'Escrita',  'Escrita',  'Papelaria', 'Papelaria','Cartolina']
})
df_produtos

In [None]:
df_merge = pd.merge(df, df_produtos, on='idProduto', how='left')
df_merge.head()

In [None]:
df_merge.groupby('categoria')['vlVenda'].sum()

Estatísticas básicas

sum() – soma dos valores

mean() – média aritmética

median() – mediana

min(), max() – valor mínimo e máximo

count() – número de elementos não-nulos

nunique() – número de valores únicos