In [5]:
# ============================
# 🧩 Etapa 1: Extração de Dados
# ============================

# Importar a biblioteca pandas para manipulação de dados
import pandas as pd


In [6]:
# 📖 Ler o arquivo CSV com os dados de vendas
df = pd.read_csv("/content/vendas.csv")

# 👀 Visualizar as primeiras linhas do dataset
df.head()

Unnamed: 0,id_venda,data_venda,cliente,produto,quantidade,preco_unitario,categoria
0,1,2025/06/01,Fernanda Lima,iPhone 13,5,5500.0,Eletrônicos
1,2,2025-05-02,João Souza,Caderno,1,25.0,Papelaria
2,3,04-04-2025,Maria Silva,Notebook Dell,2,3500.0,Eletrônicos
3,4,21-06-2025,Fernanda Lima,Caderno,1,25.0,Papelaria
4,5,15-09-2025,Fernanda Lima,Mouse Gamer,3,200.0,Eletrônicos


In [16]:
# 🔢 Verificar o número de linhas e colunas (dimensão do dataset)

linhas, colunas = df.shape
print(f"Número de linhas: {linhas}")
print(f"Número de colunas: {colunas}")

Número de linhas: 2000
Número de colunas: 7


In [19]:
# 🔍 Verificar o tipo de dado de cada coluna

print("\nTipos de dados de cada coluna: \n ", df.dtypes)


Tipos de dados de cada coluna: 
  id_venda            int64
data_venda         object
cliente            object
produto            object
quantidade         object
preco_unitario    float64
categoria          object
dtype: object


In [20]:
# 🧱 Verificar valores ausentes em cada coluna

print("\nQuantidade de valores ausentes em cada coluna:")
print(df.isnull().sum())


Quantidade de valores ausentes em cada coluna:
id_venda            0
data_venda          0
cliente           335
produto             0
quantidade          0
preco_unitario      0
categoria          52
dtype: int64


In [21]:
# 1️⃣ Filtrar apenas as linhas onde o preço unitário é maior que 100

df_preco_unitario = df[df['preco_unitario'] > 100]
df_preco_unitario



Unnamed: 0,id_venda,data_venda,cliente,produto,quantidade,preco_unitario,categoria
0,1,2025/06/01,Fernanda Lima,iPhone 13,5,5500.0,Eletrônicos
2,3,04-04-2025,Maria Silva,Notebook Dell,2,3500.0,Eletrônicos
4,5,15-09-2025,Fernanda Lima,Mouse Gamer,3,200.0,Eletrônicos
7,8,2025/01/22,Pedro Costa,Mochila,1,150.0,Acessórios
9,10,2025-02-03,Pedro Costa,Notebook Dell,2,3500.0,Eletrônicos
...,...,...,...,...,...,...,...
1987,1988,10-09-2025,Pedro Costa,iPhone 13,5,5500.0,Eletrônicos
1991,1992,2025-04-05,Pedro Costa,Impressora HP,4,900.0,Eletrônicos
1994,1995,2025/04/19,Maria Silva,Monitor LG,2,1200.0,Eletrônicos
1995,1996,2025-07-20,Pedro Costa,iPhone 13,3,5500.0,Eletrônicos


In [22]:
# 2️⃣ Ordenar o dataset pelo valor do preço em ordem decrescente

df_vendas_preco_dec = df.sort_values(by='preco_unitario', ascending=False)
df_vendas_preco_dec

Unnamed: 0,id_venda,data_venda,cliente,produto,quantidade,preco_unitario,categoria
25,26,2025-06-07,,iPhone 13,4,5500.0,Eletrônicos
0,1,2025/06/01,Fernanda Lima,iPhone 13,5,5500.0,Eletrônicos
1982,1983,01-04-2025,Ana Pereira,iPhone 13,4,5500.0,Eletrônicos
24,25,2025-07-23,Pedro Costa,iPhone 13,3,5500.0,Eletrônicos
19,20,26-09-2025,Maria Silva,iPhone 13,3,5500.0,Eletrônicos
...,...,...,...,...,...,...,...
684,685,2025-10-03,Fernanda Lima,iPhone 13,4,-5500.0,Eletrônicos
358,359,14-05-2025,Pedro Costa,iPhone 13,5,-5500.0,Eletrônicos
1784,1785,2025/05/12,Pedro Costa,iPhone 13,2,-5500.0,Eletrônicos
529,530,03-02-2025,Ana Pereira,iPhone 13,3,-5500.0,Eletrônicos
