1. Introdução: O que é Pandas?

O Pandas é a biblioteca mais essencial do Python para Análise de Dados. Pense nele como o Excel turbinado dentro do Python.

DataFrame (DF): É a estrutura principal, análoga a uma tabela ou planilha do Excel (linhas e colunas).

Series: É como uma única coluna de um DataFrame.

Objetivo: Vamos carregar o arquivo vendas_cafe.csv e começar a explorá-lo.

In [66]:
# Célula 1: Importando a biblioteca
import pandas as pd

# Carregando nosso arquivo CSV (certifique-se de que o arquivo está no mesmo diretório!)
df_vendas = pd.read_csv('vendas_cafe.csv')

print("Dados carregados com sucesso!")

Dados carregados com sucesso!


2. Visão Rápida dos Dados

Antes de tudo, precisamos saber o que está na nossa tabela e se os dados foram carregados corretamente.

* Função Pandas e o Objetivo:

df.head()	Mostra as primeiras 5 linhas do DataFrame (para uma inspeção rápida).

df.info()	Mostra o resumo estrutural: quantos dados não estão nulos, e o tipo de dado de cada coluna (texto, número, data).

In [67]:
# Célula 2: Ver as primeiras linhas
print("As 5 primeiras linhas do nosso DataFrame:")
display(df_vendas.head())

As 5 primeiras linhas do nosso DataFrame:


Unnamed: 0,Data,Produto,Categoria,Quantidade,Preço_Unitario (R$),Localidade
0,2024-10-01,Expresso Duplo,Café,45,6.0,Centro
1,2024-10-01,Pão de Queijo,Comida,80,4.5,Centro
2,2024-10-02,Cappuccino,Café,55,8.5,Centro
3,2024-10-02,Salgado Integral,Comida,30,12.0,Praia
4,2024-10-03,Expresso Duplo,Café,20,6.0,Praia


In [68]:
# Célula 3: Informações Estruturais
print("Estrutura e tipos de dados:")
df_vendas.info()

Estrutura e tipos de dados:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Data                 10 non-null     object 
 1   Produto              10 non-null     object 
 2   Categoria            10 non-null     object 
 3   Quantidade           10 non-null     int64  
 4   Preço_Unitario (R$)  10 non-null     float64
 5   Localidade           10 non-null     object 
dtypes: float64(1), int64(1), object(4)
memory usage: 608.0+ bytes


3. Estatísticas Básicas e Resumo

Calcular estatísticas é instantâneo.

* Função Pandas	e o Objetivo:

df.describe()	Gera um resumo estatístico completo para colunas numéricas (média, desvio padrão, mínimo, máximo, quartis).

df['coluna'].mean()	Calcula a média de uma coluna específica.

In [69]:
# Célula 4: Resumo estatístico das colunas numéricas
print("Resumo Estatístico:")
display(df_vendas.describe().round())

Resumo Estatístico:


Unnamed: 0,Quantidade,Preço_Unitario (R$)
count,10.0,10.0
mean,52.0,7.0
std,24.0,3.0
min,20.0,4.0
25%,32.0,5.0
50%,50.0,6.0
75%,71.0,8.0
max,90.0,12.0


Na maioria das vezes, a cafeteria vende 52 itens. Essa é a meta diária de referência.

Std (Desvio Padrão). 24 tá alto. As vendas oscilão muito num dia vende 20 unidades e noutro 90, não tem um consistência perto da média 52

Quartil 1 Em 25% dos dias, vendeu menos de 33 itens. Este é o seu piso de vendas.

Quartil 3 Em 25% dos dias, vendeu mais de 71 itens. Este é o teto de vendas (sem ser o máximo absoluto).



In [70]:
# Célula 5: Calculando a Média de uma coluna específica
media_quantidade = df_vendas['Quantidade'].mean()
print(f"Média de unidades vendidas por transação: {media_quantidade:.0f} unidades")

Média de unidades vendidas por transação: 52 unidades


4. Criação de Novas Informações (Engenharia de Features)

Podemos criar novas colunas que são mais úteis para a análise, como o Total Vendido por transação.

* Método Pandas	e o Objetivo

df['nova_coluna'] = cálculo	Cria uma nova coluna aplicando uma operação em colunas existentes.

In [71]:
# Célula 6: Calculando o Total Vendido
# Total Vendido = Quantidade * Preço Unitário
df_vendas['Total_Venda'] = df_vendas['Quantidade'] * df_vendas['Preço_Unitario (R$)']

print("DataFrame com a nova coluna 'Total_Venda':")
display(df_vendas.head())

DataFrame com a nova coluna 'Total_Venda':


Unnamed: 0,Data,Produto,Categoria,Quantidade,Preço_Unitario (R$),Localidade,Total_Venda
0,2024-10-01,Expresso Duplo,Café,45,6.0,Centro,270.0
1,2024-10-01,Pão de Queijo,Comida,80,4.5,Centro,360.0
2,2024-10-02,Cappuccino,Café,55,8.5,Centro,467.5
3,2024-10-02,Salgado Integral,Comida,30,12.0,Praia,360.0
4,2024-10-03,Expresso Duplo,Café,20,6.0,Praia,120.0


5. Análise Agrupada (groupby())

Para obter insights de negócio, precisamos agrupar os dados.

* Função Pandas	e o Objetivo

df.groupby()	Agrupa linhas com base nos valores de uma ou mais colunas categóricas.

df.sum()	Aplicada após o groupby, calcula a soma dos valores em cada grupo.

In [72]:
# Célula 7: Total de Vendas por Categoria
# Queremos saber quanto foi vendido em Café, Comida e Doce.
vendas_por_categoria = df_vendas.groupby('Categoria')['Total_Venda'].sum().reset_index()

print("Vendas Totais por Categoria:")
display(vendas_por_categoria)

Vendas Totais por Categoria:


Unnamed: 0,Categoria,Total_Venda
0,Café,2117.5
1,Comida,832.5
2,Doce,730.0


In [73]:
# Célula 8: Qual Localidade Vendeu Mais?
vendas_por_local = df_vendas.groupby('Localidade')['Total_Venda'].sum().reset_index()

print("Vendas Totais por Localidade:")
display(vendas_por_local)

Vendas Totais por Localidade:


Unnamed: 0,Localidade,Total_Venda
0,Centro,1827.5
1,Praia,1852.5


Problema: Os picos de venda (90 itens) e (20 itens) estão muito distantes da meta (52).

Ação: Descobrir por que alguns dias são 20 (muito abaixo do piso de 33) e tentar trazer o piso para mais perto da média.

Conclusão da Aula

O Pandas nos permitiu, em 8 passos(células), transformar dados brutos em insights claros:

Descobrimos a média de vendas por transação.

Calculamos o valor total de venda.

Vimos qual categoria de produto (Café, Comida ou Doce) e qual localidade está gerando mais receita.

Foi detectado um problema e uma ação.