In [None]:
import pandas as pd
import numpy as np

# Criação de DataFrame

In [None]:
dados = {
    'data': ['2025-01-15', '2025-01-16', '2025-01-16', '2025-01-17', '2025-01-18',
             '2025-01-19', '2025-01-20', '2025-01-20', '2025-01-21', '2025-01-22'],
    'produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Notebook',
                'Mouse', 'Webcam', 'Teclado', 'Monitor', 'Notebook'],
    'categoria': ['Computadores', 'Periféricos', 'Periféricos', 'Monitores', 'Computadores',
                  'Periféricos', 'Periféricos', 'Periféricos', 'Monitores', 'Computadores'],
    'quantidade': [2, 5, 3, 1, 1, 8, 2, 4, 2, 3],
    'preco_unitario': [3500.00, 45.00, 180.00, 890.00, 3200.00,
                       52.00, 250.00, 180.00, 920.00, 3800.00],
    'vendedor': ['Ana', 'Carlos', 'Ana', 'Beatriz', 'Carlos',
                 'Ana', 'Beatriz', 'Carlos', 'Ana', 'Beatriz']
}


In [None]:
df = pd.DataFrame(dados)

#df.to_csv("vendas.csv", index = False)

In [None]:
# Uma outra possibilidade seria ler o arquivo em csv
#df = pd.read_csv("vendas.csv", index_col = None)

In [None]:
df

In [None]:
df.head()

# Informações Básicas

In [None]:
print("INFORMAÇÕES BÁSICAS DO DATAFRAME")
print(f"Dimensões: {df.shape}")  # (linhas, colunas)
print(f"\nTipos de dados:\n{df.dtypes}")

In [None]:
print(f"\nPrimeiras 3 linhas:")
df.head(3)

In [None]:
print(f"\nÚltimas 3 linhas:\n")
df.tail(3)

In [None]:
print(f"\nInformações gerais:")
print(df.info())

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

# Criação de novas colunas

In [None]:
# Visualizando o dataFrame inicial
df

In [None]:
# Criando um nova coluna a partir de duas outras existentes
df['valor_total'] = df['quantidade'] * df['preco_unitario']
df

In [None]:
# Transformando a coluna data para o tipo datetime
df['data'] = pd.to_datetime(df['data'])
df

In [None]:
df.info()

In [None]:
# Obtendo o mês da venda
df['mes'] = df['data'].dt.month
df

In [None]:
# Obtendo o dia da semana
df['dia_semana'] = df['data'].dt.day_name()
df


In [None]:
# Visualizando algumas coluna do dataFrame
df[['produto', 'quantidade', 'preco_unitario', 'valor_total', 'dia_semana']]

# Seleção de Dados

In [None]:
print("SELEÇÃO DE DADOS")
print("Uma coluna específica:")
df['produto']


In [None]:
print("Múltiplas colunas:")
df[['produto', 'quantidade', 'valor_total']]

In [None]:
print("Linhas específicas (loc):")
df.loc[0:2, ['produto', 'valor_total']]

In [None]:
print("\nPor posição (iloc):")
df.iloc[0:3, [1, 3, 5]] # indicando 0:3 -> index das linhas | [1, 3, 5] ordem das colunas

# Filtragem de dados


In [None]:
df

In [None]:
print("FILTRAGEM DE DADOS")
print("Vendas acima de R$ 1000:")
vendas_altas = df[df['valor_total'] > 1000]
vendas_altas[['produto', 'valor_total']]

In [None]:
print("Produtos da categoria Periféricos:")
perifericos = df[df['categoria'] == 'Periféricos']
perifericos[['produto', 'categoria', 'valor_total']]

In [None]:
print("Filtros múltiplos (vendas > 500 E quantidade > 2):")
filtro_multiplo = df[(df['valor_total'] > 500) & (df['quantidade'] > 2)]
filtro_multiplo

# Ordenação

In [None]:
print("ORDENAÇÃO DE DADOS")
print("Ordenar por valor_total (decrescente):")
df_ordenado = df.sort_values('valor_total', ascending=False)
df_ordenado[['produto', 'valor_total']]



In [None]:
print("\nOrdenar por múltiplas colunas:")
df_multi_sort = df.sort_values(['categoria', 'valor_total'], ascending=[True, False])
df_multi_sort[['categoria', 'produto', 'valor_total']]

# Agrupamento e Agregação


In [None]:
print("AGRUPAMENTO E AGREGAÇÃO")
print("Total de vendas por categoria:")
vendas_categoria = df.groupby('categoria')['valor_total'].sum()
vendas_categoria

In [None]:
print("\nEstatísticas por vendedor:")
stats_vendedor = df.groupby('vendedor').agg({
    'valor_total': ['sum', 'mean', 'count'],
    'quantidade': 'sum'
})
stats_vendedor

In [None]:
df

In [None]:
print("Total por categoria e produto:")
pivot_table = df.pivot_table(
    values='valor_total',
    index='categoria',
    columns='vendedor',
    aggfunc='sum',
    fill_value=0
)
pivot_table

# Estatistica Descritiva

In [None]:
print("ESTATÍSTICAS DESCRITIVAS")
df[['quantidade', 'preco_unitario', 'valor_total']].describe()

In [None]:
print("\nMédia de vendas por categoria:")
df.groupby('categoria')['valor_total'].mean()

# Tratamento de Valores Ausentes

In [None]:
# A nossa base não possui valores ausentes
df

In [None]:
print("TRATAMENTO DE VALORES AUSENTES")
# Adicionando valores ausentes propositalmente
df_com_na = df.copy()
df_com_na.loc[2, 'vendedor'] = np.nan
df_com_na.loc[5, 'preco_unitario'] = np.nan
df_com_na

In [None]:
print("Verificar valores nulos:")
df_com_na.isnull().sum()

In [None]:
print("\nPreencher valores nulos:")
df_preenchido = df_com_na.fillna({
    'vendedor': 'Desconhecido',
    'preco_unitario': df_com_na['preco_unitario'].mean()
})
df_preenchido[['vendedor', 'preco_unitario']]


In [None]:
df_com_na

In [None]:
print("\nRemover linhas com valores nulos:")
df_sem_na = df_com_na.dropna()
print(f"Linhas antes: {len(df_com_na)}, Linhas depois: {len(df_sem_na)}")
print("\n")

In [None]:
df_sem_na

# Operações com String

In [None]:
df

In [None]:
print("OPERAÇÕES COM STRINGS")
df['produto_upper'] = df['produto'].str.upper()
df['produto_lower'] = df['produto'].str.lower()
df['tamanho_nome'] = df['produto'].str.len()
df[["produto", "produto_upper", 'produto_lower', "tamanho_nome"]]

In [None]:
print("\nProdutos que contêm 'o':")
df[df['produto'].str.contains('o', case=False)]['produto']


# Aplicar funções personalizadas





In [None]:
df

In [None]:
df["valor_total"] = df["preco_unitario"] * df["quantidade"]
df.head()

In [None]:
def classificar_venda(valor):
    if valor > 5000:
        return 'Alta'
    elif valor > 1000:
        return 'Média'
    else:
        return 'Baixa'

In [None]:
df['classificacao_venda'] = df['valor_total'].apply(classificar_venda)
df[['produto', 'valor_total', 'classificacao_venda']]

# Merge e Join


In [None]:
print("MERGE E JOIN DE DATAFRAMES")

# Criando outro DataFrame com informações dos vendedores
vendedores_info = pd.DataFrame({
    'vendedor': ['Ana', 'Beatriz', 'Carlos'],
    'comissao': [0.05, 0.07, 0.06],
    'anos_empresa': [3, 5, 2]
})

In [None]:
print("DataFrame de vendedores:")
vendedores_info

In [None]:
df.head()

In [None]:
print("\nMerge com DataFrame principal:")
df_merged = df.merge(vendedores_info, on='vendedor', how='left')
df_merged

In [None]:
df_merged[['produto', 'vendedor', 'valor_total', 'comissao']]

In [None]:
df_merged['valor_comissao'] = df_merged['valor_total'] * df_merged['comissao']
df_merged[['produto', 'vendedor', 'valor_total', 'comissao', 'valor_comissao']]

# Resumo Final




In [None]:
print("RESUMO FINAL - INSIGHTS DO NEGÓCIO")
print(f"Total de vendas: R$ {df['valor_total'].sum():,.2f}")
print(f"Ticket médio: R$ {df['valor_total'].mean():,.2f}")

In [None]:
df.groupby('produto')['quantidade'].sum()

In [None]:
df.groupby('produto')['quantidade'].sum()

In [None]:
print(f"Produto mais vendido: {df.groupby('produto')['quantidade'].sum().idxmax()}")

In [None]:
df.groupby('vendedor')['valor_total'].sum()

In [None]:
print(f"Vendedor com maior faturamento: {df.groupby('vendedor')['valor_total'].sum().idxmax()}")

In [None]:
df.groupby('categoria')['valor_total'].sum()

In [None]:
print(f"Categoria mais lucrativa: {df.groupby('categoria')['valor_total'].sum().idxmax()}")