# Introdução à Análise de Dados com Pandas
## Processo Seletivo LADS - Etapa 2

### Instruções:
- Este notebook é um guia introdutório à análise de dados com Pandas
- Cada seção contém exemplos explicativos e exercícios práticos
- Complete todos os exercícios nas células marcadas com "SEU CÓDIGO AQUI"

### O que será avaliado:
- Compreensão dos conceitos apresentados
- Capacidade de aplicar os conceitos em problemas práticos
- Organização e clareza do código
- Análise e interpretação dos resultados

### Instruções importantes antes de começar:

- **Execute todas as células de código em ordem sequencial** (de cima para baixo)
- Não pule células de código, mesmo que pareçam não ter outputs visíveis
- Isso garantirá que todas as variáveis necessárias estejam carregadas para os exercícios
- Se encontrar erros do tipo "variável não definida", volte e verifique se todas as células anteriores foram executadas

- Para executar uma célula de código, você pode:
  - Pressionar **Ctrl + Enter** enquanto estiver na célula
  - Ou clicar no botão ▶️ (play) na barra de ferramentas do seu editor de código

---

### Antes de começar, execute a célula abaixo e digite seu nome completo:

In [None]:
nome = input('Seu nome: ')
print(f"Olá, {nome.title()}! Estamos animados para iniciar essa jornada de análise de dados com você!")

---

## 1. Primeiros Passos com Pandas

### 1.1 O que é o Pandas?

Pandas é uma biblioteca Python para análise e manipulação de dados. Ele oferece estruturas de dados flexíveis e ferramentas para trabalhar com dados estruturados de forma eficiente.

As duas principais estruturas de dados do Pandas são:
- **Series**: Array unidimensional rotulado
- **DataFrame**: Estrutura bidimensional tabular com colunas rotuladas

Vamos começar importando as bibliotecas necessárias:

In [None]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Configurando o matplotlib para mostrar gráficos no notebook
%matplotlib inline

# Para ignorar os avisos desnecessários
import warnings
warnings.filterwarnings('ignore')

### 1.2 Criando um DataFrame

Vamos criar um conjunto de dados de exemplo sobre vendas de uma loja virtual:

In [None]:
# Criando um dataset de exemplo
np.random.seed(42)  # Para garantir reprodutibilidade

# Criando dados de exemplo
datas = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
categorias = ['Eletrônicos', 'Roupas', 'Alimentos', 'Casa', 'Beleza']
produtos = {
    'Eletrônicos': ['Smartphone', 'Laptop', 'Tablet', 'Fones de ouvido', 'Smart TV'],
    'Roupas': ['Camiseta', 'Calça', 'Vestido', 'Sapato', 'Jaqueta'],
    'Alimentos': ['Arroz', 'Feijão', 'Óleo', 'Açúcar', 'Café'],
    'Casa': ['Sofá', 'Mesa', 'Cadeira', 'Cama', 'Armário'],
    'Beleza': ['Shampoo', 'Condicionador', 'Sabonete', 'Perfume', 'Hidratante']
}
regioes = ['Norte', 'Nordeste', 'Centro-Oeste', 'Sudeste', 'Sul']
estados = {
    'Norte': ['AM', 'PA', 'RO', 'RR', 'AC'],
    'Nordeste': ['BA', 'PE', 'CE', 'MA', 'PB'],
    'Centro-Oeste': ['DF', 'GO', 'MT', 'MS'],
    'Sudeste': ['SP', 'RJ', 'MG', 'ES'],
    'Sul': ['PR', 'SC', 'RS']
}
canais = ['Online', 'Loja Física', 'Aplicativo', 'Telefone']

# Gerando 1000 registros aleatórios
n_registros = 1000
data_vendas = []

for _ in range(n_registros):
    data = np.random.choice(datas)
    categoria = np.random.choice(categorias)
    produto = np.random.choice(produtos[categoria])
    regiao = np.random.choice(regioes)
    estado = np.random.choice(estados[regiao])
    canal = np.random.choice(canais)
    valor = round(np.random.uniform(10, 5000), 2)  # Valor entre R$10 e R$5000
    quantidade = np.random.randint(1, 10)  # Entre 1 e 9 itens
    avaliacao = np.random.randint(1, 6)  # Avaliação de 1 a 5 estrelas
    
    data_vendas.append({
        'data': data,
        'categoria': categoria,
        'produto': produto,
        'regiao': regiao,
        'estado': estado,
        'canal_venda': canal,
        'valor_venda': valor,
        'quantidade': quantidade,
        'avaliacao': avaliacao
    })

# Criando o DataFrame
df_vendas = pd.DataFrame(data_vendas)
df_vendas['data'] = df_vendas['data'].astype('object')

# Salvando como CSV para uso futuro
df_vendas.to_csv('dados_vendas.csv', index=False)

# Visualizando as primeiras linhas
df_vendas.head()

### 1.3 Explorando os Dados Básicos

No Pandas, existem vários métodos para explorar e entender os dados:

In [None]:
# Visualizando as primeiras linhas com head()
print("Primeiras 5 linhas do DataFrame:")
df_vendas.head()

In [None]:
# Visualizando as últimas linhas com tail()
print("Últimas 5 linhas do DataFrame:")
df_vendas.tail()

In [None]:
# Verificando o formato do DataFrame (linhas, colunas) com shape
print(f"Formato do DataFrame: {df_vendas.shape}")
print(f"Número de linhas: {df_vendas.shape[0]}")
print(f"Número de colunas: {df_vendas.shape[1]}")

In [None]:
print("Nomes das colunas:")
print(df_vendas.columns.tolist())

### 1.4 Informações e Estatísticas do DataFrame

Pandas oferece métodos para obter informações detalhadas e estatísticas do DataFrame:

In [None]:
# Verificando informações sobre o DataFrame com info()
print("Informações do DataFrame:")
df_vendas.info()

In [None]:
# Estatísticas descritivas com describe()
print("Estatísticas descritivas:")
df_vendas.describe()

In [None]:
# Contagem de valores únicos com nunique()
print("Número de valores únicos em cada coluna:")
df_vendas.nunique()

### 1.5 Verificando Valores Únicos e Nulos

In [None]:
# Verificando valores únicos em uma coluna categórica
print("Categorias únicas:")
df_vendas['categoria'].unique()

In [None]:
# Contando ocorrências de cada valor
print("Contagem de cada categoria:")
df_vendas['categoria'].value_counts()

In [None]:
print("Valores nulos em cada coluna:")
df_vendas.isnull().sum()

#### Exercício 1: Exploração Básica de Dados
Agora é sua vez de aplicar o que aprendeu para explorar o DataFrame:

##### 1.1 Use o método head() para mostrar as 10 primeiras linhas do DataFrame

In [None]:
# SEU CÓDIGO AQUI

##### 1.2 Use shape para verificar quantas linhas e colunas tem o DataFrame

In [None]:
# SEU CÓDIGO AQUI

##### 1.3 Use o método unique() para listar todas as regiões no DataFrame

In [None]:
# SEU CÓDIGO AQUI

##### 1.4 Use o método value_counts() para contar quantas vendas existem por canal_venda

In [None]:
# SEU CÓDIGO AQUI

##### 1.5 Use o método describe() para obter estatísticas da coluna 'valor_venda'

In [None]:
# SEU CÓDIGO AQUI

---

## 2. Seleção e Filtragem de Dados

### 2.1 Selecionando Colunas

O Pandas oferece várias maneiras de selecionar colunas em um DataFrame:

In [None]:
# Selecionando uma única coluna (retorna uma Series)
valores_venda = df_vendas['valor_venda']
print("Primeiros 5 valores da coluna 'valor_venda':")
valores_venda.head()

In [None]:
print(f"Tipo de dados: {type(valores_venda)}")

In [None]:
# Selecionando múltiplas colunas (retorna um DataFrame)
selecao = df_vendas[['produto', 'valor_venda', 'quantidade']]

print("Primeiras 5 linhas das colunas selecionadas:")
selecao.head()

In [None]:
print(f"Tipo de dados: {type(selecao)}")

### 2.2 Filtrando Linhas com Condições

Podemos filtrar linhas do DataFrame usando condições lógicas:

In [None]:
# Filtragem básica: vendas com valor acima de 1000
vendas_altas = df_vendas[df_vendas['valor_venda'] > 1000]
print(f"Número de vendas com valor acima de R$1000: {len(vendas_altas)}")

print("Primeiras 5 vendas com valor acima de R$1000:")
vendas_altas.head()

In [None]:
# Filtrando com múltiplas condições usando operadores lógicos & (AND) e | (OR)

# Vendas de Eletrônicos na região Sul
vendas_eletronicos_sul = df_vendas[(df_vendas['categoria'] == 'Eletrônicos') & 
                                   (df_vendas['regiao'] == 'Sul')]
print(f"Número de vendas de Eletrônicos na região Sul: {len(vendas_eletronicos_sul)}")

print("Primeiras 5 vendas de Eletrônicos na região Sul:")
vendas_eletronicos_sul.head()

In [None]:
# Filtrando com OR lógico

# Vendas muito altas (>3000) ou com avaliação máxima (5)
vendas_premium = df_vendas[(df_vendas['valor_venda'] > 3000) | 
                          (df_vendas['avaliacao'] == 5)]

print(f"Número de vendas premium: {len(vendas_premium)}")

print("Primeiras 5 vendas premium:")
vendas_premium.head()

### 2.3 Filtragem com isin() e between()

Pandas oferece métodos especiais para filtragens mais específicas:

In [None]:
# Usando isin() para filtrar com uma lista de valores

# Vendas nas regiões Sul e Sudeste
regioes_sul_sudeste = ['Sul', 'Sudeste']
vendas_sul_sudeste = df_vendas[df_vendas['regiao'].isin(regioes_sul_sudeste)]

print(f"Número de vendas nas regiões Sul e Sudeste: {len(vendas_sul_sudeste)}")

print("Primeiras 5 vendas nas regiões Sul e Sudeste:")
vendas_sul_sudeste.head()

In [None]:
# Usando between() para filtrar valores em um intervalo

# Vendas com valor entre 1000 e 2000
vendas_1000_2000 = df_vendas[df_vendas['valor_venda'].between(1000, 2000)]

print(f"Número de vendas entre R$1000 e R$2000: {len(vendas_1000_2000)}")

print("Primeiras 5 vendas entre R$1000 e R$2000:")
vendas_1000_2000.head()

#### Exercício 2: Seleção e Filtragem de Dados
Agora, pratique a seleção e filtragem de dados com os seguintes exercícios:

##### 2.1 Selecione apenas as colunas 'data', 'produto' e 'valor_venda' do DataFrame

In [None]:
# SEU CÓDIGO AQUI

##### 2.2 Filtre o DataFrame para mostrar apenas as vendas do canal 'Online'

In [None]:
# SEU CÓDIGO AQUI

##### 2.3 Filtre o DataFrame para mostrar vendas de 'Roupas' com valor acima de 500

In [None]:
# SEU CÓDIGO AQUI

##### 2.4 Use o método isin() para filtrar vendas dos produtos 'Smartphone' e 'Laptop'

In [None]:
# SEU CÓDIGO AQUI

##### 2.5 Use o método between() para encontrar vendas com quantidades entre 3 e 5 unidades

In [None]:
# SEU CÓDIGO AQUI

## 3. Ordenação e Indexação

### 3.1 Ordenando Dados

O método `sort_values()` permite ordenar o DataFrame por uma ou mais colunas:

In [None]:
# Ordenando por uma coluna em ordem crescente (padrão)
df_ordenado_crescente = df_vendas.sort_values('valor_venda')

print("5 vendas com os menores valores:")
df_ordenado_crescente.head()

In [None]:
# Ordenando por uma coluna em ordem decrescente
df_ordenado_decrescente = df_vendas.sort_values('valor_venda', ascending=False)

print("5 vendas com os maiores valores:")
df_ordenado_decrescente.head()

In [None]:
# Ordenando por múltiplas colunas

# Primeiro por categoria (A-Z) e depois por valor_venda (maior para menor)
df_ordenado_multi = df_vendas.sort_values(['categoria', 'valor_venda'], 
                                         ascending=[True, False])

print("Ordenação por categoria e depois por valor (decrescente):")
df_ordenado_multi.head(10)

### 3.2 Redefinindo e Usando Índices

In [None]:
# Definindo uma coluna como índice
df_indexado = df_vendas.set_index('data')

print("DataFrame com 'data' como índice:")
df_indexado.head()

In [None]:
# Resetando o índice para voltar ao formato original
df_reset = df_indexado.reset_index()

print("DataFrame após reset do índice:")
df_reset.head()

In [None]:
# Acessando dados através do índice
# (Importante: assumindo que 'data' ainda é o índice)
print("Vendas em uma data específica:")
try:
    data_exemplo = df_indexado.index[0]  # Pegando a primeira data como exemplo
    print(f"Vendas em {data_exemplo}:")
    display(df_indexado.loc[data_exemplo])
except:
    print("Certifique-se de que o DataFrame está indexado por 'data'")

#### Exercício 3: Ordenação e Indexação
Agora, pratique a ordenação e indexação com os seguintes exercícios:

##### 3.1 Ordene o DataFrame por 'avaliacao' em ordem decrescente e mostre as 10 primeiras linhas

In [None]:
# SEU CÓDIGO AQUI

##### 3.2 Ordene o DataFrame primeiro por 'regiao' (A-Z) e depois por 'valor_venda' (maior para menor)

In [None]:
# SEU CÓDIGO AQUI

##### 3.3 Defina a coluna 'produto' como índice do DataFrame e mostre as 5 primeiras linhas

In [None]:
# SEU CÓDIGO AQUI

##### 3.4 Com o DataFrame indexado por 'produto' na questão anterior, acesse os dados do produto 'Smartphone' (se existir)

Dica: use o .loc

In [None]:
# SEU CÓDIGO AQUI

##### 3.5 Resete o índice para retornar à forma original e mostre as 5 primeiras linhas

In [None]:
# SEU CÓDIGO AQUI

---

## 4. Métodos Estatísticos e Agregações Básicas

O Pandas oferece diversos métodos para calcular estatísticas e resumir informações.

### 4.1 Estatísticas Básicas

In [None]:
# Calculando a média (mean) de uma coluna
media_valor = df_vendas['valor_venda'].mean()
print(f"Valor médio de venda: R${media_valor:.2f}")

In [None]:
# Calculando a soma (sum) de uma coluna
total_vendas = df_vendas['valor_venda'].sum()
print(f"Valor total de vendas: R${total_vendas:.2f}")

In [None]:
# Calculando o mínimo (min) e máximo (max)
min_valor = df_vendas['valor_venda'].min()
max_valor = df_vendas['valor_venda'].max()

print(f"Menor valor de venda: R${min_valor:.2f}")
print(f"Maior valor de venda: R${max_valor:.2f}")

In [None]:
# Calculando a mediana (median / 50º percentil)
mediana_valor = df_vendas['valor_venda'].median()
print(f"Valor mediano de venda: R${mediana_valor:.2f}")

In [None]:
# Calculando outros percentis
percentil_25 = df_vendas['valor_venda'].quantile(0.25)
percentil_75 = df_vendas['valor_venda'].quantile(0.75)

print(f"25º percentil do valor de venda: R${percentil_25:.2f}")
print(f"75º percentil do valor de venda: R${percentil_75:.2f}")

In [None]:
# Calculando o desvio padrão (std) e variância (var)
desvio_padrao = df_vendas['valor_venda'].std()
variancia = df_vendas['valor_venda'].var()

print(f"Desvio padrão do valor de venda: R${desvio_padrao:.2f}")
print(f"Variância do valor de venda: R${variancia:.2f}")

### 4.2 Agregações por Categoria

In [None]:
# Calculando a média por categoria
media_por_categoria = df_vendas.groupby('categoria')['valor_venda'].mean()

print("Valor médio de venda por categoria:")
media_por_categoria

In [None]:
# Calculando múltiplas estatísticas por categoria
stats_por_categoria = df_vendas.groupby('categoria')['valor_venda'].agg(['count', 'mean', 'min', 'max'])

print("Estatísticas por categoria:")
stats_por_categoria

In [None]:
# Renomeando as colunas para melhor legibilidade
stats_por_categoria.columns = ['Contagem', 'Média', 'Mínimo', 'Máximo']

print("Estatísticas por categoria (colunas renomeadas):")
stats_por_categoria

#### Exercício 4: Estatísticas e Agregações
Agora, pratique o cálculo de estatísticas com os seguintes exercícios:

##### 4.1 Calcule a média da coluna 'quantidade'

In [None]:
# SEU CÓDIGO AQUI

##### 4.2 Calcule a soma total da coluna 'valor_venda' para ter o faturamento total

In [None]:
# SEU CÓDIGO AQUI

##### 4.3 Encontre o valor máximo de 'avaliacao' de cada categoria de produto

In [None]:
# SEU CÓDIGO AQUI

##### 4.4 Calcule o valor médio de venda por região e ordene do maior para o menor

In [None]:
# SEU CÓDIGO AQUI

##### 4.5 Calcule a contagem, média, mínimo e máximo de 'valor_venda' para cada canal_venda

In [None]:
# SEU CÓDIGO AQUI

---

## 5. Agrupamento de Dados (GroupBy)

### 5.1 O Conceito de GroupBy

O método `groupby()` é uma das ferramentas mais poderosas do Pandas. Ele permite dividir os dados em grupos com base em uma ou mais colunas e aplicar funções para calcular estatísticas para cada grupo.

O processo de GroupBy geralmente segue três etapas:
1. **Split**: Dividir os dados em grupos
2. **Apply**: Aplicar uma função a cada grupo
3. **Combine**: Combinar os resultados em uma estrutura de dados

In [None]:
# Exemplo básico: agrupando por categoria e calculando a média de valor_venda
media_por_categoria = df_vendas.groupby('categoria')['valor_venda'].mean()
print("Valor médio de venda por categoria:")
media_por_categoria

In [None]:
# Visualizando o tipo de dados retornado
print(f"Tipo de dados: {type(media_por_categoria)}")

### 5.2 Agregações com GroupBy

Podemos aplicar diferentes funções de agregação aos grupos:

In [None]:
# Contagem de vendas por região
contagem_por_regiao = df_vendas.groupby('regiao')['valor_venda'].count()

print("Número de vendas por região:")
contagem_por_regiao

In [None]:
# Soma do valor de vendas por região
soma_por_regiao = df_vendas.groupby('regiao')['valor_venda'].sum()

print("Valor total de vendas por região:")
soma_por_regiao

In [None]:
# Calculando múltiplas estatísticas simultaneamente
stats_por_regiao = df_vendas.groupby('regiao')['valor_venda'].agg(['count', 'sum', 'mean', 'min', 'max'])

print("Estatísticas completas por região:")
stats_por_regiao

### 5.3 GroupBy com Múltiplas Colunas

Podemos agrupar por mais de uma coluna para análises mais detalhadas:

In [None]:
# Agrupando por região e categoria
vendas_regiao_categoria = df_vendas.groupby(['regiao', 'categoria'])['valor_venda'].sum()

print("Total de vendas por região e categoria:")
vendas_regiao_categoria

In [None]:
# Convertendo para um formato mais legível (tabela pivô)
vendas_pivot = vendas_regiao_categoria.unstack()

print("Tabela pivô de vendas por região e categoria:")
vendas_pivot

### 5.4 Aplicando Diferentes Agregações a Diferentes Colunas

In [None]:
# Aplicando diferentes funções a diferentes colunas
agg_multiplas_colunas = df_vendas.groupby('categoria').agg({
    'valor_venda': ['sum', 'mean'],
    'quantidade': ['sum', 'mean'],
    'avaliacao': 'mean'
})

print("Agregações múltiplas por categoria:")
agg_multiplas_colunas

In [None]:
# Achatando os níveis de índice das colunas para facilitar o acesso
agg_multiplas_colunas.columns = ['Valor Total', 'Valor Médio', 'Quantidade Total', 'Quantidade Média', 'Avaliação Média']

print("Com colunas renomeadas:")
agg_multiplas_colunas

#### Exercício 5: Agrupamento com GroupBy
Agora, pratique o uso do GroupBy com os seguintes exercícios:

##### 5.1 Agrupe os dados por 'canal_venda' e calcule o valor total de vendas para cada canal

In [None]:
# SEU CÓDIGO AQUI

##### 5.2 Agrupe por 'estado' e calcule a quantidade média de itens vendidos por estado

In [None]:
# SEU CÓDIGO AQUI

##### 5.3 Agrupe por 'categoria' e calcule a avaliação média para cada categoria de produto

In [None]:
# SEU CÓDIGO AQUI

##### 5.4 Agrupe por 'regiao' e 'canal_venda' e calcule o total de vendas para cada combinação

In [None]:
# SEU CÓDIGO AQUI

##### 5.5 Aplique múltiplas agregações (count, sum, mean) à coluna 'valor_venda' após agrupar por 'produto'

In [None]:
# SEU CÓDIGO AQUI

---

## 6. Manipulação de Dados e Criação de Colunas

### 6.1 Manipulando Tipos de Dados

In [None]:
# Verificando o tipo de dado da coluna 'data'
print(f"Tipo de dado da coluna 'data': {df_vendas['data'].dtype}")

In [None]:
# Convertendo a coluna 'data' para datetime
df_vendas['data'] = pd.to_datetime(df_vendas['data'])
print(f"Novo tipo de dado da coluna 'data': {df_vendas['data'].dtype}")

In [None]:
# Extraindo componentes da data
df_vendas['ano'] = df_vendas['data'].dt.year
df_vendas['mes'] = df_vendas['data'].dt.month
df_vendas['dia'] = df_vendas['data'].dt.day
df_vendas['dia_semana'] = df_vendas['data'].dt.day_name()

# Visualizando as novas colunas
print("Primeiras linhas com as novas colunas de data:")
df_vendas[['data', 'ano', 'mes', 'dia', 'dia_semana']].head()

### 6.2 Criando Novas Colunas com Operações Aritméticas

In [None]:
# Criando uma coluna de valor total (valor_venda * quantidade)
df_vendas['valor_total'] = df_vendas['valor_venda'] * df_vendas['quantidade']

# Criando uma coluna de desconto (10% do valor_venda)
df_vendas['desconto'] = df_vendas['valor_venda'] * 0.1

# Criando uma coluna de valor com desconto
df_vendas['valor_com_desconto'] = df_vendas['valor_venda'] - df_vendas['desconto']

# Visualizando as novas colunas
print("Primeiras linhas com as novas colunas calculadas:")
df_vendas[['valor_venda', 'quantidade', 'valor_total', 'desconto', 'valor_com_desconto']].head()

### 6.3 Criando Colunas Categóricas com apply() e funções personalizadas

In [None]:
# Definindo uma função para categorizar o valor da venda
def categorizar_valor(valor):
    if valor < 100:
        return 'Baixo'
    elif valor < 1000:
        return 'Médio'
    else:
        return 'Alto'

# Aplicando a função à coluna 'valor_venda' para criar a coluna 'faixa_preco'
df_vendas['faixa_preco'] = df_vendas['valor_venda'].apply(categorizar_valor)
df_vendas[['valor_venda', 'faixa_preco']].head()

In [None]:
# Definindo uma função para categorizar a quantidade
def categorizar_quantidade(qtd):
    if qtd <= 2:
        return 'Pequeno'
    elif qtd <= 5:
        return 'Médio'
    else:
        return 'Grande'

# Aplicando a função à coluna 'quantidade'
df_vendas['tamanho_pedido'] = df_vendas['quantidade'].apply(categorizar_quantidade)
df_vendas[['quantidade', 'tamanho_pedido']].head()

In [None]:
# Visualizando as novas colunas categóricas
print("Primeiras linhas com as novas colunas categóricas:")
df_vendas[['valor_venda', 'faixa_preco', 'quantidade', 'tamanho_pedido']].head()

In [None]:
# Verificando a contagem de cada categoria
print("Contagem por faixa de preço:")
df_vendas['faixa_preco'].value_counts()

In [None]:
print("Contagem por tamanho de pedido:")
df_vendas['tamanho_pedido'].value_counts()

#### Exercício 6: Manipulação de Dados e Criação de Colunas
Agora, pratique a manipulação de dados e criação de colunas:

##### 6.1 Crie uma coluna 'trimestre' baseada no mês da venda (1: Jan-Mar, 2: Abr-Jun, etc.)
Dica: você pode usar a função math.ceil(mes/3) ou uma função personalizada

In [None]:
# SEU CÓDIGO AQUI

##### 6.2 Crie uma coluna 'dia_util' que indique se a venda ocorreu em um dia útil (segunda a sexta) ou fim de semana (sábado e domingo)
Dica: use o atributo .dt.dayofweek (0-4 para dias da semana, 5-6 para fim de semana)

In [None]:
# SEU CÓDIGO AQUI

##### 6.3 Crie uma coluna 'margem_lucro' que é 30% do valor_venda

In [None]:
# SEU CÓDIGO AQUI

##### 6.4 Crie uma coluna categórica 'nivel_avaliacao' baseada na avaliação: 'Ruim' (1-2), 'Regular' (3), 'Bom' (4), 'Excelente' (5)

In [None]:
# SEU CÓDIGO AQUI

##### 6.5 Crie uma coluna 'acima_media' que tenha valor True se o valor_venda for superior à média de todas as vendas e False caso contrário

In [None]:
# SEU CÓDIGO AQUI

---

# 7. Visualização de Dados com Pandas
A visualização é uma parte fundamental da análise de dados. O Pandas oferece uma integração com Matplotlib que facilita a criação de diversos tipos de gráficos através do método `.plot()`.

### 7.1 Gráficos de Linha
Os gráficos de linha são ótimos para mostrar mudanças ao longo do tempo ou tendências.

In [None]:
# Agrupando vendas por mês
vendas_mensais = df_vendas.groupby('mes')['valor_total'].sum()

# Criando um simples gráfico de linha
vendas_mensais.plot(kind='line') # O parâmetro 'kind' especifica qual tipo de gráfico queremos, nesse caso, linha (line)
plt.title('Valor Total de Vendas por Mês') # Título do gráfico
plt.xlabel('Mês') # Rótulo do eixo x
plt.ylabel('Valor Total (R$)') # Rótulo do eixo y
plt.show()

### 7.2 Gráficos de Barras
Os gráficos de barras são ótimos para comparar valores entre diferentes categorias.

In [None]:
# Valor total de vendas por categoria
vendas_por_categoria = df_vendas.groupby('categoria')['valor_total'].sum()

# Criando um gráfico de barras simples
vendas_por_categoria.plot(kind='bar')
plt.title('Valor Total de Vendas por Categoria')
plt.xlabel('Categoria')
plt.ylabel('Valor Total (R$)')
plt.show()

### 7.3 Histogramas
Histogramas mostram a distribuição dos seus dados, dividindo os valores em intervalos (bins).

In [None]:
# Histograma dos valores de venda
df_vendas['valor_venda'].plot(kind='hist', bins=20)
plt.title('Distribuição dos Valores de Venda')
plt.xlabel('Valor (R$)')
plt.ylabel('Frequência')
plt.show()

### 7.4 Personalizando Gráficos
Você pode personalizar seus gráficos adicionando cores, marcadores e outros elementos.

In [None]:
# Personalizando um gráfico de linha
vendas_mensais.plot(
    kind='line',
    figsize=(10, 5),   # Tamanho da figura
    color='green',     # Cor da linha
    marker='o',        # Marcador nos pontos
    linestyle='--',    # Estilo da linha
    linewidth=2        # Espessura da linha
)
plt.title('Valor Total de Vendas por Mês')
plt.xlabel('Mês')
plt.ylabel('Valor Total (R$)')
plt.grid(True)
plt.show()

#### Exercício 7: Visualização de Dados
Agora é sua vez de praticar a criação de gráficos com Pandas:

##### 7.1 Crie um gráfico de barras mostrando o número de vendas por canal_venda

In [None]:
# SEU CÓDIGO AQUI

##### 7.2 Crie um gráfico de linha simples mostrando a média de valor_venda por mês

In [None]:
# SEU CÓDIGO AQUI

##### 7.3 Crie um histograma da coluna 'avaliacao' e adicione um título

In [None]:
# SEU CÓDIGO AQUI

##### 7.4 Crie um gráfico de barras mostrando o total de vendas por região

In [None]:
# SEU CÓDIGO AQUI

---

# Você Chegou ao Fim!

Parabéns por ter chegado até aqui, guerreiro(a) dos dados! 
(A não ser que você tenha pulado tudo e vindo direto pra cá... hmm, estamos de olho 👀)

Esperamos que você tenha conseguido resolver todos os exercícios - ou pelo menos tenha quebrado a cabeça tentando!

## 📋 Antes de enviar, dá uma conferida final:
- Todas as células estão funcionando? (Por favor, diz que sim 🙏)
- Você respondeu todas as questões? (Aquela do meio era difícil, né?)
- O código está rodando sem erros? (Ou sem MUITOS erros, pelo menos 😅)

## 📤 INSTRUÇÕES DE ENTREGA:
- Envie este notebook para: lads.unama@gmail.com
- Prazo: Domingo, 18/05/2025, às 23:59

Você pode mandar o arquivo direto ou o link do seu GitHub - escolha a opção que te deixa mais zen!

Boa sorte e até a próxima fase (pensamento positivo, né?)! 💪

— Equipe LADS, que já está ansiosa pra ver a magia que você fez com esses dados