# 📊 Case Técnico - Análise de Dados em Python

**MBA em Engenharia de Dados**  
**Projeto Pokémon Elite dos 4**  
**Migração de R para Python**

---

Este notebook responde às 41 perguntas do case técnico utilizando Python e o dataset de Pokémon da primeira geração.

## 📚 Importações e Configurações

In [None]:
# Importações necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configurações de visualização
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("✅ Bibliotecas importadas com sucesso!")

## 1️⃣ Pergunta 1: Importe o seu dataset para o Python

In [None]:
# Carregando o dataset principal de Pokémon
pokemon_data = pd.read_csv('data/pokemon_data.csv')
print("✅ Dataset carregado com sucesso!")
print(f"📊 Dimensões: {pokemon_data.shape}")

## 2️⃣ Pergunta 2: Contextualize o problema de negócio

**Problema de Negócio:**

No universo dos jogos Pokémon, treinadores enfrentam o desafio de montar a equipe mais eficaz para vencer a Elite dos 4, o grupo de treinadores mais poderosos do jogo. O problema central é:

- **Qual é o melhor sexteto de Pokémon e em qual nível para vencer a Elite dos 4?**
- Como otimizar a seleção considerando tipos, estatísticas e sinergias?
- Quais estratégias maximizam a taxa de vitória contra cada membro?

Este é um problema de **otimização combinatória complexa** que envolve:
- 151 Pokémon disponíveis
- 6 slots na equipe
- 5 membros da Elite dos 4
- Múltiplos critérios de otimização

## 3️⃣ Pergunta 3: Contextualize a solução do pipeline

**Solução do Pipeline:**

O pipeline desenvolvido resolve o problema através de:

1. **Análise Exploratória**: Compreensão dos dados e padrões
2. **Modelagem Estatística**: Predição de eficiência dos Pokémon
3. **Otimização Genética**: Encontrar o sexteto ótimo
4. **Simulação de Batalhas**: Validação com sistema realista GBA
5. **Análise de Performance**: Métricas de vitória e estratégias

**Resultado Alcançado:** 93% de taxa de vitória contra Elite dos 4!

## 4️⃣ Pergunta 4: Verifique as primeiras 6 linhas do dataset

In [None]:
# Primeiras 6 linhas
print("🔍 Primeiras 6 linhas do dataset:")
pokemon_data.head(6)

## 5️⃣ Pergunta 5: Verifique as últimas 10 linhas do dataset

In [None]:
# Últimas 10 linhas
print("🔍 Últimas 10 linhas do dataset:")
pokemon_data.tail(10)

## 6️⃣ Pergunta 6: Mostre a quantidade de linhas e colunas

In [None]:
# Dimensões do dataset
linhas, colunas = pokemon_data.shape
print(f"📊 Dataset possui {linhas} linhas e {colunas} colunas")
print(f"📊 Dimensões: {pokemon_data.shape}")

## 7️⃣ Pergunta 7: Exiba apenas os nomes das colunas

In [None]:
# Nomes das colunas
print("📋 Nomes das colunas do dataset:")
for i, col in enumerate(pokemon_data.columns, 1):
    print(f"{i:2d}. {col}")

## 8️⃣ Pergunta 8: Descreva as principais variáveis

**Principais Variáveis do Dataset:**

**Identificadores:**
- `id`: ID único do Pokémon (1-151)
- `name`: Nome do Pokémon

**Tipos:**
- `type1`: Tipo primário (categórica)
- `type2`: Tipo secundário (categórica, pode ser nulo)

**Estatísticas de Batalha (numéricas):**
- `hp`: Pontos de vida
- `attack`: Ataque físico
- `defense`: Defesa física
- `sp_attack`: Ataque especial
- `sp_defense`: Defesa especial
- `speed`: Velocidade
- `total`: Soma total das estatísticas

**Metadados:**
- `generation`: Geração (todas = 1)

## 9️⃣ Pergunta 9: Verifique e ajuste os tipos das colunas

In [None]:
# Verificar tipos atuais
print("🔍 Tipos atuais das colunas:")
print(pokemon_data.dtypes)
print("\n" + "="*50 + "\n")

# Ajustar tipos
pokemon_data['type1'] = pokemon_data['type1'].astype('category')
pokemon_data['type2'] = pokemon_data['type2'].astype('category')
pokemon_data['generation'] = pokemon_data['generation'].astype('category')

print("✅ Tipos ajustados:")
print(pokemon_data.dtypes)

## 🔟 Pergunta 10: Selecione apenas duas colunas

In [None]:
# Selecionando duas colunas: name e total
duas_colunas = pokemon_data[['name', 'total']]
print("📋 Duas colunas selecionadas (name e total):")
duas_colunas.head(10)

## 1️⃣1️⃣ Pergunta 11: Filtre linhas onde uma variável numérica seja maior que um valor

In [None]:
# Filtrar Pokémon com total > 500 (Pokémon fortes)
pokemon_fortes = pokemon_data[pokemon_data['total'] > 500]
print(f"🔥 Pokémon com total > 500: {len(pokemon_fortes)} Pokémon")
pokemon_fortes[['name', 'total', 'type1', 'type2']].head(10)

## 1️⃣2️⃣ Pergunta 12: Ordene o dataset de forma crescente por uma coluna numérica

In [None]:
# Ordenar por total (crescente)
pokemon_ordenado = pokemon_data.sort_values('total')
print("📈 Pokémon ordenados por total (crescente):")
pokemon_ordenado[['name', 'total']].head(10)

## 1️⃣3️⃣ Pergunta 13: Crie uma nova coluna com base em operação entre duas colunas

In [None]:
# Criar coluna de eficiência (total / 600)
pokemon_data['efficiency'] = pokemon_data['total'] / 600
print("✅ Nova coluna 'efficiency' criada (total / 600)")
print("📊 Primeiros 10 valores:")
pokemon_data[['name', 'total', 'efficiency']].head(10)

## 1️⃣4️⃣ Pergunta 14: Remova uma coluna do dataset

In [None]:
# Remover coluna 'generation' (não é necessária para análise)
pokemon_data_sem_gen = pokemon_data.drop('generation', axis=1)
print("🗑️ Coluna 'generation' removida")
print(f"📊 Novas dimensões: {pokemon_data_sem_gen.shape}")
print("📋 Colunas restantes:")
print(list(pokemon_data_sem_gen.columns))

## 1️⃣5️⃣ Pergunta 15: Use select() para escolher 3 colunas

In [None]:
# Selecionar 3 colunas usando iloc
tres_colunas = pokemon_data.iloc[:, [1, 2, 3]]  # name, type1, type2
print("📋 Três colunas selecionadas (name, type1, type2):")
tres_colunas.head(10)

## 1️⃣6️⃣ Pergunta 16: Use filter() para selecionar linhas que atendam uma condição

In [None]:
# Filtrar Pokémon do tipo Fire
pokemon_fire = pokemon_data[pokemon_data['type1'] == 'Fire']
print(f"🔥 Pokémon do tipo Fire: {len(pokemon_fire)} Pokémon")
pokemon_fire[['name', 'type1', 'type2', 'total']].head(10)

## 1️⃣7️⃣ Pergunta 17: Selecione colunas que começam com uma letra específica

In [None]:
# Selecionar colunas que começam com 'sp' (sp_attack, sp_defense)
colunas_sp = pokemon_data.loc[:, pokemon_data.columns.str.startswith('sp')]
print("📋 Colunas que começam com 'sp':")
print(list(colunas_sp.columns))
colunas_sp.head(10)

## 1️⃣8️⃣ Pergunta 18: Renomeie duas colunas usando rename()

In [None]:
# Renomear colunas
pokemon_renomeado = pokemon_data.rename(columns={'sp_attack': 'special_attack', 'sp_defense': 'special_defense'})
print("✅ Colunas renomeadas:")
print("- sp_attack → special_attack")
print("- sp_defense → special_defense")
print("\n📋 Primeiras 5 linhas com colunas renomeadas:")
pokemon_renomeado[['name', 'special_attack', 'special_defense']].head()

## 1️⃣9️⃣ Pergunta 19: Use arrange() para ordenar dados de forma decrescente

In [None]:
# Ordenar por total (decrescente)
pokemon_decrescente = pokemon_data.sort_values('total', ascending=False)
print("📉 Pokémon ordenados por total (decrescente):")
pokemon_decrescente[['name', 'total']].head(10)

## 2️⃣0️⃣ Pergunta 20: Crie uma nova coluna com mutate()

In [None]:
# Criar coluna de poder de ataque (attack + sp_attack)
pokemon_data['attack_power'] = pokemon_data['attack'] + pokemon_data['sp_attack']
print("✅ Nova coluna 'attack_power' criada (attack + sp_attack)")
print("📊 Primeiros 10 valores:")
pokemon_data[['name', 'attack', 'sp_attack', 'attack_power']].head(10)

## 2️⃣1️⃣ Pergunta 21: Resuma dados de uma coluna numérica usando summarise()

In [None]:
# Resumo estatístico da coluna 'total'
resumo_total = pokemon_data['total'].describe()
print("📊 Resumo estatístico da coluna 'total':")
print(resumo_total)

## 2️⃣2️⃣ Pergunta 22: Agrupe dados por uma variável categórica

In [None]:
# Agrupar por tipo primário
grupo_tipo = pokemon_data.groupby('type1')
print("📊 Dados agrupados por tipo primário:")
print(f"Número de grupos: {len(grupo_tipo)}")
print("\nTipos únicos:")
print(list(grupo_tipo.groups.keys()))

## 2️⃣3️⃣ Pergunta 23: Combine group_by() e summarise() para calcular média por grupo

In [None]:
# Média de total por tipo primário
media_por_tipo = pokemon_data.groupby('type1')['total'].mean().sort_values(ascending=False)
print("📊 Média de total por tipo primário:")
print(media_por_tipo.head(10))

## 2️⃣4️⃣ Pergunta 24: Use pivot_longer() para transformar colunas em linhas

In [None]:
# Transformar colunas de estatísticas em linhas
stats_cols = ['hp', 'attack', 'defense', 'sp_attack', 'sp_defense', 'speed']
pokemon_long = pokemon_data.melt(
    id_vars=['name', 'type1'],
    value_vars=stats_cols,
    var_name='statistic',
    value_name='value'
)
print("📊 Dados transformados (wide to long):")
print(f"Dimensões: {pokemon_long.shape}")
pokemon_long.head(10)

## 2️⃣5️⃣ Pergunta 25: Use pipeline para selecionar, filtrar e ordenar

In [None]:
# Pipeline: selecionar, filtrar e ordenar
pipeline_result = (pokemon_data
    .loc[:, ['name', 'type1', 'total']]  # Selecionar colunas
    .query('total > 500')  # Filtrar
    .sort_values('total', ascending=False)  # Ordenar
)
print("🔄 Resultado do pipeline:")
print(f"Pokémon com total > 500: {len(pipeline_result)}")
pipeline_result.head(10)

## 2️⃣6️⃣ Pergunta 26: Use pivot_wider() para transformar linhas em colunas

In [None]:
# Transformar long para wide
pokemon_wide = pokemon_long.pivot_table(
    index='name',
    columns='statistic',
    values='value',
    fill_value=0
).reset_index()
print("📊 Dados transformados (long to wide):")
print(f"Dimensões: {pokemon_wide.shape}")
pokemon_wide.head()

## 2️⃣7️⃣ Pergunta 27: Aplique drop_na() para remover valores ausentes

In [None]:
# Remover linhas com valores ausentes
pokemon_sem_na = pokemon_data.dropna()
print(f"📊 Linhas originais: {len(pokemon_data)}")
print(f"📊 Linhas após drop_na(): {len(pokemon_sem_na)}")
print(f"📊 Valores ausentes removidos: {len(pokemon_data) - len(pokemon_sem_na)}")

## 2️⃣8️⃣ Pergunta 28: Substitua valores ausentes por 0 em coluna numérica

In [None]:
# Substituir valores ausentes por 0
pokemon_data_filled = pokemon_data.copy()
pokemon_data_filled['type2'] = pokemon_data_filled['type2'].fillna('None')
print("✅ Valores ausentes em 'type2' substituídos por 'None'")
print(f"📊 Valores únicos em type2: {pokemon_data_filled['type2'].nunique()}")

## 2️⃣9️⃣ Pergunta 29: Crie gráfico de dispersão com duas variáveis numéricas

In [None]:
# Gráfico de dispersão: attack vs sp_attack
plt.figure(figsize=(10, 6))
plt.scatter(pokemon_data['attack'], pokemon_data['sp_attack'], alpha=0.6)
plt.xlabel('Attack')
plt.ylabel('Special Attack')
plt.title('Gráfico de Dispersão: Attack vs Special Attack')
plt.grid(True, alpha=0.3)
plt.show()

## 3️⃣0️⃣ Pergunta 30: Crie gráfico de barras de uma variável categórica

In [None]:
# Gráfico de barras: contagem por tipo primário
plt.figure(figsize=(12, 6))
pokemon_data['type1'].value_counts().plot(kind='bar')
plt.xlabel('Tipo Primário')
plt.ylabel('Quantidade')
plt.title('Distribuição de Pokémon por Tipo Primário')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 3️⃣1️⃣ Pergunta 31: Construa histograma de uma variável numérica

In [None]:
# Histograma da coluna 'total'
plt.figure(figsize=(10, 6))
plt.hist(pokemon_data['total'], bins=20, alpha=0.7, edgecolor='black')
plt.xlabel('Total de Estatísticas')
plt.ylabel('Frequência')
plt.title('Distribuição do Total de Estatísticas dos Pokémon')
plt.grid(True, alpha=0.3)
plt.show()

## 3️⃣2️⃣ Pergunta 32: Crie gráfico de linha para evolução de variável ao longo do tempo

In [None]:
# Gráfico de linha: evolução do total por ID (simulando tempo)
plt.figure(figsize=(12, 6))
pokemon_ordenado = pokemon_data.sort_values('id')
plt.plot(pokemon_ordenado['id'], pokemon_ordenado['total'], linewidth=2)
plt.xlabel('ID do Pokémon')
plt.ylabel('Total de Estatísticas')
plt.title('Evolução do Total de Estatísticas por ID')
plt.grid(True, alpha=0.3)
plt.show()

## 3️⃣3️⃣ Pergunta 33: Adicione linha de tendência a gráfico de dispersão

In [None]:
# Gráfico de dispersão com linha de tendência
plt.figure(figsize=(10, 6))
plt.scatter(pokemon_data['attack'], pokemon_data['sp_attack'], alpha=0.6)

# Adicionar linha de tendência
z = np.polyfit(pokemon_data['attack'], pokemon_data['sp_attack'], 1)
p = np.poly1d(z)
plt.plot(pokemon_data['attack'], p(pokemon_data['attack']), "r--", alpha=0.8)

plt.xlabel('Attack')
plt.ylabel('Special Attack')
plt.title('Attack vs Special Attack com Linha de Tendência')
plt.grid(True, alpha=0.3)
plt.show()

## 3️⃣4️⃣ Pergunta 34: Crie boxplot para comparar distribuição entre categorias

In [None]:
# Boxplot: total por tipo primário
plt.figure(figsize=(14, 8))
pokemon_data.boxplot(column='total', by='type1', ax=plt.gca())
plt.xlabel('Tipo Primário')
plt.ylabel('Total de Estatísticas')
plt.title('Distribuição do Total por Tipo Primário')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 3️⃣5️⃣ Pergunta 35: Personalize gráfico com título, legenda e rótulos

In [None]:
# Gráfico personalizado
plt.figure(figsize=(12, 8))

# Dados para o gráfico
tipos = pokemon_data['type1'].value_counts().head(8)
cores = plt.cm.Set3(np.linspace(0, 1, len(tipos)))

bars = plt.bar(range(len(tipos)), tipos.values, color=cores)

# Personalização
plt.title('Top 8 Tipos de Pokémon por Quantidade', fontsize=16, fontweight='bold')
plt.xlabel('Tipo Primário', fontsize=12)
plt.ylabel('Número de Pokémon', fontsize=12)
plt.xticks(range(len(tipos)), tipos.index, rotation=45)

# Adicionar valores nas barras
for i, bar in enumerate(bars):
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height + 0.1,
             f'{int(height)}', ha='center', va='bottom')

plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 3️⃣6️⃣ Pergunta 36: Crie mapa de calor com duas variáveis categóricas

In [None]:
# Mapa de calor: type1 vs type2
heatmap_data = pokemon_data.groupby(['type1', 'type2']).size().unstack(fill_value=0)

plt.figure(figsize=(14, 10))
sns.heatmap(heatmap_data, annot=True, fmt='d', cmap='YlOrRd')
plt.title('Mapa de Calor: Combinações de Tipos Primário e Secundário', fontsize=14)
plt.xlabel('Tipo Secundário')
plt.ylabel('Tipo Primário')
plt.tight_layout()
plt.show()

## 3️⃣7️⃣ Pergunta 37: Combine gráficos usando facet_wrap()

In [None]:
# Múltiplos gráficos usando subplots
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Gráfico 1: Histograma de HP
axes[0, 0].hist(pokemon_data['hp'], bins=15, alpha=0.7, color='skyblue')
axes[0, 0].set_title('Distribuição de HP')
axes[0, 0].set_xlabel('HP')
axes[0, 0].set_ylabel('Frequência')

# Gráfico 2: Histograma de Attack
axes[0, 1].hist(pokemon_data['attack'], bins=15, alpha=0.7, color='lightcoral')
axes[0, 1].set_title('Distribuição de Attack')
axes[0, 1].set_xlabel('Attack')
axes[0, 1].set_ylabel('Frequência')

# Gráfico 3: Histograma de Defense
axes[1, 0].hist(pokemon_data['defense'], bins=15, alpha=0.7, color='lightgreen')
axes[1, 0].set_title('Distribuição de Defense')
axes[1, 0].set_xlabel('Defense')
axes[1, 0].set_ylabel('Frequência')

# Gráfico 4: Histograma de Speed
axes[1, 1].hist(pokemon_data['speed'], bins=15, alpha=0.7, color='gold')
axes[1, 1].set_title('Distribuição de Speed')
axes[1, 1].set_xlabel('Speed')
axes[1, 1].set_ylabel('Frequência')

plt.suptitle('Distribuições das Estatísticas dos Pokémon', fontsize=16)
plt.tight_layout()
plt.show()

## 3️⃣8️⃣ Pergunta 38: Crie função resumo_variavel()

A função deve:
- Receber um dataframe, nome de coluna numérica e parâmetro plot=True
- Retornar resumo estatístico (mínimo, máximo, média, mediana, desvio padrão)
- Se plot=True, exibir histograma usando matplotlib

In [None]:
def resumo_variavel(dataframe, coluna, plot=True):
    """
    Função para resumir uma variável numérica
    
    Parâmetros:
    dataframe: DataFrame do pandas
    coluna: nome da coluna numérica
    plot: se True, exibe histograma
    
    Retorna:
    dicionário com estatísticas descritivas
    """
    # Calcular estatísticas
    stats = {
        'mínimo': dataframe[coluna].min(),
        'máximo': dataframe[coluna].max(),
        'média': dataframe[coluna].mean(),
        'mediana': dataframe[coluna].median(),
        'desvio_padrão': dataframe[coluna].std()
    }
    
    # Exibir resumo
    print(f"📊 Resumo da variável '{coluna}':")
    for stat, value in stats.items():
        print(f"{stat.capitalize()}: {value:.2f}")
    
    # Plotar histograma se solicitado
    if plot:
        plt.figure(figsize=(10, 6))
        plt.hist(dataframe[coluna], bins=20, alpha=0.7, edgecolor='black')
        plt.xlabel(coluna)
        plt.ylabel('Frequência')
        plt.title(f'Histograma da variável {coluna}')
        plt.grid(True, alpha=0.3)
        plt.show()
    
    return stats

# Testar a função
print("🧪 Testando função resumo_variavel():")
resumo_variavel(pokemon_data, 'total', plot=True)

## 3️⃣9️⃣ Pergunta 39: Pipeline com operador pipe (%>%)

Pipeline deve:
- Selecionar três colunas: duas numéricas e uma categórica
- Filtrar linhas sem valores ausentes
- Criar nova coluna (razão entre duas numéricas)
- Agrupar pela variável categórica
- Calcular média, mediana e desvio padrão por grupo
- Reorganizar em formato largo
- Ordenar pela média (decrescente)

In [None]:
# Pipeline completo
pipeline_completo = (pokemon_data
    .loc[:, ['name', 'attack', 'sp_attack', 'type1']]  # Selecionar 3 colunas
    .dropna()  # Filtrar valores ausentes
    .assign(attack_ratio=lambda x: x['attack'] / x['sp_attack'])  # Nova coluna
    .groupby('type1')['attack_ratio']  # Agrupar
    .agg(['mean', 'median', 'std'])  # Calcular estatísticas
    .round(3)  # Arredondar
    .sort_values('mean', ascending=False)  # Ordenar
)

print("🔄 Resultado do pipeline completo:")
print(pipeline_completo.head(10))

## 4️⃣0️⃣ Pergunta 40: Pipeline de processamento

Pipeline deve:
- Selecionar todas as colunas numéricas
- Substituir valores ausentes por 0
- Criar coluna categórica baseada em condição
- Agrupar pela nova coluna categórica
- Calcular média, mediana e máximo de todas as numéricas
- Ordenar pela média de uma coluna escolhida

In [None]:
# Pipeline de processamento
colunas_numericas = ['hp', 'attack', 'defense', 'sp_attack', 'sp_defense', 'speed', 'total']

pipeline_processamento = (pokemon_data
    .loc[:, colunas_numericas]  # Selecionar colunas numéricas
    .fillna(0)  # Substituir valores ausentes por 0
    .assign(power_level=lambda x: np.where(x['total'] > x['total'].mean(), 'Alto', 'Baixo'))  # Nova coluna categórica
    .groupby('power_level')  # Agrupar
    .agg(['mean', 'median', 'max'])  # Calcular estatísticas
    .round(2)  # Arredondar
    .sort_values(('total', 'mean'), ascending=False)  # Ordenar pela média de total
)

print("🔄 Resultado do pipeline de processamento:")
print(pipeline_processamento)

## 4️⃣1️⃣ Pergunta 41: Salvar pipeline como função

a. Salvar pipeline como função em arquivo separado
b. Carregar função do arquivo
c. Passar dataset como argumento e gerar dataset final processado

In [None]:
# Criar arquivo com função do pipeline
pipeline_code = '''
import pandas as pd
import numpy as np

def meu_pipeline(dataframe):
    """
    Pipeline de processamento de dados Pokémon
    
    Parâmetros:
    dataframe: DataFrame do pandas
    
    Retorna:
    DataFrame processado
    """
    colunas_numericas = ['hp', 'attack', 'defense', 'sp_attack', 'sp_defense', 'speed', 'total']
    
    resultado = (dataframe
        .loc[:, colunas_numericas]
        .fillna(0)
        .assign(power_level=lambda x: np.where(x['total'] > x['total'].mean(), 'Alto', 'Baixo'))
        .groupby('power_level')
        .agg(['mean', 'median', 'max'])
        .round(2)
        .sort_values(('total', 'mean'), ascending=False)
    )
    
    return resultado
'''

# Salvar função em arquivo
with open('meu_pipeline.py', 'w', encoding='utf-8') as f:
    f.write(pipeline_code)

print("✅ Função salva em 'meu_pipeline.py'")

# Carregar e usar a função
import sys
sys.path.append('.')
from meu_pipeline import meu_pipeline

# Aplicar pipeline
dataset_final = meu_pipeline(pokemon_data)
print("\n🔄 Dataset final processado:")
print(dataset_final)

## 2️⃣1️⃣ Pergunta 21: Resuma dados de uma coluna numérica usando summarise()

In [None]:
# Resumo estatístico da coluna 'total'
resumo_total = pokemon_data['total'].describe()
print("📊 Resumo estatístico da coluna 'total':")
print(resumo_total)

## 2️⃣2️⃣ Pergunta 22: Agrupe dados por uma variável categórica

In [None]:
# Agrupar por tipo primário
grupo_tipo = pokemon_data.groupby('type1')
print("📊 Dados agrupados por tipo primário:")
print(f"Número de grupos: {len(grupo_tipo)}")
print("\nTipos únicos:")
print(list(grupo_tipo.groups.keys()))

## 2️⃣3️⃣ Pergunta 23: Combine group_by() e summarise() para calcular média por grupo

In [None]:
# Média de total por tipo primário
media_por_tipo = pokemon_data.groupby('type1')['total'].mean().sort_values(ascending=False)
print("📊 Média de total por tipo primário:")
print(media_por_tipo.head(10))

## 2️⃣4️⃣ Pergunta 24: Use pivot_longer() para transformar colunas em linhas

In [None]:
# Transformar colunas de estatísticas em linhas
stats_cols = ['hp', 'attack', 'defense', 'sp_attack', 'sp_defense', 'speed']
pokemon_long = pokemon_data.melt(
    id_vars=['name', 'type1'],
    value_vars=stats_cols,
    var_name='statistic',
    value_name='value'
)
print("📊 Dados transformados (wide to long):")
print(f"Dimensões: {pokemon_long.shape}")
pokemon_long.head(10)

## 2️⃣5️⃣ Pergunta 25: Use pipeline para selecionar, filtrar e ordenar

In [None]:
# Pipeline: selecionar, filtrar e ordenar
pipeline_result = (pokemon_data
    .loc[:, ['name', 'type1', 'total']]  # Selecionar colunas
    .query('total > 500')  # Filtrar
    .sort_values('total', ascending=False)  # Ordenar
)
print("🔄 Resultado do pipeline:")
print(f"Pokémon com total > 500: {len(pipeline_result)}")
pipeline_result.head(10)

## 2️⃣6️⃣ Pergunta 26: Use pivot_wider() para transformar linhas em colunas

In [None]:
# Transformar long para wide
pokemon_wide = pokemon_long.pivot_table(
    index='name',
    columns='statistic',
    values='value',
    fill_value=0
).reset_index()
print("📊 Dados transformados (long to wide):")
print(f"Dimensões: {pokemon_wide.shape}")
pokemon_wide.head()

## 2️⃣7️⃣ Pergunta 27: Aplique drop_na() para remover valores ausentes

In [None]:
# Remover linhas com valores ausentes
pokemon_sem_na = pokemon_data.dropna()
print(f"📊 Linhas originais: {len(pokemon_data)}")
print(f"📊 Linhas após drop_na(): {len(pokemon_sem_na)}")
print(f"📊 Valores ausentes removidos: {len(pokemon_data) - len(pokemon_sem_na)}")

## 2️⃣8️⃣ Pergunta 28: Substitua valores ausentes por 0 em coluna numérica

In [None]:
# Substituir valores ausentes por 0
pokemon_data_filled = pokemon_data.copy()
pokemon_data_filled['type2'] = pokemon_data_filled['type2'].fillna('None')
print("✅ Valores ausentes em 'type2' substituídos por 'None'")
print(f"📊 Valores únicos em type2: {pokemon_data_filled['type2'].nunique()}")

## 2️⃣9️⃣ Pergunta 29: Crie gráfico de dispersão com duas variáveis numéricas

In [None]:
# Gráfico de dispersão: attack vs sp_attack
plt.figure(figsize=(10, 6))
plt.scatter(pokemon_data['attack'], pokemon_data['sp_attack'], alpha=0.6)
plt.xlabel('Attack')
plt.ylabel('Special Attack')
plt.title('Gráfico de Dispersão: Attack vs Special Attack')
plt.grid(True, alpha=0.3)
plt.show()

## 3️⃣0️⃣ Pergunta 30: Crie gráfico de barras de uma variável categórica

In [None]:
# Gráfico de barras: contagem por tipo primário
plt.figure(figsize=(12, 6))
pokemon_data['type1'].value_counts().plot(kind='bar')
plt.xlabel('Tipo Primário')
plt.ylabel('Quantidade')
plt.title('Distribuição de Pokémon por Tipo Primário')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 3️⃣1️⃣ Pergunta 31: Construa histograma de uma variável numérica

In [None]:
# Histograma da coluna 'total'
plt.figure(figsize=(10, 6))
plt.hist(pokemon_data['total'], bins=20, alpha=0.7, edgecolor='black')
plt.xlabel('Total de Estatísticas')
plt.ylabel('Frequência')
plt.title('Distribuição do Total de Estatísticas dos Pokémon')
plt.grid(True, alpha=0.3)
plt.show()

## 3️⃣2️⃣ Pergunta 32: Crie gráfico de linha para evolução de variável ao longo do tempo

In [None]:
# Gráfico de linha: evolução do total por ID (simulando tempo)
plt.figure(figsize=(12, 6))
pokemon_ordenado = pokemon_data.sort_values('id')
plt.plot(pokemon_ordenado['id'], pokemon_ordenado['total'], linewidth=2)
plt.xlabel('ID do Pokémon')
plt.ylabel('Total de Estatísticas')
plt.title('Evolução do Total de Estatísticas por ID')
plt.grid(True, alpha=0.3)
plt.show()

## 3️⃣3️⃣ Pergunta 33: Adicione linha de tendência a gráfico de dispersão

In [None]:
# Gráfico de dispersão com linha de tendência
plt.figure(figsize=(10, 6))
plt.scatter(pokemon_data['attack'], pokemon_data['sp_attack'], alpha=0.6)

# Adicionar linha de tendência
z = np.polyfit(pokemon_data['attack'], pokemon_data['sp_attack'], 1)
p = np.poly1d(z)
plt.plot(pokemon_data['attack'], p(pokemon_data['attack']), "r--", alpha=0.8)

plt.xlabel('Attack')
plt.ylabel('Special Attack')
plt.title('Attack vs Special Attack com Linha de Tendência')
plt.grid(True, alpha=0.3)
plt.show()

## 3️⃣4️⃣ Pergunta 34: Crie boxplot para comparar distribuição entre categorias

In [None]:
# Boxplot: total por tipo primário
plt.figure(figsize=(14, 8))
pokemon_data.boxplot(column='total', by='type1', ax=plt.gca())
plt.xlabel('Tipo Primário')
plt.ylabel('Total de Estatísticas')
plt.title('Distribuição do Total por Tipo Primário')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 3️⃣5️⃣ Pergunta 35: Personalize gráfico com título, legenda e rótulos

In [None]:
# Gráfico personalizado
plt.figure(figsize=(12, 8))

# Dados para o gráfico
tipos = pokemon_data['type1'].value_counts().head(8)
cores = plt.cm.Set3(np.linspace(0, 1, len(tipos)))

bars = plt.bar(range(len(tipos)), tipos.values, color=cores)

# Personalização
plt.title('Top 8 Tipos de Pokémon por Quantidade', fontsize=16, fontweight='bold')
plt.xlabel('Tipo Primário', fontsize=12)
plt.ylabel('Número de Pokémon', fontsize=12)
plt.xticks(range(len(tipos)), tipos.index, rotation=45)

# Adicionar valores nas barras
for i, bar in enumerate(bars):
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height + 0.1,
             f'{int(height)}', ha='center', va='bottom')

plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 3️⃣6️⃣ Pergunta 36: Crie mapa de calor com duas variáveis categóricas

In [None]:
# Mapa de calor: type1 vs type2
heatmap_data = pokemon_data.groupby(['type1', 'type2']).size().unstack(fill_value=0)

plt.figure(figsize=(14, 10))
sns.heatmap(heatmap_data, annot=True, fmt='d', cmap='YlOrRd')
plt.title('Mapa de Calor: Combinações de Tipos Primário e Secundário', fontsize=14)
plt.xlabel('Tipo Secundário')
plt.ylabel('Tipo Primário')
plt.tight_layout()
plt.show()

## 3️⃣7️⃣ Pergunta 37: Combine gráficos usando facet_wrap()

In [None]:
# Múltiplos gráficos usando subplots
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Gráfico 1: Histograma de HP
axes[0, 0].hist(pokemon_data['hp'], bins=15, alpha=0.7, color='skyblue')
axes[0, 0].set_title('Distribuição de HP')
axes[0, 0].set_xlabel('HP')
axes[0, 0].set_ylabel('Frequência')

# Gráfico 2: Histograma de Attack
axes[0, 1].hist(pokemon_data['attack'], bins=15, alpha=0.7, color='lightcoral')
axes[0, 1].set_title('Distribuição de Attack')
axes[0, 1].set_xlabel('Attack')
axes[0, 1].set_ylabel('Frequência')

# Gráfico 3: Histograma de Defense
axes[1, 0].hist(pokemon_data['defense'], bins=15, alpha=0.7, color='lightgreen')
axes[1, 0].set_title('Distribuição de Defense')
axes[1, 0].set_xlabel('Defense')
axes[1, 0].set_ylabel('Frequência')

# Gráfico 4: Histograma de Speed
axes[1, 1].hist(pokemon_data['speed'], bins=15, alpha=0.7, color='gold')
axes[1, 1].set_title('Distribuição de Speed')
axes[1, 1].set_xlabel('Speed')
axes[1, 1].set_ylabel('Frequência')

plt.suptitle('Distribuições das Estatísticas dos Pokémon', fontsize=16)
plt.tight_layout()
plt.show()

## 3️⃣8️⃣ Pergunta 38: Crie função resumo_variavel()

A função deve:
- Receber um dataframe, nome de coluna numérica e parâmetro plot=True
- Retornar resumo estatístico (mínimo, máximo, média, mediana, desvio padrão)
- Se plot=True, exibir histograma usando matplotlib

In [None]:
def resumo_variavel(dataframe, coluna, plot=True):
    """
    Função para resumir uma variável numérica
    
    Parâmetros:
    dataframe: DataFrame do pandas
    coluna: nome da coluna numérica
    plot: se True, exibe histograma
    
    Retorna:
    dicionário com estatísticas descritivas
    """
    # Calcular estatísticas
    stats = {
        'mínimo': dataframe[coluna].min(),
        'máximo': dataframe[coluna].max(),
        'média': dataframe[coluna].mean(),
        'mediana': dataframe[coluna].median(),
        'desvio_padrão': dataframe[coluna].std()
    }
    
    # Exibir resumo
    print(f"📊 Resumo da variável '{coluna}':")
    for stat, value in stats.items():
        print(f"{stat.capitalize()}: {value:.2f}")
    
    # Plotar histograma se solicitado
    if plot:
        plt.figure(figsize=(10, 6))
        plt.hist(dataframe[coluna], bins=20, alpha=0.7, edgecolor='black')
        plt.xlabel(coluna)
        plt.ylabel('Frequência')
        plt.title(f'Histograma da variável {coluna}')
        plt.grid(True, alpha=0.3)
        plt.show()
    
    return stats

# Testar a função
print("🧪 Testando função resumo_variavel():")
resumo_variavel(pokemon_data, 'total', plot=True)

## 3️⃣9️⃣ Pergunta 39: Pipeline com operador pipe (%>%)

Pipeline deve:
- Selecionar três colunas: duas numéricas e uma categórica
- Filtrar linhas sem valores ausentes
- Criar nova coluna (razão entre duas numéricas)
- Agrupar pela variável categórica
- Calcular média, mediana e desvio padrão por grupo
- Reorganizar em formato largo
- Ordenar pela média (decrescente)

In [None]:
# Pipeline completo
pipeline_completo = (pokemon_data
    .loc[:, ['name', 'attack', 'sp_attack', 'type1']]  # Selecionar 3 colunas
    .dropna()  # Filtrar valores ausentes
    .assign(attack_ratio=lambda x: x['attack'] / x['sp_attack'])  # Nova coluna
    .groupby('type1')['attack_ratio']  # Agrupar
    .agg(['mean', 'median', 'std'])  # Calcular estatísticas
    .round(3)  # Arredondar
    .sort_values('mean', ascending=False)  # Ordenar
)

print("🔄 Resultado do pipeline completo:")
print(pipeline_completo.head(10))

## 4️⃣0️⃣ Pergunta 40: Pipeline de processamento

Pipeline deve:
- Selecionar todas as colunas numéricas
- Substituir valores ausentes por 0
- Criar coluna categórica baseada em condição
- Agrupar pela nova coluna categórica
- Calcular média, mediana e máximo de todas as numéricas
- Ordenar pela média de uma coluna escolhida

In [None]:
# Pipeline de processamento
colunas_numericas = ['hp', 'attack', 'defense', 'sp_attack', 'sp_defense', 'speed', 'total']

pipeline_processamento = (pokemon_data
    .loc[:, colunas_numericas]  # Selecionar colunas numéricas
    .fillna(0)  # Substituir valores ausentes por 0
    .assign(power_level=lambda x: np.where(x['total'] > x['total'].mean(), 'Alto', 'Baixo'))  # Nova coluna categórica
    .groupby('power_level')  # Agrupar
    .agg(['mean', 'median', 'max'])  # Calcular estatísticas
    .round(2)  # Arredondar
    .sort_values(('total', 'mean'), ascending=False)  # Ordenar pela média de total
)

print("🔄 Resultado do pipeline de processamento:")
print(pipeline_processamento)

## 4️⃣1️⃣ Pergunta 41: Salvar pipeline como função

a. Salvar pipeline como função em arquivo separado
b. Carregar função do arquivo
c. Passar dataset como argumento e gerar dataset final processado

In [None]:
# Criar arquivo com função do pipeline
pipeline_code = '''
import pandas as pd
import numpy as np

def meu_pipeline(dataframe):
    """
    Pipeline de processamento de dados Pokémon
    
    Parâmetros:
    dataframe: DataFrame do pandas
    
    Retorna:
    DataFrame processado
    """
    colunas_numericas = ['hp', 'attack', 'defense', 'sp_attack', 'sp_defense', 'speed', 'total']
    
    resultado = (dataframe
        .loc[:, colunas_numericas]
        .fillna(0)
        .assign(power_level=lambda x: np.where(x['total'] > x['total'].mean(), 'Alto', 'Baixo'))
        .groupby('power_level')
        .agg(['mean', 'median', 'max'])
        .round(2)
        .sort_values(('total', 'mean'), ascending=False)
    )
    
    return resultado
'''

# Salvar função em arquivo
with open('meu_pipeline.py', 'w', encoding='utf-8') as f:
    f.write(pipeline_code)

print("✅ Função salva em 'meu_pipeline.py'")

# Carregar e usar a função
import sys
sys.path.append('.')
from meu_pipeline import meu_pipeline

# Aplicar pipeline
dataset_final = meu_pipeline(pokemon_data)
print("\n🔄 Dataset final processado:")
print(dataset_final)