# **Case Avançado Hype 2024.1**

## Introdução 

Os membros da diretoria do Hype, de vez em quando, escolhem um jogo para jogarem juntos. O jogo escolhido da vez foi "Pokémon Omega Ruby / Alpha Sapphire", mais comumente chamado de "Pokémon ORAS".

Uma das atividades mais queridas entre os jogadores de Pokémon está a captura de todos os monstrinhos, porém trata-se de uma tarefa bem árdua dependendo do jogo da franquia. No caso de ORAS, estamos falando de mais de 700 pokémon.

Tendo em vista a dificuldade de capturar mais de 700 pokémon, os membros da diretoria decidiram dividir entre eles os pokémon para serem capturados. De forma que, juntando o pokémon de todos eles, teriam todos os pokémon do jogo. Porém, como fazer essa divisão?  

Durante uma confraternização do Hype, a diretoria citou o desafio da divisão dos pokémon entre os outros membros do Hype, porém ninguém soube dar uma boa resposta para a pergunta. Após alguns dias, chegou um email misterioso na caixa de entrada do Hype com um conjunto de dados que havia as características dos pokémon e quem deveria capturar aquele pokémon.

Os membros da diretoria, estupefatos com a mensagem, começaram a se perguntar qual era a lógica por trás daquela divisão e, caso aquela divisão fosse coerente, como eles poderiam criar um classificador para usar em aventuras pokémon futuras. 

## Instruções

O case tem como objetivo verificar se o candidato tem conhecimento o suficiente para fazer um projeto de classificação de dados utilizando algoritmos de Machine Learing. O notebook abaixo dá as instruções do que deve ser feito em cada etapa do projeto.

Você deve escrever seus códigos nas células indicadas. Pode inserir quantas célular achar necessário, mas não altere a ordem das resoluções.

Além da corretude, será avaliado também a organização e a lógica utilizada. O candidato deve deixar claro os motivos das escolhas que fizer no projeto (porque aplicou algum tratamento, algoritmo ou por que utilizou as variáveis que utilizou).

Entregas incompletas também serão aceitas. Os avaliadores irão analisar cada situação, então se não conseguir fazer tudo recomendamos que submeta o case mesmo assim.

### Sua tarefa para esse case

Sua tarefa consiste em entender o conjunto de dados e criar um classificador que consiga indicar qual membro da gestão deve capturar um pokémon. Para isso, seu trabalho será divido em 5 tarefas:

1. "Responda as questões": responda algumas perguntas de análise premilinar sobre o conjunto de dados utilizando pandas e numpy.

2. "Visualização dos dados": crie gráficos que respondam algumas questões sobre o conjunto de dados 

3. "Preparação de dados": faça a limpeza e preparação dos dados; testar métodos de normalização e padronização, conforme necessário. Além disso, deve discutir e/ou abordar o tratamento de dados ausentes e duplicados.

4. "Aplicação e otimização do modelo": crie um classicador que consiga indicar com base nas características do pokémon quem deveria capturá-lo, detalhando o processo de treinamento.

5. "Avaliação": avalie o classificador criado, utilizando diferentes métricas de avaliação. A interpretação dos resultados deve ser clara, permitindo que se compreenda o desempenho do modelo em diferentes aspectos.

Mais detalhes das tarefas estão no decorrer do notebook.

### Sobre o Conjunto de Dados 

O dataset possui as seguintes colunas:


- #: Número de indentificação do pokémon 
- Name: Nome do pokémon
- Type 1: Tipo primário do pokémon
- Type 2: Tipo secundário do pokémon
- HP: "hit points", ou seja, a quantidade de dano que o pokémon pode sofrer antes de ser derrotado 
- Attack: poder de ataque do pokémon
- Defense: poder de defesa do pokémon
- SP Atk: poder de ataque especial do pokémon
- SP Def: poder de defesa especial do pokémon
- Speed: determina qual pokémon ataca primeiro em cada rodada
- Total: soma de todos os stats do pokémon. Stats são o HP, Attack, Defense, Sp. Atk, Sp. Def e Speed
- Generation: geração do pokémon. Ao lançar um novo jogo principal de pokémon, vem uma nova leva de Pokémon que formam uma nova geração. Temos 6 gerações contempladas nesse conjunto.
- Legendary: indica se o pokémon é lendário ou não.
- Dono: um indicativo de quem deveria capturar o pokémon dentre os membros da diretoria do Hype.


## Setup 

Antes de iniciar as tarefas, vamos setar algumas coisas:

Na célula abaixo, importe todas as bibliotecas que você utilizará no case. Não faça imports fora além dessa célula, por favor.

In [3]:
# coloque aqui os seus import
import pandas as pd

Abaixo há a leitura do conjunto de dados. Não leia nenhum conjunto de dados além desse e não altere a forma de leitura do dataset.

In [4]:
# leitura do dataset
pkmn = pd.read_csv('dataset/pokemon_hype.csv')

In [5]:
# visualização das 5 primeiras linhas
pkmn.head()

Unnamed: 0.1,Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Dono
0,0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,Thomaz
1,1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,Becky
2,2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,Becky
3,3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,Isa
4,4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,Thomaz


## Tarefas

Abaixo, em cada seção, realize as tarefas. Boa sorte!!!

### **Seção 1: Respondas as questões**

Com base no conjunto de dados, responda as perguntas abaixo utilizando Pandas ou Numpy para obter os resultados. Coloque seu código na célula marcada com "### Seu código" e sua resposta após o "Resposta". Fique a vontade para criar mais células para o seu código caso ache necessário.

O item "a" é um exemplo de resposta

#### a. Dentre os pokémon de Fogo como 'Type 1', qual porcentagem deles são lendários? (Exemplo)

In [6]:
### Seu código
pkmn_fogo = pkmn[pkmn['Type 1'] == 'Fire']
pkmn_fogo_lendario = pkmn_fogo[pkmn['Legendary'] == 1]

len(pkmn_fogo_lendario)/len(pkmn_fogo)

  pkmn_fogo_lendario = pkmn_fogo[pkmn['Legendary'] == 1]


0.09615384615384616

Resposta: aproximadamente 0.096

#### b. Quantos pokémon existem com o tipo primário ("Type 1") "Fire" ? E como tipo segundário? 

In [7]:
### Seu código
len(pkmn_fogo)

52

In [8]:
### Seu código
pkmn_fogo_secundario = pkmn[pkmn['Type 2'] == 'Fire']
len(pkmn_fogo_secundario)

12

#### c. Dentre os pokémon da 5ª geração que não possuem tipo fogo como tipo primário, nem como tipo secundário, qual possui a maior defesa?

In [9]:
### Seu código
pkmn_gen5 = pkmn[pkmn['Generation'] == 5]
pkmn_gen5_naofogo = pkmn_gen5[(pkmn_gen5['Type 1'] != 'Fire') & (pkmn_gen5['Type 2'] != 'Fire')]
pkmn_gen5_naofogo_maior_defesa = pkmn_gen5_naofogo[pkmn_gen5_naofogo['Defense'] == pkmn_gen5_naofogo['Defense'].max()]

pkmn_gen5_naofogo_maior_defesa.Name

624    Cofagrigus
Name: Name, dtype: object

Resposta: Cofagrigus

#### d. Qual a geração de pokémon que possui a maior média de ataque entre os lendários?

In [20]:
### Seu código
geracoes = pkmn.groupby('Generation')
geracao_com_maior_ataque = geracoes['Attack'].mean().idxmax()

int(geracao_com_maior_ataque)

4

Resposta: 4

#### e. Em relação aos donos dos pokémon, responda as seguintes perguntas:
- Qual dono tem a maior média entre os "total" dos pokémon?
- Qual dono possui mais pokémon lendários?
- Escolha um dos donos e diga qual geração ele possui mais pokémon.

In [8]:
### Seu código
donos = pkmn.groupby('Dono')
dono_com_maior_media_total = donos['Total'].mean().idxmax()
print(dono_com_maior_media_total)


Isa


In [32]:
### Seu código
dono_com_mais_lendarios = donos['Legendary'].sum().idxmax()
print(dono_com_mais_lendarios)

Isa


In [11]:
### Seu código

## Vou escolher a Isa!!!
Isa = donos.get_group('Isa')
geracoes_isa = Isa.groupby('Generation')
geracao_mais_pokemon_isa = geracoes_isa.count().idxmax()

int(geracao_mais_pokemon_isa.iloc[0])


3

### **Seção 2: Visualização de Dados**

Nessa seção, crie gráficos que respondam as seguintes perguntas:

a. Quais variáveis são mais correlacionadas?

b. Escolha 1 stat e responda a seguinte pergunta: a distribuição desse stat varia dependendo do dono? Dica: utilize box-plots ou histogramas.

c. Escolha 2 stats (pode repetir o da pergunta anterior) e responda a seguinte pergunta: considerando esses 2 stats, é possível distinguir através do gráfico os donos? Dica: utilize graficos de dispensão.

Fique a vontade para usar quantos gráficos achar necessário para responder as perguntas. Você pode usar 1 ou diversos gráficos para responder. Também fique a vontade para criar gráficos que descrevam o conjunto de dados além das perguntas feitas. Sugerimos as bibliotecas matplotlib e seaborn.

Além dos gráficos, é importante que escreva a sua interpretação do gráfico e o que ele diz sobre a pergunta feita.

#### Pergunta a.

In [None]:
### Seu código

#### Pergunta b.

In [None]:
### Seu código

#### Pergunta c.

In [None]:
### Seu código

### **Seção 3: Preparação de dados**

Antes de implementar o seu modelo de machine learning, faça o pré-processamento necessário para os seus dados. Tópicos importantes a serem resolvidos nessa seção são: 

- Tratamento de dados nulos
- Normalização de variáveis numéricas
- Transformação de variáveis categoricas em numéricas 
- Seleção de features

Não necessáriamente os tópicos acima devem ser resolvidos. Pode ser que o algoritmo de machine learning que você escolha não necessite dos tratamentos acima para funcionar ou para melhorar o desempenho. Porém, caso fosse necessário e você não realizou o tratamento, será descontado pontos.

Além dos tópicos acima, faça os tratamentos que julgar necessário.

#### Dados nulos

In [None]:
### Seu código

#### One hot encoding

In [None]:
### Seu código

#### Normalização

In [None]:
### Seu código

#### Seleção de features

In [None]:
### Seu código

### **Seção 4: Aplicação e Otimização do modelo**

Nessa seção, você deverá criar, treinar e testar um classificador que prediz o dono com base nas características do pokémon. Para isso, você deverá:

- Dividir o conjunto em treino e teste.
- Escolher um algoritmo de machine learning. Exemplos: Random Forest, KNN, Decision Tree, MLP.
- Treinar o modelo com os dados de treino.
- Predizer a label a partir das features de teste.
- Utilizar algum método para ajustar os hiperparâmetros. Discuta as melhorias obtidas.

#### Separação Treino e Teste

In [None]:
### Seu código

#### Aplicação do modelo

In [None]:
### Seu código

#### Hyperparameter Tuning

In [None]:
### Seu código

#### **Seção 5: Avaliação**

Avaliar o desempenho do modelo é crucial. Utilize pelo menos 3 métricas para essa avaliação, detalhando-as. O que as métricas indicam sobre o desempenho do seu modelo? Dica de métricas: acurácia e revocação.

In [None]:
### Seu código