# Análise do dataset Pokémon

## Contextualização

Análise inicial do dataset, onde algumas perguntas devem ser respondidas.

## Obtenção de dados

In [None]:
# needed packages
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [None]:
# load dataset
df = pd.read_csv("../dataset/processed/pokemon.csv")

## Análise exploratória

In [None]:
# show df head
df.head()

In [None]:
# show df tail
df.tail()

De acordo com a fonte dos dados, essa é a descrição de cada uma das variáveis presentes no dataset.

`#`: ID para cada Pokémon  
`name`: Nome de cada Pokémon  
`type_1`: Tipo primário do Pokémon  
`type_2`: Alguns Pokémons tem um tipo secundário  
`total`: A soma de todos atributos, quanto maior o total, mais forte é o Pokémon  
`hp`: Vida, é o que define quanto de dano ele recebe antes de desmaiar  
`atk`: Valor de dano do ataque fisíco  
`def`: Valor de resistência a ataque fisíco  
`sp_atk`: Valor de dano do ataque especiais  
`sp_def`: Valor de resistência a ataque especiais  
`speed`: A velocidade de um Pokémon determina se ele ataca ou é atacado primeiro.  
`gen`: Indica qual a geração do Pokémon  
`ledendary`: Indica se ele é lendário  

In [None]:
# verificando as dimensões
print('Variáveis: ', df.shape[1])
print('Entradas: ', df.shape[0])

In [None]:
# verificando as informações sobre o dataset
df.info()

A partir da função `describe()` podemos ver a distribuição estatística das variáveis. Tiramos informações como:

`count` - Contagem de entradas válidas para cada variável  
`mean` - Média aritmética dos valores da variável  
`std` - Desvio padrão  
`min` - Menor valor existente para a variável  
`25%` - Primeiro quartil  
`50%` - Mediana  
`75%` - Terceiro quartil  
`max` - MAior valor existente para a variável  

In [None]:
# distribuição estatística das variáveis numéricas
df.describe()

Passado o argumento `include='O'`, para que busca de variáveis categóricas.

`count` - Contagem de entradas válidas para a variável  
`unique` - Quantidade de entradas únicas  
`top` - Entrada mais comum  
`freq` - Frequência em que a entrada mais comum ocorre  

In [None]:
# distribuição estatística das variáveis categóricas
df.describe(include='O')

As entradas mais comuns são:

`Name`: Bulbasaur  
`Type1`: Water  
`Type2`: Flying  

In [None]:
# checando a porcentagem de valores ausentes para cada variável
(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

In [None]:
# plot missing values
df.isnull().sum().sort_values(ascending=False).plot(
  kind="bar",
  figsize = (15,6),
  fontsize = 10
)

plt.title("Total Missing Values", fontsize = 20)
plt.xlabel("Columns name", fontsize = 20)
plt.ylabel("Missing values", fontsize = 20)

Na verificação de valores nulos, apenas o atributo `Type2` tem valores ausentes, mas, que é explicavel já que nem todo Pokémon tem um tipo secundário.

Qual o tipo de distribuição das variáveis?

In [None]:
# excluindo o numero da pokedéx
df_hist = df.drop(["#"], axis=1)

df_hist.hist(bins=20, figsize=(20,15))

## Conclusão

O dataset está bem completo, podendo assim ir para a análise univariada.