# Projeto 1 - Coleta e Organização de Dados

## Tema: Pokémon

### Integrantes:


- Luiz Felipe Fernandes Machado Costa - 24343
- Jesuel Souza Dias - 27444
- Rodrigo Toshiaki Horie - 26620
- Tássio Silva - 2017005507

## Perguntas:

- Qual tipo de Pokémon mais comum?
- Qual a taxa de Pokémon de tipo único?
- Qual a taxa de Pokémon lendário?
- Qual a geração que mais possui Pokémon?


## Coleta dos dados

Neste projeto o grupo utilizará a população de Pokémon existentes para analisar seus dados. Os dados foram obtidos de https://github.com/lgreski/pokemonData/blob/master/Pokemon.csv e podem ser conferidos quanto sua veracidade em https://www.serebii.net/pokedex-sm/ e https://bulbapedia.bulbagarden.net/wiki/Main_Page dando credibilidade aos dados. 


## Variáveis do Conjunto de Dados
Este conjunto de dados possui algumas variáveis que podem parecer confusos. Para evitar este problema serão explicadas cada uma delas a seguir:
- __Number:__ é o número de identificação de cada Pokémon. É como um ID. (Tipo: int)
- __Name:__ é o nome de cada Pokémon. Este nome também indica se é ou não uma Mega evolução. (Tipo: string)
- __Type1:__ é o tipo do Pokémon. Todo Pokémon possui ao menos um tipo. (Tipo: string)
- __Type2:__ é o segundo tipo do Pokémon. Nem todo Pokémon possui 2 tipos. (Tipo: string)
- __Total:__ É a somatório dos atributos de base utilizados para determinar os atributos de combate do Pokémon. (Tipo: int)
- __HP:__ É o atributo de base para se calcular o atributo Vida do Pokémon. (Tipo: int)
- __Attack:__ É o atributo de base para se calcular o atributo Ataque do Pokémon. (Tipo: int)
- __Defense:__ É o atributo de base para se calcular o atributo Defesa do Pokémon. (Tipo: int)
- __SpecialAtk:__ É o atributo de base para se calcular o atributo Ataque Especial do Pokémon. (Tipo: int)
- __SpecialDef:__ É o atributo de base para se calcular o atributo Defesa Especial do Pokémon. (Tipo: int)
- __Speed:__ É o atributo de base para se calcular o atributo Velocidade do Pokémon. (Tipo: int)
- __Generation:__ Indica a qual geração cada Pokémon pertence. (Tipo: int)
- __Legendary:__ Indica se o Pokémon é ou não lendário. (Tipo: boolean)


## Considerações

Este conjunto de dados possui todos os Pokémon lançados até a data de realização deste Projeto (31/08/2018) e contém todas as espécies de Pokémon, considerando também Mega Evoluções como novas espécies. Um Mega Venusaur é portanto interpretado como uma nova espécie em relação a um Venusaur. Os dados foram tratados dessa forma por se tratar de um Pokémon com stats diferentes e, muitas vezes, com composição de tipos diferentes de suas versões originais.

## Exploração dos dados

Os dados serão importados a seguir.

In [156]:
# Importa bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


In [157]:
# Cria dataframe com os dados de "Pokemon.csv"
df = pd.read_csv('Pokemon.csv')

Testa-se agora se os dados foram importados de forma correta.

In [158]:
# Imprime primeiras linhas para verificar dados
df.head()

Unnamed: 0,Number,Name,Type1,Type2,Total,HP,Attack,Defense,SpecialAtk,SpecialDef,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


Colunas e Linhas aparecem como esperado.

Verifica-se então agora se há dados faltantes.

In [159]:
# Imprime informações sobre o conjunto de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 894 entries, 0 to 893
Data columns (total 13 columns):
Number        894 non-null int64
Name          894 non-null object
Type1         894 non-null object
Type2         473 non-null object
Total         894 non-null int64
HP            894 non-null int64
Attack        894 non-null int64
Defense       894 non-null int64
SpecialAtk    894 non-null int64
SpecialDef    894 non-null int64
Speed         894 non-null int64
Generation    894 non-null int64
Legendary     894 non-null bool
dtypes: bool(1), int64(9), object(3)
memory usage: 84.8+ KB


Pode-se observar que apenas os dados da coluna Type2 estão faltando. Porém, no contexto do jogo, existem Pokémon que possuem apenas um tipo, enquanto outros podem compor até dois tipos simultaneamente, portanto, estes dados não indicam problemas no conjunto de dados, mesmo que aparecendo valores nulos. Apenas pode-se confirmar que valores nulos em Type2 indicam que o Pokémon em questão só possui um tipo.

Deste conjunto de dados serão desconsideradas as colunas Total, Attack, Defense, SpecialAtk, SpecialDef e Speed, pois tratam-se de parâmetros para delimitar atributos de batalha de cada Pokémon. Algo que não é de interesse deste projeto. Por isso elas serão excluídas do conjunto de dados.

In [160]:
df.drop(['Total', 'HP', 'Attack', 'Defense', 'SpecialAtk', 'SpecialDef', 'Speed'], axis=1, inplace=True)

Agora verificando as colunas que sobraram no conjunto de dados.

In [161]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 894 entries, 0 to 893
Data columns (total 6 columns):
Number        894 non-null int64
Name          894 non-null object
Type1         894 non-null object
Type2         473 non-null object
Generation    894 non-null int64
Legendary     894 non-null bool
dtypes: bool(1), int64(2), object(3)
memory usage: 35.9+ KB


Com os dados considerados desnecessários, passamos para a próxima etapa.

## Exploração dos dados

Agora serão abordados métodos para encontrar respostas para as perguntas feitas inicialmente.

### Pergunta 1: Qual o tipo de  Pokémon mais comum?

Para responder esta pergunta, precisa-se apenas realizar a contagem de Pokémon com mesmo tipo, tanto para a coluna Type1 e Type2. Considerando que não existem Pokémon com tipos repetidos (ex: não existe um Pokémon de Type1: Water e Type2: Water) não é ncessário se preocupar com interseção no conjunto de dados entre essas duas colunas.

Para identificar os diferentes tipos, separaremos os valores únicos da coluna Type1. É considerada desnecessária a visualização para o Type2 por sempre existir no mínimo um Pokémon com tipo único para todos os tipos

In [162]:
# Identifica-se os diferentes tipos de Pokémon
types_df = df['Type1'].unique()

print(types_df)

['Grass' 'Fire' 'Water' 'Bug' 'Normal' 'Poison' 'Electric' 'Ground'
 'Fairy' 'Fighting' 'Psychic' 'Rock' 'Ghost' 'Ice' 'Dragon' 'Dark' 'Steel'
 'Flying']


A linha acima determina cada tipo existente de Pokémon. 
Com estes dados, pode-se agora eliminar informações desnecessárias e em seguida agrupar as informações restantes em um único conjunto de dados e excluindo valores nulos (Type2 = nulo).

In [163]:
# Cria-se dois dataframes que incorporam as ocorrências de Type1 e Type2 e exclui informações desnecessárias
type1_df = df.copy()
type1_df.drop(['Number','Name', 'Type2', 'Generation', 'Legendary'], axis=1, inplace=True)
type1_df.columns = ['Type']
type2_df = df.copy()
type2_df.drop(['Number','Name', 'Type1', 'Generation', 'Legendary'], axis=1, inplace=True)
type2_df.columns = ['Type']

type_total_df = type1_df.append(type2_df, ignore_index=True, sort=False)

# Renomeia coluna
# type_total_df.columns = ['Type']

# Remove-se a ocorrência de Type2 nulos

type_total_df.dropna(inplace=True)
type_total_df


Unnamed: 0,Type
0,Grass
1,Grass
2,Grass
3,Grass
4,Fire
5,Fire
6,Fire
7,Fire
8,Fire
9,Water


Agora é possível agrupar e então contar a ocorrência para todos os tipos e determinar quais tipos são os mais e menos comuns.

In [171]:
type_qnt = type_total_df.groupby(['Type']).size()

type_qnt


Type
Bug          83
Dark         52
Dragon       58
Electric     57
Fairy        51
Fighting     63
Fire         72
Flying      112
Ghost        55
Grass       108
Ground       71
Ice          39
Normal      114
Poison       69
Psychic     102
Rock         65
Steel        56
Water       140
dtype: int64

## Pergunta 2: Qual a taxa de Pokémon de tipo único?

Agora será investigado quantos Pokémon possuem apenas um tipo. Isso significa que, neste conjunto de dados, Type2 = nulo.
Para separar estes valores, então pegamos estes valores nulos e excluímos em um novo conjunto de dados e contamos os valores restantes.

In [165]:
# Conta quantos Pokémon possuem Type2 nulos. Isso indica que o Pokémon possui um único tipo.
unique = df['Type2'].isnull().sum()
print("Quantidade de Pokémon de tipo único:", unique)

Quantidade de Pokémon de tipo único: 421


Para encontrar a taxa de Pokémon de tipo único é necessário apenas dividir a quantidade de Pokémon com tipo único pela quantidade total de Pokémon.

In [166]:
# Conta quantas linhas o conjunto de dados possui. Subtrai-se 1 para excluir a linha que contém os títulos de cada coluna.
total_mon = len(df.index)-1

# Calcula a taxa de Pokémon com tipo único em relação ao total de Pokémon
unique_rate = unique/total_mon
print("Taxa de Pokémon de tipo único:", unique_rate)

Taxa de Pokémon de tipo único: 0.47144456886898095


## Pergunta 3: Qual a taxa de Pokémon lendário?

Para encontrar a taxa de lendários ocorrerá um processo semelhante ao anterior. Dessa vez será considerada apenas a coluna "Legendary" para determinar então o número de ocorrências de Pokémon lendário em relação à população do conjunto de dados.

In [167]:
# Conta quantos Pokémon são lendários
lend_count = df.copy()

lend_count.drop(['Number','Name', 'Type1' , 'Type2', 'Generation'], axis=1, inplace=True)
lend_count = lend_count[lend_count['Legendary'] == True]['Legendary'].count()
print("Contagem de Pokémon lendário:", lend_count)

Contagem de Pokémon lendário: 79


In [168]:
# Calcula a taxa de Pokémon com tipo único em relação ao total de Pokémon
legend_rate = lend_count/total_mon
print("Taxa de Pokémon de tipo único:", legend_rate)

Taxa de Pokémon de tipo único: 0.08846584546472565


## Pergunta 4: Qual a geração que mais possui Pokémon?

Este pergunta pode ser respondida pegando o conjunto de dados, excluindo as informações desnecessárias para esta pergunta e agrupando o número de ocorrências por "Generation". Dessa forma pode-se conhecer quais gerações mais possuem novas espécies de Pokémon. 

In [172]:
# Copia o conjunto de dados contendo apenas a quantidade por geração 
gen_df = df.copy()

# Exclui colunas indesejadas
gen_df.drop(['Name', 'Type1', 'Type2', 'Legendary'], axis=1, inplace=True)

# Agrupa os dados por geração
gb_df = gen_df.groupby(['Generation']).count()
print(gb_df)

            Number
Generation        
1              166
2              106
3              160
4              121
5              165
6               82
7               94
