# Análise de dados

- Importando módulos

In [1]:
import pandas as pd
import numpy as np

- Importando dados tratados

In [2]:
# tipos dos pokemons
df_pk_types = pd.read_csv('./data/pk_types.csv', sep=';')

### Etapa de análises

- Contando pokemons por tipo primário

In [3]:
counted_pk_type1 = df_pk_types['Type 1'].value_counts()
print(counted_pk_type1)

Type 1
Water       112
Normal       98
Grass        70
Bug          69
Psychic      57
Fire         52
Electric     44
Rock         44
Dragon       32
Ground       32
Ghost        32
Dark         31
Poison       28
Steel        27
Fighting     27
Ice          24
Fairy        17
Flying        4
Name: count, dtype: int64


Acima foi possível perceber que o tipo primário com maior incidência é o aquático e que o tipo voador raramente aparece como tipo primário.

- Baseado no resultado acima, surgiram novos questionamentos. Qual a maior incidência no tipo secundário e qual a maior contando ambos? Por fim, qual a frequência relativa para todos os resultados obtidos?

- Contando pokemons por tipo secundário

In [4]:
counted_pk_type2 = df_pk_types['Type 2'].value_counts()
print(counted_pk_type2)

Type 2
Flying      97
Ground      35
Poison      34
Psychic     33
Fighting    26
Grass       25
Fairy       23
Steel       22
Dark        20
Dragon      18
Water       14
Ghost       14
Ice         14
Rock        14
Fire        12
Electric     6
Normal       4
Bug          3
Name: count, dtype: int64


Agora é possível observar que justamente pelo tipo voador ser o de menor predominância como tipo primário e por ter a maior incidência entre os tipos secundários, existem pokemons de diversos tipos primários que também são voadores.

- Unindo o resultado das contagens

In [5]:
union_types = pd.concat([counted_pk_type1, counted_pk_type2])
print(union_types)

Water       112
Normal       98
Grass        70
Bug          69
Psychic      57
Fire         52
Electric     44
Rock         44
Dragon       32
Ground       32
Ghost        32
Dark         31
Poison       28
Steel        27
Fighting     27
Ice          24
Fairy        17
Flying        4
Flying       97
Ground       35
Poison       34
Psychic      33
Fighting     26
Grass        25
Fairy        23
Steel        22
Dark         20
Dragon       18
Water        14
Ghost        14
Ice          14
Rock         14
Fire         12
Electric      6
Normal        4
Bug           3
Name: count, dtype: int64


- Gerando DataFrame da união dos tipos primários e secundários para obter soma por tipo

In [6]:
df_union_types = pd.DataFrame(union_types)

# transformando index nomeado com os tipos em coluna para fazer a soma
df_union_types = df_union_types.reset_index()
df_union_types.columns = ['Type', 'Freq']

df_union_types.head()

Unnamed: 0,Type,Freq
0,Water,112
1,Normal,98
2,Grass,70
3,Bug,69
4,Psychic,57


- Somando valores obtidos

In [7]:
df_grouped_types = df_union_types.groupby('Type')
sum_types = df_grouped_types['Freq'].apply(lambda x: x.sum())

df_sum_types = pd.DataFrame(sum_types).reset_index().sort_values(by='Freq', ascending=False)

df_sum_types.head()

Unnamed: 0,Type,Freq
17,Water,126
12,Normal,102
7,Flying,101
9,Grass,95
14,Psychic,90


- Resetando o index do DataFrame de soma dos tipos para ordenar por maior frequência e removendo a coluna gerada com index anterior

In [8]:
df_sum_types = df_sum_types.reset_index()
df_sum_types = df_sum_types.drop(columns=['index'], axis=0)
df_sum_types.head()

Unnamed: 0,Type,Freq
0,Water,126
1,Normal,102
2,Flying,101
3,Grass,95
4,Psychic,90


- Gerar Dataframes das contagens dos tipos primários e secundários para criar Dataframe geral de incidência de tipos e suas respectivas frequências relativas

In [9]:
# DataFrame dos tipos primários

df_counted_pk_type1 = pd.DataFrame(counted_pk_type1)
df_counted_pk_type1 = df_counted_pk_type1.reset_index()
df_counted_pk_type1.columns = ['Type 1', 'Freq 1']

# DataFrame dos tipos secundários
df_counted_pk_type2 = pd.DataFrame(counted_pk_type2)
df_counted_pk_type2 = df_counted_pk_type2.reset_index()
df_counted_pk_type2.columns = ['Type 2', 'Freq 2']

df_counted_pk_type2.head()

Unnamed: 0,Type 2,Freq 2
0,Flying,97
1,Ground,35
2,Poison,34
3,Psychic,33
4,Fighting,26


- Gerando as frequências relativas

In [14]:
# frequencia relativa do dataframe do somatorio de ambos os tipos
sum_pk_total = df_sum_types['Freq'].sum()
df_sum_types['Rel Freq'] = df_sum_types['Freq'].apply(lambda x: (x / sum_pk_total) * 100).round(2)

# frequencia relativa do dataframe do somatorio dos tipos primarios
sum_pk_type1 = df_counted_pk_type1['Freq 1'].sum()
df_counted_pk_type1['Rel Freq 1'] = df_counted_pk_type1['Freq 1'].apply(lambda x: (x / sum_pk_type1) * 100).round(2)

# frequencia relativa do dataframe do somatorio dos tipos secundarios
sum_pk_type2 = df_counted_pk_type2['Freq 2'].sum()
df_counted_pk_type2['Rel Freq 2'] = df_counted_pk_type2['Freq 2'].apply(lambda x: (x / sum_pk_type2) * 100).round(2)

df_counted_pk_type2.head()

Unnamed: 0,Type 2,Freq 2,Rel Freq 2
0,Flying,97,23.43
1,Ground,35,8.45
2,Poison,34,8.21
3,Psychic,33,7.97
4,Fighting,26,6.28
