# Análise univariada

## Contextualização

A análise univariada corresponde a um processo de análise de dados que consiste em analisar um único
atributo de um conjunto de dados por vez. Dessa forma, cada atributo é analisado individualmente
de acordo com suas próprias características.

## Obtenção de dados

In [None]:
# needed packages
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [None]:
# load dataset
df = pd.read_csv("../dataset/processed/pokemon.csv")

In [None]:
df.head()

### Helpers

In [None]:
# dataset entries
df_entries = df.shape[0]

In [None]:
def find_targets(dataframe, variable):
  df_total_max = dataframe[variable].max()
  df_total_filtered = dataframe.query(f'{variable} == {df_total_max}')
  return df_total_filtered

## Análise exploratória

TIPOS DE VARIÁVEIS:

`Variáveis Quantitativas`: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou discretas.
* `Discretas`: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia.
* `Contínuas`: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade.
---
`Variáveis Qualitativas (ou categóricas)`: são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.
* `Nominais`: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
* `Ordinais`: existe uma ordenação entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro).

### Lista dos atributos a serem analisadas e seu tipo de variável

* `type_1` - qualitativa categórica nominal
* `type_2` - qualitativa categórica nominal
* `total` - quantitativa discreta
* `hp` - quantitativa discreta
* `atk` - quantitativa discreta
* `def` - quantitativa discreta
* `sp_atk` - quantitativa discreta
* `sp_def` - quantitativa discreta
* `speed` - quantitativa discreta
* `gen` - quantitativa contínua
* `ledendary` - qualitativa categórica nominal

### `Type 1`


#### Q1. Qual tipo primário tem maior quantidade de registros?

In [None]:
type1 = df["type_1"].value_counts()

print(f"The type with the most amount of records is {type1.index[0]} ({type1[0]})")

#### Q2. Qual tipo primário tem menor quantidade de registros?

In [None]:
type1 = df["type_1"].value_counts()

print(f"The type with the least amount of records is {type1.index[-1]} ({type1[-1]})")

In [None]:
# plot a bar chart
type1.plot(
  kind="bar",
  figsize=(18, 5),
  title='Número de pokémos e seus tipos primários',
  xlabel='Tipo primário'
)


#### Q3. Quantos Pokémons tem dois tipos?

In [None]:
has_both_types = df.loc[
  (df["type_1"] != "") &
  (df["type_2"] != "")
].value_counts().sum()

print(f"From {df_entries} entries {has_both_types} pokemons has 2 types in the dataset")

### `Type 2`


#### Q1. Qual tipo secundário tem maior quantidade de registros?

In [None]:
type2 = df["type_2"].value_counts()

print(f"The secundary type with the most amount of logging is {type2.index[0]} ({type2[0]})")

In [None]:
# plot a bar chart
type2.plot(
  kind="bar",
  figsize=(18, 5),
  title='Número de pokémos e seus tipos secundários',
  xlabel='Tipo secundário'
)

### `Total`


#### Q1. Qual(is) pokémon(s) tem a maior soma no atributo `Total`?

In [None]:
df_total = df[['name', 'total']]

In [None]:
df_total_filtered = find_targets(df_total, 'total')

print(f"There are {len(df_total_filtered)} Pokémon(s) with highest HP attribute.")
for i, row in df_total_filtered.iterrows():
  print(row['name'])

### `HP`


#### Q1. Qual(is) pokémon(s) tem o maior `HP`?

In [None]:
df_hp = df[['name', 'hp', 'type_1']]

In [None]:
df_hp_filtered = find_targets(df_hp, 'hp')

print(f"There are {len(df_hp_filtered)} Pokémon(s) with highest HP attribute.")
for i, row in df_hp_filtered.iterrows():
  print(row['name'])

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `HP`?

In [None]:
df_hp_filtered = find_targets(df_hp, 'hp')
df_hp_filtered_type = df_hp_filtered['type_1']
df_hp_filtered_type.unique()

print(f"There are {len(df_hp_filtered_type)} Pokémon(s) with highest HP attribute.")
for i in df_hp_filtered_type:
  print(i)

### `Attack`


#### Q1. Qual(is) pokémon(s) tem o maior `Attack`?

In [None]:
df_atk = df[['name', 'attack', 'type_1']]

In [None]:
df_atk_filtered = find_targets(df_atk, 'attack')

print(f"There are {len(df_atk_filtered)} Pokémon(s) with highest Defense attribute.")
for i, row in df_atk_filtered.iterrows():
  print(row['name'])

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Attack`?

In [None]:
df_attack_filtered = find_targets(df_atk, 'attack')
df_attack_filtered_type = df_attack_filtered['type_1']
df_attack_filtered_type.unique()

print(f"There are {len(df_attack_filtered_type)} Pokémon(s) with highest Attack attribute.")
for i in df_attack_filtered_type:
  print(i)

### `Defense`


#### Q1. Qual(is) pokémon(s) tem o maior `Defense`?

In [None]:
df_def = df[['name', 'defense', 'type_1']]

In [None]:
df_def_filtered = find_targets(df_def, 'defense')

print(f"There are {len(df_def_filtered)} Pokémon(s) with highest Defense attribute.")
for i, row in df_def_filtered.iterrows():
  print(row['name'])

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Defense`?

In [None]:
df_defense_filtered = find_targets(df_def, 'defense')
df_defense_filtered_type = df_defense_filtered['type_1']
df_defense_filtered_type.unique()

print(f"There are {len(df_defense_filtered_type)} Pokémon(s) with highest Defense attribute.")
for i in df_defense_filtered_type:
  print(i)

### `SP Atk`

#### Q1. Qual(is) pokémon(s) tem o maior `Sp. Atk`?

In [None]:
df_sp_atk = df[['name', 'sp_atk', 'type_1']]

In [None]:
df_sp_atk_filtered = find_targets(df_sp_atk, 'sp_atk')

print(f"There are {len(df_sp_atk_filtered)} Pokémon(s) with highest Sp. Atk attribute.")
for i, row in df_sp_atk_filtered.iterrows():
  print(row['name'])

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Sp. Atk`?

In [None]:
df_sp_atk_filtered = find_targets(df_sp_atk, 'sp_atk')
df_sp_atk_filtered_type = df_sp_atk_filtered['type_1']
df_sp_atk_filtered_type.unique()

print(f"There are {len(df_sp_atk_filtered_type)} Pokémon(s) with highest Sp. Atk attribute.")
for i in df_sp_atk_filtered_type:
  print(i)

### `SP Def`

#### Q1. Qual(is) pokémon(s) tem a maior `Sp. Def`?

In [None]:
df_sp_def = df[['name', 'sp_def', 'type_1']]

In [None]:
df_sp_def_filtered = find_targets(df_sp_def, 'sp_def')

print(f"There are {len(df_sp_def_filtered)} Pokémon(s) with highest Sp. Def attribute.")
for i, row in df_sp_def_filtered.iterrows():
  print(row['name'])

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Sp. Def`?

In [None]:
df_sp_def_filtered = find_targets(df_sp_def, 'sp_def')
df_sp_def_filtered_type = df_sp_def_filtered['type_1']
df_sp_def_filtered_type.unique()

print(f"There are {len(df_sp_def_filtered_type)} Pokémon(s) with highest Sp. Def attribute.")
for i in df_sp_def_filtered_type:
  print(i)

### `Speed`

#### Q1. Qual(is) pokémon(s) tem a maior `Speed`?

In [None]:
df_speed = df[['name', 'speed', 'type_1']]

In [None]:
df_speed_filtered = find_targets(df_speed, 'speed')

print(f"There are {len(df_speed_filtered)} Pokémon(s) with highest speed attribute.")
for i, row in df_speed_filtered.iterrows():
  print(row['name'])

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Speed`?

In [None]:
df_speed_filtered = find_targets(df_speed, 'speed')
df_speed_filtered_type = df_speed_filtered['type_1']
df_speed_filtered_type.unique()

print(f"There are {len(df_speed_filtered_type)} Pokémon(s) with highest speed attribute.")
for i in df_speed_filtered_type:
  print(i)

### `Generation`

#### Q1. Qual geração tem mais registros de pokémon nesse dataset?

In [None]:
df['gen'].value_counts().plot(
  kind='bar',
  figsize=(10, 5),
)

plt.xticks(rotation = 0)
plt.title("Gerações e sua quantidade de Pokémons")
plt.xlabel("Generation")

gen_max = df['gen'].value_counts().index[0]

print(f'A geração que tem mais registros no dataset é a {gen_max}.')

### `Legendary`

#### Q1. Quantos pokémons lendários tem nesse dataset?

In [None]:
df_legendary = df.loc[
  (df["legendary"] == True)
].count()

print(f"Há {df_legendary['legendary']} pokémons lendários")


#### Q2. Qual(is) os tipos desses pokémons?

In [None]:
# df
df_legendary_by_type = df[['type_1', 'legendary']]

# df all legendary
df_legendary_unique = df_legendary_by_type['type_1'].unique()
df_legendary_unique_size = len(df_legendary_unique)

# df with legendary only
df_legendary_filtered = df_legendary_by_type.query(f'legendary == True')
df_legendary_filtered_unique = df_legendary_filtered['type_1'].unique()

print(f"There are {len(df_legendary_filtered_unique)}/{df_legendary_unique_size} legendary Pokémons: ")
for i in df_legendary_unique:
  if i in df_legendary_filtered_unique:
    print(f"{i} ✔")
  else:
    print(i)

## Conclusão

Após a preparação do dataset, foi possível responder todas as perguntas elaboradas.