# Análise univariada

## Contextualização

A análise univariada corresponde a um processo de análise de dados que consiste em analisar um único
atributo de um conjunto de dados por vez. Dessa forma, cada atributo é analisado individualmente
de acordo com suas próprias características.

## Obtenção de dados

Os dados utilizados nessa análise estão disponiveis no Kaggle (https://www.kaggle.com/datasets/abcsds/pokemon)
baixados em 25/06/2023.

In [None]:
# needed packages
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [None]:
# load dataset
df = pd.read_csv("../dataset/Pokemon.csv")

### Setando algumas variaveis globais

In [None]:
# dataset entries
df_entries = df.shape[0]

## Análise exploratória

TIPOS DE VARIÁVEIS:

`Variáveis Quantitativas`: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou discretas.
* `Discretas`: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia.
* `Contínuas`: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade.
---
`Variáveis Qualitativas (ou categóricas)`: são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.
* `Nominais`: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
* `Ordinais`: existe uma ordenação entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro).

### Lista dos atributos a serem analisadas e seu tipo de variável

* `Type 1` - qualitativa categórica nominal
* `Type 2` - qualitativa categórica nominal
* `Total` - quantitativa discreta
* `HP` - quantitativa discreta
* `Attack` - quantitativa discreta
* `Defense` - quantitativa discreta
* `SP Atk` - quantitativa discreta
* `SP Def` - quantitativa discreta
* `Speed` - quantitativa discreta
* `Generation` - quantitativa contínua
* `Ledendary` - qualitativa categórica nominal

### `Type 1`


#### Q1. Qual tipo primário tem maior quantidade de registros?

In [None]:
type1 = df["Type 1"].value_counts()
type1

Q1 Resposta = O tipo primário com maior quantidade é **`Water`**

In [None]:
# plot a bar chart
type1.plot(
  kind="bar",
  figsize=(18, 5),
  title='Número de pokémos e seus tipos primários',
  xlabel='Tipo primário'
)


#### Q2. Quantos Pokémons tem dois tipos?

In [None]:
has_both_types = df.loc[
  (df["Type 1"] != "") &
  (df["Type 2"] != "")
].value_counts().sum()

print(f'Tem {has_both_types} Pokémons com 2 tipos no dataset')

#### NEXT STEP: Análises multivariadas recomendadas

### `Type 2`


#### Q1. Qual tipo secundário tem maior quantidade de registros?

In [None]:
type2 = df["Type 2"].value_counts()
type2

Q1 Resposta = O tipo secundário com maior quantidade é **`Flying`**

In [None]:
# plot a bar chart
type2.plot(
  kind="bar",
  figsize=(18, 5),
  title='Número de pokémos e seus tipos secundários',
  xlabel='Tipo secundário'
)

#### NEXT STEP: Análises multivariadas recomendadas

### `Total`


#### Q1. Qual(is) pokémon(s) tem a maior soma no atributo `Total`?

In [None]:
df_total = df[['Name', 'Total']]
df_total_max = df_total.max().to_list() # 780

df_total_filtered = df_total.query(f'Total == {df_total_max}')
df_total_filtered

Q1 Resposta = Há 3 Pokémons que consegue atingir o nivél máximo do total, ambos tem que estar com a mega evolução para isso acontecer.

#### NEXT STEP: Análises multivariadas recomendadas

### `HP`


#### Q1. Qual(is) pokémon(s) tem o maior `HP`?

In [None]:
df_hp = df[['Name', 'HP', 'Type 1']]
df_hp_max = df_hp.max().to_list()

df_hp_filtered = df_hp.query(f'HP == {df_hp_max}')
df_hp_filtered

Q1 Resposta = O Pokémon com maior HP é o Blissey com 255

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `HP`?

In [None]:
df_hp_filtered_type = df_hp_filtered['Type 1']
df_hp_filtered_type.unique()

Q2 Resposta = O tipo que tem o maior `HP` do dataset é **Normal**

#### NEXT STEP: Análises multivariadas recomendadas

### `Attack`


#### Q1. Qual(is) pokémon(s) tem o maior `Attack`?

In [None]:
df_attack = df[['Name', 'Attack', 'Type 1']]
df_attack_max = df_attack.max().to_list()

df_attack_filtered = df_attack.query(f'Attack == {df_attack_max}')
df_attack_filtered

Q1 Resposta = O Pokémon com maior ataque fisico do dataset é o Mewtwo com a Mega evolução

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Attack`?

In [None]:
df_attack_filtered_type = df_attack_filtered['Type 1']
df_attack_filtered_type.unique()

Q2 Resposta = O tipo que tem o maior `Attack` do dataset é **Psychic**

#### NEXT STEP: Análises multivariadas recomendadas

### `Defense`


#### Q1. Qual(is) pokémon(s) tem o maior `Defense`?

In [None]:
df_defense = df[['Name', 'Defense', 'Type 1']]
df_defense_max = df_defense.max().to_list()

df_defense_filtered = df_defense.query(f'Defense == {df_defense_max}')
df_defense_filtered

Q1 Resposta = Há 3 Pokémons com as maiores defesas, dois deles contando com os atributos da mega evolução.

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Defense`?

In [None]:
df_defense_filtered_type = df_defense_filtered['Type 1']
df_defense_filtered_type.unique()

Q2 Resposta = Os tipos que tem a maior `Defense` do dataset é **Steel e Bug**

#### NEXT STEP: Análises multivariadas recomendadas

### `SP Atk`

#### Q1. Qual(is) pokémon(s) tem o maior `Sp. Atk`?

In [None]:
df_sp_attack = df[['Name', 'Sp. Atk', 'Type 1']].reset_index().rename(
  columns={
    'Sp. Atk': 'sp_atk'
  }
)

df_sp_attack_max = df_sp_attack.max().to_list()

df_sp_attack_filtered = df_sp_attack.query(f"sp_atk == {df_sp_attack_max}")
df_sp_attack_filtered


Q1 Resposta = O Pokémon com maior ataque especial é o Mewtwo com a mega evolução

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Sp. Atk`?

In [None]:
df_sp_atk_filtered_type = df_sp_attack_filtered['Type 1']
df_sp_atk_filtered_type.unique()

Q2 Resposta = O tipo que tem o maior `Sp. Attack` do dataset é **Psychic**

#### NEXT STEP: Análises multivariadas recomendadas

### `SP Def`

#### Q1. Qual(is) pokémon(s) tem a maior `Sp. Def`?

In [None]:
df_sp_def = df[['Name', 'Sp. Def', 'Type 1']].reset_index().rename(
  columns={
    'Sp. Def': 'sp_def'
  }
)

df_sp_def_max = df_sp_def.max().to_list()

df_sp_def_filtered = df_sp_def.query(f"sp_def == {df_sp_def_max}")
df_sp_def_filtered

Q1 Resposta = O Pokémon com a maior defesa especial do dataset é o Shuckle

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Sp. Def`?

In [None]:
df_sp_def_filtered_type = df_sp_def_filtered['Type 1']
df_sp_def_filtered_type.unique()

Q2 Resposta = O tipo do pokémon com a maior defesa especial é **BUG**

#### NEXT STEP: Análises multivariadas recomendadas

### `Speed`

#### Q1. Qual(is) pokémon(s) tem a maior `Speed`?

In [None]:
df_speed = df[['Name', 'Speed', 'Type 1']]
df_speed_max = df_speed.max().to_list()

df_speed_filtered = df_speed.query(f'Speed == {df_speed_max}')
df_speed_filtered

Q1 Resposta = O pokémon com a maior `Speed` é o Deoxys Speed Forme

#### Q2. Qual(is) o(s) tipo(s) que tem o maior `Speed`?

In [None]:
df_speed_filtered_type = df_speed_filtered['Type 1']
df_speed_filtered_type.unique()

Q2 Resposta = O tipo do pokémon mais rápido do dataset é **Psychic**

#### NEXT STEP: Análises multivariadas recomendadas

### `Generation`

#### Q1. Qual geração tem mais registros de pokémon nesse dataset?

In [None]:
df['Generation'].value_counts().plot(
  kind='bar',
  figsize=(10, 5),
)

plt.xticks(rotation = 0)


Q1 Resposta = A geração que tem mais registros no dataset é a 1 (primeira), mas, como na geração 1 tem 151 pokémons e foi contado 166. Seria interessante remover as mega evoluções.

#### NEXT STEP: Análises multivariadas recomendadas

### `Legendary`

#### Q1. Quantos pokémons lendários tem nesse dataset?

In [None]:
df_legendary = df.loc[
  (df["Legendary"] == True)
].count()

print(f"Há {df_legendary['Legendary']} pokémons lendários")

Q1 Resposta = Há 65 pokémons lendários no dataset


#### Q2. Qual(is) os tipos desses pokémons?

In [None]:
df_legendary_by_type = df[['Type 1', 'Legendary']]

df_legendary_filtered = df_legendary_by_type.query(f'Legendary == True')
df_legendary_filtered['Type 1'].unique()

Q2 Resposta = Há 15 tipos que são lendários no dataset, são eles, `Ice`, `Electric`, `Fire`, `Psychic`, `Water`, `Rock`, `Steel`, `Dragon`, `Ground`, `Normal`, `Ghost`, `Dark`, `Grass`, `Flying`, `Fairy`.

#### NEXT STEP: Análises multivariadas recomendadas

## Conclusão