# Hacktiv8 Phase 0: Graded Challenge 1

---

Graded Challenge ini dibuat guna mengevaluasi pembelajaran pada Hacktiv8 Data Science Fulltime Program khususnya pada konsep Basic Python, Numpy, serta Data Preparation with Pandas.

## Introduction

By [Rifky Aliffa](https://github.com/Penzragon)

![Pokemon Logo](https://upload.wikimedia.org/wikipedia/commons/thumb/9/98/International_Pok%C3%A9mon_logo.svg/2560px-International_Pok%C3%A9mon_logo.svg.png)

### Dataset

Dataset yang digunakan dalam project ini adalah dataset **_Pokemon_**. Dataset ini berisi 800 pokemon dengan 13 kolom yang diantaranya adalah id, name, type 1, type 2, total stat, hp, attack, defense, special attack, special defense, speed, generation, dan rarity. Dataset dapat dilihat di [Kaggle](https://www.kaggle.com/abcsds/pokemon).

Kolom pada dataset ini adalah:

| Feature    | Description                                                                            |
| ---------- | -------------------------------------------------------------------------------------- |
| #          | ID for each pokemon                                                                    |
| Name       | Name of each pokemon                                                                   |
| Type 1     | Each pokemon has a type, this determines weakness/resistance to attacks                |
| Type 2     | Some pokemon are dual type and have 2                                                  |
| Total      | Sum of all stats that come after this                                                  |
| HP         | Hit points, or health, defines how much damage a pokemon can withstand before fainting |
| Attack     | The base modifier for normal attacks (eg. Scratch, Punch)                              |
| Defense    | The base damage resistance against normal attacks                                      |
| SP Atk     | The base damage resistance against normal attacks                                      |
| SP Def     | The base damage resistance against special attacks                                     |
| Speed      | Determines which pokemon attacks first each round                                      |
| Generation | Generation of each pokemon                                                             |
| Legendary  | Rarity of each pokemon                                                                 |


### Objectives

Tujuan dalam project ini adalah untuk mencari:

- Pokemon dengan tipe apa yang paling banyak menjadi pokemon legendary?
- Pokemon apa yang memiliki total stat paling tinggi?
- Berapa perbedaan total stat antara pokemon legendary dengan pokemon normal?

## Import Library

Mengimport semua library yang akan digunakan, dalam project ini hanya menggunakan ***Pandas*** dan ***NumPy***.

In [1]:
import pandas as pd
import numpy as np

## Data Loading

Membuat dataframe dari file `pokemon.csv`.

In [2]:
pokemon = pd.read_csv('pokemon.csv')

Melihat 5 baris teratas dari dataframe pokemon.

In [3]:
pokemon.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


### Data Characteristics

In [4]:
pokemon.shape # Melihat bentuk dari dataframe

(800, 13)

Dataset ini terdiri dari 800 rows dan 13 columns.

In [5]:
pokemon.info() # Melihat basic info dari dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           800 non-null    int64 
 1   Name        800 non-null    object
 2   Type 1      800 non-null    object
 3   Type 2      414 non-null    object
 4   Total       800 non-null    int64 
 5   HP          800 non-null    int64 
 6   Attack      800 non-null    int64 
 7   Defense     800 non-null    int64 
 8   Sp. Atk     800 non-null    int64 
 9   Sp. Def     800 non-null    int64 
 10  Speed       800 non-null    int64 
 11  Generation  800 non-null    int64 
 12  Legendary   800 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 75.9+ KB


Dataset ini terdiri dari:
- 1 kolom dengan tipe data boolean
- 9 kolom dengan tipe data integer
- 3 kolom dengan tipe data object

Dari info tersebut juga dapat dilihat ada sebuah kolom yang sebagian dari nilainya tidak terisi.

In [6]:
pokemon.describe().T # Menampilkan summary statistics dari dataframe

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
#,800.0,362.81375,208.343798,1.0,184.75,364.5,539.25,721.0
Total,800.0,435.1025,119.96304,180.0,330.0,450.0,515.0,780.0
HP,800.0,69.25875,25.534669,1.0,50.0,65.0,80.0,255.0
Attack,800.0,79.00125,32.457366,5.0,55.0,75.0,100.0,190.0
Defense,800.0,73.8425,31.183501,5.0,50.0,70.0,90.0,230.0
Sp. Atk,800.0,72.82,32.722294,10.0,49.75,65.0,95.0,194.0
Sp. Def,800.0,71.9025,27.828916,20.0,50.0,70.0,90.0,230.0
Speed,800.0,68.2775,29.060474,5.0,45.0,65.0,90.0,180.0
Generation,800.0,3.32375,1.66129,1.0,2.0,3.0,5.0,6.0


Dari hasil di atas kita dapat melihat summary statistics dari kolom dataframe dengan tipe data numeric seperti rata-rata, standar deviasi, quartile, nilai minimum, dan nilai maksimum.

## Data Cleansing

### Missing Value

In [7]:
pokemon.isna().sum()

#               0
Name            0
Type 1          0
Type 2        386
Total           0
HP              0
Attack          0
Defense         0
Sp. Atk         0
Sp. Def         0
Speed           0
Generation      0
Legendary       0
dtype: int64

In [8]:
pokemon[pokemon['Type 2'].isna()].head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80,1,False
9,7,Squirtle,Water,,314,44,48,65,50,64,43,1,False
10,8,Wartortle,Water,,405,59,63,80,65,80,58,1,False
11,9,Blastoise,Water,,530,79,83,100,85,105,78,1,False


Terdapat 386 baris data yang tidak memiliki nilai pada kolom ***Type 2***.

### Drop Column

Karena terdapat missing value pada kolom Type 2 dan pada project ini kolom ***Type 2***, ***#***, dan ***Generation*** tidak digunakan maka akan dihilangkan.

In [9]:
pokemon = pokemon.drop(columns=['#', 'Type 2', 'Generation'])
pokemon.head()

Unnamed: 0,Name,Type 1,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Legendary
0,Bulbasaur,Grass,318,45,49,49,65,65,45,False
1,Ivysaur,Grass,405,60,62,63,80,80,60,False
2,Venusaur,Grass,525,80,82,83,100,100,80,False
3,VenusaurMega Venusaur,Grass,625,80,100,123,122,120,80,False
4,Charmander,Fire,309,39,52,43,60,50,65,False


In [10]:
pokemon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 10 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Name       800 non-null    object
 1   Type 1     800 non-null    object
 2   Total      800 non-null    int64 
 3   HP         800 non-null    int64 
 4   Attack     800 non-null    int64 
 5   Defense    800 non-null    int64 
 6   Sp. Atk    800 non-null    int64 
 7   Sp. Def    800 non-null    int64 
 8   Speed      800 non-null    int64 
 9   Legendary  800 non-null    bool  
dtypes: bool(1), int64(7), object(2)
memory usage: 57.2+ KB


In [12]:
pokemon.isna().sum()

Name         0
Type 1       0
Total        0
HP           0
Attack       0
Defense      0
Sp. Atk      0
Sp. Def      0
Speed        0
Legendary    0
dtype: int64

Setelah dilakukan penghilangan kolom tidak terdapat lagi missing value pada dataframe dan kolom #, Type 2, dan Generation juga sudah hilang.

### Rename Column

Pada bagian ini akan dilakukan perubahan nama kolom dataframe untuk memudahkan pemanggilan kolom.

In [19]:
old_names = list(pokemon.columns) # Membuat list dari nama kolom dataframe
new_names = ['name', 'type', 'total', 'hp', 'atk', 'def', 'sp_atk', 'sp_def', 'spd', 'legendary'] # membuat list nama kolom baru untuk dataframe

Dataframe sebelum dilakukan perubahan nama kolom

In [16]:
pokemon.head()

Unnamed: 0,Name,Type 1,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Legendary
0,Bulbasaur,Grass,318,45,49,49,65,65,45,False
1,Ivysaur,Grass,405,60,62,63,80,80,60,False
2,Venusaur,Grass,525,80,82,83,100,100,80,False
3,VenusaurMega Venusaur,Grass,625,80,100,123,122,120,80,False
4,Charmander,Fire,309,39,52,43,60,50,65,False


Melakukan perubahan nama kolom dataframe

In [17]:
pokemon = pokemon.rename(columns=dict(zip(old_names, new_names)))

Dataframe setelah dilakukan perubahan nama kolom

In [18]:
pokemon.head()

Unnamed: 0,name,type,total,hp,atk,def,sp_atk,sp_def,spd,legendary
0,Bulbasaur,Grass,318,45,49,49,65,65,45,False
1,Ivysaur,Grass,405,60,62,63,80,80,60,False
2,Venusaur,Grass,525,80,82,83,100,100,80,False
3,VenusaurMega Venusaur,Grass,625,80,100,123,122,120,80,False
4,Charmander,Fire,309,39,52,43,60,50,65,False
