# Analisis Game Berpotensial Ice

Anda bekerja di toko daring "Ice" yang menjual video game dari seluruh dunia. Data terkait ulasan pengguna dan ahli game, genre, platform (misalnya Xbox atau PlayStation), dan data historis penjualan game tersedia dari sumber terbuka. Anda perlu mengidentifikasi pola-pola yang menentukan apakah suatu game dapat dikatakan berhasil atau tidak. Dengan begitu, Anda bisa menemukan game yang paling berpotensial dan merencanakan kampanye iklannya.

## Tujuan

Proyek ini berfokus pada analisis penjualan game. Data dilakukan pre-processing untuk membersihkan dan merapihkan data agar dapat diolah. Selanjutnya dilakukan Exploratory Data Analysis (EDA) dan Data Visualization untuk mengetahui oulier dan insight dari data. Dan terakhir dilakukan analisis data statistik untuk Hypothesis Testing.

### Hipotesis

1. Rata-rata rating pengguna platform Xbox One dan PC adalah sama.
2. Rata-rata rating pengguna genre Action dan Sports berbeda.

### Tahapan

Data tentang hasil ulasan game disimpan dalam file `/datasets/games_us.csv`. Tidak ada informasi terkait kualitas data tersebut, sehingga perlu dilakukan pemeriksaan terlebih dahulu sebelum menguji hipotesis.

Proyek ini terdiri dari tiga tahap:

1. Pra-pemrosesan Data
2. Analisis Data Exploratif (EDA)
3. Analisis Data Statistik (Hyphothesis Testing)


## 1. Pra-pemrosesan Data

In [2]:
# Import library
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats as st

### 1.1. Memuat Data

In [3]:
# Try and except datasets
try:
    data = pd.read_csv('games.csv')
except:
    data = pd.read_csv('/datasets/games.csv') 

data

Unnamed: 0,Name,Platform,Year_of_Release,Genre,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score,User_Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
...,...,...,...,...,...,...,...,...,...,...,...
16710,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.00,0.01,0.00,,,
16711,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.00,0.00,,,
16712,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.00,0.01,0.00,,,
16713,Spirits & Spells,GBA,2003.0,Platform,0.01,0.00,0.00,0.00,,,


### 1.2. Mengeksplorasi Data Awal

In [4]:
data

Unnamed: 0,Name,Platform,Year_of_Release,Genre,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score,User_Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
...,...,...,...,...,...,...,...,...,...,...,...
16710,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.00,0.01,0.00,,,
16711,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.00,0.00,,,
16712,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.00,0.01,0.00,,,
16713,Spirits & Spells,GBA,2003.0,Platform,0.01,0.00,0.00,0.00,,,


**Deskripsi data**: 


- `Name` — nama game
- `Platform` — nama platform game dapat dimainkan
- `Genre` — jenis game
- `NA_sales`  — penjualan di Amerika Utara dalam satuan juta USD
- `EU_sales` — penjualan di Eropa dalam satuan juta USD
- `JP_sales` — penjualan di Jepang dalam satuan juta USD
- `Other_sales` — penjualan di negara lainnya dalam satuan juta USD
- `Critic_Score` — skor ulasan dari kritikus, maksimal 100
- `User_Score` — skor ulasan dari pengguna, maksimal 10
- `Rating` — Entertainment Software Rating Board (ESRB)

In [5]:
# Check data info
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16713 non-null  object 
 1   Platform         16715 non-null  object 
 2   Year_of_Release  16446 non-null  float64
 3   Genre            16713 non-null  object 
 4   NA_sales         16715 non-null  float64
 5   EU_sales         16715 non-null  float64
 6   JP_sales         16715 non-null  float64
 7   Other_sales      16715 non-null  float64
 8   Critic_Score     8137 non-null   float64
 9   User_Score       10014 non-null  object 
 10  Rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


**Kesimpulan sementara:**

* Nama kolom tidak huruf kecil.
* Terlihat ada beberapa nilai yang hilang.
* Kolom `Year_of_Release` akan terlihat lebih rapih apabila menggunakan integer.

In [9]:
# Check total missing values descending
data.isna().sum().sort_values(ascending=False)

Critic_Score       8578
Rating             6766
User_Score         6701
Year_of_Release     269
Name                  2
Genre                 2
Platform              0
NA_sales              0
EU_sales              0
JP_sales              0
Other_sales           0
dtype: int64

In [16]:
# Check unique data from 'User_Score' column
data['User_Score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

In [14]:
# Check duplicated data
data.duplicated().sum()

0

**Kesimpulan sementara:**

* Kolom `Critic_Score`, `Rating`, `User_Score`, `Year_of_Release`, `Name` dan  `Genre` terdapat nilai hilang yang perlu dianalisis.
* Kolom `User_Score` terdapat nilai TBD yang merupakan anomali sehingga perlu dianalisis lebih dalam.
* Dataset tidak memiliki duplikat pada datanya.


In [17]:
# Calculating some statistical data 
data.describe()

Unnamed: 0,Year_of_Release,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score
count,16446.0,16715.0,16715.0,16715.0,16715.0,8137.0
mean,2006.484616,0.263377,0.14506,0.077617,0.047342,68.967679
std,5.87705,0.813604,0.503339,0.308853,0.186731,13.938165
min,1980.0,0.0,0.0,0.0,0.0,13.0
25%,2003.0,0.0,0.0,0.0,0.0,60.0
50%,2007.0,0.08,0.02,0.0,0.01,71.0
75%,2010.0,0.24,0.11,0.04,0.03,79.0
max,2016.0,41.36,28.96,10.22,10.57,98.0


**Kesimpulan sementara:**

* Kolom sales terdapat nilai yang tidak wajar, yaitu min sales dan 25% sales adalah 0.000000 sehingga perlu dianalisis.


### Kesimpulan dan Langkah-Langkah Selanjutnya

#### **Nilai yang Hilang**

Setiap baris dalam tabel menyimpan data terkait harga sebuah mobil yang telah terjual. Sejumlah kolom menyimpan data yang mendeskripsikan mobil itu sendiri: tahun produksi, merk mobil, kondisi mobil, silinder mesin, tipe gas, jarak tembuh mobil, tipe transisi, tipe mobil, warna mobil, dan tipe kendaraan yang memiliki penggerak 4 roda. Sisanya menyimpan data terkait informasi mobil terjual: tanggal iklan ditayangkan serta hari iklan ditayangkan hingga dihapus.

Jelas bahwa data yang kita miliki cukup untuk menguji hipotesis. Meski demikian, kita memiliki nilai-nilai yang hilang.

* Nilai yang hilang dalam kolom `cylinders` dan `is_4wd` tidak begitu penting karena nilai yang hilang tersebut tidak berpengaruh terhadap penelitian. Cukup menggantinya dengan penanda yang jelas. 
* Nilai yang hilang dalam kolom `model_year`, `odometer`, dan `paint_color` dapat memengaruhi perbandingan harga sebuah kendaraan. Oleh sebab itu perlu dilakukan evaluasi mengenai seberapa besar nilai yang hilang dapat memengaruhi perhitungan.

Alasan mengapa data tersebut hilang sangatlah berguna untuk mempelajari dan mencoba memperbaikinya namun sayangnya, kita belum memiliki kesempatan tersebut dalam proyek ini.

#### **Gaya Penulisan**

Setelah mengatasi nilai-nilai yang hilang, langkah selanjutnya yaitu merapihkan data:

* Mengubah nilai pada kolom `model_year` menjadi integer.
* Mengganti nilai pada kolom `condition` menjadi skala numerik.
* Mengubah format dtype pada kolom `date_posted` menjadi format datetime64.
* Akan lebih baik apabila terdapat data tentang hari dalam minggu, bulan, dan tahun iklan ditayangkan.
* Menambahkan kolom baru tentang usia kendaraan (dalam tahun) ketika iklan ditayangkan dan jarak tempuh rata-rata kendaraan per tahun.

#### **Duplikat**

Selanjutnya memeriksa duplikat pada data. Namun, pada dataset ini tidak memiliki data duplikat pada data. Sehingga tidak perlu dilakukan analisis duplikat awal.

#### **Anomali Data**

Setelah memeriksa data duplikat perlu memepertimbangkan data anomali berikut, karena data tersebut mempengaruhi analisis penelitian.

* Pada kolom `price` terdapat nilai harga mobil yang tidak wajar, yaitu 1.000000.
* Pada kolom `transmission` dan `type` terdapat nilai **other** yang seharusnya diketahui karena merupakan data yang mendeskripsikan mobil itu sendiri.