Pada contoh kali ini pendefinisian data yang diimport akan diumpamakan dengan nama "DataFrame"

## Library

Library adalah kumpulan modul terkait berisi kumpulan kode yang dapat digunakan berulang kali dalam program yang berbeda. Adanya library membuat pemrograman python menjadi lebih sederhana karena tidak perlu menulis kode yang sama berulang kali untuk program yang berbeda.

In [None]:
# Import library
import pandas as pd
import numpy as np
import scipy.stats

## Import Data

In [None]:
#Contoh data diambil langsung dari google drive
from google.colab import drive
drive.mount('/content/drive')
DataFrame = pd.read_csv('/content/drive/MyDrive/vvvvvvv/1Dataset Andaat_Data Latih.csv')

Mounted at /content/drive


## Pre-Processing Data

### Drop duplicate data

Dalam melakukan sebuah analisis, adanya data duplikat akan membuat analisis kita menjadi bias. Oleh karena itu, sangat penting bagi kita untuk menghapus data duplikat yang ada pada data

In [None]:
#Melihat apakah ada data duplikasi atau tidak
DataFrame.duplicated().sum()

476

In [None]:
#Menghapus data yang merupakan duplikasi
DataFrame=DataFrame.drop_duplicates()

### Check data type

Sebelum melakukan analisis, kita perlu memastikan tipe data yang kita miliki, apakah sudah sesuai atau belum dengan yang sebenarnya

### Missing Value Analysis


> Terdapat beberapa alasan, seperti nilai hilang selama proses
akuisisi data, nilai terhapus secara tidak sengaja, data rusak, ketidakcocokan antara
posisi baris dan kolom, dan nilai sebenarnya tidak tersedia.




> Terdapat beberapa cara untuk menangani hal tersebut, seperti menghapus observasi
tersebut, menghapus kolom, atau melakukan pengisian (imputasi).



#### Melihat total missing value pada data

In [None]:
DataFrame.isna().sum()

Rating            204
App                 0
Category            0
Reviews             0
Size                0
Installs            0
Type                0
Price               0
Content Rating      0
Genres              0
Android Ver         2
dtype: int64

#### Menghapus Missing Value

Menghapus missing value pada keseluruhan data

In [None]:
DataFrame.dropna()

Unnamed: 0,Rating,App,Category,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Android Ver
0,5.0,Spring flowers theme couleurs d t space,ART_AND_DESIGN,1,2.9M,100+,Free,0,Everyone,Art & Design,4.0 and up
1,4.8,Harley Quinn wallpapers HD,ART_AND_DESIGN,192,6.0M,"10,000+",Free,0,Everyone,Art & Design,3.0 and up
2,4.8,Cardi B Wallpaper,ART_AND_DESIGN,253,3.7M,"50,000+",Free,0,Everyone,Art & Design,4.0 and up
3,4.8,X Launcher Pro - IOS Style Theme & Control Center,ART_AND_DESIGN,1216,8.6M,"10,000+",Paid,$1.99,Everyone,Art & Design,4.1 and up
4,4.8,AJ Styles HD Wallpapers,ART_AND_DESIGN,48,25M,"5,000+",Free,0,Everyone,Art & Design,4.1 and up
...,...,...,...,...,...,...,...,...,...,...,...
9565,3.7,DS Thermometer,WEATHER,631,3.0M,"100,000+",Free,0,Everyone,Weather,2.3 and up
9566,3.6,Klart.se - Sweden's best weather,WEATHER,7623,19M,"1,000,000+",Free,0,Everyone,Weather,4.4 and up
9567,3.5,SMHI Weather,WEATHER,11297,Varies with device,"1,000,000+",Free,0,Everyone,Weather,Varies with device
9568,3.5,Storm Shield,WEATHER,2000,14M,"100,000+",Free,0,Everyone,Weather,5.0 and up


Menghapus missing value pada salah satu kolom dalam data

In [None]:
DataFrame.drop(["nama kolom"],axis=1)

#### Mengisi Missing Value

*   Data kontinu: mean, median
*   Data diskrit: modus
*   Data kategorik: modus, regresi logistik

In [None]:
#Mengisi missing value pada suatu kolom dengan nilai mean
DataFrame["nama kolom"].fillna(
    value= DataFrame["nama kolom"].mean(),
    inplace=True)

### Outlier Analysis

Outlier adalah pengamatan yang terletak pada jarak abnormal dari nilai lain secara acak. Outlier dapat menyebabkan model yang terbentuk menjadi kurang representatif terhadap data yang ada, sehingga perlu ditangani.

Boxplot merupakan tampilan grafis yang berguna untuk menggambarkan perilaku data di tengah serta di ujung distribusi. Dengan menggunakan boxplot, kita akan sangat mudah menemukan ada tidaknya outlier pada data kita.


Apabila ditemukan adanya outlier, terdapat tiga perilaku yang dapat kita lakukan, yaitu membiarkan adanya outlier, menghapus outlier, atau mengisi outlier dengan batas atas atau batas bawah data.

Batas Atas

In [None]:
q3 = DataFrame["Nama Kolom"].quantile(0.75)
upper_bound = q3 + 1.5*(q3 - DataFrame["Nama Kolom"].quantile(0.25))
DataFrame = DataFrame[~(DataFrame["Nama Kolom"]>upper_bound)] #Menampilkan data tanpa outlier
outliers = DataFrame[DataFrame["Nama Kolom"]>upper_bound] #Melihat data outlier

Batas Bawah

In [None]:
q1 = DataFrame["Nama Kolom"].quantile(0.25)
lower_bound = q1 - 1.5*(q3 - DataFrame["Nama Kolom"].quantile(0.25))
DataFrame = DataFrame[~(DataFrame["Nama Kolom"]<=lower_bound)]
outliers = DataFrame[DataFrame["Nama Kolom"]<=lower_bound] #Melihat data outlier

### Encoding Categorical Variable

Untuk data kategorik yang tidak memiliki hierarki, sebaiknya kita tidak menggunakan diskritisasi karena akan mengubah data menjadi "peringkat” tersebut. Cara yang disarankan adalah menggunakan fungsi pd.get dummies() untuk menangani masalah ini.


In [None]:
dms=pd.get_dummies(
    DataFrame,
    columns=["Category"])