# Data Wrangling Python

<p>About : Bagaimana cara melakukan data wrangling dengan menggunakan bahasa pemograman Python. Data Wrangling merupakan langkah penting untuk sebagai Data Science</p>
<p>Course : <a href=https://academy.dqlab.id/main/package/practice/79?pf=0>Data Wrangling Python</a></p>

<h2>Module Content:</h2>

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="#membaca-data-menggunakan-pandas">Membaca Data Menggunakan Pandas</a></li>
        <li><a href="#data-missing-hingga-normalisasi-data">Data Missing Hingga Normalisasi Data</a></li>
        <ul>
            <li><a href="#pengecekan-nilai-null">Pengecekan Nilai NULL</a></li>
            <li><a href="#mengisi-missing-value">Mengisi Missing Value</a></li>
            <li><a href="#normalisasi-data">Normalisasi Data</a></li>
        </ul>
    </ul>
</div>

<h2><a name="membaca-data-menggunakan-pandas"></a>Chapter 1: Membaca Data Menggunakan Pandas</h2>

<p>Pandas merupakan salah satu alternatif library yang sering digunakan untuk proses data wrangling. Pandas merupakan toolkit yang powerfull sebagai analisis data diawal dan pengenalan struktur dataset dalam Python.</p>

<p>Sebagai salah satu library untuk melakukan proses awal dari analisis data, pandas juga memiliki kemampuan untuk membaca berbagai macam jenis file. Format yang bisa dibaca oleh pandas ada berbagai macam, antara lain .txt, .csv, .tsv, dan lainnya. Pandas tidak hanya bisa membaca file saja, namun juga bisa merubah data dari file menjadi bentuk dataframe yang akhirnya nanti bisa diakses, diagregasi dan diolah.</p>

In [1]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

<h4>Menggunakan fungsi <code>.head()</code> untuk membaca 5 data teratas</h4>

In [2]:
csv_data.head()

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40


<h4>Menggunakan fungsi <code>.tail()</code> untuk membaca 5 data terbawah</h4>

In [4]:
csv_data.tail()

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
195,196,Female,35,120,79
196,197,Female,45,126,28
197,198,Male,32,126,74
198,199,Male,32,137,18
199,200,Male,30,137,83


<h4>Akses data berdasarkan kolom</h4>

In [5]:
csv_data['Age'].head()

0    19
1    21
2    20
3    23
4    31
Name: Age, dtype: int64

<h4>Akses data berdasarkan baris dengan fungsi <code>.iloc()</code></h4>

In [6]:
# akses data dengan index 5
csv_data.iloc[5]

CustomerID                     6
Genre                     Female
Age                           22
Annual Income (k$)            17
Spending Score (1-100)        76
Name: 5, dtype: object

<h4>Akses data berdasarkan baris dan kolom tertentu</h4>

In [8]:
# akses data dari kolom age dengan index 1
csv_data['Age'].iloc[1]

21

<h4>Menampilkan data dalam range tertentu</h4>

In [11]:
# Menampilkan data index ke 5 sampai kurang dari 10
csv_data[['CustomerID','Genre','Age']].iloc[5:10]

Unnamed: 0,CustomerID,Genre,Age
5,6,Female,22
6,7,Female,35
7,8,Female,23
8,9,Male,64
9,10,Female,30


<h4>Menampilkan informasi statistik dengan fungsi <code>.describe()</code></h4>

In [16]:
csv_data.describe()

Unnamed: 0,CustomerID,Age,Annual Income (k$),Spending Score (1-100)
count,200.0,200.0,200.0,200.0
mean,100.5,38.85,60.56,50.2
std,57.879185,13.969007,26.264721,25.823522
min,1.0,18.0,15.0,1.0
25%,50.75,28.75,41.5,34.75
50%,100.5,36.0,61.5,50.0
75%,150.25,49.0,78.0,73.0
max,200.0,70.0,137.0,99.0


Secara default, fungsi <code>.describe()</code> hanya akan menampilkan informasi statistik dari data dengan <b>tipe numerik</b> (int/float), berikut cara lain untuk mendapatkan informasi statistik.

In [17]:
# informasi statistik untuk tipe data object
csv_data.describe(include='object')

Unnamed: 0,Genre
count,200
unique,2
top,Female
freq,112


In [18]:
# informasi statistik keseluruhan data
csv_data.describe(include='all')

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
count,200.0,200,200.0,200.0,200.0
unique,,2,,,
top,,Female,,,
freq,,112,,,
mean,100.5,,38.85,60.56,50.2
std,57.879185,,13.969007,26.264721,25.823522
min,1.0,,18.0,15.0,1.0
25%,50.75,,28.75,41.5,34.75
50%,100.5,,36.0,61.5,50.0
75%,150.25,,49.0,78.0,73.0


<h2><a name="data-missing-hingga-normalisasi-data"></a>Chapter 2: Data Missing Hingga Normalisasi Data</h2>

<p>Pada suatu dataset, ada kalanya data yang kita akan kita kelola tidak lengkap. Hal ini tentunya akan menyulitkan atau membuat hasil analisa tidak akurat. Penanggulangan akan data yang hilang ini biasa disebut Handling Missing Value. Penanganan dari nilai yang kosong ini banyak caranya. Sebagai seorang data science yang berhubungan dengan data yang real, solusi pertama yang benar-benar kita anjurkan untuk kasus seperti ini adalah melakukan trace kembali ke sumber data atau memerika ulang record. Terutama jika data itu berasal dari human record. Sangat disarankan untuk menelusuri kembali agar tidak terjadi kesalahan ketika sudah mencapai titik analisa. Selain solusi untuk melakukan penelusuran kembali ke sumberdata, pada ilmu data science juga ada beberapa metode yang bisa dijadikan solusi untuk menangani kasus ini.</p>

<h3><a name="pengecekan-nilai-null"></a>Pengecekan Nilai NULL</h3>

In [11]:
csv_data.isnull().values.any()

False

<p>Jika bernilai <b>False</b> maka <b>tidak ada nilai NULL</b> satupun pada dataset.</p>
<p>Coba kita lakukan pengecekan pada dataset lain.</p>

In [18]:
csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data_missingvalue.csv")

In [23]:
csv_data.isnull().values.any()

True

Jika bernilai <b>True</b> maka <b>terdapat nilai NULL</b> pada dataset.

<h3><a name="mengisi-missing-value"></a>Mengisi Missing Value</h3>

<p>Skema yang biasanya sering dalam pengelolaan data.</p>
<ol>
    <li>Delete data</li>
    <ol>
        <li>Delete rows</li>
        <li>Pairwise deletion</li>
        <li>Delete column</li>
    </ol>
    <li>Imputation</li>
    <ol>
        <table align="left">
            <thead>
                <tr>
                    <th colspan="2" style="text-align:center"><u>A. Time Series Problem</u></th>
                    <th colspan="2" style="text-align:center"><u>B. General Problem</u></th>
                </tr>
                <tr>
                    <th>Condition</th>
                    <th><p>Solution</p></th>
                    <th>Condition</th>
                    <th><p>Solution</p></th>
                </tr>
            </thead>
            <tbody>
                <tr>
                    <td>Data without trend and <b>with</b> seasonality</td>
                    <td><p>Mean, Median, Mode, Random</p></td>
                    <td>Data categorical</td>
                    <td><p>Mark NA as Multiple Imputation and Logistic Regression</p></td>
                </tr>
                <tr>
                    <td>Data <b>with</b> trend and without seasonality</td>
                    <td><p>Linear Interpolation</p></td>
                    <td>Data numerical or continuous</td>
                    <td><p>Mean, Median, Mode, Multiple Imputation and Linear Regression</p></td>
                </tr>
                <tr>
                    <td>Data <b>with</b> trend and <b>with</b> seasonality</td>
                    <td><p>Seasonal Suggestion + Interpolation</p></td>
                </tr>
            </tbody>
        </table>
    </ol>
</ol>

<p>Khusus untuk masalah yang berhubungan forecasting atau peramalan tergantung dari data yang ada (lebih lengkap bisa dilihat pada tabel).</p>

<p>Khusus untuk general problem tergantung jenis datanya. Jika yang hilang data kategorikal atau bersifat string bisa menggunakna relasi antar kolom dengan Logistic Regression, jika numerical bisa menggunakan statistik sederhana dan linear regression.</p>

<h4>Mengisi missing value dengan <u>Mean</u></h4>

<p>Pada pandas terdapat fungsi <code>.mean()</code> untuk menentukan nilai mean dari masing-masing kolom. Mean sendiri digunakan untuk data yang memiliki <u>sedikit sifat outlier/noisy/anomali</u> dalam sebaran datanya maupun isinya.</p>

In [20]:
# tampilkan 10 data teratas dari dataset yang berisi missing value
csv_data.head(10)

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19.0,15.0,39.0
1,2,Male,,15.0,81.0
2,3,Female,20.0,,6.0
3,4,Female,23.0,16.0,77.0
4,5,Female,31.0,17.0,
5,6,Female,22.0,,76.0
6,7,Female,35.0,18.0,6.0
7,8,Female,23.0,18.0,94.0
8,9,Male,64.0,19.0,
9,10,Female,30.0,19.0,72.0


In [21]:
# cek nilai mean
csv_data.mean()

CustomerID                100.500000
Age                        38.939698
Annual Income (k$)         61.005051
Spending Score (1-100)     50.489899
dtype: float64

In [22]:
# isi missing value dengan mean
csv_mean = csv_data.fillna(csv_data.mean())

# tampilkan 10 data teratas setelah mengisi missing value
csv_mean.head(10)

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19.0,15.0,39.0
1,2,Male,38.939698,15.0,81.0
2,3,Female,20.0,61.005051,6.0
3,4,Female,23.0,16.0,77.0
4,5,Female,31.0,17.0,50.489899
5,6,Female,22.0,61.005051,76.0
6,7,Female,35.0,18.0,6.0
7,8,Female,23.0,18.0,94.0
8,9,Male,64.0,19.0,50.489899
9,10,Female,30.0,19.0,72.0


<h4>Mengisi missing value dengan <u>Mean</u></h4>

<p>Median digunakan untuk <u>data-data yang memiliki sifat outlier yang kuat</u>. Kenapa median dipilih? Median merupakan nilai tengah yang artinya <b>bukan</b> hasil dari perhitungan yang melibatkan data outlier. Pada beberapa kasus, data outlier dianggap mengganggu dan sering dianggap noisy karena bisa mempengaruhi distribusi kelas dan mengganggu analisa pada klasterisasi (clustering).</p>

In [24]:
# tampilkan 10 data teratas dari dataset yang berisi missing value
csv_data.head(10)

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19.0,15.0,39.0
1,2,Male,,15.0,81.0
2,3,Female,20.0,,6.0
3,4,Female,23.0,16.0,77.0
4,5,Female,31.0,17.0,
5,6,Female,22.0,,76.0
6,7,Female,35.0,18.0,6.0
7,8,Female,23.0,18.0,94.0
8,9,Male,64.0,19.0,
9,10,Female,30.0,19.0,72.0


In [25]:
# cek nilai median
csv_data.median()

CustomerID                100.5
Age                        36.0
Annual Income (k$)         62.0
Spending Score (1-100)     50.0
dtype: float64

In [26]:
# isi missing value dengan median
csv_median = csv_data.fillna(csv_data.median())

# tampilkan 10 data teratas setelah mengisi missing value
csv_median.head(10)

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19.0,15.0,39.0
1,2,Male,36.0,15.0,81.0
2,3,Female,20.0,62.0,6.0
3,4,Female,23.0,16.0,77.0
4,5,Female,31.0,17.0,50.0
5,6,Female,22.0,62.0,76.0
6,7,Female,35.0,18.0,6.0
7,8,Female,23.0,18.0,94.0
8,9,Male,64.0,19.0,50.0
9,10,Female,30.0,19.0,72.0


<h3><a name="normalisasi-data"></a>Normalisasi Data</h3>

<p>Terkadang pada beberapa kasus, 1 kolom dengan kolom yang lain memiliki skala yang berbeda. Seperti cuplikan gambar di bawah ini :</p>

<table align="left">
    <thead>
        <th>No</th>
        <th>Usia</th>
        <th>Masa Kerja (Tahun)</th>
        <th>Gaji</th>
    </thead>
    <tbody>
        <tr>
            <td>1</td>
            <td>50</td>
            <td>30</td>
            <td>10000000</td>
        </tr>
        <tr>
            <td>2</td>
            <td>30</td>
            <td>10</td>
            <td>5000000</td>
        </tr>
    </tbody>
</table>

<p>Antara Usia dan Masa Kerja masih memiliki range yang sama dalam skala puluhan. Namun, jika kolom Usia dan Masa Kerja dibandingkan dengan Gaji memiliki range nilai yang berbeda, dimana Usia dan Masa Kerja memiliki <b>range puluhan</b> dan Gaji mempunyai <b>range nilai jutaan</b>.</p>

<p>Memang terlihat sederhana, namun hal ini bisa menjadi masalah besar dalam contoh kasus klasterisasi atau klasifikasi. Masuk pada kasus K-means yang sudah pernah dibahas sebelumnya. K-means merupakan algoritma klasterisasi (clustering) yang menggunakan <b>perhitungan jarak</b> dalam prosesnya</p>

<p>Jika tidak ada normalisasi, maka jelas perhitungan kmeans diatas akan tergantung pada Gaji. Kenapa? Karena gaji berdomain jutaan dan 2 kolom lainnya hanya berdomain puluhan. Berapapun usia dan masa kerja seseorang tidak akan berpengaruh terhadap penilaian suatu perusahaan. Perbedaan skala pada setiap kolom ini merupakan hal yang sangat wajar dan sering terjadi dan inilah pentingnya normalisasi. <u>Normalisasi sangat penting, terutama untuk yang menggunakan perhitungan jarak dengan menggunakan metode apapun.</u>

<h4>Metode Normalisasi Data</h4>

<li><b>Min-Max</b></li>

<p>Metode Min-Max merupakan metode yang cukup bisa dibayangkan karena termasuk metode normalisasi yang <u>bersifat linier dengan data aslinya</u>. Namun, metode ini bisa menyebabkan out of bound pada beberapa kasus.</p>

<p>Kenapa bisa terjadi out of bound? Out of Bound terjadi apabila ada data baru masuk, dimana data tersebut melebihi nilai maksimal atau nilai minimal dari data yang sudah ada. Secara otomatis, perhitungan yang berlaku pada data yang sudah diperoleh tadi harus diulangi lagi semuanya dengan data baru yang masuk atau data baru yang mempunyai nilai maksimal/minimum yang melebihi tadi tidak bisa diproses. Karena kekurangan inilah MinMax tidak cocok untuk analisa real time / evolving system. Dimungkinkan dalam kasus-kasus terjadi kasus out of bound pada MinMax.</p>

<p>MinMax sangat <b>dianjurkan untuk kasus-kasus berbasis time frame analisis dan forecasting</b>. Perhitungan dari metode ini cukup mengurangi data yang asli dengan nilai minimal dari fitur tersebut, kemudian hasil tersebut dikalikan dari hasil pengurangan nilai maximal yang baru dengan nilai minimal yang baru dan kemudian dibagi dengan nilai max dan min data di setiap fitur terakhir ditambah dengan nilai min yang baru.</p>

<li><b>Z-Score</b></li>

<p>Zscore adalah metode yang sering digunakan dalam berbagai penelitian berbasis data mining atau data science. Z-score merupakan metode normalisasi yang <u>berdasarkan mean (nilai rata-rata) dan standard deviation (deviasi standar</u>) dari data. Kenapa Z-Score sangat populer? Selain tidak banyak variabel yang diset dalam perhitungannya. Z-Score sangat dinamis dalam melakukan perhitungan normalisasi.</p>

<p>Kelemahan dari Z-Score adalah prosesnya akan terulang lagi jika ada data baru yang masuk. Selain itu elemen yang dibutuhkan untuk perhitungan Z-Score juga membutuhkan proses yang cukup lama baik standar deviation ataupun rata-rata dari setiap kolom.</p>

<li><b>Decimal Scaling</b></li>

<p>Decimal scaling dilakukan dengan membagi data dengan 10 pangkat n</p>

<li><b>SoftMax</b></li>

<p>Softmax merupakan metode normalisasi pengembangan transformasi secara linier. <b>Output range-nya adalah 0-1</b>. Metode ini sangat berguna pada saat data yang ada melibatkan data outlier.</p>

<li><b>Sigmoid</b></li>

<p>Sigmoidal merupakan metode normalization melakukan normalisasi data secara nonlinier ke dalam <b>range -1 s/d 1</b> dengan menggunakan fungsi sigmoid. Metode ini sangat berguna pada saat data yang ada melibatkan data outlier. Data outlier adalah data yang keluar jauh dari jangkauan data lainnya.</p>

<h4>Praktek Normalisasi Menggunakan Scikit-Learn</h4>

In [27]:
# import library yang dibutuhkan
import pandas as pd
import numpy as np
from sklearn import preprocessing

# load dataset
csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

In [29]:
# ambil data menjadi array
array = csv_data.values

X = array[:,2:5] #memisahkan fitur dari dataset
Y = array[:,0:1] #memisahkan class dari dataset

<p>X merupakan matriks yang berisi fitur dataset yang akan digunakan dalam machine learning, baik untuk regresi, klasifikasi, pengklusteran, atau normalisasi.</p>

<p>Pada kasus kita, X berisi fitur-fitur yang digunakan untuk dinormalisasi dengan teknik min-max scaler yaitu data pada kolom <b>'Gender'</b> hingga <b>'Spending Score'</b>.</p>

In [31]:
dataset=pd.DataFrame({'Customer ID':array[:,0],'Gender':array[:,1],'Age':array[:,2],'Income':array[:,3],'Spending Score':array[:,4]})
print("dataset sebelum dinormalisasi :")
dataset.head(10)

dataset sebelum dinormalisasi :


Unnamed: 0,Customer ID,Gender,Age,Income,Spending Score
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40
5,6,Female,22,17,76
6,7,Female,35,18,6
7,8,Female,23,18,94
8,9,Male,64,19,3
9,10,Female,30,19,72


<p>Selanjutnya, kita lakukan normalisasi data dengan metode <code>MinMaxScaler()</code> dan terapkan pada fitur (X).</p>

In [32]:
# inisialisasi normalisasi MinMax
min_max_scaler = preprocessing.MinMaxScaler(feature_range=(0,1))

# transformasi MinMax untuk fitur
data = min_max_scaler.fit_transform(X)

In [33]:
dataset = pd.DataFrame({'Age':data[:,0],'Income':data[:,1],'Spending Score':data[:,2],'Customer ID':array[:,0],'Gender':array[:,1]})
print("dataset setelah dinormalisasi :")
dataset.head(10)

dataset setelah dinormalisasi :


Unnamed: 0,Age,Income,Spending Score,Customer ID,Gender
0,0.019231,0.0,0.387755,1,Male
1,0.057692,0.0,0.816327,2,Male
2,0.038462,0.008197,0.05102,3,Female
3,0.096154,0.008197,0.77551,4,Female
4,0.25,0.016393,0.397959,5,Female
5,0.076923,0.016393,0.765306,6,Female
6,0.326923,0.02459,0.05102,7,Female
7,0.096154,0.02459,0.94898,8,Female
8,0.884615,0.032787,0.020408,9,Male
9,0.230769,0.032787,0.72449,10,Female
