# Wrangling Data With Python

Wrangling adalah proses transformasi data mata menjadi data yang siap dianalisa. Pandas adalah salah satu tool dalam python yang digunakan untuk proses wrangling. Fitur dasar yang dijelaskan di sini adalah bagaimana pandas bisa membaca file ekternal

In [4]:
#cara import data csv
import pandas as pd
csv_data = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/shopping_data.csv")
#cara print sebagian data
print(csv_data.head())

   CustomerID   Genre  Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male   19                  15                      39
1           2    Male   21                  15                      81
2           3  Female   20                  16                       6
3           4  Female   23                  16                      77
4           5  Female   31                  17                      40


In [17]:
#membaca data secara baris maupun kolom
#sama seperti R, kita bisa memanggil data tertentu berdasarkan kolom maupun baris dengan pandas

#contoh memanggil data secara baris
print(csv_data.iloc[2])
#output akan menghasilkan data pada baris ke-3 (ingat: di python, dan hampir seluruh bahasa lain, 1 dimulai dari index 0)

#memanggil nama kolom data
print(csv_data.columns)
#sekarang kita ada 5 variabel dalam csv_data. Kita bisa memanggil data perkolom dengan csv_data['nama_variabel']
print(csv_data['Age'])
print(csv_data['CustomerID'])
print(csv_data['Annual Income (k$)'])

#kita juga bisa meretrieve data berdasar kolom dan barisnya
print(csv_data['Spending Score (1-100)'].iloc[20])

CustomerID                     3
Genre                     Female
Age                           20
Annual Income (k$)            16
Spending Score (1-100)         6
Name: 2, dtype: object
Index(['CustomerID', 'Genre', 'Age', 'Annual Income (k$)',
       'Spending Score (1-100)'],
      dtype='object')
0      19
1      21
2      20
3      23
4      31
       ..
195    35
196    45
197    32
198    32
199    30
Name: Age, Length: 200, dtype: int64
0        1
1        2
2        3
3        4
4        5
      ... 
195    196
196    197
197    198
198    199
199    200
Name: CustomerID, Length: 200, dtype: int64
0       15
1       15
2       16
3       16
4       17
      ... 
195    120
196    126
197    126
198    137
199    137
Name: Annual Income (k$), Length: 200, dtype: int64
35


In [19]:
#Menampilkan summary dari data. Di sini kita menggunakan <nama_objek_data>.describe(exclude='O')
#exclude='O' adalah atritbut untuk mengabaikan variabel numerik dalam dataframe. Ini poin perbedaand engan R, yang akan secara 
#otomatis mentreatment variabel non numerik menjadi factor, dan menghitung summary proporsinya.

print(csv_data.describe(exclude=['O']))

       CustomerID         Age  Annual Income (k$)  Spending Score (1-100)
count  200.000000  200.000000          200.000000              200.000000
mean   100.500000   38.850000           60.560000               50.200000
std     57.879185   13.969007           26.264721               25.823522
min      1.000000   18.000000           15.000000                1.000000
25%     50.750000   28.750000           41.500000               34.750000
50%    100.500000   36.000000           61.500000               50.000000
75%    150.250000   49.000000           78.000000               73.000000
max    200.000000   70.000000          137.000000               99.000000


## Handling Missing Value

Seorang analis, pasti mau tidak mau akan berhadapan dengan data mentah yang tidak lengkap nilainya, atau missing value. Kondisi ini bisa diatasi dengan beberapa cara. jika memungkinkan seorang analis harus bisa mentrace back sumber data untuk mendapatkan alasan kuat penyebab hilangnya data, dan memutuskan apakah akan menghapus observasi berkaitan, atau mencari kembali nilai yang sebenarnya.

In [24]:
# cara deteksi adanya nilai hilang

print(csv_data.isnull().values.any())

False


### Teknik Handling Missing Value

Secara umum, ada 2 cara untuk menghadapi missing value :
1. menghapus data
2. imputasi
Menghaspus data sendiri dibagi dalam 3 sub kategori teknik :
1. Menghapus baris
2. Menghapus kolom
3. Pairwise
Untuk imputasi, ini adalah teknik mengganti value yang hilang dengan nilai estimasi lain yang representatif.
Teknik terbagi dalam 2 kondisi utama :

1. Time-series problem
<ol>
    <li>a. Data tanpa trend dan pattern musiman --> Mean, median, mode, random</li>
    <li>b. Data dengan trend, namun tanpa pattern musiman ---> Linear Interpolation</li>
    <li>c. Data dengan trend dan pattern musiman ---> Seasonal suggestion + Interpolation</li>
</ol>    
2. General Problem
<ol>  
    <li>a. Categorical problem --> menggunakan relasi antar kolom dan interpolation</li>
    <li>b. Numerical problem --> mean, median, modus, multiple imputation, dan linear regression</li>
</ol>

### Imputation dengan mean

Seperti yang dijelaskan di bagian atas, kita tahu bahwa teknik imputasi kebanyakan menggunakan angka mean untuk mengestimasi value yang hilang. Karena itu, cara termudah untuk menggambarkan teknik imputasi adalah dengan menggunakan mean sebagai contoh

In [27]:
# Contoh imputasi dengan mean
csv_data_miss = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/shopping_data_missingvalue.csv")
print(csv_data_miss.head(10))

   CustomerID   Genre   Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male  19.0                15.0                    39.0
1           2    Male   NaN                15.0                    81.0
2           3  Female  20.0                 NaN                     6.0
3           4  Female  23.0                16.0                    77.0
4           5  Female  31.0                17.0                     NaN
5           6  Female  22.0                 NaN                    76.0
6           7  Female  35.0                18.0                     6.0
7           8  Female  23.0                18.0                    94.0
8           9    Male  64.0                19.0                     NaN
9          10  Female  30.0                19.0                    72.0


In [28]:
# Gantikan missing value 
# kita akan menggunakan <...>.fillna(...)

csv_data_miss = csv_data_miss.fillna(csv_data_miss.mean())
print(csv_data_miss.head(10))

   CustomerID   Genre        Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male  19.000000           15.000000               39.000000
1           2    Male  38.939698           15.000000               81.000000
2           3  Female  20.000000           61.005051                6.000000
3           4  Female  23.000000           16.000000               77.000000
4           5  Female  31.000000           17.000000               50.489899
5           6  Female  22.000000           61.005051               76.000000
6           7  Female  35.000000           18.000000                6.000000
7           8  Female  23.000000           18.000000               94.000000
8           9    Male  64.000000           19.000000               50.489899
9          10  Female  30.000000           19.000000               72.000000


### Normalisasi Data

Seringkali dalam satu dataset kita menemukan variabel-variabel dengan range nilai yang berbeda. Sebagai contoh : variabel 'age' biasanya memiliki range paling banyak puluhan. Sementara variabel 'income' rangenya bisa mencapai jutaan. Hal ini akan mengganggu beberapa algoritma analisa regresi. Sehingga biasanya dilakukan normalisasi data. 

Beberapa metode normalisasi :
1. Z-Score
2. Decimal Scaling
3. Softmax -- > bagus untuk outlier
4. Sigmoif -- > bagus untuk outlier