# Data Wrangling Python

In [1]:
import warnings
warnings.filterwarnings("ignore")

- Bagaimana cara melakukan data wrangling dengan menggunakan bahasa pemograman Python
- Data Wrangling merupakan langkah penting untuk sebagai Data Science

### Cara Membaca Data Menggunakan Pandas

Pandas merupakan salah satu alternatif library yang sering digunakan untuk proses data wrangling. Pandas merupakan toolkit yang powerfull sebagai analisis data diawal dan pengenalan struktur dataset dalam Python

In [2]:
import pandas as pd

In [4]:
dataset = pd.read_csv('../content/shopping_data.csv')
print(dataset)

     CustomerID   Genre  Age  Annual Income (k$)  Spending Score (1-100)
0             1    Male   19                  15                      39
1             2    Male   21                  15                      81
2             3  Female   20                  16                       6
3             4  Female   23                  16                      77
4             5  Female   31                  17                      40
..          ...     ...  ...                 ...                     ...
195         196  Female   35                 120                      79
196         197  Female   45                 126                      28
197         198    Male   32                 126                      74
198         199    Male   32                 137                      18
199         200    Male   30                 137                      83

[200 rows x 5 columns]


### Cara Membaca Data Menggunakan Head

Pada suatu kasus, data yang kita baca cukup banyak atau loading yang lama. Untuk memastikan data kita terbaca dengan baik dan bisa menampilkan data sebagian untuk ditampilkan secara benar, kita bisa memakai fungsi head()

In [15]:
dataset.head(20)

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40
5,6,Female,22,17,76
6,7,Female,35,18,6
7,8,Female,23,18,94
8,9,Male,64,19,3
9,10,Female,30,19,72


### Melakukan Akses Data Kolom

Dalam suatu analisis data ada kalanya kita hanya butuh melakukan akses beberapa data saja dan tidak perlu harus menampilkan semua data. Pada pandas kita bisa melakukan akses dalam berbagai kebutuhan. Mulai dari hanya akses kolom tertentu ataupun baris tertentu

In [6]:
dataset.columns

Index(['CustomerID', 'Genre', 'Age', 'Annual Income (k$)',
       'Spending Score (1-100)'],
      dtype='object')

### Melakukan Akses Data Baris

Selain melakukan akses data melalui kolom, dengan menggunakan pandas juga bisa melakukan akses dengan menggunakan baris. Berbeda dengan akses melalui kolom, fungsi untuk menampilkan data dari suatu baris adalah fungsi .iloc[i] dimana [i] menunjukan urutan baris yang akan ditampilkan yang dimana indexnya diawali dari 0

In [17]:
dataset.iloc[10]

CustomerID                  11
Genre                     Male
Age                         67
Annual Income (k$)          19
Spending Score (1-100)      14
Name: 10, dtype: object

### Menampilkan Data dari Baris dan Kolom Tertentu

Tidak hanya dengan menentukan dari kolom dan baris, dengan menggunakan pandas kita juga bisa memanggil suatu data dari suatu baris dan kolom tertentu dalam satu waktu

In [8]:
import numpy as np

In [20]:
dataset['Genre'].iloc[10]

'Male'

### Menampilkan Data Range Tertentu

In [10]:
dataset["Age"].iloc[5:10]

5    22
6    35
7    23
8    64
9    30
Name: Age, dtype: int64

### Menampilkan Informasi Statistik dengan Numpy

Mengetahui informasi statistik pada suatu data sangat penting. Mulai dari distribusi data, nilai max atau min, hingga standar deviasi dari suatu dataset

In [21]:
dataset.describe(include="all")

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
count,200.0,200,200.0,200.0,200.0
unique,,2,,,
top,,Female,,,
freq,,112,,,
mean,100.5,,38.85,60.56,50.2
std,57.879185,,13.969007,26.264721,25.823522
min,1.0,,18.0,15.0,1.0
25%,50.75,,28.75,41.5,34.75
50%,100.5,,36.0,61.5,50.0
75%,150.25,,49.0,78.0,73.0


# Data Missing Hingga Normalisasi Data

Cara menanggulangi data yang hilang hingga mempelajari data yang normal

### Handling Missing Value

Pada suatu dataset, ada kalanya data yang kita akan kita kelola tidak lengkap. Hal ini tentunya akan menyulitkan atau membuat hasil analisa tidak akurat. Penanggulangan akan data yang hilang ini biasa disebut Handling Missing Value. Penanganan dari nilai yang kosong ini banyak caranya

### Melakukan pengecekan untuk nilai NULL yang ada

Dengan menggunakan fungsi pandas, kita tidak perlu melihat satu persatu baris data untuk mengetahui apakah ada nilai kosong atau NULL/NAN pada suatu dataset

In [22]:
dataset.isnull().values.any()

False

In [23]:
csv_data = pd.read_csv("/content/shopping_data_missingvalue.csv")

csv_data.isnull().values.any()

True

### Solusi mengisi Missing Value

referensi : https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4

#### Mengisi dengan Mean

Salah satu metode yang bisa dikatakan sebagai solusi yang umum pada kasus general data science adalah mengisi data kosong dengan menggunakan mean dari masing-masing kolom. Pertama kita harus menentukan mean dari masing-masing kolom. Pada pandas terdapat fungsi mean() untuk menentukan nilai mean dari masing-masing kolom. Mean sendiri digunakan untuk data yang memiliki sedikit sifat outlier/noisy/anomali dalam sebaran datanya maupun isinya

In [24]:
csv_data.mean()

CustomerID                100.500000
Age                        38.939698
Annual Income (k$)         61.005051
Spending Score (1-100)     50.489899
dtype: float64

In [25]:
print("Dataset yang masih terdapat nilai kosong ! :")
csv_data.head(10)

Dataset yang masih terdapat nilai kosong ! :


Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19.0,15.0,39.0
1,2,Male,,15.0,81.0
2,3,Female,20.0,,6.0
3,4,Female,23.0,16.0,77.0
4,5,Female,31.0,17.0,
5,6,Female,22.0,,76.0
6,7,Female,35.0,18.0,6.0
7,8,Female,23.0,18.0,94.0
8,9,Male,64.0,19.0,
9,10,Female,30.0,19.0,72.0


In [26]:
csv_data=csv_data.fillna(csv_data.mean())
print("Dataset yang sudah diproses Handling Missing Values dengan Mean :")
csv_data.head(10)

Dataset yang sudah diproses Handling Missing Values dengan Mean :


Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19.0,15.0,39.0
1,2,Male,38.939698,15.0,81.0
2,3,Female,20.0,61.005051,6.0
3,4,Female,23.0,16.0,77.0
4,5,Female,31.0,17.0,50.489899
5,6,Female,22.0,61.005051,76.0
6,7,Female,35.0,18.0,6.0
7,8,Female,23.0,18.0,94.0
8,9,Male,64.0,19.0,50.489899
9,10,Female,30.0,19.0,72.0


#### Mengisi dengan Median

In [27]:
csv_data.median()

CustomerID                100.500000
Age                        36.000000
Annual Income (k$)         61.502525
Spending Score (1-100)     50.000000
dtype: float64

In [29]:
csv_data = pd.read_csv("/content/shopping_data_missingvalue.csv")
print("Dataset yang masih terdapat nilai kosong ! :")
print(csv_data.head(10))

Dataset yang masih terdapat nilai kosong ! :
   CustomerID   Genre   Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male  19.0                15.0                    39.0
1           2    Male   NaN                15.0                    81.0
2           3  Female  20.0                 NaN                     6.0
3           4  Female  23.0                16.0                    77.0
4           5  Female  31.0                17.0                     NaN
5           6  Female  22.0                 NaN                    76.0
6           7  Female  35.0                18.0                     6.0
7           8  Female  23.0                18.0                    94.0
8           9    Male  64.0                19.0                     NaN
9          10  Female  30.0                19.0                    72.0


In [30]:
csv_data=csv_data.fillna(csv_data.median())
print("Dataset yang sudah diproses Handling Missing Values dengan Median :")
print(csv_data.head(10))

Dataset yang sudah diproses Handling Missing Values dengan Median :
   CustomerID   Genre   Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male  19.0                15.0                    39.0
1           2    Male  36.0                15.0                    81.0
2           3  Female  20.0                62.0                     6.0
3           4  Female  23.0                16.0                    77.0
4           5  Female  31.0                17.0                    50.0
5           6  Female  22.0                62.0                    76.0
6           7  Female  35.0                18.0                     6.0
7           8  Female  23.0                18.0                    94.0
8           9    Male  64.0                19.0                    50.0
9          10  Female  30.0                19.0                    72.0


### Normalisasi Data

Antara Usia dan Masa Kerja masih memiliki range yang sama dalam skala puluhan. Namun, jika kolom Usia dan Masa Kerja dibandingkan dengan Gaji memiliki range nilai yang berbeda, dimana Usia dan Masa Kerja memiliki range puluhan dan Gaji mempunyai range nilai jutaan. Memang terlihat sederhana, namun hal ini bisa menjadi masalah besar dalam contoh kasus klasterisasi atau klasifikasi

### Praktek Normalisasi menggunakan Scikit Learn pada Python

Scikit Learn merupakan library pada python yang digunakan untuk machine learning dan data science. Salah satu library yang selalu menjadi favorit dan komunitasnya sangat kuat. Scikit-learn sendiri tidak hanya untuk analytics saja, namun juga untuk pre-processing, feature selection, dan proses analysis lainnya

In [31]:
from sklearn import preprocessing

In [32]:
dataset.head()

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40


In [33]:
array = dataset.values
array

array([[1, 'Male', 19, 15, 39],
       [2, 'Male', 21, 15, 81],
       [3, 'Female', 20, 16, 6],
       [4, 'Female', 23, 16, 77],
       [5, 'Female', 31, 17, 40],
       [6, 'Female', 22, 17, 76],
       [7, 'Female', 35, 18, 6],
       [8, 'Female', 23, 18, 94],
       [9, 'Male', 64, 19, 3],
       [10, 'Female', 30, 19, 72],
       [11, 'Male', 67, 19, 14],
       [12, 'Female', 35, 19, 99],
       [13, 'Female', 58, 20, 15],
       [14, 'Female', 24, 20, 77],
       [15, 'Male', 37, 20, 13],
       [16, 'Male', 22, 20, 79],
       [17, 'Female', 35, 21, 35],
       [18, 'Male', 20, 21, 66],
       [19, 'Male', 52, 23, 29],
       [20, 'Female', 35, 23, 98],
       [21, 'Male', 35, 24, 35],
       [22, 'Male', 25, 24, 73],
       [23, 'Female', 46, 25, 5],
       [24, 'Male', 31, 25, 73],
       [25, 'Female', 54, 28, 14],
       [26, 'Male', 29, 28, 82],
       [27, 'Female', 45, 28, 32],
       [28, 'Male', 35, 28, 61],
       [29, 'Female', 40, 29, 31],
       [30, 'Female', 23

In [34]:
X = array[:,2:5] #memisahkan fitur dari dataset. 
Y = array[:,0:1]  #memisahkan class dari dataset

dataset=pd.DataFrame({"Customer ID":array[:,0],"Gender":array[:,1],"Age":array[:,2],"Income":array[:,3],"Spending Score":array[:,4]})
print("dataset sebelum dinormalisasi :")
print(dataset.head(10))

dataset sebelum dinormalisasi :
  Customer ID  Gender Age Income Spending Score
0           1    Male  19     15             39
1           2    Male  21     15             81
2           3  Female  20     16              6
3           4  Female  23     16             77
4           5  Female  31     17             40
5           6  Female  22     17             76
6           7  Female  35     18              6
7           8  Female  23     18             94
8           9    Male  64     19              3
9          10  Female  30     19             72


In [35]:
min_max_scaler = preprocessing.MinMaxScaler(feature_range=(0,1)) #inisialisasi normalisasi MinMax
data = min_max_scaler.fit_transform(X) #transformasi MinMax untuk fitur
dataset = pd.DataFrame({"Age":data[:,0],"Income":data[:,1],"Spending Score":data[:,2],"Customer ID":array[:,0],"Gender":array[:,1]})

print("dataset setelah dinormalisasi :")
print(dataset.head(10))

dataset setelah dinormalisasi :
        Age    Income  Spending Score Customer ID  Gender
0  0.019231  0.000000        0.387755           1    Male
1  0.057692  0.000000        0.816327           2    Male
2  0.038462  0.008197        0.051020           3  Female
3  0.096154  0.008197        0.775510           4  Female
4  0.250000  0.016393        0.397959           5  Female
5  0.076923  0.016393        0.765306           6  Female
6  0.326923  0.024590        0.051020           7  Female
7  0.096154  0.024590        0.948980           8  Female
8  0.884615  0.032787        0.020408           9    Male
9  0.230769  0.032787        0.724490          10  Female
