# Membaca Data Menggunakan Pandas
pandas juga memiliki kemampuan untuk membaca berbagai macam jenis file seperti .txt, .csv, .tsv, dan lainnya

kemudian merubah data dari file menjadi bentuk dataframe yang akhirnya nanti bisa diakses, diagregasi dan diolah

In [1]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")
csv_data

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40
...,...,...,...,...,...
195,196,Female,35,120,79
196,197,Female,45,126,28
197,198,Male,32,126,74
198,199,Male,32,137,18


## membaca data dengan head()
memastikan data kita terbaca dengan baik dan bisa menampilkan data sebagian dengan fungsi head()

defaultnya menampilkan 5 data teratas

In [3]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")
csv_data.head()

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40


## Melakukan akses data kolom
melakukan akses beberapa kolom tertentu pada suatu dataset

untuk mengetahui nama-nama kolom yang ada

In [4]:
import pandas as pd

# membaca data
csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

# cek kolom - kolom yang ada
csv_data.columns

Index(['CustomerID', 'Genre', 'Age', 'Annual Income (k$)',
       'Spending Score (1-100)'],
      dtype='object')


mengakses data age

In [5]:
csv_data['Age']

0      19
1      21
2      20
3      23
4      31
       ..
195    35
196    45
197    32
198    32
199    30
Name: Age, Length: 200, dtype: int64

## Melakukan akses data melalui baris
melakukan akses dengan menggunakan baris menggunakan fungsi .iloc[i]

[i] menunjukan index urutan baris yang ditampilkan diawali dari 0

In [6]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

# menampilkan 5 data teratas menggunakan iloc
csv_data.iloc[5]

CustomerID                     6
Genre                     Female
Age                           22
Annual Income (k$)            17
Spending Score (1-100)        76
Name: 5, dtype: object

## Menampilkan suatu data dari baris dan kolom tertentu


In [8]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

print('Umur pada baris kedua:')
print(csv_data['Age'].iloc[1])

print("\nCuplikan Dataset:")
print(csv_data.head())

Umur pada baris kedua:
21

Cuplikan Dataset:
   CustomerID   Genre  Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male   19                  15                      39
1           2    Male   21                  15                      81
2           3  Female   20                  16                       6
3           4  Female   23                  16                      77
4           5  Female   31                  17                      40


## Menampilkan data dalam range tertentu
menampilkan data dalam range tertentu, baik range untuk baris , kolom , dan range untuk baris dan kolom tertentu

In [9]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

# menampilkan data suatu kolom dari baris ke 5 sampai kurang dari 10
print("Menampilkan data ke 5 sampai kurang dari 10 :")
print(csv_data['Age'].iloc[5:10])

Menampilkan data ke 5 sampai kurang dari 10 :
5    22
6    35
7    23
8    64
9    30
Name: Age, dtype: int64


menampilkan suatu range data tertentu pada suatu baris saja

In [10]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

# menampilkan data dari baris ke 5 sampai kurang dari 10
print("Menampilkan data ke 5 sampai kurang dari 10 dalam satu baris:")
print(csv_data.iloc[5:10])

Menampilkan data ke 5 sampai kurang dari 10 dalam satu baris:
   CustomerID   Genre  Age  Annual Income (k$)  Spending Score (1-100)
5           6  Female   22                  17                      76
6           7  Female   35                  18                       6
7           8  Female   23                  18                      94
8           9    Male   64                  19                       3
9          10  Female   30                  19                      72


# Menampilkan informasi statistik dengan Numpy
menggunakan fungsi describe() untuk mengetahui informasi statistik dari suatu dataset secara cepat

secara default describe cuma nampilin data numerik, makanya harus di include

In [11]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

# menampilkan informasi statistik deskriptif, mulai dari numerik sampai non numerik
print(csv_data.describe(include='all'))

        CustomerID   Genre  ...  Annual Income (k$)  Spending Score (1-100)
count   200.000000     200  ...          200.000000              200.000000
unique         NaN       2  ...                 NaN                     NaN
top            NaN  Female  ...                 NaN                     NaN
freq           NaN     112  ...                 NaN                     NaN
mean    100.500000     NaN  ...           60.560000               50.200000
std      57.879185     NaN  ...           26.264721               25.823522
min       1.000000     NaN  ...           15.000000                1.000000
25%      50.750000     NaN  ...           41.500000               34.750000
50%     100.500000     NaN  ...           61.500000               50.000000
75%     150.250000     NaN  ...           78.000000               73.000000
max     200.000000     NaN  ...          137.000000               99.000000

[11 rows x 5 columns]


gunakan exclude=[‘O’] untuk mengabaikan data yang non-numerical untuk diproses

karena pada dataset ada format data string yang akhirnya memunculkan format NaN

In [12]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")

print(csv_data.describe(exclude=['O']))

       CustomerID         Age  Annual Income (k$)  Spending Score (1-100)
count  200.000000  200.000000          200.000000              200.000000
mean   100.500000   38.850000           60.560000               50.200000
std     57.879185   13.969007           26.264721               25.823522
min      1.000000   18.000000           15.000000                1.000000
25%     50.750000   28.750000           41.500000               34.750000
50%    100.500000   36.000000           61.500000               50.000000
75%    150.250000   49.000000           78.000000               73.000000
max    200.000000   70.000000          137.000000               99.000000


# Handling Missing Value
metode untuk mengatasi data yang hilang

proses diawali dengan melakukan trace kembali ke sumber data atau memerika ulang record untuk menelusuri kembali agar tidak terjadi kesalahan ketika sudah mencapai titik analisa

## Melakukan pengecekan untuk nilai NULL yang ada
mengecek nilai NULL pada data dengan fungsi isnull() 

In [None]:
import pandas as pd

csv_data = pd.read_csv("http://academy.dqlab.id/dataset/shopping_data.csv")
# .any() merujuk kesemua kolom pada data
print(csv_data.isnull().values.any())

karena data yang digunakan merupakan data yang lengkap, maka  output yang dihasilkan False

terapkan dengan dataset yang terdapat data yang kosong

In [13]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data_missingvalue.csv")
# .any() merujuk kesemua kolom pada data
print(csv_data.isnull().values.any())

True


## Solusi mengisi Missing Value
- Penghapusan Data
  - langsung pada baris data atau kolom data tersebut
  - dilakukan apabila data yang dihapus atau hilang sedikit dan tidak memberikan dampak untuk hasil analisisnya 
- Imputasi atau pengisian data yang kosong
  - untuk masalah yang berhubungan forecasting atau peramalan tergantung dari data yang ada
    - data tanpa tren dengan musimnya menggunakan mean, median, mode, random
    - data dengan trend tanpa musim menggunakan linear interpolation
    - data dengan trend dan musimnya menggunakan seasonial suggestion + interpolation
  - untuk general problem tergantung jenis datanya
    - data kategorikal atau bersifat string menggunakan relasi antar kolom dengan Logistic Regression
    - data numerical bisa menggunakan statistik sederhana (mean, median, mode, random) dan linear regression

### Mengisi dengan Mean
mengisi data kosong dengan menggunakan mean dari masing-masing kolom
- diawali dengan menentukan mean dari masing-masing kolom

mean sendiri digunakan untuk data yang memiliki sedikit sifat outlier/ noisy/anomali dalam sebaran datanya maupun isinya

In [15]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data_missingvalue.csv")
csv_data.mean()

CustomerID                100.500000
Age                        38.939698
Annual Income (k$)         61.005051
Spending Score (1-100)     50.489899
dtype: float64

mean berfungsi untuk menampilkan nilai mean (rata-rata) dari setiap kolom

mengisi nilai yang kosong menggunakan fungsi fillna()

In [19]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data_missingvalue.csv")

# cek mean pada dataset
print("Nilai rata-rata pada dataset")
print(csv_data.mean())

# dataset sebelum
print("\nDataset yang masih terdapat nilai kosong :")
print(csv_data.head(10))

# imputasi dengan mean
csv_data=csv_data.fillna(csv_data.mean())

# dataset sesudah
print("\nDataset yang sudah diproses Handling Missing Values dengan Mean :")
print(csv_data.head(10))

Nilai rata-rata pada dataset
CustomerID                100.500000
Age                        38.939698
Annual Income (k$)         61.005051
Spending Score (1-100)     50.489899
dtype: float64

Dataset yang masih terdapat nilai kosong :
   CustomerID   Genre   Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male  19.0                15.0                    39.0
1           2    Male   NaN                15.0                    81.0
2           3  Female  20.0                 NaN                     6.0
3           4  Female  23.0                16.0                    77.0
4           5  Female  31.0                17.0                     NaN
5           6  Female  22.0                 NaN                    76.0
6           7  Female  35.0                18.0                     6.0
7           8  Female  23.0                18.0                    94.0
8           9    Male  64.0                19.0                     NaN
9          10  Female  30.0                1

### Mengisi dengan Median
median digunakan untuk data-data yang memiliki sifat outlier yang kuat

karena merupakan nilai tengah yang artinya bukan hasil dari perhitungan yang melibatkan data outlier

data outlier dianggap mengganggu dan sering dianggap noisy karena bisa mempengaruhi distribusi kelas dan mengganggu analisa pada clustering

In [18]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data_missingvalue.csv")
csv_data.median()

CustomerID                100.5
Age                        36.0
Annual Income (k$)         62.0
Spending Score (1-100)     50.0
dtype: float64


mengisi nilai yang kosong menggunakan fungsi fillna()

In [20]:
import pandas as pd

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data_missingvalue.csv")

# dataset sebelum
print("Dataset yang masih terdapat nilai kosong:")
print(csv_data.head(10))

# pengisian data kosong menggunakan fillna
csv_data=csv_data.fillna(csv_data.median())

# dataset sesudah
print("\nDataset yang sudah diproses Handling Missing Values dengan Median :")
print(csv_data.head(10))

Dataset yang masih terdapat nilai kosong:
   CustomerID   Genre   Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male  19.0                15.0                    39.0
1           2    Male   NaN                15.0                    81.0
2           3  Female  20.0                 NaN                     6.0
3           4  Female  23.0                16.0                    77.0
4           5  Female  31.0                17.0                     NaN
5           6  Female  22.0                 NaN                    76.0
6           7  Female  35.0                18.0                     6.0
7           8  Female  23.0                18.0                    94.0
8           9    Male  64.0                19.0                     NaN
9          10  Female  30.0                19.0                    72.0

Dataset yang sudah diproses Handling Missing Values dengan Median :
   CustomerID   Genre   Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male  19

## Normalisasi Data
digunakan untuk antar kolom yang memiliki range nilai yang berbeda atau perbedaan skala

hal ini bisa menjadi masalah besar dalam contoh kasus klasterisasi atau klasifikasi yang menggunakan perhitungan jarak 

sehingga terjadi kesenjangan antar domain 

### Metode Normalisasi
- MinMax
  - metode normalisasi yang bersifat linier dengan data aslinya
  - namun bisa menyebabkan out of bound pada beberapa kasus 
    - karena  melebihi nilai maksimal atau nilai minimal dari data yang sudah, apabila menerima input data baru 
  - dianjurkan untuk kasus-kasus berbasis time frame analisis dan forecasting
  - cukup mengurangi data yang asli dengan nilai minimal dari fitur tersebut
    - hasilnya dikalikan dari hasil pengurangan nilai maximal yang baru dengan nilai minimal yang baru
    - kemudian dibagi dengan nilai max dan min data di setiap fitur terakhir ditambah dengan nilai min yang baru
  
  ```
  new_data = (((current_data - min) * (new_max - new_min))/(max - min)) + min
  ```
  - new_data, data baru hasil normalisasi
  - current_data, data yang mau dinormalisasi
  - min, nilai terkecil dari satu kolom baris data
  - max, nilai terbesar dari satu kolom baris data
  - new_min, batas nilai terkecil dari normalisasi
  - new_max, batas nilai terbesar dari normalisasi
- Zscore
  - metode normalisasi yang berdasarkan mean (nilai rata-rata) dan standard deviation (deviasi standar)

  ```
  new_data = (current_data - mean)/standar_deviaton
  ```
  - new_data, data baru hasil normalisasi
  - current_data, data yang mau di normalisasi
  - mean, rata-rata dari setiap kolom
  - standar_deviasi, standar deviasi dari setiap kolom
- Decimal Scalling
  ```
  new_data = current_data/10^n
  ```
  - new_data, data baru hasil normalisasi
  - current_data, data yang mau di normalisasi
  - n = pangkat untuk pembagi
- Softmax
  - metode normalisasi pengembangan transformasi secara linier
  - Output range-nya adalah 0-1
  - berguna pada saat data yang ada melibatkan data outlier

  ```
  # cari transfdata
  transfdata = (current_data - mean)/(x*(standar_deviasi)/(2*3.14))
  # hitung softmax nya
  new_data = 1/(1+e^(-transfdata))
  ```
  - new_data, data baru hasil normalisasi
  - current_data, data yang mau di normalisasi
  - x, respon linear pada standar deviasi (range 0 - 1)
  - e, 2.718281828
- Sigmoid
  - metode normalization melakukan normalisasi data secara nonlinier ke dalam range -1 s/d 1
  - berguna pada saat data yang ada melibatkan data outlier
  
  ```
  # mencari nilai x
  x = (current_data - mean)/standar deviasi
  # mencari sigmoid
  new_data = (1-e^(-x))/(1+e^(-x))
  ```
  - new_data, data baru hasil normalisasi
  - current_data, data yang mau di normalisasi
  - e, 2.718281828
  - mean, rata-rata dari setiap kolom
  - standar_deviasi, standar deviasi dari setiap kolom

# Praktek Normalisasi menggunakan Scikit Learn pada Python
Scikit Learn merupakan library pada python yang digunakan untuk machine learning dan data science

Scikit Learn terdapat fitur untuk pre-processing, feature selection, dan proses analysis

In [21]:
import pandas as pd
import numpy as np
from sklearn import preprocessing

csv_data = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/shopping_data.csv")
array = csv_data.values

X merupakan matriks yang berisi fitur dataset yang akan digunakan dalam machine learning, baik untuk regresi, klasifikasi, pengklusteran, atau normalisasi

Pada kasus kita, X berisi fitur-fitur yang digunakan untuk dinormalisasi dengan teknik min-max scaler

In [23]:
# memisahkan fitur dari dataset
X = array[:,2:5] 
# memisahkan class dari dataset
Y = array[:,0:1]  

dataset=pd.DataFrame({'Customer ID':array[:,0],'Gender':array[:,1],'Age':array[:,2],'Income':array[:,3],'Spending Score':array[:,4]})
print("dataset sebelum dinormalisasi :")
print(dataset.head(10))

# inisialisasi normalisasi MinMax
min_max_scaler = preprocessing.MinMaxScaler(feature_range=(0,1)) 
# transformasi MinMax untuk fitur
data = min_max_scaler.fit_transform(X) 
dataset = pd.DataFrame({'Age':data[:,0],'Income':data[:,1],'Spending Score':data[:,2],'Customer ID':array[:,0],'Gender':array[:,1]})

print("\ndataset setelah dinormalisasi :")
print(dataset.head(10))

dataset sebelum dinormalisasi :
  Customer ID  Gender Age Income Spending Score
0           1    Male  19     15             39
1           2    Male  21     15             81
2           3  Female  20     16              6
3           4  Female  23     16             77
4           5  Female  31     17             40
5           6  Female  22     17             76
6           7  Female  35     18              6
7           8  Female  23     18             94
8           9    Male  64     19              3
9          10  Female  30     19             72

dataset setelah dinormalisasi :
        Age    Income  Spending Score Customer ID  Gender
0  0.019231  0.000000        0.387755           1    Male
1  0.057692  0.000000        0.816327           2    Male
2  0.038462  0.008197        0.051020           3  Female
3  0.096154  0.008197        0.775510           4  Female
4  0.250000  0.016393        0.397959           5  Female
5  0.076923  0.016393        0.765306           6  Female
6