#Melihat informasi statistik menggunakan Numpy

Kita akan melihat informasi statistik pada suatu data untuk melihat persebaran data.

In [1]:
#menampilkan semua distribusi data

import pandas as pd

df = pd.read_csv("shopping_data.csv")

print(df.describe(include='all'))

        CustomerID   Genre  ...  Annual Income (k$)  Spending Score (1-100)
count   200.000000     200  ...          200.000000              200.000000
unique         NaN       2  ...                 NaN                     NaN
top            NaN  Female  ...                 NaN                     NaN
freq           NaN     112  ...                 NaN                     NaN
mean    100.500000     NaN  ...           60.560000               50.200000
std      57.879185     NaN  ...           26.264721               25.823522
min       1.000000     NaN  ...           15.000000                1.000000
25%      50.750000     NaN  ...           41.500000               34.750000
50%     100.500000     NaN  ...           61.500000               50.000000
75%     150.250000     NaN  ...           78.000000               73.000000
max     200.000000     NaN  ...          137.000000               99.000000

[11 rows x 5 columns]


In [2]:
#memfilter hanya data yang numerik, mengabaikan data yang non numerical

import pandas as pd

df = pd.read_csv("shopping_data.csv")

print(df.describe(exclude=['O']))

       CustomerID         Age  Annual Income (k$)  Spending Score (1-100)
count  200.000000  200.000000          200.000000              200.000000
mean   100.500000   38.850000           60.560000               50.200000
std     57.879185   13.969007           26.264721               25.823522
min      1.000000   18.000000           15.000000                1.000000
25%     50.750000   28.750000           41.500000               34.750000
50%    100.500000   36.000000           61.500000               50.000000
75%    150.250000   49.000000           78.000000               73.000000
max    200.000000   70.000000          137.000000               99.000000


#Melakukan pengecekan untuk nilai NULL

In [4]:
import pandas as pd

df = pd.read_csv("shopping_data.csv")

print(df.isnull().values.any())

False


In [6]:
import pandas as pd

df = pd.read_csv("shopping_data_missingvalue.csv")

print(df.isnull().values.any())

True


#Handling Missing Value

Mengisi dengan mean

In [8]:
import pandas as pd

df = pd.read_csv("shopping_data_missingvalue.csv")

print(df.mean())

print("Dataset yang terdapat nilai kosong: ")
print(df.head(10))

df = df.fillna(df.mean())
print("Dataset yang sudah diproses Handling Missing Values dengan Mean: ")
print(df.head(10))

CustomerID                100.500000
Age                        38.939698
Annual Income (k$)         61.005051
Spending Score (1-100)     50.489899
dtype: float64
Dataset yang terdapat nilai kosong: 
   CustomerID   Genre   Age  Annual Income (k$)  Spending Score (1-100)
0           1    Male  19.0                15.0                    39.0
1           2    Male   NaN                15.0                    81.0
2           3  Female  20.0                 NaN                     6.0
3           4  Female  23.0                16.0                    77.0
4           5  Female  31.0                17.0                     NaN
5           6  Female  22.0                 NaN                    76.0
6           7  Female  35.0                18.0                     6.0
7           8  Female  23.0                18.0                    94.0
8           9    Male  64.0                19.0                     NaN
9          10  Female  30.0                19.0                    72.0
Dataset 

#Normalisasi Data

Tujuan dilakukan normalisasi data adalah menyamakan range antar atribut.

1. Min Max Scaler </br>
Metode normalisasi yang bersifat linier dengan data aslinya
Menyebabkan out of bound pada beberapa kasus
Tidak cocok untuk kasus realtime, cocok untuk time frame analisis dan forecasting
2. Z-Score </br>
Sering digunakan pada penelitian berbasis data mining. Metode normalisasi berdasarkan nilai rata-rata dan standar deviasi. Kelemahannya adalah prosesenya akan terulang lagi jika ada data baru yang masuk
3. Decimal Scaling </br>
4. Softmax </br>
Metode normalisasi pengembangan transformasi secara linier. Output rangenya adalah 0-1. Berguna saat melibatkan data yang outlier.
5. Sigmoid </br>
Metode normalisasi menggunakan normalisasi data secara nonlinier ke dalam range -1 s/d 1 dengan menggunakan fungsi sigmoid. Sangat berguna saat melibatkan data outlier.  

#Praktek Normalisasi menggunakan Scikit Learn pada Python

In [10]:
import pandas as pd
import numpy as np
from sklearn import preprocessing

df = pd.read_csv("shopping_data.csv")
array = df.values

In [11]:
X = array[:, 2:5] #memisahkan feature dari dataset
y = array[:, 0:1] #memisahkan target dari dataset

dataset = pd.DataFrame({'Customer ID':array[:,0],'Gender':array[:,1],'Age':array[:,2],'Income':array[:,3],'Spending Score':array[:,4]})
print("dataset sebelum dinormalisasi: ")
print(dataset.head(10))

min_max_scaler = preprocessing.MinMaxScaler(feature_range=(0,1)) #inisialisasi normalisasi
data = min_max_scaler.fit_transform(X) #transformasi MinMax untuk fitur
dataset = pd.DataFrame({'Age':data[:,0],'Income':data[:,1],'Spending Score':data[:,2],'Customer_ID':array[:,0],'Gender':array[:,1]})

print("dataset setelah dinormalisasi :")
print(dataset.head(10))

dataset sebelum dinormalisasi: 
  Customer ID  Gender Age Income Spending Score
0           1    Male  19     15             39
1           2    Male  21     15             81
2           3  Female  20     16              6
3           4  Female  23     16             77
4           5  Female  31     17             40
5           6  Female  22     17             76
6           7  Female  35     18              6
7           8  Female  23     18             94
8           9    Male  64     19              3
9          10  Female  30     19             72
dataset setelah dinormalisasi :
        Age    Income  Spending Score Customer_ID  Gender
0  0.019231  0.000000        0.387755           1    Male
1  0.057692  0.000000        0.816327           2    Male
2  0.038462  0.008197        0.051020           3  Female
3  0.096154  0.008197        0.775510           4  Female
4  0.250000  0.016393        0.397959           5  Female
5  0.076923  0.016393        0.765306           6  Female
6 