Deskripsi Tugas
Pada tugas pratikum ini Anda akan menggunakan data "Wisconsin Breast Cancer". Data tersebut terdiri dari 569 data yang digunakan untuk mendiagnonis jenis kanker Malignant (M) dan Benign (B). 
1. Pisahkan antara variabel yang dapat digunakan dan variabel yang tidak dapat digunakan.
2. Lakukan proses encoding pada kolom "diagnosis".
3. Lakukan proses standarisasi pada semua kolom yang memiliki nilai numerik.
4. Lakukan proses stratified split data untuk membuat data latih dan data uji dengan rasio 80:20.

In [2]:
# melakukan import library
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler

# mengambil path dataset
data = 'wbc.csv'
# DataFrame (df) : struktur data tabular dua dimensi yang digunakan untuk menyimpan dan mengelola data dalam bentuk tabel 
# pd.read_csv : membaca data dari file CSV (Comma-Separated Values) ke dalam suatu struktur data
df = pd.read_csv(data)

In [3]:
# mengambil variabel yang akan dijadikan sebagai fitur
df = df[['diagnosis','radius_mean','texture_mean','perimeter_mean','area_mean','smoothness_mean']]
# menampilkan 5 baris teratas dari dataset
df.head()

Unnamed: 0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean
0,M,17.99,10.38,122.8,1001.0,0.1184
1,M,20.57,17.77,132.9,1326.0,0.08474
2,M,19.69,21.25,130.0,1203.0,0.1096
3,M,11.42,20.38,77.58,386.1,0.1425
4,M,20.29,14.34,135.1,1297.0,0.1003


In [4]:
# LabelEncoder: Digunakan untuk mengubah variabel kategori menjadi bilangan bulat
le = LabelEncoder() # membuat objek dari LabelEncoder

# fit_transform : untuk melakukan perhitungan dan menginputkannya kedalam kolom data
df['diagnosis'] = le.fit_transform(df['diagnosis']) # proses encoding
df.head()

Unnamed: 0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean
0,1,17.99,10.38,122.8,1001.0,0.1184
1,1,20.57,17.77,132.9,1326.0,0.08474
2,1,19.69,21.25,130.0,1203.0,0.1096
3,1,11.42,20.38,77.58,386.1,0.1425
4,1,20.29,14.34,135.1,1297.0,0.1003


In [5]:
# Standard Scaler : untuk mengubah data menjadi skala standar dengan mean nol dan deviasi standar satu
std = StandardScaler()
# fit_transform : untuk melakukan perhitungan dan menginputkannya kedalam kolom data
df['radius_mean'] = std.fit_transform(df[['radius_mean']])
df['texture_mean'] = std.fit_transform(df[['texture_mean']])
df['perimeter_mean'] = std.fit_transform(df[['perimeter_mean']])
df['area_mean'] = std.fit_transform(df[['area_mean']])
df['smoothness_mean'] = std.fit_transform(df[['smoothness_mean']])
df.head()

Unnamed: 0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean
0,1,1.097064,-2.073335,1.269934,0.984375,1.568466
1,1,1.829821,-0.353632,1.685955,1.908708,-0.826962
2,1,1.579888,0.456187,1.566503,1.558884,0.94221
3,1,-0.768909,0.253732,-0.592687,-0.764464,3.283553
4,1,1.750297,-1.151816,1.776573,1.826229,0.280372


In [6]:
# Split data
from sklearn.model_selection import train_test_split

# Split data training dan dan lainnya
# Rasio yang akan kita gunakan adalah 8:2
df_train, df_unseen = train_test_split(df, test_size=0.2, random_state=0, stratify=df['diagnosis'])

# Cek masing-masing ukuran data
print(f'Jumlah label data asli:\n{df.diagnosis.value_counts()}')
print(f'Jumlah label data train:\n{df_train.diagnosis.value_counts()}')
print(f'Jumlah label data unseen:\n{df_unseen.diagnosis.value_counts()}')

Jumlah label data asli:
0    357
1    212
Name: diagnosis, dtype: int64
Jumlah label data train:
0    285
1    170
Name: diagnosis, dtype: int64
Jumlah label data unseen:
0    72
1    42
Name: diagnosis, dtype: int64
