## Deskripsi Tugas
Pada tugas pratikum ini Anda akan menggunakan data "Wisconsin Breast Cancer". Data tersebut terdiri dari 569 data yang digunakan untuk mendiagnonis jenis kanker Malignant (M) dan Benign (B). Tugas Anda adalah,

* Pisahkan antara variabel yang dapat digunakan dan variabel yang tidak dapat digunakan.

* Lakukan proses encoding pada kolom "diagnosis".

* Lakukan proses standarisasi pada semua kolom yang memiliki nilai numerik.

* Lakukan proses stratified split data untuk membuat data latih dan data uji dengan rasio 80:20.

In [15]:
import pandas as pd  
from sklearn.model_selection import train_test_split  
from sklearn.preprocessing import StandardScaler, LabelEncoder  

# Langkah 1: Membaca data  
data = pd.read_csv('wbc.csv')  

# Variabel yang tidak dapat digunakan  
data = data.drop(columns=['id'])  
data = data.drop(columns=['Unnamed: 32'])  

# Langkah 2: Memisahkan fitur dan target  
X = data.drop(columns=['diagnosis'])  # Fitur  
y = data['diagnosis']                  # Target  

# Langkah 3: Encoding kolom diagnosis  
encoder = LabelEncoder()  
y_encoded = encoder.fit_transform(y)   # Mengubah 'M' dan 'B' menjadi angka  

# Langkah 4: Standarisasi kolom numerik  
scaler = StandardScaler()  
X_scaled = scaler.fit_transform(X)     # Standarisasi fitur  

# Langkah 5: Stratified Split Data  
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_encoded, test_size=0.2, stratify=y_encoded, random_state=42)  

# Memeriksa hasil  
print("Shape of Training set:", X_train.shape, y_train.shape)  
print("Shape of Testing set:", X_test.shape, y_test.shape)

## Menampilkan beberapa baris pertama dari data latih (X_train dan y_train)
print("\nData Latih (Train):")
print("X_train:")
print(X_train[:5])  # Menampilkan lima baris pertama dari X_train
print("\ny_train:")
print(y_train[:5])  # Menampilkan lima baris pertama dari y_train

# Menampilkan beberapa baris pertama dari data uji (X_test dan y_test)
print("\nData Uji (Test):")
print("X_test:")
print(X_test[:5])  # Menampilkan lima baris pertama dari X_test
print("\ny_test:")
print(y_test[:5])  # Menampilkan lima baris pertama dari y_test

Shape of Training set: (455, 30) (455,)
Shape of Testing set: (114, 30) (114,)

Data Latih (Train):
X_train:
[[ 0.53755602  0.91927331  0.44201066  0.40645325 -1.01768583 -0.71354185
  -0.70068435 -0.40468555 -1.03547556 -0.82612434 -0.09265584 -0.05416438
  -0.19804156  0.00380456 -1.00403368 -0.9059213  -0.69244186 -0.68211388
  -0.71948464 -0.2847869   0.60484876  1.33577127  0.49262165  0.47361134
  -0.62547654 -0.63082823 -0.60587197 -0.22620973  0.07643089  0.03181881]
 [-0.51329651 -1.60559452 -0.54037561 -0.54262379  0.45828543 -0.65441324
  -0.61430615 -0.30744224  0.53808104 -0.46038249 -0.61057748 -1.00016329
  -0.59208593 -0.5039949   0.33468727 -0.76446488 -0.49946799  0.0995745
  -0.15768039 -0.58511846 -0.57345083 -1.63449948 -0.60439078 -0.5827184
   0.26877565 -0.81212805 -0.70997823 -0.31513306 -0.11932056 -0.89972108]
 [-0.36276899  0.48411176 -0.38467666 -0.39928102 -1.48381948 -0.40141099
  -0.34575531 -0.78024593 -0.84562651 -0.23498344  0.33972752  1.05439974
  -