# Tugas Praktikum

**Deskripsi Tugas**

Pada tugas pratikum ini Anda akan menggunakan data "Wisconsin Breast Cancer". Data tersebut terdiri dari 569 data yang digunakan untuk mendiagnonis jenis kanker Malignant (M) dan Benign (B). Tugas Anda adalah,
1. Pisahkan antara variabel yang dapat digunakan dan variabel yang tidak dapat digunakan.
2. Lakukan proses encoding pada kolom "diagnosis".
3. Lakukan proses standarisasi pada semua kolom yang memiliki nilai numerik.
4. Lakukan proses stratified split data untuk membuat data latih dan data uji dengan rasio 80:20.

## 1. Memisahkan antara variabel yang dapat digunakan dan variabel yang tidak dapat digunakan.

In [2]:
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd

path = '/content/drive/MyDrive/Machine Learning - 2025/Jobsheet-03/dataset/wbc.csv'

# Load data
df = pd.read_csv(path)

# Lihat nama kolom
print(df.columns)

# Buang kolom yang tidak digunakan
df_clean = df.drop(['id', 'Unnamed: 32'], axis=1)

print("Kolom yang digunakan:\n", df_clean.columns)


Mounted at /content/drive
Index(['id', 'diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean',
       'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean',
       'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean',
       'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se',
       'compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se',
       'fractal_dimension_se', 'radius_worst', 'texture_worst',
       'perimeter_worst', 'area_worst', 'smoothness_worst',
       'compactness_worst', 'concavity_worst', 'concave points_worst',
       'symmetry_worst', 'fractal_dimension_worst', 'Unnamed: 32'],
      dtype='object')
Kolom yang digunakan:
 Index(['diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean',
       'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean',
       'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean',
       'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoot

## 2. Melakukan proses encoding pada kolom "diagnosis".

In [3]:
# Encoding kolom diagnosis: M = 1, B = 0
df_clean['diagnosis'] = df_clean['diagnosis'].map({'M': 1, 'B': 0})

# Cek hasil encoding
print(df_clean['diagnosis'].value_counts())


diagnosis
0    357
1    212
Name: count, dtype: int64


## 3. Melakukan proses standarisasi pada semua kolom yang memiliki nilai numerik.

In [4]:
from sklearn.preprocessing import StandardScaler

# Pisahkan fitur dan target
X = df_clean.drop('diagnosis', axis=1)
y = df_clean['diagnosis']

# Standarisasi
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Cek rata-rata dan std kolom hasil standar
import numpy as np
print("Mean tiap kolom setelah standarisasi:\n", np.mean(X_scaled, axis=0))
print("Std tiap kolom setelah standarisasi:\n", np.std(X_scaled, axis=0))


Mean tiap kolom setelah standarisasi:
 [-1.37363271e-16  6.86816353e-17 -1.24875700e-16 -2.18532476e-16
 -8.36667193e-16  1.87313551e-16  4.99502802e-17 -4.99502802e-17
  1.74825981e-16  4.74527662e-16  2.37263831e-16 -1.12388130e-16
 -1.12388130e-16 -1.31119486e-16 -1.52972733e-16  1.74825981e-16
  1.62338411e-16  0.00000000e+00  8.74129903e-17 -6.24378502e-18
 -8.24179623e-16  1.24875700e-17 -3.74627101e-16  0.00000000e+00
 -2.37263831e-16 -3.37164391e-16  7.49254203e-17  2.24776261e-16
  2.62238971e-16 -5.74428222e-16]
Std tiap kolom setelah standarisasi:
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]


## 4. Melakukan proses stratified split data untuk membuat data latih dan data uji dengan rasio 80:20.

In [6]:
from sklearn.model_selection import train_test_split

# Split data dengan stratify pada y
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)

print("Shape X_train:", X_train.shape)
print("Shape X_test :", X_test.shape)
print("Distribusi label y_train:\n", y_train.value_counts(normalize=True))
print("Distribusi label y_test:\n", y_test.value_counts(normalize=True))


Shape X_train: (455, 30)
Shape X_test : (114, 30)
Distribusi label y_train:
 diagnosis
0    0.626374
1    0.373626
Name: proportion, dtype: float64
Distribusi label y_test:
 diagnosis
0    0.631579
1    0.368421
Name: proportion, dtype: float64
