## Load Data


In [2]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
import numpy as np

# Load dataset wbc.csv
df = pd.read_csv('/content/drive/MyDrive/ML_Dataset/wbc.csv')

print("Dataset Wisconsin Breast Cancer (WBC)")
print(df['diagnosis'].value_counts())

print("="*60)
print("\nDistribusi Diagnosis:")

print(df.head())
print(df.describe())

print("\nInformasi Dataset:")
print("\nDeskripsi Statistik:")
print(df.info())

Dataset Wisconsin Breast Cancer (WBC)
diagnosis
B    357
M    212
Name: count, dtype: int64

Distribusi Diagnosis:
         id diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
0    842302         M        17.99         10.38          122.80     1001.0   
1    842517         M        20.57         17.77          132.90     1326.0   
2  84300903         M        19.69         21.25          130.00     1203.0   
3  84348301         M        11.42         20.38           77.58      386.1   
4  84358402         M        20.29         14.34          135.10     1297.0   

   smoothness_mean  compactness_mean  concavity_mean  concave points_mean  \
0          0.11840           0.27760          0.3001              0.14710   
1          0.08474           0.07864          0.0869              0.07017   
2          0.10960           0.15990          0.1974              0.12790   
3          0.14250           0.28390          0.2414              0.10520   
4          0.10030       

## Tugas 1: Pisahkan Variabel

Pisahkan antara variabel yang dapat digunakan dan variabel yang tidak dapat digunakan.

In [3]:
print("\n" + "="*60)
print("TUGAS 1: Pemisahan Variabel")
print("="*60)

# Informasi awal
print(f"\nDimensi awal data: {df.shape}")
print("Daftar kolom:")
print(list(df.columns))

# Menghapus kolom 'id'
df_clean = df.drop(columns=['id'])

# Informasi setelah pembersihan
print(f"\nDimensi setelah kolom 'id' dihapus: {df_clean.shape}")
print(f"Kolom yang digunakan ({df_clean.shape[1]} kolom):")
print(list(df_clean.columns))

print("\nKolom yang dikeluarkan: 'id'")
print("Kolom yang dipertahankan: seluruh kolom selain 'id'")



TUGAS 1: Pemisahan Variabel

Dimensi awal data: (569, 33)
Daftar kolom:
['id', 'diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean', 'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se', 'compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se', 'fractal_dimension_se', 'radius_worst', 'texture_worst', 'perimeter_worst', 'area_worst', 'smoothness_worst', 'compactness_worst', 'concavity_worst', 'concave points_worst', 'symmetry_worst', 'fractal_dimension_worst', 'Unnamed: 32']

Dimensi setelah kolom 'id' dihapus: (569, 32)
Kolom yang digunakan (32 kolom):
['diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean', 'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se

## Tugas 2: Encoding Diagnosis

Lakukan proses encoding pada kolom "diagnosis".

In [4]:
print("\n" + "="*60)
print("TUGAS 2: Encoding Nilai Diagnosis")
print("="*60)

# Distribusi awal
print("\nDistribusi label sebelum encoding:")
print(df_clean['diagnosis'].value_counts())

# Proses encoding (B=0, M=1 sesuai output LabelEncoder)
encoder = LabelEncoder()
df_clean['diagnosis_num'] = encoder.fit_transform(df_clean['diagnosis'])

# Contoh hasil
print("\nContoh hasil konversi:")
print(df_clean[['diagnosis', 'diagnosis_num']].head(10))

# Menampilkan mapping kelas
print("\nMapping kelas ke angka:")
for cls in encoder.classes_:
    print(f"  {cls} -> {encoder.transform([cls])[0]}")

# Distribusi setelah encoding
print("\nDistribusi setelah encoding:")
print(df_clean['diagnosis_num'].value_counts())

# Mengganti kolom diagnosis lama
df_encoded = (
    df_clean
    .drop(columns=['diagnosis'])
    .rename(columns={'diagnosis_num': 'diagnosis'})
)

print(f"\nDimensi final setelah penggantian kolom: {df_encoded.shape}")



TUGAS 2: Encoding Nilai Diagnosis

Distribusi label sebelum encoding:
diagnosis
B    357
M    212
Name: count, dtype: int64

Contoh hasil konversi:
  diagnosis  diagnosis_num
0         M              1
1         M              1
2         M              1
3         M              1
4         M              1
5         M              1
6         M              1
7         M              1
8         M              1
9         M              1

Mapping kelas ke angka:
  B -> 0
  M -> 1

Distribusi setelah encoding:
diagnosis_num
0    357
1    212
Name: count, dtype: int64

Dimensi final setelah penggantian kolom: (569, 32)


## Tugas 3: Standarisasi

Lakukan proses standarisasi pada semua kolom yang memiliki nilai numerik.


In [5]:
print("\n" + "="*60)
print("TUGAS 3: Proses Standarisasi Fitur")
print("="*60)

# Memisahkan fitur dan target
X = df_encoded.drop(columns=['diagnosis'])
y = df_encoded['diagnosis']

print(f"\nTotal fitur numerik: {X.shape[1]}")

print("\nSampel data sebelum standarisasi:")
print(X.head())

print("\nRingkasan statistik awal (mean dan std):")
print(X.describe().filter(['mean', 'std']).T.head())

# Inisialisasi dan fitting StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Kembalikan ke DataFrame
X_std = pd.DataFrame(X_scaled, columns=X.columns, index=X.index)

print("\nSampel data setelah standarisasi:")
print(X_std.head())

print("\nRingkasan statistik setelah standarisasi:")
print(X_std.describe().filter(['mean', 'std']).T.head())

print("\nPengecekan hasil:")
print("  Mean ≈ 0 :", np.allclose(X_std.mean(), 0, atol=1e-10))
print("  Std ≈ 1  :", np.allclose(X_std.std(), 1, atol=1e-10))


TUGAS 3: Proses Standarisasi Fitur

Total fitur numerik: 31

Sampel data sebelum standarisasi:
   radius_mean  texture_mean  perimeter_mean  area_mean  smoothness_mean  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   compactness_mean  concavity_mean  concave points_mean  symmetry_mean  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809 

  updated_mean = (last_sum + new_sum) / updated_sample_count
  T = new_sum / new_sample_count
  new_unnormalized_variance -= correction**2 / new_sample_count


## Tugas 4: Stratified Split

Lakukan proses stratified split data untuk membuat data latih dan data uji dengan rasio 80:20.

In [7]:
print("\n" + "="*60)
print("TUGAS 4: Stratified Train–Test Split")
print("="*60)

# Ringkasan proses sebelumnya
print("REKAP PREPROCESSING")
print(f"- Total data awal      : {df.shape[0]} baris, {df.shape[1]} kolom")
print("- Kolom 'id' dihilangkan")
print("- Label 'diagnosis' dikonversi menjadi angka")
print(f"- Standarisasi diterapkan pada {X.shape[1]} fitur numerik")
print("- Pembagian data dilakukan dengan stratifikasi (80% train, 20% test)")

# Pembagian data
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nJumlah total sampel : {len(X_scaled)}")
print(f"Train set           : {len(X_train)} ({len(X_train)/len(X_scaled)*100:.1f}%)")
print(f"Test set            : {len(X_test)} ({len(X_test)/len(X_scaled)*100:.1f}%)")

# Distribusi awal
print("\nDistribusi kelas (dataset asli):")
print(y.value_counts())
print("Proporsi:", y.value_counts(normalize=True).values)

# Distribusi train
print("\nDistribusi kelas (train):")
print(y_train.value_counts())
print("Proporsi:", y_train.value_counts(normalize=True).values)

# Distribusi test
print("\nDistribusi kelas (test):")
print(y_test.value_counts())
print("Proporsi:", y_test.value_counts(normalize=True).values)

print("\nDataset sudah siap digunakan untuk tahap modeling.")


TUGAS 4: Stratified Train–Test Split
REKAP PREPROCESSING
- Total data awal      : 569 baris, 33 kolom
- Kolom 'id' dihilangkan
- Label 'diagnosis' dikonversi menjadi angka
- Standarisasi diterapkan pada 31 fitur numerik
- Pembagian data dilakukan dengan stratifikasi (80% train, 20% test)

Jumlah total sampel : 569
Train set           : 455 (80.0%)
Test set            : 114 (20.0%)

Distribusi kelas (dataset asli):
diagnosis
0    357
1    212
Name: count, dtype: int64
Proporsi: [0.62741652 0.37258348]

Distribusi kelas (train):
diagnosis
0    285
1    170
Name: count, dtype: int64
Proporsi: [0.62637363 0.37362637]

Distribusi kelas (test):
diagnosis
0    72
1    42
Name: count, dtype: int64
Proporsi: [0.63157895 0.36842105]

Dataset sudah siap digunakan untuk tahap modeling.
