# **Tugas Praktikum**

# **Langkah 1: Pemuatan Data**

Langkah awal adalah memuat dataset dari file wbc.csv menggunakan library Pandas.

In [None]:
# Impor library yang dibutuhkan
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
import warnings

warnings.filterwarnings('ignore')

# --- 1. Memuat Data ---
try:
    df = pd.read_csv('/content/wbc.csv')
    print("Dataset berhasil dimuat.")
    print("Dimensi data awal:", df.shape)
    print("\nInfo dataset awal:")
    df.info()
except FileNotFoundError:
    print("Error: File 'wbc.csv' tidak ditemukan. Mohon periksa kembali path file Anda.")
    # Jika file tidak ditemukan, hentikan eksekusi lebih lanjut.
    exit()


Dataset berhasil dimuat.
Dimensi data awal: (569, 33)

Info dataset awal:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 33 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       569 non-null    int64  
 1   diagnosis                569 non-null    object 
 2   radius_mean              569 non-null    float64
 3   texture_mean             569 non-null    float64
 4   perimeter_mean           569 non-null    float64
 5   area_mean                569 non-null    float64
 6   smoothness_mean          569 non-null    float64
 7   compactness_mean         569 non-null    float64
 8   concavity_mean           569 non-null    float64
 9   concave points_mean      569 non-null    float64
 10  symmetry_mean            569 non-null    float64
 11  fractal_dimension_mean   569 non-null    float64
 12  radius_se                569 non-null    float64
 13  textur

# **Langkah 2: Pemisahan Variabel (Pembersihan Data)**

Pada tahap ini, dilakukan identifikasi dan pemisahan antara variabel yang relevan dan tidak relevan untuk pemodelan. Kolom yang tidak memiliki nilai prediktif akan dihapus.

In [None]:

# --- 2. Membersihkan dan Memisahkan Variabel ---
# Menghapus kolom 'id' karena tidak relevan untuk pemodelan
if 'id' in df.columns:
    df = df.drop(columns=['id'])
    print("\nKolom 'id' telah dihapus.")

# Menghapus kolom 'Unnamed: 32' yang sering muncul karena kesalahan format CSV
if 'Unnamed: 32' in df.columns:
    df = df.drop(columns=['Unnamed: 32'])
    print("Kolom 'Unnamed: 32' telah dihapus.")

print("\nData setelah penghapusan kolom (5 baris pertama):")
print(df.head())


Kolom 'id' telah dihapus.
Kolom 'Unnamed: 32' telah dihapus.

Data setelah penghapusan kolom (5 baris pertama):
  diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
0         M        17.99         10.38          122.80     1001.0   
1         M        20.57         17.77          132.90     1326.0   
2         M        19.69         21.25          130.00     1203.0   
3         M        11.42         20.38           77.58      386.1   
4         M        20.29         14.34          135.10     1297.0   

   smoothness_mean  compactness_mean  concavity_mean  concave points_mean  \
0          0.11840           0.27760          0.3001              0.14710   
1          0.08474           0.07864          0.0869              0.07017   
2          0.10960           0.15990          0.1974              0.12790   
3          0.14250           0.28390          0.2414              0.10520   
4          0.10030           0.13280          0.1980              0.10430   

   symmet

# **Langkah 3: Encoding Kolom "diagnosis"**

Kolom target diagnosis berisi data kategorikal ('M' dan 'B') yang perlu diubah menjadi format numerik agar dapat diproses oleh algoritma machine learning.

In [None]:
# --- 3. Encoding Kolom 'diagnosis' ---
# Mengubah label 'M' (Malignant) dan 'B' (Benign) menjadi nilai numerik (1 dan 0)
label_encoder = LabelEncoder()
df['diagnosis'] = label_encoder.fit_transform(df['diagnosis'])
print("\nKolom 'diagnosis' setelah encoding (5 baris pertama):")
print(df['diagnosis'].head())
print("\nMapping diagnosis: M (Malignant) -> 1, B (Benign) -> 0")


Kolom 'diagnosis' setelah encoding (5 baris pertama):
0    1
1    1
2    1
3    1
4    1
Name: diagnosis, dtype: int64

Mapping diagnosis: M (Malignant) -> 1, B (Benign) -> 0


# **Langkah 4: Standarisasi Kolom Numerik**

Fitur-fitur numerik dalam dataset memiliki skala dan rentang nilai yang sangat beragam. Standarisasi diperlukan untuk menyamakan skala ini, sehingga tidak ada satu fitur pun yang mendominasi proses pembelajaran model.

In [None]:
# --- 4. Standarisasi Kolom Numerik ---
# Memisahkan fitur (X) dan target (y)
X = df.drop(columns=['diagnosis'])
y = df['diagnosis']

# Membuat objek StandardScaler
scaler = StandardScaler()

# Melakukan standarisasi pada semua kolom fitur
X_scaled = scaler.fit_transform(X)

# Mengubah kembali hasil standarisasi ke dalam bentuk DataFrame agar mudah dibaca
X_scaled_df = pd.DataFrame(X_scaled, columns=X.columns)

print("\nData fitur setelah standarisasi (5 baris pertama):")
print(X_scaled_df.head())


Data fitur setelah standarisasi (5 baris pertama):
   radius_mean  texture_mean  perimeter_mean  area_mean  smoothness_mean  \
0     1.097064     -2.073335        1.269934   0.984375         1.568466   
1     1.829821     -0.353632        1.685955   1.908708        -0.826962   
2     1.579888      0.456187        1.566503   1.558884         0.942210   
3    -0.768909      0.253732       -0.592687  -0.764464         3.283553   
4     1.750297     -1.151816        1.776573   1.826229         0.280372   

   compactness_mean  concavity_mean  concave points_mean  symmetry_mean  \
0          3.283515        2.652874             2.532475       2.217515   
1         -0.487072       -0.023846             0.548144       0.001392   
2          1.052926        1.363478             2.037231       0.939685   
3          3.402909        1.915897             1.451707       2.867383   
4          0.539340        1.371011             1.428493      -0.009560   

   fractal_dimension_mean  ...  radius_w

# **Langkah 5: Pembagian Data (Stratified Split)**

Dataset yang telah bersih dan terstandarisasi dibagi menjadi dua set: data latih (training set) dan data uji (testing set) dengan rasio 80:20.

In [None]:
# --- 5. Pembagian Data (Stratified Split) ---
# Membagi data menjadi 80% data latih dan 20% data uji
# 'stratify=y' memastikan proporsi kelas target (diagnosis) sama di data latih dan uji
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled_df, y, test_size=0.2, random_state=42, stratify=y
)

print("\n--- Hasil Pembagian Data ---")
print("Ukuran data fitur latih (X_train):", X_train.shape)
print("Ukuran data fitur uji (X_test):  ", X_test.shape)
print("Ukuran data target latih (y_train):", y_train.shape)
print("Ukuran data target uji (y_test):  ", y_test.shape)

# Memeriksa proporsi kelas pada data latih dan uji
print("\nProporsi diagnosis di data latih (y_train):")
print(y_train.value_counts(normalize=True))

print("\nProporsi diagnosis di data uji (y_test):")
print(y_test.value_counts(normalize=True))


--- Hasil Pembagian Data ---
Ukuran data fitur latih (X_train): (455, 30)
Ukuran data fitur uji (X_test):   (114, 30)
Ukuran data target latih (y_train): (455,)
Ukuran data target uji (y_test):   (114,)

Proporsi diagnosis di data latih (y_train):
diagnosis
0    0.626374
1    0.373626
Name: proportion, dtype: float64

Proporsi diagnosis di data uji (y_test):
diagnosis
0    0.631579
1    0.368421
Name: proportion, dtype: float64
