## Tugas Praktikum

## Deskripsi Tugas

Pada tugas pratikum ini Anda akan menggunakan data "Wisconsin Breast Cancer". Data tersebut terdiri dari 569 data yang digunakan untuk mendiagnonis jenis kanker Malignant (M) dan Benign (B). Tugas Anda adalah,

1. Pisahkan antara variabel yang dapat digunakan dan variabel yang tidak dapat digunakan.
2. Lakukan proses encoding pada kolom "diagnosis".
3. Lakukan proses standarisasi pada semua kolom yang memiliki nilai numerik.
4. Lakukan proses stratified split data untuk membuat data latih dan data uji dengan rasio 80:20.

### Jawaban 

### Tahapan 1. Pisahkan antara variabel yang dapat digunakan dan variabel yang tidak dapat digunakan

Metode seleksi fitur yang digunakan adalah Mutual Information, alasannya adalah karena metode ini dapat mengukur ketergantungan antara fitur-fitur tersebut dengan jenis kanker secara lebih komprehensif, termasuk hubungan non-linear, dan peka terhadap informasi penting dalam fitur-fitur. Hasil perhitungan mutual information dapat membantu memilih fitur-fitur yang paling informatif untuk digunakan dalam analisis selanjutnya, seperti pembuatan model klasifikasi, sehingga membantu menyederhanakan kompleksitas data.

In [9]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import mutual_info_classif

df7 = pd.read_csv('assets/wbc.csv') # read dataset

X = df7.drop(['id', 'diagnosis', 'Unnamed: 32'], axis=1)  # Menghapus kolom yang tidak diperlukan
y = df7['diagnosis']

# Mutual information
best_features_mi = SelectKBest(score_func=mutual_info_classif, k=10)  # Pilih 10 fitur terbaik
X_mi = best_features_mi.fit_transform(X, y)

feature_names = X.columns
mi_mask = best_features_mi.get_support() # menampilkan fitur terbaik

selected_features_mi = feature_names[mi_mask]

print("\nFitur Terbaik berdasarkan Mutual Information:")
print(selected_features_mi)


Fitur Terbaik berdasarkan Mutual Information:
Index(['radius_mean', 'perimeter_mean', 'area_mean', 'concavity_mean',
       'concave points_mean', 'area_se', 'radius_worst', 'perimeter_worst',
       'area_worst', 'concave points_worst'],
      dtype='object')


In [10]:
# drop dulu gasi
kolom_dibutuhkan = [
    'diagnosis', 'perimeter_mean','area_mean', 
    'concavity_mean', 'concave points_mean', 'area_se', 
    'radius_worst', 'perimeter_worst', 'area_worst', 'concave points_worst'
]

df_asik = df7[kolom_dibutuhkan]
df_asik.head(10)

Unnamed: 0,diagnosis,perimeter_mean,area_mean,concavity_mean,concave points_mean,area_se,radius_worst,perimeter_worst,area_worst,concave points_worst
0,M,122.8,1001.0,0.3001,0.1471,153.4,25.38,184.6,2019.0,0.2654
1,M,132.9,1326.0,0.0869,0.07017,74.08,24.99,158.8,1956.0,0.186
2,M,130.0,1203.0,0.1974,0.1279,94.03,23.57,152.5,1709.0,0.243
3,M,77.58,386.1,0.2414,0.1052,27.23,14.91,98.87,567.7,0.2575
4,M,135.1,1297.0,0.198,0.1043,94.44,22.54,152.2,1575.0,0.1625
5,M,82.57,477.1,0.1578,0.08089,27.19,15.47,103.4,741.6,0.1741
6,M,119.6,1040.0,0.1127,0.074,53.91,22.88,153.2,1606.0,0.1932
7,M,90.2,577.9,0.09366,0.05985,50.96,17.06,110.6,897.0,0.1556
8,M,87.5,519.8,0.1859,0.09353,24.32,15.49,106.2,739.3,0.206
9,M,83.97,475.9,0.2273,0.08543,23.94,15.09,97.65,711.4,0.221


### Tahapan 2. Lakukan proses encoding pada kolom "diagnosis"

In [11]:
# load library duluu
from sklearn.preprocessing import LabelEncoder, StandardScaler

le = LabelEncoder() # membuat objek dari LabelEncoder
df_asik['diagnosis'] = le.fit_transform(df_asik['diagnosis']) # proses encoding


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_asik['diagnosis'] = le.fit_transform(df_asik['diagnosis']) # proses encoding


In [12]:
# Periksa hasilnya
df_asik.head(30)

Unnamed: 0,diagnosis,perimeter_mean,area_mean,concavity_mean,concave points_mean,area_se,radius_worst,perimeter_worst,area_worst,concave points_worst
0,1,122.8,1001.0,0.3001,0.1471,153.4,25.38,184.6,2019.0,0.2654
1,1,132.9,1326.0,0.0869,0.07017,74.08,24.99,158.8,1956.0,0.186
2,1,130.0,1203.0,0.1974,0.1279,94.03,23.57,152.5,1709.0,0.243
3,1,77.58,386.1,0.2414,0.1052,27.23,14.91,98.87,567.7,0.2575
4,1,135.1,1297.0,0.198,0.1043,94.44,22.54,152.2,1575.0,0.1625
5,1,82.57,477.1,0.1578,0.08089,27.19,15.47,103.4,741.6,0.1741
6,1,119.6,1040.0,0.1127,0.074,53.91,22.88,153.2,1606.0,0.1932
7,1,90.2,577.9,0.09366,0.05985,50.96,17.06,110.6,897.0,0.1556
8,1,87.5,519.8,0.1859,0.09353,24.32,15.49,106.2,739.3,0.206
9,1,83.97,475.9,0.2273,0.08543,23.94,15.09,97.65,711.4,0.221


### 3. Lakukan proses standarisasi pada semua kolom yang memiliki nilai numerik.


In [13]:
kolom_standar = [
    'perimeter_mean','area_mean', 
    'concavity_mean', 'concave points_mean', 'area_se', 
    'radius_worst', 'perimeter_worst', 'area_worst', 'concave points_worst'
]

std = StandardScaler()
df_asik[kolom_standar] = std.fit_transform(df_asik[kolom_standar])

df_asik.head(30)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_asik[kolom_standar] = std.fit_transform(df_asik[kolom_standar])


Unnamed: 0,diagnosis,perimeter_mean,area_mean,concavity_mean,concave points_mean,area_se,radius_worst,perimeter_worst,area_worst,concave points_worst
0,1,1.269934,0.984375,2.652874,2.532475,2.487578,1.88669,2.303601,2.001237,2.296076
1,1,1.685955,1.908708,-0.023846,0.548144,0.742402,1.805927,1.535126,1.890489,1.087084
2,1,1.566503,1.558884,1.363478,2.037231,1.181336,1.51187,1.347475,1.456285,1.955
3,1,-0.592687,-0.764464,1.915897,1.451707,-0.288378,-0.281464,-0.249939,-0.550021,2.175786
4,1,1.776573,1.826229,1.371011,1.428493,1.190357,1.298575,1.338539,1.220724,0.729259
5,1,-0.387148,-0.50565,0.866302,0.824656,-0.289258,-0.165498,-0.115009,-0.24432,0.905888
6,1,1.138125,1.095295,0.300072,0.646935,0.298627,1.368983,1.368325,1.27522,1.196716
7,1,-0.072867,-0.218965,0.061026,0.28195,0.233722,0.163763,0.099449,0.028859,0.624196
8,1,-0.18408,-0.384207,1.219096,1.150692,-0.352403,-0.161357,-0.031609,-0.248363,1.391616
9,1,-0.329482,-0.509063,1.738872,0.94176,-0.360764,-0.24419,-0.286278,-0.297409,1.620015


### 4. Lakukan proses stratified split data untuk membuat data latih dan data uji dengan rasio 80:20.


In [14]:
# Split data
from sklearn.model_selection import train_test_split

# Split data training dan dan lainnya
# data lainnya, akan kita split lagi menjadi validasi dan testing.
# Rasio yang akan kita gunakan adalah 8:1:1
dfasik_train, dfasik_test = train_test_split(df_asik, test_size=0.2, random_state=0, stratify=df_asik['diagnosis'])

# Cek masing-masing ukuran data

print(f'Jumlah label data asli:\n{df_asik.diagnosis.value_counts()}')
print(f'Jumlah label data train:\n{dfasik_train.diagnosis.value_counts()}')
print(f'Jumlah label data test:\n{dfasik_test.diagnosis.value_counts()}')



Jumlah label data asli:
0    357
1    212
Name: diagnosis, dtype: int64
Jumlah label data train:
0    285
1    170
Name: diagnosis, dtype: int64
Jumlah label data test:
0    72
1    42
Name: diagnosis, dtype: int64


### Kesimpulan

Dalam rangkaian langkah yang telah dilakukan, proses pembelajaran mesin dimulai dengan dataset asli WBC yang termasuk berbagai fitur serta kolom "diagnosis" sebagai label kelas (Malignant atau Benign). Saya mengubah kolom "diagnosis" menjadi bentuk numerik (M=1, B=0) untuk digunakan dalam pemodelan mesin. Selanjutnya, menstandarisasi fitur-fitur numerik tertentu dengan skala z-score agar semua fitur memiliki rata-rata nol dan deviasi standar satu, menghindari masalah skala yang tidak seimbang. Terakhir, memisahkan dataset menjadi dua bagian: data pelatihan untuk melatih model dan data pengujian untuk menguji kinerja model. Kesimpulan utamanya adalah bahwa persiapan data yang cermat adalah langkah kunci dalam pengembangan model machine learning yang dapat diandalkan, dan ini menjadi dasar untuk mengukur kinerja model pada data yang belum pernah dilihat sebelumnya.