# **Tugas Praktikum**
## Wisconsin Breast Cancer

## **Deskripsi Tugas**

Pada tugas pratikum ini Anda akan menggunakan data "Wisconsin Breast Cancer". Data tersebut terdiri dari 569 data yang digunakan untuk mendiagnonis jenis kanker Malignant (M) dan Benign (B). Tugas Anda adalah

1. Pisahkan antara variabel yang dapat digunakan dan variabel yang tidak dapat digunakan.

    **Jawab** : Disini saya menggunakan analisis korelasi karena ini membantu memahami mengapa perlu menghubungkan variabel dalam data. Melalui analisis ini, kita bisa mengetahui apakah ada hubungan atau tidak antara dua atau lebih variabel, kurang lebih seperti itu karena berangkat dari asumsi yang tidak berdasar atas ketidakpahaman saya terhadap data dan pengaruh dalam diagnosis jenis kanker.

Mengimport terlebih dahulu untuk menjadi DataFrame

In [47]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
data = 'data/wbc.csv'
df = pd.read_csv(data)

# Dan Menampilkan data
df.head()

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,


Melakukan pemilihan Feature dengan Analisis Korelasi

In [48]:
df2 = df
X = df2.drop(['id', 'diagnosis', 'Unnamed: 32'], axis=1)  # Menghapus kolom yang tidak diperlukan
y = df2['diagnosis']

# Menggunakan analisis korelasi (Chi-squared) untuk pemilihan fitur
best_features_chi2 = SelectKBest(score_func=chi2, k=10)  # Pilih 10 fitur terbaik
X_chi2 = best_features_chi2.fit_transform(X, y)

# Menampilkan fitur terbaik 
feature_names = X.columns
chi2_mask = best_features_chi2.get_support()

selected_column = ['diagnosis'] + [col for col, mask in zip(X.columns, chi2_mask) if mask]
df = df[selected_column]


print(selected_column)

['diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'perimeter_se', 'area_se', 'radius_worst', 'texture_worst', 'perimeter_worst', 'area_worst']


2. Lakukan proses encoding pada kolom "diagnosis".

    **Jawab** : Saya kemudian mengubah M menjadi 1 dan B menjadi 0

In [49]:
df['diagnosis'] = df['diagnosis'].map({'M': 1, 'B': 0})
df.head(20)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['diagnosis'] = df['diagnosis'].map({'M': 1, 'B': 0})


Unnamed: 0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,perimeter_se,area_se,radius_worst,texture_worst,perimeter_worst,area_worst
0,1,17.99,10.38,122.8,1001.0,8.589,153.4,25.38,17.33,184.6,2019.0
1,1,20.57,17.77,132.9,1326.0,3.398,74.08,24.99,23.41,158.8,1956.0
2,1,19.69,21.25,130.0,1203.0,4.585,94.03,23.57,25.53,152.5,1709.0
3,1,11.42,20.38,77.58,386.1,3.445,27.23,14.91,26.5,98.87,567.7
4,1,20.29,14.34,135.1,1297.0,5.438,94.44,22.54,16.67,152.2,1575.0
5,1,12.45,15.7,82.57,477.1,2.217,27.19,15.47,23.75,103.4,741.6
6,1,18.25,19.98,119.6,1040.0,3.18,53.91,22.88,27.66,153.2,1606.0
7,1,13.71,20.83,90.2,577.9,3.856,50.96,17.06,28.14,110.6,897.0
8,1,13.0,21.82,87.5,519.8,2.406,24.32,15.49,30.73,106.2,739.3
9,1,12.46,24.04,83.97,475.9,2.039,23.94,15.09,40.68,97.65,711.4


3. Lakukan proses standarisasi pada semua kolom yang memiliki nilai numerik.

    **Jawab** : Saya kemudian mengubah M menjadi 1 dan B menjadi 0

In [50]:
from sklearn.preprocessing import StandardScaler
columns_to_standardize = ['radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean','perimeter_se', 'area_se', 'radius_worst', 'texture_worst','perimeter_worst', 'area_worst']
scaler = StandardScaler()

# Memisahkan kolom "diagnosis"
diagnosis_column = df['diagnosis']
df = df.drop(['diagnosis'], axis=1)

# Menstandarisasi data pada kolom yang ditentukan
df[columns_to_standardize] = scaler.fit_transform(df[columns_to_standardize])

# Menggabungkan kembali kolom "diagnosis"
df = pd.concat([diagnosis_column, df], axis=1)
df.head(10)

Unnamed: 0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,perimeter_se,area_se,radius_worst,texture_worst,perimeter_worst,area_worst
0,1,1.097064,-2.073335,1.269934,0.984375,2.833031,2.487578,1.88669,-1.359293,2.303601,2.001237
1,1,1.829821,-0.353632,1.685955,1.908708,0.263327,0.742402,1.805927,-0.369203,1.535126,1.890489
2,1,1.579888,0.456187,1.566503,1.558884,0.850928,1.181336,1.51187,-0.023974,1.347475,1.456285
3,1,-0.768909,0.253732,-0.592687,-0.764464,0.286593,-0.288378,-0.281464,0.133984,-0.249939,-0.550021
4,1,1.750297,-1.151816,1.776573,1.826229,1.273189,1.190357,1.298575,-1.46677,1.338539,1.220724
5,1,-0.476375,-0.835335,-0.387148,-0.50565,-0.321304,-0.289258,-0.165498,-0.313836,-0.115009,-0.24432
6,1,1.170908,0.160649,1.138125,1.095295,0.15541,0.298627,1.368983,0.322883,1.368325,1.27522
7,1,-0.118517,0.35845,-0.072867,-0.218965,0.490051,0.233722,0.163763,0.401048,0.099449,0.028859
8,1,-0.320167,0.58883,-0.18408,-0.384207,-0.227743,-0.352403,-0.161357,0.822813,-0.031609,-0.248363
9,1,-0.473535,1.105439,-0.329482,-0.509063,-0.40942,-0.360764,-0.24419,2.443109,-0.286278,-0.297409


4. Lakukan proses stratified split data untuk membuat data latih dan data uji dengan rasio 80:20.


In [51]:
from sklearn.model_selection import train_test_split
# Split data training dan dan lainnya
# data lainnya, akan kita split lagi menjadi validasi dan testing.
# Rasio yang akan kita gunakan adalah 8:2
df_train, df_test = train_test_split(df, test_size=0.2, random_state=0, stratify=df['diagnosis'])


# Cek masing-masing ukuran data

print(f'Jumlah label data asli:\n{df.diagnosis.value_counts()}')
print(f'Jumlah label data train:\n{df_train.diagnosis.value_counts()}')
print(f'Jumlah label data test:\n{df_test.diagnosis.value_counts()}')

Jumlah label data asli:
0    357
1    212
Name: diagnosis, dtype: int64
Jumlah label data train:
0    285
1    170
Name: diagnosis, dtype: int64
Jumlah label data test:
0    72
1    42
Name: diagnosis, dtype: int64


**kesimpulan**

dari rangkaian proses yang telah Anda lakukan

- Ekstraksi Fitur: Anda memulai dengan dataset awal WBC yang berisi berbagai kolom fitur, termasuk "diagnosis" yang berisi label kelas (Malignant atau Benign) dan berbagai fitur numerik yang mungkin memiliki pengaruh pada diagnosis.

- Encoding Diagnosis: Anda melakukan encoding pada kolom "diagnosis" untuk mengganti nilai "M" (Malignant) menjadi 1 dan "B" (Benign) menjadi 0. Ini dilakukan agar kolom target dapat digunakan dalam pemodelan machine learning yang memerlukan nilai numerik.

- Standarisasi Numerik: Anda menstandarisasi kolom-kolom fitur numerik tertentu (seperti 'radius_mean', 'texture_mean', dll.) dengan menggunakan z-score scaling (standardization). Ini dilakukan agar semua fitur numerik memiliki rata-rata nol dan deviasi standar satu. Standarisasi membantu menghindari masalah skala yang tidak seimbang dan dapat meningkatkan kinerja beberapa algoritma machine learning.

- Pembagian Data Latih dan Data Uji: Terakhir, Anda membagi dataset yang sudah diencode dan di-standarisasi menjadi dua subset: data pelatihan (data_train) dan data pengujian (data_test) menggunakan fungsi train_test_split. Ini adalah langkah penting dalam persiapan data untuk pengembangan model. Data pelatihan digunakan untuk melatih model Anda, sedangkan data pengujian digunakan untuk menguji kinerja model.

Kesimpulan utama dari rangkaian proses ini adalah persiapan data yang baik untuk pengembangan model machine learning. Data telah diubah menjadi format yang sesuai untuk pemodelan, dan pemisahan data pelatihan dan data pengujian dilakukan untuk mengukur seberapa baik model Anda dapat melakukan prediksi pada data yang belum pernah dilihat sebelumnya. Proses ini adalah langkah penting dalam pengembangan model machine learning yang efektif dan dapat diandalkan.