
# Prediksi Kanker Payudara
Notebook ini bertujuan untuk membangun model klasifikasi untuk memprediksi apakah suatu tumor payudara bersifat **ganas (malignant)** atau **jinak (benign)** menggunakan dataset dari **Wisconsin Breast Cancer Dataset**.



## a. Deskripsi Masalah
Kanker payudara merupakan salah satu penyebab utama kematian pada wanita di seluruh dunia. Deteksi dini terhadap kanker payudara dapat meningkatkan peluang kesembuhan. Oleh karena itu, diperlukan sistem prediktif yang mampu mengidentifikasi sifat tumor berdasarkan data medis pasien. Masalah yang ingin diselesaikan adalah:
> **Memprediksi apakah tumor payudara bersifat ganas atau jinak berdasarkan fitur-fitur medis.**



## b. Jenis Masalah dan Isi Data
Masalah ini merupakan masalah **klasifikasi** karena target output berupa dua kelas:
- **Malignant** (Ganas)
- **Benign** (Jinak)

Dataset yang digunakan adalah *Wisconsin Breast Cancer Dataset* yang berisi:
- Fitur-fitur numerik hasil pengukuran dari citra digital jaringan payudara.
- Target berupa diagnosis (`M` untuk Malignant dan `B` untuk Benign).



## c. Tahapan Penyelesaian Masalah
Berikut adalah tahapan penyelesaian masalah:

1. Import library dan dataset
2. Eksplorasi dan pra-pemrosesan data
3. Pemisahan data latih dan uji
4. Pelatihan model klasifikasi
5. Evaluasi performa model
6. Rekomendasi peningkatan model

```mermaid
graph TD;
    A[Import Dataset] --> B[Preprocessing];
    B --> C[Split Data];
    C --> D[Train Model];
    D --> E[Evaluate];
    E --> F[Rekomendasi];
```



## d. Error Metric yang Digunakan
Metode evaluasi yang digunakan adalah:

- **Accuracy**: Proporsi prediksi yang benar.
- **Precision, Recall, dan F1-score**: Digunakan untuk mengetahui performa model pada masing-masing kelas.
- **Confusion Matrix**: Untuk melihat distribusi prediksi.

Alasan memilih metrik-metrik tersebut adalah karena:
- Klasifikasi ini menyangkut diagnosis kanker, maka **false negative** (kanker tidak terdeteksi) lebih berbahaya dibanding false positive.
- Oleh karena itu, **Recall** pada kelas 'Malignant' menjadi sangat penting.


In [None]:

# 1. Import Library
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:

# 2. Load Dataset
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

print("Jumlah data:", X.shape)
X.head()


In [None]:

# 3. Preprocessing
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Split data
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)


In [None]:

# 4. Train Model
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)


In [None]:

# 5. Evaluasi Model
print("Accuracy:", accuracy_score(y_test, y_pred))
print("
Classification Report:")
print(classification_report(y_test, y_pred, target_names=data.target_names))

# Confusion matrix
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=data.target_names, yticklabels=data.target_names)
plt.xlabel("Predicted")
plt.ylabel("Actual")
plt.title("Confusion Matrix")
plt.show()



## e. Evaluasi dan Rekomendasi
Model Random Forest menghasilkan akurasi tinggi dan performa yang sangat baik dalam mendeteksi tumor ganas dan jinak.

**Rekomendasi:**
- Coba model lain seperti SVM, Logistic Regression untuk perbandingan.
- Lakukan feature selection untuk mengurangi kompleksitas.
- Implementasi teknik cross-validation untuk generalisasi yang lebih baik.
