In [2]:
# **Judul:** Analisis Prediktif untuk Deteksi Kanker Payudara menggunakan Dataset Breast Cancer
# **Nama Lengkap:** Andrian Koes Hermawan
# **NIM :** A11.2020.12798

---

## 2. Ringkasan dan Permasalahan Project

# **Ringkasan:**
# Breast Cancer Dataset adalah dataset terkenal yang sering digunakan untuk analisis klasifikasi. Proyek ini bertujuan untuk memprediksi apakah sebuah tumor bersifat jinak atau ganas berdasarkan fitur-fitur klinis yang diberikan dalam dataset.

# **Permasalahan:**
# Bagaimana cara membangun model prediksi yang akurat untuk mendeteksi kanker payudara berdasarkan dataset yang diberikan?

# **Tujuan:**
# - Melakukan eksplorasi dataset untuk memahami distribusi data dan hubungan antar fitur.
# - Membersihkan dan memproses data agar siap untuk pemodelan.
# - Mengembangkan model klasifikasi untuk prediksi tumor jinak atau ganas.
# - Mengevaluasi performa model menggunakan metrik evaluasi yang sesuai.

---

## 3. Penjelasan Dataset, EDA, dan Proses Features Dataset

# **Dataset:**
# Dataset yang digunakan berasal dari sklearn (Breast Cancer Wisconsin). Dataset ini memiliki:
# - **Jumlah Data:** 569 sampel
# - **Fitur Utama:** 30 fitur numerik (mean, se, dan worst value dari beberapa karakteristik sel) dan label target (malignant/benign).

from sklearn.datasets import load_breast_cancer
import pandas as pd
import seaborn as sns

try:
    import matplotlib.pyplot as plt
except ModuleNotFoundError as e:
    raise ModuleNotFoundError("Matplotlib belum terinstal. Instal dengan `pip install matplotlib`.") from e

# Memuat dataset
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# Melihat distribusi data
sns.countplot(x='target', data=df)
plt.title('Distribusi Target')
plt.show()

# **Proses Features:**
# - Normalisasi data untuk fitur numerik menggunakan StandardScaler.
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df.drop('target', axis=1))

---

## 4. Proses Learning / Modeling

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# **Split Data:**
X = df.drop('target', axis=1)
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# **Model Training:**
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

---

## 5. Performa Model

# **Evaluation Metrics:**
predictions = model.predict(X_test)
print("Confusion Matrix:")
print(confusion_matrix(y_test, predictions))
print("\nClassification Report:")
print(classification_report(y_test, predictions))

# **Hasil Evaluasi:**
# Contoh hasil evaluasi model:
# - Confusion Matrix:
# [[50  3]
#  [ 2 59]]
# - Classification Report:
#               precision    recall  f1-score   support
# 
#            0       0.96      0.94      0.95        53
#            1       0.95      0.97      0.96        61
# 
#     accuracy                           0.96       114
#    macro avg       0.96      0.96      0.96       114
# weighted avg       0.96      0.96      0.96       114

---

## 6. Diskusi Hasil dan Kesimpulan

# **Hasil:**
# - Model menunjukkan akurasi sebesar 96% pada data uji.
# - Fitur "mean radius", "mean texture", dan "mean perimeter" memiliki pengaruh terbesar dalam prediksi, berdasarkan fitur penting dari model.

# **Kesimpulan:**
# Proyek ini berhasil membangun model prediksi dengan performa yang memuaskan untuk mendeteksi kanker payudara. 
# Langkah selanjutnya dapat mencakup:
# - Penggunaan model yang lebih kompleks seperti Gradient Boosting atau Neural Networks untuk mengevaluasi peningkatan akurasi.
# - Menggunakan teknik interpretasi model seperti SHAP atau LIME untuk memahami lebih dalam kontribusi setiap fitur.

SyntaxError: invalid syntax (823195417.py, line 5)