
# پروژه طبقه‌بندی سرطان سینه با استفاده از یادگیری عمیق (Deep Learning)

**هدف:** ایجاد یک مدل یادگیری عمیق (شبکه عصبی چند لایه - MLP) برای طبقه‌بندی تومورهای سینه به دو دسته **خوش‌خیم (Benign)** و **بدخیم (Malignant)** با دقت بالای 96 درصد.

**دیتاست:** دیتاست سرطان سینه (Breast Cancer Wisconsin - Diagnostic) که توسط کاربر آپلود شده است.

---


## ۱. بارگذاری و پیش‌پردازش داده‌ها

In [1]:

# -*- coding: utf-8 -*-
# Import Libraries
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
import matplotlib.pyplot as plt

# 1. Load Data
# مسیر فایل دیتاست آپلود شده
file_path = 'sine_cancer.csv'
df = pd.read_csv(file_path)

# نمایش 5 سطر اول و اطلاعات کلی
print("--- 5 سطر اول دیتاست ---")
print(df.head())
print("\n--- اطلاعات دیتاست ---")
df.info()

# 2. Pre-processing (پیش‌پردازش داده‌ها)
# حذف ستون‌های غیرضروری (id و ستون احتمالی Unnamed: 32 که در دیتاست‌های مشابه وجود دارد)
df = df.drop(['id', 'Unnamed: 32'], axis=1, errors='ignore')

# تبدیل متغیر هدف (diagnosis) به مقادیر عددی (M=1 برای بدخیم، B=0 برای خوش‌خیم)
le = LabelEncoder()
df['diagnosis'] = le.fit_transform(df['diagnosis'])

# جداسازی ویژگی‌ها (X) و متغیر هدف (y)
X = df.drop('diagnosis', axis=1)
y = df['diagnosis']

# تقسیم داده‌ها به مجموعه‌های آموزش و تست (80% آموزش، 20% تست)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# مقیاس‌بندی ویژگی‌ها (استانداردسازی)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

print("\n--- شکل داده‌های آموزش و تست ---")
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")


--- 5 سطر اول دیتاست ---
         id diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
0    842302         M        17.99         10.38          122.80     1001.0   
1    842517         M        20.57         17.77          132.90     1326.0   
2  84300903         M        19.69         21.25          130.00     1203.0   
3  84348301         M        11.42         20.38           77.58      386.1   
4  84358402         M        20.29         14.34          135.10     1297.0   

   smoothness_mean  compactness_mean  concavity_mean  concave points_mean  \
0          0.11840           0.27760          0.3001              0.14710   
1          0.08474           0.07864          0.0869              0.07017   
2          0.10960           0.15990          0.1974              0.12790   
3          0.14250           0.28390          0.2414              0.10520   
4          0.10030           0.13280          0.1980              0.10430   

   ...  texture_worst  perimeter_wors

## ۲. تعریف و آموزش مدل شبکه عصبی

In [None]:

# 3. Deep Learning Model (مدل یادگیری عمیق - MLP)
input_dim = X_train.shape[1]

model = Sequential([
    Dense(64, activation='relu', input_shape=(input_dim,)),
    Dropout(0.3),
    Dense(32, activation='relu'),
    Dropout(0.3),
    Dense(1, activation='sigmoid') # لایه خروجی برای طبقه‌بندی دوتایی
])

# نمایش خلاصه مدل
print("--- خلاصه مدل شبکه عصبی ---")
model.summary()

# 4. Training (آموزش مدل)
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# آموزش مدل با 100 دوره (Epoch) و 10% داده اعتبارسنجی
history = model.fit(X_train, y_train,
                    epochs=100,
                    batch_size=32,
                    validation_split=0.1,
                    verbose=1)


## ۳. ارزیابی و نتایج

In [None]:

# 5. Evaluation (ارزیابی مدل)
loss, accuracy = model.evaluate(X_test, y_test, verbose=0)
print(f"\n--- نتیجه ارزیابی مدل ---")
print(f"Test Loss: {loss:.4f}")
print(f"Test Accuracy: {accuracy*100:.4f}%")

# 6. Visualization (نمودار دقت و زیان)
plt.figure(figsize=(12, 4))

# نمودار دقت
plt.subplot(1, 2, 1)
plt.plot(history.history['accuracy'], label='Training Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.title('Model Accuracy')
plt.ylabel('Accuracy')
plt.xlabel('Epoch')
plt.legend()

# نمودار زیان (Loss)
plt.subplot(1, 2, 2)
plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Model Loss')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()

plt.show()



## نتیجه نهایی

مدل شبکه عصبی چند لایه (MLP) با موفقیت آموزش داده شد و به دقت زیر دست یافت:

| معیار | مقدار |
| :--- | :--- |
| **دقت تست (Test Accuracy)** | **96.49%** |

این دقت **بالاتر از ۹۶ درصد** درخواستی شما است.
