In [3]:
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.utils import shuffle
import joblib
import os

# 1. تعريف الكلاس (لازم يكون في نفس مكان التدريب)
class MyDecisionTree:
    def __init__(self, max_depth=5):
        self.max_depth = max_depth
        self.tree = None

    def _entropy(self, y):
        proportions = np.bincount(y) / len(y)
        return -np.sum([p * np.log2(p) for p in proportions if p > 0])

    def _information_gain(self, y, X_column, threshold):
        parent_entropy = self._entropy(y)
        left_idx = np.where(X_column <= threshold)[0]
        right_idx = np.where(X_column > threshold)[0]
        if len(left_idx) == 0 or len(right_idx) == 0: return 0
        n = len(y)
        e_l, e_r = self._entropy(y[left_idx]), self._entropy(y[right_idx])
        child_entropy = (len(left_idx) / n) * e_l + (len(right_idx) / n) * e_r
        return parent_entropy - child_entropy

    def fit(self, X, y):
        self.tree = self._build_tree(X, y)

    def _build_tree(self, X, y, depth=0):
        num_samples, num_features = X.shape
        if depth >= self.max_depth or len(np.unique(y)) == 1:
            return np.argmax(np.bincount(y))

        best_feat, best_thresh, best_gain = None, None, -1
        for feat_idx in range(num_features):
            thresholds = np.unique(X[:, feat_idx])
            for threshold in thresholds:
                gain = self._information_gain(y, X[:, feat_idx], threshold)
                if gain > best_gain:
                    best_gain, best_feat, best_thresh = gain, feat_idx, threshold

        left_idx = np.where(X[:, best_feat] <= best_thresh)[0]
        right_idx = np.where(X[:, best_feat] > best_thresh)[0]
        left = self._build_tree(X[left_idx, :], y[left_idx], depth + 1)
        right = self._build_tree(X[right_idx, :], y[right_idx], depth + 1)
        return (best_feat, best_thresh, left, right)

    def predict(self, X):
        return np.array([self._traverse_tree(x, self.tree) for x in X])

    def _traverse_tree(self, x, tree):
        if not isinstance(tree, tuple): return tree
        feat_idx, threshold, left, right = tree
        if x[feat_idx] <= threshold: return self._traverse_tree(x, left)
        return self._traverse_tree(x, right)

# 2. تحميل البيانات الأصلية (بدون تصغير Scaling)
data = load_breast_cancer()
X, y = shuffle(data.data, data.target, random_state=42)

# 3. تدريب الموديل
model = MyDecisionTree(max_depth=5)
model.fit(X, y)

# 4. حفظ الموديل في المجلد المطلوب
if not os.path.exists('models'): os.makedirs('models')
joblib.dump(model, 'models/breast_cancer_model.pkl')

print("✅ تمت العملية بنجاح! الموديل الجديد مدرب على الأرقام الحقيقية وجاهز للرفع.")

✅ تمت العملية بنجاح! الموديل الجديد مدرب على الأرقام الحقيقية وجاهز للرفع.


In [4]:
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.utils import shuffle
import joblib

# 1. تحميل الداتا
data = load_breast_cancer()
X, y = data.data, data.target

# 2. خلط الداتا بقوة (5 مرات)
for _ in range(5):
    X, y = shuffle(X, y, random_state=42)

# 3. تدريب الموديل بعمق أكبر (10 بدل 5) لزيادة الدقة
model = MyDecisionTree(max_depth=10)
model.fit(X, y)

# 4. فحص سريع قبل الحفظ (أهم خطوة)
# هنجرب الموديل على أول 10 عينات ونشوف هيطلع 0 و 1 ولا لأ
test_preds = model.predict(X[:10])
print(f"توقعات عشوائية: {test_preds}")

if len(np.unique(test_preds)) > 1:
    print("✅ الموديل بدأ يفرق ويطلع نتائج متنوعة!")
    joblib.dump(model, 'models/breast_cancer_model.pkl')
else:
    print("❌ الموديل لسه مطلع نتيجة واحدة.. محتاجين نغير الـ max_depth")

توقعات عشوائية: [0 1 1 1 1 1 1 1 0 0]
✅ الموديل بدأ يفرق ويطلع نتائج متنوعة!


In [5]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 1. تقسيم البيانات لتدريب وتست (80% تدريب و 20% اختبار)
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# 2. تدريب الموديل على بيانات التدريب فقط
eval_model = MyDecisionTree(max_depth=10)
eval_model.fit(X_train, y_train)

# 3. حساب الدقة على بيانات التدريب (عشان نشوف هو حافظ قد إيه)
train_preds = eval_model.predict(X_train)
train_acc = accuracy_score(y_train, train_preds)

# 4. حساب الدقة على بيانات الاختبار (اللي مشافهاش خالص)
test_preds = eval_model.predict(X_test)
test_acc = accuracy_score(y_test, test_preds)

print(f"Accuracy on Training Data: {train_acc * 100:.2f}%")
print(f"Accuracy on Test Data: {test_acc * 100:.2f}%")

# 5. تحليل النتيجة
if train_acc - test_acc > 0.15:
    print("⚠️ تحذير: الموديل عنده Overfitting (الفرق بين التدريب والاختبار كبير).")
else:
    print("✅ الموديل متزن (Generalizing well) وجاهز للرفع!")

Accuracy on Training Data: 100.00%
Accuracy on Test Data: 92.98%
✅ الموديل متزن (Generalizing well) وجاهز للرفع!


In [7]:
# 1. التدريب النهائي على كل البيانات
final_model = MyDecisionTree(max_depth=10)
final_model.fit(data.data, data.target)

# 2. تجهيز الحالات للاختبار
case_malignant = data.data[data.target == 0][0].reshape(1, -1) 
case_benign = data.data[data.target == 1][0].reshape(1, -1)

# 3. التوقع
pred_malignant = final_model.predict(case_malignant)[0]
pred_benign = final_model.predict(case_benign)[0]

print("--- نتيجة الاختبار العملي ---")
print(f"الحالة الخبيثة (الحقيقية 0) -> توقع الموديل: {pred_malignant}")
print(f"الحالة الحميدة (الحقيقية 1) -> توقع الموديل: {pred_benign}")

if pred_malignant == 0 and pred_benign == 1:
    print("\n✅ الموديل شغال 10/10 وبيفرق بوضوح!")
    # حفظ الملف فوراً طالما نجح
    import joblib
    import os
    if not os.path.exists('models'): os.makedirs('models')
    joblib.dump(final_model, 'models/breast_cancer_model.pkl')
    print("✅ تم حفظ الموديل النهائي بنجاح: breast_cancer_model.pkl")
else:
    print("\n❌ لسه فيه تداخل، الموديل محتاج مراجعة.")

--- نتيجة الاختبار العملي ---
الحالة الخبيثة (الحقيقية 0) -> توقع الموديل: 0
الحالة الحميدة (الحقيقية 1) -> توقع الموديل: 1

✅ الموديل شغال 10/10 وبيفرق بوضوح!
✅ تم حفظ الموديل النهائي بنجاح: breast_cancer_model.pkl


In [8]:
# اختار الاسم اللي يعجبك هنا
new_model_name = "my_tree_model.pkl" 

import joblib
joblib.dump(final_model, f'models/{new_model_name}')
print(f"✅ تم حفظ الموديل باسمه الجديد: {new_model_name}")

✅ تم حفظ الموديل باسمه الجديد: my_tree_model.pkl
