In [1]:
import os
import numpy as np
from PIL import Image

base_dir = r"C:\Users\Farah Alfarjani\super-class-img\data"

# خرائط التصنيف من أسماء المجلدات
label_map = {
    "covid": 0,
    "normal": 1,
    "virus": 2
}

data = []
labels = []
supported_exts = (".png", ".jpg", ".jpeg",  ".L")

# مرّي على المجلدات الفرعية فقط
for cls_name in os.listdir(base_dir):
    cls_path = os.path.join(base_dir, cls_name)
    # تأكدي أنه مجلد فئة معروف
    if not os.path.isdir(cls_path):
        continue
    if cls_name.lower() not in label_map:
        print(f"تجاهلت مجلد غير معروف: {cls_name}")
        continue

    label = label_map[cls_name.lower()]
    count_ok, count_err = 0, 0

    # مرّي على الملفات داخل مجلد الفئة
    for entry in os.scandir(cls_path):
        # افتحي الملفات فقط وبامتدادات مدعومة
        if not entry.is_file():
            continue
        if not entry.name.lower().endswith(supported_exts):
            continue

        img_path = entry.path
        try:
            img = Image.open(img_path).convert("L")
            img = img.resize((512, 512))
            img_array = np.array(img, dtype=np.float32) / 255.0
            data.append(img_array.flatten())
            labels.append(label)
            count_ok += 1
        except Exception as e:
            print("خطأ في الصورة:", img_path, e)
            count_err += 1

    print(f"الفئة '{cls_name}': تم تحميل {count_ok} صورة، أخطاء {count_err}.")

# تحويل إلى مصفوفات NumPy
if len(data) == 0:
    print("لم يتم تحميل أي صورة. تأكدي من الامتدادات والمسارات والأذونات.")
else:
    X = np.array(data, dtype=np.float32)
    y = np.array(labels, dtype=np.int64)
    print("شكل البيانات:", X.shape)
    print("شكل التصنيفات:", y.shape)

الفئة 'covid': تم تحميل 421 صورة، أخطاء 0.
الفئة 'normal': تم تحميل 668 صورة، أخطاء 0.
الفئة 'virus': تم تحميل 619 صورة، أخطاء 0.
شكل البيانات: (1708, 262144)
شكل التصنيفات: (1708,)


In [2]:
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# تقسيم البيانات
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# تقليل الأبعاد باستخدام PCA
pca = PCA(n_components=100, random_state=42)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

# تدريب نموذج تصنيف (مثلاً Logistic Regression)
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train_pca, y_train)

# تقييم النموذج
y_pred = clf.predict(X_test_pca)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.98      0.98      0.98       122
           1       0.87      0.93      0.90       206
           2       0.91      0.83      0.87       185

    accuracy                           0.91       513
   macro avg       0.92      0.91      0.91       513
weighted avg       0.91      0.91      0.91       513



STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=1000).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [3]:
import joblib
joblib.dump(pca, "pca_model.joblib")
joblib.dump(clf, "classifier_model.joblib")

['classifier_model.joblib']