In [92]:
# استيراد المكتبات
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, confusion_matrix

# تحميل البيانات
df = pd.read_csv("test2.csv")

# تحويل القيم النصية إلى رقمية
df = pd.get_dummies(df, drop_first=True)

# البحث التلقائي عن العمود الهدف
target_column = None
for col in df.columns:
    if 'LUNG' in col.upper():
        target_column = col
        break

if target_column is None:
    raise ValueError("❌ لم يتم العثور على عمود يحتوي على 'LUNG' لتحديد الهدف.")

# إزالة الفئات التي تحتوي على أقل من عينتين
y_counts = df[target_column].value_counts()
valid_classes = y_counts[y_counts >= 2].index
df = df[df[target_column].isin(valid_classes)]

# التحقق من وجود فئتين على الأقل
if df[target_column].nunique() < 2:
    raise ValueError("❌ بعد إزالة الفئات النادرة، لم يتبقَّ سوى فئة واحدة.")

# فصل الميزات والهدف
X = df.drop(target_column, axis=1)
y = df[target_column]

# تقسيم البيانات
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# تدريب النموذج
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# التنبؤ
y_pred = model.predict(X_test)

# مصفوفة الالتباس
cm = confusion_matrix(y_test, y_pred)
tn, fp, fn, tp = cm.ravel()

# حساب المقاييس
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
specificity = tn / (tn + fp)
f1 = f1_score(y_test, y_pred)

# طباعة النتائج
print("\n🎯 نتائج نموذج الانحدار اللوجستي:")
print(f"Accuracy    : {accuracy:.4f}")
print(f"Recall      : {recall:.4f}")
print(f"Precision   : {precision:.4f}")
print(f"Specificity : {specificity:.4f}")
print(f"F1 Score    : {f1:.4f}")



🎯 نتائج نموذج الانحدار اللوجستي:
Accuracy    : 0.5250
Recall      : 0.5921
Precision   : 0.5279
Specificity : 0.4561
F1 Score    : 0.5581


In [97]:
# استيراد المكتبات
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import (
    accuracy_score, recall_score, precision_score,
    f1_score, confusion_matrix
)

# تحميل البيانات
df = pd.read_csv("test2.csv")

# عرض الأعمدة الأصلية
print("📌 الأعمدة الأصلية:")
print(df.columns.tolist())

# تحويل القيم النصية إلى أرقام (One-hot encoding)
df = pd.get_dummies(df, drop_first=True)

# عرض الأعمدة بعد التحويل
print("\n📌 الأعمدة بعد التحويل:")
print(df.columns.tolist())

# البحث التلقائي عن عمود الهدف الذي يحتوي على "LUNG"
target_column = None
for col in df.columns:
    if "LUNG" in col.upper():
        target_column = col
        break

if target_column is None:
    raise ValueError("❌ لم يتم العثور على عمود الهدف الذي يحتوي على 'LUNG'.")

print(f"\n✅ العمود الهدف الذي تم اختياره: {target_column}")

# عرض توزيع الفئات
print("\n🔍 توزيع الفئات قبل التنظيف:")
print(df[target_column].value_counts())

# إزالة الفئات النادرة (أقل من 2 عينات)
rare_classes = df[target_column].value_counts()[df[target_column].value_counts() < 2].index
df = df[~df[target_column].isin(rare_classes)]

# التحقق بعد التنظيف
print("\n📊 توزيع الفئات بعد إزالة الفئات النادرة:")
print(df[target_column].value_counts())

# التحقق من بقاء فئتين على الأقل
if df[target_column].nunique() < 2:
    raise ValueError("❌ بعد إزالة الفئات النادرة، لم يتبق سوى فئة واحدة.")

# فصل الميزات عن الهدف
X = df.drop(target_column, axis=1)
y = df[target_column]

# تقسيم البيانات إلى تدريب واختبار
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# إنشاء وتدريب نموذج KNN
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)

# التنبؤ
y_pred = model.predict(X_test)

# مصفوفة الالتباس
cm = confusion_matrix(y_test, y_pred)
tn, fp, fn, tp = cm.ravel()

# حساب المقاييس
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
specificity = tn / (tn + fp)
f1 = f1_score(y_test, y_pred)

# طباعة النتائج
print("\n🎯 نتائج نموذج KNN:")
print(f"Accuracy    : {accuracy:.4f}")
print(f"Recall      : {recall:.4f}")
print(f"Precision   : {precision:.4f}")
print(f"Specificity : {specificity:.4f}")
print(f"F1 Score    : {f1:.4f}")


📌 الأعمدة الأصلية:
['GENDER', 'AGE', 'SMOKING', 'YELLOW_FINGERS', 'ANXIETY', 'PEER_PRESSURE', 'CHRONIC_DISEASE', 'FATIGUE', 'ALLERGY', 'WHEEZING', 'ALCOHOL_CONSUMING', 'COUGHING', 'SHORTNESS_OF_BREATH', 'SWALLOWING_DIFFICULTY', 'CHEST_PAIN', 'LUNG_CANCER']

📌 الأعمدة بعد التحويل:
['AGE', 'GENDER_M', 'SMOKING_Yes', 'YELLOW_FINGERS_Yes', 'ANXIETY_Yes', 'PEER_PRESSURE_Yes', 'CHRONIC_DISEASE_Yes', 'FATIGUE_Yes', 'ALLERGY_Yes', 'WHEEZING_Yes', 'ALCOHOL_CONSUMING_Yes', 'COUGHING_Yes', 'SHORTNESS_OF_BREATH_Yes', 'SWALLOWING_DIFFICULTY_Yes', 'CHEST_PAIN_Yes', 'LUNG_CANCER_YES']

✅ العمود الهدف الذي تم اختياره: LUNG_CANCER_YES

🔍 توزيع الفئات قبل التنظيف:
LUNG_CANCER_YES
True     1518
False    1482
Name: count, dtype: int64

📊 توزيع الفئات بعد إزالة الفئات النادرة:
LUNG_CANCER_YES
True     1518
False    1482
Name: count, dtype: int64

🎯 نتائج نموذج KNN:
Accuracy    : 0.5300
Recall      : 0.5164
Precision   : 0.5377
Specificity : 0.5439
F1 Score    : 0.5268


In [93]:
# استيراد المكتبات
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, confusion_matrix

# تحميل البيانات
df = pd.read_csv("test2.csv")

# تحويل القيم النصية إلى رقمية (One-hot encoding)
df = pd.get_dummies(df, drop_first=True)

# تحديد عمود الهدف تلقائيًا (يحتوي على 'LUNG')
target_column = None
for col in df.columns:
    if 'LUNG' in col.upper():
        target_column = col
        break

if target_column is None:
    raise ValueError("❌ لم يتم العثور على عمود يحتوي على 'LUNG'.")

# التأكد من وجود فئتين على الأقل
if df[target_column].nunique() < 2:
    raise ValueError("❌ البيانات تحتوي على فئة واحدة فقط، لا يمكن التدريب.")

# فصل الميزات والهدف
X = df.drop(target_column, axis=1)
y = df[target_column]

# تقسيم البيانات مع stratify لضمان توازن الفئات
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# إنشاء نموذج SVM (مع kernel خطي، يمكنك تغييره)
model = SVC(kernel='linear', probability=True)

# تدريب النموذج
model.fit(X_train, y_train)

# التنبؤ على مجموعة الاختبار
y_pred = model.predict(X_test)

# مصفوفة الالتباس
cm = confusion_matrix(y_test, y_pred)
tn, fp, fn, tp = cm.ravel()

# حساب المقاييس
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
specificity = tn / (tn + fp)
f1 = f1_score(y_test, y_pred)

# طباعة النتائج
print("\n🎯 نتائج نموذج SVM:")
print(f"Accuracy    : {accuracy:.4f}")
print(f"Recall      : {recall:.4f}")
print(f"Precision   : {precision:.4f}")
print(f"Specificity : {specificity:.4f}")
print(f"F1 Score    : {f1:.4f}")



🎯 نتائج نموذج SVM:
Accuracy    : 0.5100
Recall      : 0.5329
Precision   : 0.5159
Specificity : 0.4865
F1 Score    : 0.5243


In [96]:

# استيراد المكتبات
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, confusion_matrix

# تحميل البيانات
df = pd.read_csv("test2.csv")

# تحويل القيم النصية إلى رقمية (One-hot encoding)
df = pd.get_dummies(df, drop_first=True)

# تحديد عمود الهدف تلقائيًا (يحتوي على 'LUNG')
target_column = None
for col in df.columns:
    if 'LUNG' in col.upper():
        target_column = col
        break

if target_column is None:
    raise ValueError("❌ لم يتم العثور على عمود يحتوي على 'LUNG'.")

# التأكد من وجود فئتين على الأقل
if df[target_column].nunique() < 2:
    raise ValueError("❌ البيانات تحتوي على فئة واحدة فقط، لا يمكن تدريب النموذج.")

# فصل الميزات عن الهدف
X = df.drop(target_column, axis=1)
y = df[target_column]

# تقسيم البيانات إلى تدريب واختبار (مع stratify للحفاظ على توازن الفئات)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# إنشاء نموذج Decision Tree
model = DecisionTreeClassifier(random_state=42)

# تدريب النموذج
model.fit(X_train, y_train)

# التنبؤ على بيانات الاختبار
y_pred = model.predict(X_test)

# مصفوفة الالتباس
cm = confusion_matrix(y_test, y_pred)
tn, fp, fn, tp = cm.ravel()

# حساب المقاييس
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
specificity = tn / (tn + fp)
f1 = f1_score(y_test, y_pred)

# طباعة النتائج
print("\n🎯 نتائج نموذج Decision Tree:")
print(f"Accuracy    : {accuracy:.4f}")
print(f"Recall      : {recall:.4f}")
print(f"Precision   : {precision:.4f}")
print(f"Specificity : {specificity:.4f}")
print(f"F1 Score    : {f1:.4f}")



🎯 نتائج نموذج Decision Tree:
Accuracy    : 0.5400
Recall      : 0.5592
Precision   : 0.5449
Specificity : 0.5203
F1 Score    : 0.5519


In [94]:
# استيراد المكتبات
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (
    accuracy_score, recall_score, precision_score, f1_score, confusion_matrix
)

# تحميل البيانات
df = pd.read_csv("test2.csv")

# تحويل القيم النصية إلى رقمية (One-hot encoding)
df = pd.get_dummies(df, drop_first=True)

# تحديد عمود الهدف تلقائيًا (يحتوي على 'LUNG')
target_column = None
for col in df.columns:
    if 'LUNG' in col.upper():
        target_column = col
        break

if target_column is None:
    raise ValueError("❌ لم يتم العثور على عمود يحتوي على 'LUNG'.")

# التأكد من وجود فئتين على الأقل
if df[target_column].nunique() < 2:
    raise ValueError("❌ البيانات تحتوي على فئة واحدة فقط، لا يمكن تدريب النموذج.")

# فصل الميزات عن الهدف
X = df.drop(target_column, axis=1)
y = df[target_column]

# تقسيم البيانات إلى تدريب واختبار
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# إنشاء وتدريب نموذج Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# التنبؤ على بيانات الاختبار
y_pred = model.predict(X_test)

# مصفوفة الالتباس
cm = confusion_matrix(y_test, y_pred)
tn, fp, fn, tp = cm.ravel()

# حساب المقاييس
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
specificity = tn / (tn + fp)
f1 = f1_score(y_test, y_pred)

# طباعة النتائج
print("\n🌲 نتائج نموذج Random Forest:")
print(f"Accuracy    : {accuracy:.4f}")
print(f"Recall      : {recall:.4f}")
print(f"Precision   : {precision:.4f}")
print(f"Specificity : {specificity:.4f}")
print(f"F1 Score    : {f1:.4f}")



🌲 نتائج نموذج Random Forest:
Accuracy    : 0.5267
Recall      : 0.5559
Precision   : 0.5314
Specificity : 0.4966
F1 Score    : 0.5434


In [95]:
# استيراد المكتبات
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (
    accuracy_score, recall_score, precision_score, f1_score, confusion_matrix
)
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# تحميل البيانات
df = pd.read_csv("test2.csv")

# تحويل القيم النصية إلى رقمية (One-hot encoding)
df = pd.get_dummies(df, drop_first=True)

# تحديد عمود الهدف
target_column = None
for col in df.columns:
    if 'LUNG' in col.upper():
        target_column = col
        break

if target_column is None:
    raise ValueError("❌ لم يتم العثور على عمود يحتوي على 'LUNG'.")

# التأكد من وجود فئتين على الأقل
if df[target_column].nunique() < 2:
    raise ValueError("❌ البيانات تحتوي على فئة واحدة فقط، لا يمكن تدريب النموذج.")

# فصل الميزات والهدف
X = df.drop(target_column, axis=1)
y = df[target_column]

# تقسيم البيانات
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# مقياس الميزات (Standardization)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# بناء النموذج
model = Sequential([
    Dense(32, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(16, activation='relu'),
    Dense(1, activation='sigmoid')  # لأن لدينا تصنيف ثنائي
])

# تجميع النموذج
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# تدريب النموذج
model.fit(X_train_scaled, y_train, epochs=50, batch_size=16, verbose=0)

# التنبؤ
y_pred_probs = model.predict(X_test_scaled).flatten()
y_pred = np.where(y_pred_probs > 0.5, 1, 0)

# مصفوفة الالتباس
cm = confusion_matrix(y_test, y_pred)
tn, fp, fn, tp = cm.ravel()

# المقاييس
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
specificity = tn / (tn + fp)
f1 = f1_score(y_test, y_pred)

# طباعة النتائج
print("\n🧠 نتائج الشبكة العصبية (Neural Network):")
print(f"Accuracy    : {accuracy:.4f}")
print(f"Recall      : {recall:.4f}")
print(f"Precision   : {precision:.4f}")
print(f"Specificity : {specificity:.4f}")
print(f"F1 Score    : {f1:.4f}")


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m19/19[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step

🧠 نتائج الشبكة العصبية (Neural Network):
Accuracy    : 0.5100
Recall      : 0.5296
Precision   : 0.5160
Specificity : 0.4899
F1 Score    : 0.5227
