In [3]:
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.svm import SVC

# 1. تحميل البيانات
# تأكد أن ملف drug200.csv موجود في نفس المجلد
# انتبه: بعض الملفات تستخدم الفاصلة "," والبعض ";"
df = pd.read_csv("drug200.csv", sep=";") 

# 2. فصل الهدف (Drug) عن الميزات
X = df.drop(columns=['Drug'])
y = df['Drug']

# 3. معالجة النصوص (Encoding) وحفظ المحولات
# نحتاج لحفظ الـ Encoders لنستخدمها لاحقاً مع مدخلات المستخدم
encoders = {}
cat_cols = ['Sex', 'BP', 'Cholesterol'] 

for col in cat_cols:
    le = LabelEncoder()
    X[col] = le.fit_transform(X[col])
    encoders[col] = le # حفظ الـ Encoder الخاص بكل عمود

# معالجة عمود الهدف (Drug)
target_encoder = LabelEncoder()
y_encoded = target_encoder.fit_transform(y)

# 4. تقسيم البيانات
X_train, X_test, y_train, y_test = train_test_split(
    X, y_encoded, test_size=0.3, random_state=42
)

# 5. توحيد المقاييس (Scaling)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)

# 6. تدريب النموذج
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)

# 7. حفظ كل شيء (Memorize) في ملف واحد
model_data = {
    "model": svm_model,
    "scaler": scaler,
    "encoders": encoders,
    "target_encoder": target_encoder,
    "feature_columns": X.columns.tolist() # حفظ ترتيب الأعمدة
}

joblib.dump(model_data, "drug_model_assets.pkl")
print("تم تدريب النموذج وحفظه بنجاح في ملف 'drug_model_assets.pkl'")

تم تدريب النموذج وحفظه بنجاح في ملف 'drug_model_assets.pkl'
