In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_score, recall_score
from sklearn.preprocessing import StandardScaler

In [2]:
data = pd.read_csv("train.csv")

In [3]:

#ملء القيم المفقودة في الأعمدة العددية بمتوسط القيم.
numeric_col= data.select_dtypes(include=[np.number]).columns
data[numeric_col] = data[numeric_col].fillna(data[numeric_col].mean())

In [4]:
# إزالة الصفوف المكررة من البيانات.
data.drop_duplicates(inplace=True)

In [5]:
# تحويل البيانات الفئوية إلى صيغة رقمية
data = pd.get_dummies(data)

In [6]:
# تقسيم البيانات إلى تدريب واختبار

X = data.drop('Survived', axis=1)
y = data['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [7]:
# توحيد الميزات ليكون لها متوسط 0 وانحراف معياري 1.
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [8]:
# تدريب نموذج الانحدار اللوجستي، ثم حساب الدقة والاستدعاء للنموذج.
log_reg = LogisticRegression(solver='liblinear')  # استخدام solver يدعم penalty='l1'
log_reg.fit(X_train, y_train)
y_pred_log_reg = log_reg.predict(X_test)
precision_log_reg = precision_score(y_test, y_pred_log_reg, zero_division=1)
recall_log_reg = recall_score(y_test, y_pred_log_reg, zero_division=1)


In [9]:
# تدريب نموذج الغابة العشوائية، ثم حساب الدقة والاستدعاء للنموذج.
rf_clf = RandomForestClassifier()
rf_clf.fit(X_train, y_train)
y_pred_rf = rf_clf.predict(X_test)
precision_rf = precision_score(y_test, y_pred_rf, zero_division=1)
recall_rf = recall_score(y_test, y_pred_rf, zero_division=1)

In [10]:
# طباعة النتائج
print(f"Logistic Regression - Precision: {precision_log_reg}, Recall: {recall_log_reg}")
print(f"Random Forest - Precision: {precision_rf}, Recall: {recall_rf}")


Logistic Regression - Precision: 0.8620689655172413, Recall: 0.6756756756756757
Random Forest - Precision: 0.8095238095238095, Recall: 0.6891891891891891


In [11]:
# اختيار النموذج الأفضل بناءً على الدقة والاستدعاء.
if precision_log_reg > precision_rf and recall_log_reg > recall_rf:
    best_model = "LogisticRegression"
else:
    best_model = "RandomForestClassifier"

print(f"The best model is: {best_model}")

The best model is: RandomForestClassifier


In [12]:
# التحقق المتقاطع للنموذج الأفضل
if best_model == "LogisticRegression":
    model = LogisticRegression(solver='liblinear')
else:
    model = RandomForestClassifier()

cross_val_scores = cross_val_score(model, X, y, cv=5, scoring='precision')
print(f"Cross-Validation Precision Scores: {cross_val_scores}")
print(f"Mean Cross-Validation Precision: {cross_val_scores.mean()}")


Cross-Validation Precision Scores: [0.96153846 0.81666667 0.80645161 0.84090909 0.88888889]
Mean Cross-Validation Precision: 0.8628909441812667


In [13]:
# تحسين المتغيرات باستخدام GridSearchCV
param_grid = {
    'LogisticRegression': {
        'C': [0.1, 1, 10, 100],
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear']  # solver لدعم l1 و l2
    },
    'RandomForestClassifier': {
        'n_estimators': [50, 100, 200],
        'max_features': ['sqrt', 'log2']  # استخدام الخيارات المدعومة
    }
}

grid_search = GridSearchCV(model, param_grid[best_model], cv=5, scoring='precision')
grid_search.fit(X_train, y_train)
best_params = grid_search.best_params_

print(f"Best Hyperparameters for {best_model}: {best_params}")

Best Hyperparameters for RandomForestClassifier: {'max_features': 'log2', 'n_estimators': 100}
