In [1]:
# بنستورد داتا جاهزة اسمها Breast Cancer من sklearn
# دي داتا حقيقية عن مريضات سرطان الثدي فيها Features + Labels
from sklearn.datasets import load_breast_cancer

# بنستورد Logistic Regression → الموديل اللي هيعمل التصنيف (0 أو 1)
from sklearn.linear_model import LogisticRegression

# بنستورد train_test_split → علشان نقسم الداتا Train/Test
from sklearn.model_selection import train_test_split

# بنستورد accuracy_score → علشان نقيس الموديل صح في كام حالة
from sklearn.metrics import accuracy_score


# 1) Load Dataset


# بنجيب الداتا كلها من sklearn
data = load_breast_cancer()

# X = الخصائص (features) اللي الموديل هيعتمد عليها في التوقع
# زي: mean radius, mean texture, perimeter …
X = data.data

# y = النتيجة (labels)
# 0 = خطر (malignant)
# 1 = سليم (benign)
y = data.target

# 2) Train/Test Split


# هنا بنقسم البيانات:
# 80% → تدريب
# 20% → اختبار
# test_size=0.2 يعني 20% هتكون test
# random_state=42 علشان التقسيم يكون ثابت كل مرة
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# 3) Train Logistic Regression

# بنعمل object من اللوجستيك
# max_iter=500 → نزود عدد الخطوات علشان النموذج يوصل للحل
model = LogisticRegression(max_iter=500)

# الموديل يبدأ يتعلّم العلاقة بين X و y
model.fit(X_train, y_train)


# 4) Prediction


# بنطلب من الموديل يطبّق اللي اتعلمه على بيانات الاختبار
# ويرجع 0 أو 1 لكل حالة
y_pred = model.predict(X_test)

# 5) Accuracy


# بنقارن بين:
# y_test → الحقيقة
# y_pred → توقع الموديل
# accuracy = عدد المرات اللي الموديل كان فيها صح ÷ العدد الكلي
print("Accuracy:", accuracy_score(y_test, y_pred))


Accuracy: 0.956140350877193


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [2]:
# Q2 : Confusion Matrix Analysis

# هنا هنستورد أدوات تقييم مهمة:
# confusion_matrix = بتورينا النموذج غلط فين وصح فين
# precision_score = نسبة "الصح من اللي توقعناهم إيجابيين"
# recall_score = نسبة "الصح من الإجابيين الحقيقيين"
# f1_score = متوسط بين Precision و Recall
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score

# 1) حساب Confusion Matrix

# هنا بنعمل matrix فيها 4 قيم:
# TP (True Positive)   → توقع 1 وكان فعلاً 1
# TN (True Negative)   → توقع 0 وكان فعلاً 0
# FP (False Positive)  → توقع 1 وهو غلط (دي أخطر حاجة)
# FN (False Negative)  → توقع 0 وهو غلط
cm = confusion_matrix(y_test, y_pred)

print("Confusion Matrix:\n", cm)

# 2) حساب Precision

# precision = من كل اللي الموديل قال عليهم مصابين (1)
# كام واحد فعلاً كان مصاب؟
precision = precision_score(y_test, y_pred)

print("Precision:", precision)



# 3) حساب Recall


# recall = من كل اللي فعلاً مصابين في الحقيقة
# الموديل عرف يكتشف كام واحد منهم؟
recall = recall_score(y_test, y_pred)

print("Recall:", recall)



# 4) حساب F1-score

# f1 = متوسط بين precision و recall
# وبيستخدم لما يكون في عدم توازن بين الفئات
f1 = f1_score(y_test, y_pred)

print("F1-score:", f1)


Confusion Matrix:
 [[39  4]
 [ 1 70]]
Precision: 0.9459459459459459
Recall: 0.9859154929577465
F1-score: 0.9655172413793104


In [3]:
# استيراد الداتا الجاهزة للورد
from sklearn.datasets import load_iris
# استيراد Logistic Regression للتصنيف
from sklearn.linear_model import LogisticRegression
# تقسيم البيانات Train/Test
from sklearn.model_selection import train_test_split
# دقة الموديل
from sklearn.metrics import accuracy_score

# نجيب الداتا
iris = load_iris()
X = iris.data   # الخصائص
y = iris.target # الفئات 0,1,2

# نقسم الداتا 80% تدريب و20% اختبار
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# نعمل الموديل
# multi_class='multinomial' → علشان نتعامل مع أكتر من فئة
model = LogisticRegression(max_iter=500, multi_class='multinomial')
model.fit(X_train, y_train)  # التدريب

# نعمل التوقع على بيانات الاختبار
y_pred = model.predict(X_test)

# نحسب الدقة
print("Accuracy:", accuracy_score(y_test, y_pred))




Accuracy: 1.0


In [4]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# تقسيم الداتا (نفس Iris أو ممكن أي داتا)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# نعمل pipeline: توحيد + موديل
pipe = Pipeline([
    ('scaler', StandardScaler()),       # التوحيد
    ('model', LogisticRegression(max_iter=500, multi_class='multinomial')) # الموديل
])

# تدريب الموديل
pipe.fit(X_train, y_train)

# توقع
y_pred = pipe.predict(X_test)

# دقة الموديل
print("Accuracy with Scaling:", accuracy_score(y_test, y_pred))


Accuracy with Scaling: 1.0




In [7]:
# Q5: Probability Predictions & Decision Threshold

# Logistic Regression مش بيطلعلي 0 و 1 على طول،
# بيطلع probability قد إيه العينة دي تنتمي للفئة 1.
# ال-default threshold = 0.5
# لكن إحنا هنغير الـ threshold ونشوف تأثيره على المقاييس.


# 1) تحميل البيانات

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_score, recall_score

# بجيب Breast Cancer لأنه Binary (0 = benign , 1 = malignant)
data = load_breast_cancer()
X = data.data         # المميزات
y = data.target       # الهدف (0/1)


# 2) تقسيم البيانات

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)


# 3) تدريب Logistic Regression

# max_iter بزودها علشان أتأكد إن النموذج هيعمل convergence
model = LogisticRegression(max_iter=500)
model.fit(X_train, y_train)


# 4) نحصل على probabilities

# predict_proba بيرجعلي احتمالية الانتماء لكل فئة
# [:,1] = العمود الخاص باحتمالية الفئة 1 (السرطان)
y_prob = model.predict_proba(X_test)[:, 1]


# 5) نحدد threshold جديد

# هنا بقول: اعتبر الحالة سرطان لو احتمالها أعلى من 0.7
threshold = 0.7


# 6) تحويل الاحتمالات إلى 0/1 باستخدام threshold

y_pred_custom = (y_prob >= threshold).astype(int)


# 7) حساب Precision و Recall بعد تغيير threshold

precision_custom = precision_score(y_test, y_pred_custom)
recall_custom = recall_score(y_test, y_pred_custom)

print("Precision with threshold 0.7:", precision_custom)
print("Recall with threshold 0.7:", recall_custom)


Precision with threshold 0.7: 0.9859154929577465
Recall with threshold 0.7: 0.9859154929577465


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [8]:

# Assignment 1: Pipeline كامل

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# تقسيم الداتا (مثلاً Breast Cancer)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# pipeline = scaler + موديل
pipeline = Pipeline([
    ('scaler', StandardScaler()),       # توحيد القيم
    ('logreg', LogisticRegression(max_iter=500)) # موديل Logistic Regression
])

# تدريب الموديل
pipeline.fit(X_train, y_train)

# توقع على بيانات الاختبار
y_pred = pipeline.predict(X_test)

# دقة الموديل
print("Pipeline Accuracy:", accuracy_score(y_test, y_pred))


Pipeline Accuracy: 0.9736842105263158


In [9]:

# Assignment 2: Feature Importance


import pandas as pd

# نجيب coefficients من الموديل داخل pipeline
coefficients = pipeline.named_steps['logreg'].coef_[0]

# أسماء الخصائص
feature_names = data.feature_names

# نعمل جدول يوضح Feature + Coefficient
importance = pd.DataFrame({
    'Feature': feature_names,
    'Coefficient': coefficients
})

# نرتبهم حسب قيمة الCoefficient عشان نعرف أهم الخصائص
print(importance.sort_values(by='Coefficient', ascending=False))


                    Feature  Coefficient
15        compactness error     0.682491
19  fractal dimension error     0.616230
5          mean compactness     0.540164
18           symmetry error     0.500425
8             mean symmetry     0.236119
11            texture error     0.188877
16          concavity error     0.175275
9    mean fractal dimension     0.075921
25        worst compactness     0.016110
4           mean smoothness    -0.071667
29  worst fractal dimension    -0.157414
17     concave points error    -0.311300
14         smoothness error    -0.313307
1              mean texture    -0.387326
2            mean perimeter    -0.393432
0               mean radius    -0.431904
3                 mean area    -0.465210
24         worst smoothness    -0.544170
22          worst perimeter    -0.589453
12          perimeter error    -0.610583
27     worst concave points    -0.778217
6            mean concavity    -0.801458
23               worst area    -0.841846
20             w