## الجزء 1: تحميل البيانات ومعالجتها

In [None]:
import pandas as pd

# تحميل الملف المرفوع
from google.colab import files
uploaded = files.upload()

# قراءة البيانات
df = pd.read_csv('StudentsPerformance.csv')
df.head()

## التحقق من البيانات

In [None]:
print(df.shape)
df.info()
df.describe()
df.isnull().sum()

## تنظيف الأعمدة

In [None]:
df.columns = [col.strip().lower().replace(" ", "_") for col in df.columns]
df.columns

## تحليل العلاقة بين الدورة التحضيرية والدرجات

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10,6))
sns.boxplot(data=df, x='test_preparation_course', y='math_score')
plt.title('أثر الدورة التحضيرية على درجات الرياضيات')
plt.show()

## تحليل الفرق بين الذكور والإناث

In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(data=df, x='gender', y='math_score')
plt.title('الفرق في درجات الرياضيات بين الذكور والإناث')
plt.show()

## تحليل أثر تعليم الوالدين

In [None]:
plt.figure(figsize=(12,6))
sns.boxplot(data=df, x='parental_level_of_education', y='math_score')
plt.xticks(rotation=45)
plt.title('أثر تعليم الوالدين على درجات الرياضيات')
plt.show()

## العلاقة بين درجات المواد الثلاث

In [None]:
scores = df[['math_score', 'reading_score', 'writing_score']]
plt.figure(figsize=(6,4))
sns.heatmap(scores.corr(), annot=True, cmap='Blues')
plt.title('العلاقة بين درجات المواد الثلاث')
plt.show()

## تحديد الطلاب المتفوقين

In [None]:
df['excellent'] = (df['math_score'] >= 80) & (df['reading_score'] >= 80) & (df['writing_score'] >= 80)
df['excellent'].value_counts()

plt.figure(figsize=(6,4))
sns.countplot(data=df, x='gender', hue='excellent')
plt.title('توزيع الطلاب المتفوقين حسب الجنس')
plt.show()

## تجهيز البيانات للنمذجة

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

data = df.copy()
le = LabelEncoder()
for col in data.columns:
    if data[col].dtype == 'object':
        data[col] = le.fit_transform(data[col])

X = data.drop(['math_score'], axis=1)
y = data['math_score']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## نموذج Linear Regression

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mean Absolute Error:", round(mae, 2))
print("R2 Score:", round(r2, 2))

## نموذج Random Forest

In [None]:
from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

mae_rf = mean_absolute_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print("Random Forest MAE:", round(mae_rf, 2))
print("Random Forest R2 Score:", round(r2_rf, 2))