<div dir="rtl" style="text-align: right;">
در سلول های ابتدایی کتابخانه ها، توابع و شی های مورد نیازمان را فراخوانی می کنیم. و همچنین داده ها را از فایل خوانده و نگاهی به آن می اندازیم.
</div>

In [1]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np

In [2]:
#reading data

df = pd.read_csv('Student_Performance.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Hours Studied                     10000 non-null  int64  
 1   Previous Scores                   10000 non-null  int64  
 2   Extracurricular Activities        10000 non-null  object 
 3   Sleep Hours                       10000 non-null  int64  
 4   Sample Question Papers Practiced  10000 non-null  int64  
 5   Performance Index                 10000 non-null  float64
dtypes: float64(1), int64(4), object(1)
memory usage: 468.9+ KB


In [3]:
df.head()

Unnamed: 0,Hours Studied,Previous Scores,Extracurricular Activities,Sleep Hours,Sample Question Papers Practiced,Performance Index
0,7,99,Yes,9,1,91.0
1,4,82,No,4,2,65.0
2,8,51,Yes,7,2,45.0
3,5,52,Yes,5,2,36.0
4,7,75,No,8,5,66.0


<div dir="rtl" style="text-align: right;">
یک ستون از دیتافریم نشان می دهد دانش آموز فعالیت های فوق برنامه داشته یا خیر. از آنجا که ماهیت این دیتا دودویی(بله یا خیر، صفر یا یک) است؛
با خیال راحت آن را به عدد(0 و 1) تبدیل می کنیم.
</div>

In [4]:
#replacing 'Yes' and 'No' strings with binary numbers

df['Extracurricular Activities'] = (
    df['Extracurricular Activities']
    .replace(['No', 'Yes'], ['0','1'])
    .astype('int8')
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Hours Studied                     10000 non-null  int64  
 1   Previous Scores                   10000 non-null  int64  
 2   Extracurricular Activities        10000 non-null  int8   
 3   Sleep Hours                       10000 non-null  int64  
 4   Sample Question Papers Practiced  10000 non-null  int64  
 5   Performance Index                 10000 non-null  float64
dtypes: float64(1), int64(4), int8(1)
memory usage: 400.5 KB


In [5]:
#checking min and max of each column to see if we can use some lighter data types

for col in df.columns:
    print(col)
    print(df[col].max())
    print(df[col].min())

Hours Studied
9
1
Previous Scores
99
40
Extracurricular Activities
1
0
Sleep Hours
9
4
Sample Question Papers Practiced
9
0
Performance Index
100.0
10.0


<div dir="rtl" style="text-align: right;">
می توان دید که همه داده های ما بین 0 و 100 است. یک ستون از داده هم اعشاری است که با نگاهی گذرا به نظر می رسد تمام اعداد اعشاری آن صفر است و 
اگر صفر نباشد هم حذف آن تاثیر زیادی روی دقت کار نمی گذارد زیرا اعداد این ستون بین 10 و 100 هستند. در نتیجه همه داده ها را به فرمت سبک تر 
int8 ذخیره می کنیم
</div>

In [6]:
# int8 datatype can fit all values here
# wedo not need decimals of df['Performance Index']

for col in df.columns:
    df[col] = df[col].astype('int8')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column                            Non-Null Count  Dtype
---  ------                            --------------  -----
 0   Hours Studied                     10000 non-null  int8 
 1   Previous Scores                   10000 non-null  int8 
 2   Extracurricular Activities        10000 non-null  int8 
 3   Sleep Hours                       10000 non-null  int8 
 4   Sample Question Papers Practiced  10000 non-null  int8 
 5   Performance Index                 10000 non-null  int8 
dtypes: int8(6)
memory usage: 58.7 KB


<div dir="rtl" style="text-align: right;">
چند سلول بعدی مربوط به تعریف، آموزش و پیش بینی مدل هستند.
</div>

In [7]:
# train_test splitting

X = df.drop('Performance Index', axis=1)
y = df['Performance Index']
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42)

In [8]:
#scaling data with standard scaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [9]:
#initializing model

model = LinearRegression()
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

<div dir="rtl" style="text-align: right;">
سلول های بعدی مربوط به اندازه گیری برخی پارامتر هاست که نشان می دهد مدل ما چه قدر خوب پیش بینی کرده. اگر بدانیم این پارامتر ها چه هستند می فهمیم مدل به خوبی عمل کرده.
(به کسی قرار نیست ارائه داده بشه. پس توضیح پارامتر ها با ریاضیات زحمت بی دلیل خواهد بود)
</div>

In [28]:
# calculating error and r2_score

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [29]:
print(f"root mean squared error/average of test data: {(mse**0.5)/y_test.mean():.2f}")
print(f"r2_score: {r2:.2f}")

root mean squared error/average of test data: 0.04
r2_score: 0.99
