## **2. Linear Regression** 

### **a)**

In [1]:
import pandas as pd
from sklearn.datasets import load_boston

In [2]:
boston_data = load_boston()

In [3]:
boston_data.keys()

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

In [4]:
boston_data.feature_names

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

In [5]:
print(boston_data.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [6]:
boston_data.filename

'F:\\Anaconda\\envs\\DM\\lib\\site-packages\\sklearn\\datasets\\data\\boston_house_prices.csv'

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">

<p style =" direction:rtl;text-align:right;">
دیتا را لود کرده و کلیدها و ویژگی های ان را نمایش می دهیم.
    می توان به داده ها، متغیر هدف، نام فیچرها، توصیف کلی دیتاست دسترسی پیدا کرد.
    
</p>

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">


### **b)**

In [7]:
boston = pd.DataFrame(boston_data.data,columns=boston_data.feature_names)
boston.head(3)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03


<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">

<p style =" direction:rtl;text-align:right;">
 به کمک دیتا های فیجرها برای هر رکورد و نام فیچر ها بخش اول دیتاست را میسازیم
</p>

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">


### **c)**

In [8]:
boston['Price'] = pd.DataFrame(boston_data.target)

In [9]:
boston.head(3)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,Price
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7


<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">

<p style =" direction:rtl;text-align:right;">
با قراردادن ستون هدف در کنار بخش اول دیتاست کامل می شود.
</p>

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">
 

### **i)**

### ***Missing Values :***

In [10]:
boston.isnull().sum()

CRIM       0
ZN         0
INDUS      0
CHAS       0
NOX        0
RM         0
AGE        0
DIS        0
RAD        0
TAX        0
PTRATIO    0
B          0
LSTAT      0
Price      0
dtype: int64

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">

<p style =" direction:rtl;text-align:right;">
مقدار missing نداریم.
</p>

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">


### ***Normalization:***

In [11]:
from scipy import stats

In [12]:
df = pd.DataFrame(stats.zscore(boston[['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 
                                       'RM', 'AGE', 'DIS', 'RAD','TAX', 
                                       'PTRATIO', 'B', 'LSTAT']],axis=0),
                   columns=['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE',
                            'DIS', 'RAD','TAX', 'PTRATIO', 'B', 'LSTAT'])

df['Price']=boston[['Price']]
df.head(3)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,Price
0,-0.419782,0.28483,-1.287909,-0.272599,-0.144217,0.413672,-0.120013,0.140214,-0.982843,-0.666608,-1.459,0.441052,-1.075562,24.0
1,-0.417339,-0.487722,-0.593381,-0.272599,-0.740262,0.194274,0.367166,0.55716,-0.867883,-0.987329,-0.303094,0.441052,-0.492439,21.6
2,-0.417342,-0.487722,-0.593381,-0.272599,-0.740262,1.282714,-0.265812,0.55716,-0.867883,-0.987329,-0.303094,0.396427,-1.208727,34.7


<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">

<p style =" direction:rtl;text-align:right;">
مقادیر فیچرها را به کمک zscore نرمال می کنیم.
</p>

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">


### ***Outliers:***

In [13]:
print(f"[+] Dataframe shape before removing outliers : {df.shape}")
cols = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT']
masked = df[~((df[cols]>3) | (df[cols] <-3))].notna()
masked['Price']=True
df=df[masked].dropna()
print(f"[+] Dataframe shape after removing outliers : {df.shape}")
display(df.head(3))

[+] Dataframe shape before removing outliers : (506, 14)
[+] Dataframe shape after removing outliers : (415, 14)


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,Price
0,-0.419782,0.28483,-1.287909,-0.272599,-0.144217,0.413672,-0.120013,0.140214,-0.982843,-0.666608,-1.459,0.441052,-1.075562,24.0
1,-0.417339,-0.487722,-0.593381,-0.272599,-0.740262,0.194274,0.367166,0.55716,-0.867883,-0.987329,-0.303094,0.441052,-0.492439,21.6
2,-0.417342,-0.487722,-0.593381,-0.272599,-0.740262,1.282714,-0.265812,0.55716,-0.867883,-0.987329,-0.303094,0.396427,-1.208727,34.7


<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">

<p style =" direction:rtl;text-align:right;">
به کمک نتایج حاصل از zscore داده های پرت را حدف می کنیم.
    
    
</p>

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">


### **j)**

In [14]:
from sklearn.model_selection import train_test_split

In [15]:
X = df.drop('Price',axis=1)
y = df['Price']
display(X.head(3))
y

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,-0.419782,0.28483,-1.287909,-0.272599,-0.144217,0.413672,-0.120013,0.140214,-0.982843,-0.666608,-1.459,0.441052,-1.075562
1,-0.417339,-0.487722,-0.593381,-0.272599,-0.740262,0.194274,0.367166,0.55716,-0.867883,-0.987329,-0.303094,0.441052,-0.492439
2,-0.417342,-0.487722,-0.593381,-0.272599,-0.740262,1.282714,-0.265812,0.55716,-0.867883,-0.987329,-0.303094,0.396427,-1.208727


0      24.0
1      21.6
2      34.7
3      33.4
4      36.2
       ... 
501    22.4
502    20.6
503    23.9
504    22.0
505    11.9
Name: Price, Length: 415, dtype: float64

In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)


### **d)**

In [17]:
from sklearn.linear_model import LinearRegression

In [18]:
lr = LinearRegression().fit(X_train,y_train)

In [19]:
y_pred = lr.predict(X_test)

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">

<p style =" direction:rtl;text-align:right;">
مدل رگرسیون خطی را ساخته و آن را آموزش می دهیم.
    سپس مقادیر هدف را برای داده ها تست به دست میاوریم.
</p>

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">


### **e)**

In [20]:
from sklearn import metrics
import numpy as np

In [21]:
print(f"[+] Mean Absolute Error     = {metrics.mean_absolute_error(y_test, y_pred)}")
print(f"[+] Mean Square Error       = {metrics.mean_squared_error(y_test, y_pred)}")
print(f"[+] Root Mean Squared Error = {np.sqrt(metrics.mean_squared_error(y_test, y_pred))}")

[+] Mean Absolute Error     = 2.7822627807393348
[+] Mean Square Error       = 14.090210993813303
[+] Root Mean Squared Error = 3.753692980760854


<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">

<p style =" direction:ltr;text-align:left;">
Mean Absolute Error (MAE) :  the sum of the absolute value of the differences between all the expected values and predicted values, divided by the total number of predictions.

    
Root-Mean Square Error (RMSE): square root of the average of the squared errors.

    
Mean Squared Error (MSE): Mean Squared Error or MSE
    
</p>

<p style =" direction:rtl;text-align:right;">
    تحلیل این اغداد از تعریف آنها به دست می آید اما مجددا تکرار می کنم:
    میانگین قدرمطلق  نتیجه پیش بینی شده و مقدار اصلی برای همه رکورد ها برابر MAE فوق شده است.
    میانگین مربع این تفاضلات MSE و جذر آن RMSE.
     هرچه این مقادیر کمتر باشند تقاوت کمتری بین مقادیر پیش بینی شده و اثلی وجود دارد فلذا ود بهتر پیش بینی می کند.
</p>
<p style =" direction:rtl;text-align:right;">
   MAE به اندازه MSE به داده های پرت حساس نیست چون اختلاف های زیاد را چندان مشمول پنالتی و مجارات قرار نمی دهد.معمولا وقتی استفاده می شود که روی دیتاهای پیوسته کار میکنمی و خروجی خطی مانند میدهد.
    هرچه کمتر بهتر.
</p>
<p style =" direction:rtl;text-align:right;">
 MSE از معیارهای متداول است ، اما وقتی یک پیش بینی بد توانایی پیش بینی کل مدل را خراب می کند ، یعنی وقتی مجموعه داده حاوی نویز زیادی است ، حداقل کاربرد دارد. وقتی مجموعه داده حاوی مقادیر پرت یا مقادیر غیرمنتظره (مقادیر خیلی زیاد یا خیلی کم) باشد ، بیشتر کاربرد دارد.
</p>
<p style =" direction:rtl;text-align:right;">

در RMSE ، خطاها قبل از میانگین شدن مربع می شوند. این اساساً نشان می دهد که RMSE وزن بیشتری را به خطاهای بزرگتر اختصاص می دهد. این نشان می دهد که RMSE هنگامی که خطاهای بزرگی وجود دارد بسیار مفیدتر است و عملکرد آنها را به شدت تحت تأثیر قرار می دهد. از گرفتن مقدار مطلق خطا جلوگیری می کند و این ویژگی در بسیاری از محاسبات ریاضی مفید است. در این معیار نیز ، پایین آوردن مقدار ، عملکرد بهتر مدل است.
</p>

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">


### **f)**

In [22]:
from sklearn.model_selection import cross_val_score

In [23]:
scores = cross_val_score(lr, X_test, y_test, cv=5)
print(f"[+] Scores : {scores}")
print(f"[+] Mean of Scores = {scores.mean()}")

[+] Scores : [0.75173537 0.78011416 0.79399932 0.85040624 0.6607641 ]
[+] Mean of Scores = 0.7674038369696821


In [24]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)

0.776199655794105

<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">


<p style =" direction:rtl;text-align:right;">
همانطور که مشاهده می شود نتایج دو مرحله نزدیک به همدیگرند
</p>


<hr style = "border-top: 3px solid #000000 ; border-radius: 3px;">
