Without feature selection, feature engineering, hyper-perameter tuninng just apply multiple linear regression for practices purpose.

## Multiple Linear Regression
Multiple Linear Regression বলতে বোঝায় এমন একটি মডেল, যেখানে আমাদের টার্গেট ভ্যালু বা প্রেডিক্টেড ফলাফল একটি হলেও, সেই টার্গেট ভ্যালুটি অনেকগুলো বৈশিষ্ট্য বা ফিচারের উপর নির্ভর করে। অর্থাৎ, যখন কোনো একটি নির্দিষ্ট ফলাফল (যেমন কারো মেডিকেল খরচ বা পরীক্ষার নম্বর) নির্ধারিত হয় একাধিক বিষয় (যেমন বয়স, ওজন, ইনকাম, শিক্ষা) দ্বারা — তখন আমরা এই সমস্ত ফিচার একত্রে ব্যবহার করে একটি প্রেডিকশন মডেল তৈরি করি। <br>
ইন্টারসেপ্ট (Intercept) বলতে বোঝায় টার্গেট কলামের একটি নির্দিষ্ট বা স্থায়ী মান। অর্থাৎ, যদি আমাদের সব ফিচারের মান ০ হয়, তাহলেও মডেল একটি প্রেডিকশন ভ্যালু দিবে — সেটিই হলো ইন্টারসেপ্ট। এটি হলো আমাদের বেসলাইন মান। <br>
স্লোপ (Slope) বা কো-ইফিশিয়েন্ট মানে হচ্ছে — প্রতিটি ফিচারের সাথে টার্গেটের সম্পর্ক কতটা। সহজভাবে বললে, একটি ফিচারের মান এক ইউনিট বাড়লে, প্রেডিকশন কতটা বাড়বে বা কমবে, সেটাই স্লোপ দ্বারা বোঝানো হয়। অর্থাৎ, কোনো ফিচারের মান যত বাড়বে, তার ওজন (weight) বা প্রভাব অনুযায়ী প্রেডিকশনেও সেই পরিবর্তনের প্রতিফলন দেখা যাবে।

#### Steps:
* Datset load
* define target and input featurs
* train test split
* Model train/ make object. fit(traiing dataset)
* pridition X-test dataset use
* Evaluate (error)
* check co-efficent

In [1]:
# import all importat libraires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error,r2_score

In [2]:
hprice = pd.read_csv('house-price.csv')
hprice.head(3)

Unnamed: 0,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,sqft_above,sqft_basement,yr_built,yr_renovated,street,city,statezip,country
0,2014-05-02 00:00:00,313000.0,3.0,1.5,1340,7912,1.5,0,0,3,1340,0,1955,2005,18810 Densmore Ave N,Shoreline,WA 98133,USA
1,2014-05-02 00:00:00,2384000.0,5.0,2.5,3650,9050,2.0,0,4,5,3370,280,1921,0,709 W Blaine St,Seattle,WA 98119,USA
2,2014-05-02 00:00:00,342000.0,3.0,2.0,1930,11947,1.0,0,0,4,1930,0,1966,0,26206-26214 143rd Ave SE,Kent,WA 98042,USA


In [4]:
hprice.columns

Index(['date', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot',
       'floors', 'waterfront', 'view', 'condition', 'sqft_above',
       'sqft_basement', 'yr_built', 'yr_renovated', 'street', 'city',
       'statezip', 'country'],
      dtype='object')

In [5]:
# work with the date: bedroom,sqrt_liviing,price,floors
# check data types
hprice.dtypes

date              object
price            float64
bedrooms         float64
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
sqft_above         int64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
street            object
city              object
statezip          object
country           object
dtype: object

In [6]:
# work with the date: bedroom,sqrt_liviing,price,floors
df = hprice[['bedrooms','sqft_living','floors','price']]
df.head(3)

Unnamed: 0,bedrooms,sqft_living,floors,price
0,3.0,1340,1.5,313000.0
1,5.0,3650,2.0,2384000.0
2,3.0,1930,1.0,342000.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4600 entries, 0 to 4599
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   bedrooms     4600 non-null   float64
 1   sqft_living  4600 non-null   int64  
 2   floors       4600 non-null   float64
 3   price        4600 non-null   float64
dtypes: float64(3), int64(1)
memory usage: 143.9 KB


In [9]:
# define X and y
X = df[['bedrooms','sqft_living','floors']]
X.head()

Unnamed: 0,bedrooms,sqft_living,floors
0,3.0,1340,1.5
1,5.0,3650,2.0
2,3.0,1930,1.0
3,3.0,2000,1.0
4,4.0,1940,1.0


In [10]:
y = df['price']
y.head()

0     313000.0
1    2384000.0
2     342000.0
3     420000.0
4     550000.0
Name: price, dtype: float64

In [11]:
# train test split 
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=2)


In [12]:
X_train.head()

Unnamed: 0,bedrooms,sqft_living,floors
2274,3.0,1730,1.0
2735,3.0,990,1.0
4,4.0,1940,1.0
133,2.0,2220,2.0
1903,3.0,1710,2.0


In [14]:
X_train.shape,y_train.shape

((3680, 3), (3680,))

In [15]:
# model traiing
mult = LinearRegression()
mult.fit(X_train,y_train)

In [16]:
# preict
y_predict = mult.predict(X_test)
y_predict[1:5]

array([337500.24690923, 515710.44295234, 328058.35146918, 714780.67386395])

In [22]:
# make dataframe with actual y_train and predicted y
df1 = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_predict
})

In [23]:
df1

Unnamed: 0,Actual,Predicted
4111,232000.0,368385.595488
1996,299950.0,337500.246909
2307,1085000.0,515710.442952
3607,229800.0,328058.351469
1519,499950.0,714780.673864
...,...,...
2516,883000.0,763608.542928
993,260000.0,471244.141741
3713,219950.0,416610.651354
4541,216000.0,598579.602052


In [24]:
# coefficent check and slop check()
mult.coef_

array([-61026.00849539,    301.40659916,   4139.0571921 ])

In [25]:
mult.intercept_

np.float64(107270.92900587147)

In [27]:
mse = mean_squared_error(y_test,y_predict)
rmse = np.sqrt(mse)
rmse

np.float64(909233.8804870705)

In [28]:
rscore = r2_score(y_test,y_predict)
rscore

0.05359682714441727

In [None]:
# result: very very poor prediction only 5%