In [25]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split

In [26]:
df = pd.read_csv('50_Startups.csv')
x = df.iloc[:,:-1].values
y = df.iloc[:,4].values

# Taking care of missing data
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(x[:,1:3])
x[:,1:3] = imputer.transform(x[:,1:3]) 

# Encoding categorical data
ct  = ColumnTransformer(transformers=[('encoder',OneHotEncoder(),[3])],remainder='passthrough')
x = np.array(ct.fit_transform(x))

# Splitting the dataset into the Training set and Test set
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2,random_state=1,shuffle=True)

In [27]:
# Dengan sklearn, tahap-tahap seperti pengecekan asumsi, model selection, dll. tidak perlu dilakukan secara manual
# Karena sudah dihandle oleh librarynya.
# Tahapan MLR dengan sklearn sama seperti SLR

# Fitting Multiple Linear Regression to the Training set
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(x_train, y_train)

# Predicting the Test set results
y_pred = regressor.predict(x_test)

# np.set_printoptions adalah fungsi untuk mengatur tampilan output, precision=2 adalah jumlah angka di belakang koma
np.set_printoptions(precision=2)

# Menampilkan hasil prediksi dan nilai aktual
# np.concatenate adalah fungsi untuk menggabungkan array, axis=1 adalah menggabungkan secara horizontal
# reshape(len(y_pred),1) adalah mengubah bentuk vektor baris menjadi vektor kolom
# output dari fungsi dibawah adalah array berisi elemen yang terdiri dari nilai prediksi (y-hat) dan nilai aktual (y)
print(np.concatenate((y_pred.reshape(len(y_pred),1),y_test.reshape(len(y_test),1)),1))

# Menampilkan koefisien dan intercept
print(regressor.coef_)
print(regressor.intercept_)

[[114664.42 105008.31]
 [ 90593.16  96479.51]
 [ 75692.84  78239.91]
 [ 70221.89  81229.06]
 [179790.26 191050.39]
 [171576.92 182901.99]
 [ 49753.59  35673.41]
 [102276.66 101004.64]
 [ 58649.38  49490.75]
 [ 98272.03  97483.56]]
[-2.85e+02  2.98e+02 -1.24e+01  7.74e-01 -9.44e-03  2.89e-02]
49834.885073226884
