<center><h1>Multiple Linear Regression</h1></center>
<hr>

Di notebook ini, kita akan membuat model <i>machine learning</i> untuk kasus regresi (yang memiliki target berupa nilai kontinue) dengan algoritma __Linear Regression__. Disini kita akan mempraktekkan <b>Multiple Linear Regression</b> yang berarti melibatkan beberapa variabel bebas.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Multiple Linear Regression
        </li>
        <li>
            Dataset
        </li>
        <li>
            Analisis dan visualisasi data
        </li>
        <li>
            Data Preparation / Preprocessing
            <ul>
                <li>Menangani missing values</li>
                <li>Mengubah tipe data</li>
                <li>Encoding</li>
                <li>Normalisasi</li>
                <li>Train test split</li>
            </ul>
        </li>
        <li>
            Modeling
            <ul>
                <li>Linear regression dengan beberapa variabel bebas</li>
                <li>Prediksi</li>
                <li>Evaluasi</li>
            </ul>
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Multiple Linear Regression

Jika <i>simple linear regression</i> hanya melibatkan satu variabel bebas $x$, maka __Multiple Linear Regression__ adalah <i>linear regression</i> yang melibatkan lebih dari satu variabel bebas $x$. Formulanya dapat ditulis sebagai berikut.
<br>
<br>
$$
y = \theta_0 + \theta_1  x_1 + \theta_2  x_2 + \theta_3  x_3 \cdots
$$
<br>
<br>

<hr>

## Dataset

Dataset yang digunakan adalah dataset <a href='https://archive.ics.uci.edu/ml/datasets/automobile'>Automobile</a> yang berasal dari UCI Machine Learning Repository dengan informasi detail tentang tiap kolom (terurut dari awal sampai akhir) sebagai berikut:

__Attribute Information:__

1. __symboling:__ -3, -2, -1, 0, 1, 2, 3.
2. __normalized-losses:__ continuous from 65 to 256.
3. __make:__
alfa-romero, audi, bmw, chevrolet, dodge, honda,
isuzu, jaguar, mazda, mercedes-benz, mercury,
mitsubishi, nissan, peugot, plymouth, porsche,
renault, saab, subaru, toyota, volkswagen, volvo

4. __fuel-type:__ diesel, gas.
5. __aspiration:__ std, turbo.
6. __num-of-doors:__ four, two.
7. __body-style:__ hardtop, wagon, sedan, hatchback, convertible.
8. __drive-wheels:__ 4wd, fwd, rwd.
9. __engine-location:__ front, rear.
10. __wheel-base:__ continuous from 86.6 120.9.
11. __length:__ continuous from 141.1 to 208.1.
12. __width:__ continuous from 60.3 to 72.3.
13. __height:__ continuous from 47.8 to 59.8.
14. __curb-weight:__ continuous from 1488 to 4066.
15. __engine-type:__ dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. __num-of-cylinders:__ eight, five, four, six, three, twelve, two.
17. __engine-size:__ continuous from 61 to 326.
18. __fuel-system:__ 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. __bore:__ continuous from 2.54 to 3.94.
20. __stroke:__ continuous from 2.07 to 4.17.
21. __compression-ratio:__ continuous from 7 to 23.
22. __horsepower:__ continuous from 48 to 288.
23. __peak-rpm:__ continuous from 4150 to 6600.
24. __city-mpg:__ continuous from 13 to 49.
25. __highway-mpg:__ continuous from 16 to 54.
26. __price:__ continuous from 5118 to 45400.

Pertama, mari <i>import library</i> yang dibutuhkan terlebih dahulu seperti Pandas, Numpy, Matplotlib, dan Seaborn.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

Selanjutnya kita <i>load</i> dataset ke dalam dataframe Pandas dengan <code>read_csv()</code>.

In [None]:
# Definisikan format missing values yang mungkin ada
missing_value_format = ['N.A', 'na', 'n.a.', 'n/a', '?', '-']

# Load dataset 
df = pd.read_csv('../datasets/automobile.data', header=None, na_values=missing_value_format)
df.head(10)

Dataframe di atas belum memiliki nama kolom sehingga untuk memudahkan proses analisis dan pemodelan, kita akan memberi nama yang merepresentasikan kolom tersebut.

In [None]:
# Membuat list nama kolom
column_names = ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 
              'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
              'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower',
              'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

# Mengubah nama kolom
df.columns = column_names

pd.set_option('display.max_columns', 100)     # Menampilkan seluruh kolom
df.head()

<hr>

## Analisis dan visualisasi data

Sekarang mari kita cek info dataframe.

In [None]:
# Cek info

df.info()

Terlihat bahwa ada beberapa kolom yang memiliki <i>missing values</i>. Selanjutnya mari kita tampilkan deskripsi statistik untuk kolom numerik pada dataframe tersebut dengan <code>describe()</code>.

In [None]:
# Menampilkan deskripsi statistik

df.describe()

Kita dapat menampilkan hubungan antarvariabel <code>price</code> dan <code>horsepower</code>.

In [None]:
# Scatter plot kolom 'price' dan 'horsepower'

plt.scatter(df['price'], df['horsepower'])
plt.show()

Kita juga dapat melihat visualisasi dari empat variabel seperti di bawah ini.

In [None]:
plt.figure(figsize=(10,6))

sns.scatterplot(data=df, x='price', y='horsepower', hue='body-style', size='engine-size')
plt.show()

Sekarang mari kita tampilkan <i>countplot</i> dari <code>make</code> dan <code>body-style</code>.

In [None]:
# Menampilkan countplot dari 'make' dan 'body-style'

fig, ax = plt.subplots(ncols=2, nrows=1, figsize=(14, 5)) 

# Menambahkan subplot dengan indexing
ax0 = fig.add_subplot(ax[0]) 
ax1 = fig.add_subplot(ax[1])  

sns.countplot(x='make', data=df, palette='Set2', ax=ax0)
sns.countplot(x='body-style', data=df, palette='Set2', ax=ax1)

fig.autofmt_xdate(rotation=90)
plt.subplots_adjust(wspace=0.2, hspace=0.4)
plt.show()

<hr>

## Data Preparation / Preprocessing

### Missing values

Mari kita tangani <i>missing values</i>. Kita akan menghapus baris data yang mengandung <i>missing values</i> pada kolom <code>price</code> karena kolom tersebut merupakan kolom target sehingga sebaiknya kita tidak sembarangan mengisi <i>missing values</i>.

In [None]:
# Menghapus baris yang mengandung mising values di kolom price
df.dropna(subset=['price'], axis=0, inplace=True)

# Me-reset indeks karena ada data yang terhapus
df.reset_index(drop=True, inplace=True)

Selanjutnya untuk <i>missing values</i> pada kolom lainnya, kita ganti dengan nilai rata-rata. Khusus untuk kolom <code>num-of-doors</code> akan diganti dengan __'four'__ yang merupakan nilai modus dari kolom tersebut.

In [None]:
# Mengganti missing values dengan 'four' untuk kolom num-of-doors
df['num-of-doors'].fillna('four', inplace=True)

# Mengganti missing values dengan mean-nya untuk kolom lainnya
avg_norm = df['normalized-losses'].astype('float').mean(axis=0)
df['normalized-losses'].replace(np.nan, avg_norm, inplace=True)

avg_stroke = df['stroke'].astype('float').mean(axis=0)
df['stroke'].replace(np.nan, avg_stroke, inplace=True)

avg_bore = df['bore'].astype('float').mean(axis=0)
df['bore'].replace(np.nan, avg_bore, inplace=True)

avg_horse = df['horsepower'].astype('float').mean(axis=0)
df['horsepower'].replace(np.nan, avg_horse, inplace=True)

avg_peak = df['peak-rpm'].astype('float').mean(axis=0)
df['peak-rpm'].replace(np.nan, avg_norm, inplace=True)

df.head()

### Mengubah tipe data

Setelah itu, kita ubah tipe data dari kolom yang belum sesuai tipenya dengan jenis data pada tiap kolom.

In [None]:
# Konversi tipe data

df[['bore', 'stroke', 'peak-rpm']] = df[['bore', 'stroke', 'peak-rpm']].astype('float')
df[['normalized-losses', 'horsepower']] = df[['normalized-losses', 'horsepower']].astype('int')
df[['price']] = df[['price']].astype('float')

Mari kita cek tipe data setelah perubahan.

In [None]:
# Cek tipe data

df.dtypes

### Encoding

Selanjutnya adalah proses <i>encoding</i> kolom dengan data kategori menjadi numerik. Sebelumnya mari kita pisahkan terlebih dahulu data fitur dan targetnya.

In [None]:
# Mendefinisikan data fitur dan target

df_features = df.drop('price', axis=1)
df_target = df['price']

Kemudian kita lakukan <i>encoding</i> pada beberapa kolom di <code>df_features</code> dengan <code>OrdinalEncoder()</code>.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

# Encoding data kategori
ord_encode = OrdinalEncoder()
df_features['make'] = ord_encode.fit_transform(df_features[['make']])
df_features['fuel-type'] = ord_encode.fit_transform(df_features[['fuel-type']])
df_features['aspiration'] = ord_encode.fit_transform(df_features[['aspiration']])
df_features['num-of-doors'] = ord_encode.fit_transform(df_features[['num-of-doors']])
df_features['body-style'] = ord_encode.fit_transform(df_features[['body-style']])
df_features['drive-wheels'] = ord_encode.fit_transform(df_features[['drive-wheels']])
df_features['engine-location'] = ord_encode.fit_transform(df_features[['engine-location']])
df_features['engine-type'] = ord_encode.fit_transform(df_features[['engine-type']])
df_features['num-of-cylinders'] = ord_encode.fit_transform(df_features[['num-of-cylinders']])
df_features['fuel-system'] = ord_encode.fit_transform(df_features[['fuel-system']])

Sekarang kita tampilkan dataframe hasil <i>encoding</i>.

In [None]:
# Menampilkan dataframe hasil encoding

df_features[['make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels',
             'engine-location', 'engine-type', 'num-of-cylinders', 'fuel-system']].head(10)

### Normalisasi

Selanjutnya adalah normalisasi data dengan <code>StandardScaler()</code>.

In [None]:
from sklearn.preprocessing import StandardScaler

cols = list(df_features.columns)

df_features_scaled = pd.DataFrame(data = df_features)
df_features_scaled[cols] = StandardScaler().fit_transform(df_features[cols])
df_features_scaled.head()

### Train test split

Setelah data dinormalisasi, kita dapat membagi data menjadi data latih dan data uji dengan <i>train test split</i>. <i>Multiple linear regression</i> berarti menggunakan lebih dari satu data fitur, jadi disini kita akan menggunakan semua fitur dalam dataset.

In [None]:
from sklearn.model_selection import train_test_split

# Membagi data dengan train test split
X_train, X_test, y_train, y_test = train_test_split(df_features_scaled, df_target, test_size=0.2, random_state=45)

Sekarang mari kita tampilkan 5 data teratas dari <code>X_train</code> dan <code>X_test</code>.

In [None]:
# Menampilkan data X_train dan X_test

print('Train set:', X_train.shape,  y_train.shape)
print(X_train.head())
print('\n')
print('Test set:', X_test.shape,  y_test.shape)
print(X_test.head())

<hr>

## Modeling

### Linear Regression dengan beberapa variabel bebas

Tidak berbeda dengan <i>simple linear regression</i>, kita dapat menggunakan <i>package</i> <code>LinearRegression</code> untuk <i>multiple linear regression</i>.

In [None]:
from sklearn.linear_model import LinearRegression

lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

Sekarang kita tampilkan <i>coeficients</i> untuk tiap fitur.

In [None]:
# Menampilkan koefisien

lr_model.coef_

Lalu kita tampilkan <i>intercept</i>-nya.

In [None]:
# Menampilkan intercept

lr_model.intercept_

### Prediksi

Selanjutnya, kita uji model tersebut dengan <code>X_test</code> dan menampilkan hasil prediksinya.

In [None]:
# Menguji model

y_pred = lr_model.predict(X_test)
y_pred

### Evaluasi

Selanjutnya kita evaluasi kinerja model dengan <code>r2_score</code>.

In [None]:
from sklearn.metrics import r2_score

# Menampilkan nilai r2 score
print("R2-score: %.2f" % r2_score(y_pred, y_test))

<hr>