<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Polynomial Regression</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membuat model <i>machine learning</i> untuk kasus regresi (yang memiliki target berupa nilai kontinue) dengan algoritma __Linear Regression__. Disini kita akan mempraktekkan <b>Polynomial Regression</b>, dimana hubungan variabel bebas dan independennya dimodelkan sebagai polinomial.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Polynomial Regression
        </li>
        <li>
            Dataset
        </li>
        <li>
            Analisis dan visualisasi data
        </li>
        <li>
            Data Preparation / Preprocessing
            <ul>
                <li>Membagi data train dan test</li>
            </ul>
        </li>
        <li>
            Modeling
            <ul>
                <li>Linear regression dengan bentuk polinomial</li>
                <li>Visualisasi polynomial regression</li>
                <li>Prediksi dan Evaluasi</li>
            </ul>
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Polynomial Regression

Terkadang tren data tidak selalu terlihat lurus atau linear melainkan melengkung. Dalam kasus ini, kita dapat menggunakan __Polynomial Regression__. Dengan <i>polynomial regression</i> kita dapat menyesuaikan garis dengan bentuk kumpulan data, misalnya dengan pangkat 2, pangkat 3, 4, dan seterusnya.

Pada intinya, <i>polynomial regression</i> adalah dimana hubungan variabel bebas $x$ dan variabel terikat/independen $y$ dimodelkan sebagai polinomial derajat ke-n pada $x$. Misalnya untuk regresi polinomial dengan derajat 2 (degree = 2), formulanya seperti di bawah ini.
<br><br>
$$y = b + \theta_1  x + \theta_2 x^2$$
<br><br>
Di Scikit-Learn, kita dapat menggunakan <i>function</i> <code>PolynomialFeatures()</code> untuk mentransformasi nilai pada fitur menjadi derajat kurang dari atau sesuai dengan yang ditentukan.

<br>

<hr>

## Dataset

Dataset yang digunakan adalah dataset <a href='https://www.kaggle.com/sarita19/fuel-consumption'>Fuel Consumption</a> yang bertujuan untuk memprediksi emisi CO2 untuk kendaraan ringan baru untuk penjualan di Kanada.

__Dataset Information:__

- **MODELYEAR** e.g. 2014
- **MAKE** e.g. Acura
- **MODEL** e.g. ILX
- **VEHICLE CLASS** e.g. SUV
- **ENGINE SIZE** e.g. 4.7
- **CYLINDERS** e.g 6
- **TRANSMISSION** e.g. A6
- **FUEL CONSUMPTION in CITY(L/100 km)** e.g. 9.9
- **FUEL CONSUMPTION in HWY (L/100 km)** e.g. 8.9
- **FUEL CONSUMPTION COMB (L/100 km)** e.g. 9.2
- **CO2 EMISSIONS (g/km)** e.g. 182   --> low --> 0

Pertama kita <i>import library</i> yang diperlukan terlebih dahulu.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

Selanjutnya kita <i>load</i> dataset ke dalam dataframe Pandas.

In [None]:
# Load dataset

df = pd.read_csv('../datasets/fuel-consumption.csv')
df.head(10)

<hr>

## Analisis dan visualisasi data

Selanjutnya mari kita eksplorasi dataset. Pertama mari kita lihat deskripsi statistiknya.

In [None]:
# Menampilkan deskripsi statistik

df.describe()

Sekarang mari kita lihat jumlah data untuk tiap jenis kendaraan.

In [None]:
# Jumlah data untuk tiap kendaraan

df['MAKE'].value_counts()

Kita dapat melihat nilai unik pada kolom <code>MODEL</code> dengan <code>unique()</code>.

In [None]:
# Melihat nilai unik pada kolom 'MODEL'

df['MODEL'].unique()

Sekarang kita lihat nilai unik di kolom <code>VEHICLECLASS</code>.

In [None]:
# Menampilkan nilai unik di kolom 'VEHICLECLASS'

df['VEHICLECLASS'].unique()

Kita dapat menggunakan <i>countplot</i> untuk kolom <code>TRANSMISSION</code>.

In [None]:
# Countplot untuk kolom 'TRANSMISSION'

plt.figure(figsize=(12,7))
sns.countplot(df['TRANSMISSION'], palette='Set1')

Untuk kolom numerik, kita dapat menampilkan histogramnya untuk melihat distribusi data.

In [None]:
# Menampilkan histogram dari kolom fitur numerik

fig, ax = plt.subplots(ncols=4, nrows=2, figsize=(16, 6)) 

# Menambahkan subplot dengan indexing
ax0 = fig.add_subplot(ax[0,0]) 
ax1 = fig.add_subplot(ax[0,1])  
ax2 = fig.add_subplot(ax[0,2])  
ax3 = fig.add_subplot(ax[0,3]) 
ax4 = fig.add_subplot(ax[1,0])  
ax5 = fig.add_subplot(ax[1,1]) 
ax6 = fig.add_subplot(ax[1,2])    

df.hist(column='ENGINESIZE', bins=50, ax=ax0)
df.hist(column='CYLINDERS', bins=50, ax=ax1)
df.hist(column='FUELCONSUMPTION_CITY', bins=50, ax=ax2)
df.hist(column='FUELCONSUMPTION_HWY', bins=50, ax=ax3)
df.hist(column='FUELCONSUMPTION_COMB', bins=50, ax=ax4)
df.hist(column='FUELCONSUMPTION_COMB_MPG', bins=50, ax=ax5)
df.hist(column='CO2EMISSIONS', bins=50, ax=ax6)

ax[1,3].set_axis_off()

plt.subplots_adjust(wspace=0.2, hspace=0.4)
plt.show()

Sekarang kita tampilkan <i>scatter plot</i> untuk melihat hubungan variabel <code>ENGINESIZE</code> dan <code>CO2EMISSIONS</code>.

In [None]:
# Scatter plot untuk kolom 'ENGINESIZE' DAN 'CO2EMISSIONS'

plt.scatter(df['ENGINESIZE'], df['CO2EMISSIONS'])
plt.show()

<hr>

## Data Preparation / Preprocessing

### Membagi data train dan test

Pada tahap ini kita akan membagi dataset menjadi data <i>train</i> dan <i>test</i>.

In [None]:
np.random.seed(42)
split = np.random.rand(len(df)) < 0.75
train = df[split]
test = df[~split]

Disini kita hanya akan menggunakan satu fitur yaitu <code>ENGINESIZE</code> untuk pemodelan dengan <i>polynomial regression</i>. Sekarang mari kita definisikan <code>X_train</code>, <code>y_train</code>, <code>X_test</code>, dan <code>y_test</code>.

In [None]:
# Mendefinisikan X_train, y_train, X_test, dan y_test

X_train = np.asanyarray(train[['ENGINESIZE']])
y_train = np.asanyarray(train[['CO2EMISSIONS']])

X_test = np.asanyarray(test[['ENGINESIZE']])
y_test = np.asanyarray(test[['CO2EMISSIONS']])

<hr>

# Modeling

### Linear regression dengan bentuk polinomial

Untuk membentuk model <i>polynomial regression</i>, kita dapat menggunakan <i>package</i> <code>PolynomialFeatures</code> dari <code>sklearn.preprocessing</code>, kemudian men-<i>train</i>-nya menggunakan data <i>train</i>.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_train_poly

Selanjutnya kita aplikasikan <code>X_train_poly</code> sebagai data <i>train</i> yang akan dilatih dengan <code>LinearRegression()</code>.

In [None]:
from sklearn import linear_model

poly_model = linear_model.LinearRegression()
poly_model.fit(X_train_poly, y_train)

# Coefficient dan Intercept
print ('Coefficients: ', poly_model.coef_)
print ('Intercept: ', poly_model.intercept_)

### Visualisasi polynomial regression

Sekarang mari kita lihat visualisasinya.

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')

XX = np.arange(0.0, 10.0, 0.1)
yy = poly_model.intercept_[0]+ poly_model.coef_[0][1]*XX+ poly_model.coef_[0][2]*np.power(XX, 2)

plt.plot(XX, yy, '-r' )
plt.xlabel('Engine size')
plt.ylabel('Emission')

Terlihat bahwa garis yang terbentuk tidak lurus, melainkan agak melengkung.

### Prediksi dan Evaluasi

Mari kita uji menggunakan data uji dan mengevaluasi hasilnya dengan <code>r2_score</code>, <code>mean_absolute_error</code>, dan <code>mean_squared_error</code>.

In [None]:
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# Prediksi
X_test_poly = poly.fit_transform(X_test)
y_pred = poly_model.predict(X_test_poly)

# Evaluasi
print("R2-score: %.2f" % r2_score(y_pred, y_test))
print('Mean Absolute Error (MAE): %.2f' % mean_absolute_error(y_pred, y_test))
print('Mean Squared Error (MSE): %.2f' % mean_squared_error(y_pred, y_test))

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>