# # Regresi Linear untuk Dataset Mobil

Pada notebook kali ini, saya ingin menjelaskan terkait penggunaan regresi linear sederhana dengan Jupyter Notebook dan Python. Saya menggunakan data dari https://www.kaggle.com/nehalbirla/vehicle-dataset-from-cardekho. Pada dataset ini, akan diprediksi harga jual mobil 'selling price' dari mobil dari tahun 'year', kilometer 'kms_driven' dan harga terkini mobil 'Present_Price'

# Requirements

Akan digunakan modul numpy (untuk mengolah matriks), pandas dan matplotlib.pyplot (untuk mengolah dan visualisasi data). Digunakan juga sklearn untuk mensplit data

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split

from linearregression import * 

# Algorithm

Import file csv dari data yang akan digunakan

In [2]:
data = pd.read_csv('cardata.csv')
data

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0
1,sx4,2013,4.75,9.54,43000,Diesel,Dealer,Manual,0
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0
4,swift,2014,4.60,6.87,42450,Diesel,Dealer,Manual,0
...,...,...,...,...,...,...,...,...,...
296,city,2016,9.50,11.60,33988,Diesel,Dealer,Manual,0
297,brio,2015,4.00,5.90,60000,Petrol,Dealer,Manual,0
298,city,2009,3.35,11.00,87934,Petrol,Dealer,Manual,0
299,city,2017,11.50,12.50,9000,Diesel,Dealer,Manual,0


Mengambil data yang diperlukan dan men-split data menjadi train dan test dengan proporsi 4 : 1

In [3]:
used_data = data[['Year','Present_Price', 'Kms_Driven', 'Selling_Price']]
used_data

Unnamed: 0,Year,Present_Price,Kms_Driven,Selling_Price
0,2014,5.59,27000,3.35
1,2013,9.54,43000,4.75
2,2017,9.85,6900,7.25
3,2011,4.15,5200,2.85
4,2014,6.87,42450,4.60
...,...,...,...,...
296,2016,11.60,33988,9.50
297,2015,5.90,60000,4.00
298,2009,11.00,87934,3.35
299,2017,12.50,9000,11.50


Membagi data menjadi Train dan test dengan proporsi 80% data train dan 20% data test.

In [4]:
y = data[['Selling_Price']]
x = data[['Year','Present_Price', 'Kms_Driven']]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
y_test

Unnamed: 0,Selling_Price
193,0.20
208,7.90
81,4.75
16,7.25
53,16.00
...,...
234,5.50
68,4.35
163,0.45
56,4.50


Ubah data menjadi array untuk diolah

In [5]:
y_train_matrix = y_train.to_numpy(dtype='float')
y_test_matrix = y_test.to_numpy(dtype='float')
x_train_matrix = x_train.to_numpy(dtype='float')
x_test_matrix = x_test.to_numpy(dtype='float')

#Tambahkan 1 di ujung matriks x
x_train_matrix_new = np.insert(x_train_matrix, 0, values=1, axis=1)
x_test_matrix_new = np.insert(x_test_matrix, 0, values=1, axis=1)

y_train_matrix

array([[ 0.3 ],
       [ 6.  ],
       [ 0.6 ],
       [ 0.3 ],
       [ 4.75],
       [ 5.25],
       [ 3.25],
       [ 3.  ],
       [ 2.65],
       [18.75],
       [ 6.1 ],
       [ 0.48],
       [ 1.05],
       [ 3.  ],
       [ 6.  ],
       [ 0.15],
       [ 6.5 ],
       [ 4.8 ],
       [ 1.15],
       [ 9.25],
       [ 0.75],
       [23.5 ],
       [ 3.8 ],
       [ 1.45],
       [ 9.7 ],
       [ 0.16],
       [ 6.6 ],
       [33.  ],
       [ 0.9 ],
       [19.99],
       [ 2.25],
       [ 7.5 ],
       [ 4.5 ],
       [ 8.5 ],
       [ 0.38],
       [ 4.15],
       [ 0.6 ],
       [ 0.5 ],
       [ 4.5 ],
       [ 5.3 ],
       [ 6.15],
       [ 0.45],
       [ 0.45],
       [ 0.75],
       [ 0.65],
       [ 2.55],
       [ 4.  ],
       [ 4.  ],
       [ 2.95],
       [35.  ],
       [ 8.65],
       [ 5.25],
       [ 8.25],
       [ 0.35],
       [ 1.35],
       [ 1.05],
       [ 2.9 ],
       [ 5.95],
       [ 0.17],
       [ 4.4 ],
       [ 0.4 ],
       [ 2.85],
       [

Cari Koefiesien dari matriks tersebut

In [6]:
koef = hitungKoefisien(x_train_matrix_new, y_train_matrix)
koef

array([[-9.58604919e+02],
       [ 4.76383865e-01],
       [ 5.18072654e-01],
       [ 4.93522236e-07]])

Mulai prediksi hasilnya!

In [7]:
result=[]
for i in range(len(x_test_matrix_new)):
    result.append(prediksiY([x_test_matrix_new[i]], koef)[0][0])
    
y_test['Prediksi']= result
y_test

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  y_test['Prediksi']= result


Unnamed: 0,Selling_Price,Prediksi
193,0.20,0.704393
208,7.90,6.459421
81,4.75,5.395181
16,7.25,6.919142
53,16.00,16.280631
...,...,...
234,5.50,4.263800
68,4.35,6.564782
163,0.45,-0.567856
56,4.50,5.094962


# Apakah Analisanya Akurat?

Untuk menguji keakuratan analisa dan prediksinya, akan digunakan nilai R-Square sebagai acuan. Nilai RSquare dapat diperoleh dari menghitung SSE dan SSt. 

In [8]:
RSquare = hitungRsquare(y_test_matrix, result)
RSquare

0.8205734314903363

Pada hasil diatas, dapat dilihat bahwa nilai RSquare 0.8697409956596274, mendekati 1, maka hasil dapat dikatakan cukup akurat

# Bagaimana Visualisasi datanya?

Untuk menggambarkan data, bisa dilihat beberapa plot dibawah ini

1. Hubungan Tahun dan Harga Jual Mobil

2.Hubungan Harga Jual dan Kilometer

3. Hubungan Harga Jual dan Harga Sekarang