In [20]:
import numpy as np
import pandas as pd
from sklearn import linear_model


def read_data(csv_file):
    csv_df = pd.read_csv(csv_file)
    return csv_df


def split_data(csv_df):
    input = csv_df.iloc[:,3:5]
    output = csv_df.iloc[:,-2]
    x = input.values
    y = output.values.reshape((-1, 1))
    return x, y


def find_optimize(input, outcome):
    """
    input.T: chuyển vị của ma trận input
    np.dot(a,b) : nhân từng phần tử của ma trận a với ma trận b
    np.linalg.pinv(x): tìm giả ngịch đảo/ ngịch đảo của ma trận x
    """
    w = np.dot(np.linalg.pinv(np.dot(input.T, input)), np.dot(input.T, outcome))
    return w


def optimize_with_sklearn(input, outcome):
    regr = linear_model.LinearRegression(fit_intercept=False)  # fit_intercept = False for calculating the bias
    regr.fit(input, outcome)
    return regr.coef_


def get_loss_value(input, outcome, w):
    cost = 0
    y_hat = np.dot(input, w)
    for x, y in zip(outcome, y_hat):
        print('Outcome:', x[0], 'Predict:', y[0])
        cost += pow(x[0] - y[0], 2)
    return cost / 2


def predict_new_data(input, w):
    # convert to input_bar
    one = np.ones((input.shape[0], 1))
    input = np.concatenate((one, input), axis=1)
    return np.dot(input, w)


if __name__ == '__main__':
    df = read_data('oldcar.csv')
    print(df)
    input, outcome = split_data(df)
    # chuyển ma trận input sang ma trận input bar
    # bằng cách thêm vector cột giá trị 1 vào trước ma trận
    one = np.ones((input.shape[0], 1))
    input = np.concatenate((one, input), axis=1)
    w1 = find_optimize(input, outcome) # w1 là giá trị tự tìm
    w2 = optimize_with_sklearn(input, outcome) # w2 là giá trị sử dụng thư viện sklearn
    # In 2 giá trị để đối chiếu
    print(w1.T)
    print(w2)
    print('Loss value:', get_loss_value(input, outcome, w1))
    print('Predict new label:', predict_new_data(np.array([[4,70000]]), w1))

     STT range of vehicle  year of manufacture  old      KM  km( thousand)  \
0      1           Navara                 2015    5   63000         6.3000   
1      2           Navara                 2016    4   19253         1.9253   
2      3           Navara                 2012    8  150000        15.0000   
3      4           Navara                 2017    3   45000         4.5000   
4      5           Navara                 2016    4   40000         4.0000   
..   ...              ...                  ...  ...     ...            ...   
96    97           Navara                 2016    4   46000         4.6000   
97    98           Navara                 2014    6   60000         6.0000   
98    99           Navara                 2016    4   30000         3.0000   
99   100           Navara                 2016    4   70000         7.0000   
100  101           Navara                 2017    3   28000         2.8000   

     price  price(million)  
0      568            5.68  
1    

In [None]:
input = csv_df.iloc[:,3:5]
output = csv_df.iloc[:,-2]