# Machine Learning
## Historical Data
- Prediction: Dự báo (Output đầu ra là định lượng)
- Classification: Phân lớp (Output đầu ra là định tính)
- Clustering: Gom cụm (Có Input nhưng không có Output sẵn)
- Association: Luật kết hợp (Có Input nhưng không có Output sẵn)

## Learning
- Học có giám sát: Supervised: Bài toán cần xây dựng mô hình mà trong đó dữ liệu lịch sử đã chứa sẵn Input và Output
- Học không giám sát: Unsupervised: Bài toán mà ở đó có dữ liệu Input nhưng không có dữ liệu Output sẵn
- Học bán giám sát: semi-supervised: Khi dữ liệu lịch sử có sẵn Input nhưng phần Output lại chưa rõ ràng hoặc không đầy đủ và cần phải được điều chế để có thể áp dụng mô hình giám sát

# Machine Learning PipeLine
- Problem -> Data Preparation | -> Input(v) -> Model(f) -> Output(v)
### Tách Input:
- Training (80% data) -> Model
- Testing (20% data)
- Validation (Training & Testing) (Yes => continue | No => Back Input) -> Deployment

In [3]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('dulieuxettuyendaihoc.csv', header=0, delimiter=',', encoding='utf-8')
# Đổi tên cột
df.rename(columns={'TOANLOGICPHANTICH': 'LOGIC', 'GIAIQUYETVANDE': 'UNGXU'}, inplace=True)
df = df[['T5', 'T6', 'NGONNGU']]
df.head(5)

Unnamed: 0,T5,T6,NGONNGU
0,7.4,6.9,3.25
1,3.0,4.0,6.0
2,4.8,5.7,5.0
3,6.1,7.4,4.25
4,6.8,8.0,4.25


In [4]:
# Dẫn nhập hồi quy tuyến tính
# Ứng dụng trong bài toán Prediction

# Bài toán 1: Hãy dự báo điểm T6 dựa trên T5
# Input: T5
# Output: T6
# Model là Hồi quy tuyến tính: T6 = A0 + A1*T5 + espilon
# Dùng học máy (Machine Learning) để đi tìm A0 và A1 dựa trên dữ liệu lịch sử (Historical Data)
df[['T5', 'T6']].corr() # Xác định tưởng quan cũng chúng -> Nhận thấy tương quan tốt
# plt.plot(df['T5'], df['T6'], 'ro')


Unnamed: 0,T5,T6
T5,1.0,0.778683
T6,0.778683,1.0


In [8]:
# Tập dữ liệu
x = df['T5'].values #input
y = df['T6'].values #output
# Chia tách ra training(huấn luyện) và testing(kiểm thử)
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=16) 

# Xây dựng mô hình hồi quy tuyến tính đơn biến: T6 = f(T5)
# T6 = A0 + A1*T5 + espilon
from sklearn import linear_model
model = linear_model.LinearRegression()
model.fit(x_train.reshape(-1,1), y_train.reshape(-1,1))
# Sinh viên xác định các giá trị này tương ứng với gì
# To retrieve the intercept:
print(model.intercept_) # A0

# For retrieving the slope (coefficient of x):
print(model.coef_) # A1

# -> T6 = 2.15 + 0.71 * T5

[2.15188873]
[[0.71126425]]


In [9]:
# Residual: là độ lệch giữa giá trị dự báo(Predicted value) và giá trị thực tế(Actual Value)
# Độ lệch = Actual Value - Predicted Value
# Hướng dẫn vẽ biểu đồ Residual bằng Excel
pd.DataFrame(x_test).to_csv("input_test.csv")
pd.DataFrame(y_test).to_csv("output_test.csv")

In [None]:
import numpy as np
form sklearn import metrics
y_test_pred = model.predict(x_test.reshape(-1,1))
print('Score or R-Squared', model.score(x_test, y_test))
print('Mean Absolute Error: ', metrics.mean_absolute_error(y_test, y_test_pred))
print('Mean squared Error: ', metrics.mean_square_error)

In [None]:
# Lưu trữ mô hình đã huấn luyện xuống ổ đĩa
'''

'''