# SVM với scikit-learn

Mục tiêu của notebook này là xây dựng mô hình SVM sử dụng thư viện scikit-learn để dự đoán cảm xúc từ các bài bình luận sản phẩm. Chúng ta sẽ thực hiện:

 * Load tập dữ liệu các bài bình luận như notebook trước.
 * Triển khai mô hình SVM sử dụng scikit-learn.
 * Điều chỉnh một vài tham số.

In [None]:
# Import một số thư viện

import pandas
import numpy as np
from utils import get_product_reviews_data

## Load tập dữ liệu product reviews
Như mô-đun trước, chúng ta sẽ load, tiền xử lý dữ liệu, chuyển đổi và chia chúng thành các tập huấn luyện và kiểm tra. Trong notebook này, chúng ta không tập trung vào điều đó nên chỉ cần chạy các cell sau. Có thể kiểm tra code dữ liệu bên trong folder **utils**.

In [None]:
train_set, val_set = get_product_reviews_data()

sentiment_X_train, sentiment_y_train = train_set
sentiment_X_valid, sentiment_y_valid = val_set

# Xây dựng phân loại với scikit-learn
Giờ hãy sử dụng SVM có sẵn của sklearn: [sklearn.svm.LinearSVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html). Hãy xem thêm tài liệu của sklearn biết thêm chi tiết về lớp LinearSVC. LinearSVC classifier tương đương với SVM có linear kernel nên chúng ta có thể dùng nó vì tập dữ liệu khá lớn. 

In [None]:
from sklearn.svm import LinearSVC
sentiment_clf = LinearSVC(C=1, random_state=0, max_iter=2000)
sentiment_clf.fit(sentiment_X_train, sentiment_y_train)

print ("***Sentiment result***")
print("Train accuracy: {}".format(sentiment_clf.score(sentiment_X_train, sentiment_y_train)))
print("Validation accuracy: {}".format(sentiment_clf.score(sentiment_X_valid, sentiment_y_valid)))

# Điều chỉnh siêu tham số 
Hãy thử điều chỉnh một vài siêu tham số để xem liệu có được kết quả tốt hơn không. Hãy dùng [sklearn.model_selection.GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) để điều chỉnh các tham số C trong SVM classifer.

In [None]:
from sklearn.model_selection import GridSearchCV

tuned_parameters = {
    "C": [1, 2, 5, 10, 20, 100]
}

tuned_sentiment_cls = GridSearchCV(
                        LinearSVC(C=1),
                        param_grid=tuned_parameters,
                        n_jobs=2,
                        verbose=1,
)

tuned_sentiment_cls.fit(sentiment_X_train, sentiment_y_train)

print ("***Sentiment result***")
print("Train accuracy: {}".format(tuned_sentiment_cls.score(sentiment_X_train, sentiment_y_train)))
print("Validation accuracy: {}".format(tuned_sentiment_cls.score(sentiment_X_valid, sentiment_y_valid)))

Như vậy chúng ta có được kết quả tốt hơn một chút. 
<br>
**Quiz**: Validation accuracy là bao nhiêu?
<br>
**Đáp án**: