Scikit-learning (Sklearn) là thư viện hữu ích và mạnh mẽ nhất để Machine Learning (học máy) bằng Python. Nó cung cấp một loạt các công cụ hiệu quả để học máy và mô hình thống kê bao gồm phân loại (classification), hồi quy (regression), phân cụm (clustering) và giảm kích thước (dimensionality reduction) thông qua giao diện nhất quán trong Python. Thư viện này, phần lớn được viết bằng Python, được xây dựng dựa trên NumPy, SciPy và Matplotlib.

Điều kiện tiên quyết trước khi bắt đầu sử dụng bản phát hành mới nhất của scikit-learning:

1) Python (> = 3.5)

2) NumPy (> = 1.11.0)

3) Scipy (> = 0,17,0) li

4) Joblib (> = 0,11)

5) Matplotlib (> = 1.5.1) là bắt buộc đối với khả năng vẽ sơ đồ của Sklearn.

6) Pandas (> = 0.18.0) là bắt buộc đối với một số ví dụ scikit-learning sử dụng cấu trúc và phân tích dữ liệu.

**Cài đặt**
Nếu bạn đã cài đặt NumPy và Scipy, sau đây là hai cách dễ nhất để cài đặt scikit-learning:

Sử dụng pip

pip install -U scikit-learning


Sử dụng conda

conda cài đặt scikit-learning

# Dataset Loading

Scikit-learning có một số bộ dữ liệu ví dụ như **iris** và **digits for classification** và **the Boston house prices** để khảo sát các phương pháp hồi quy.

**Ví dụ:**
Dưới đây là ví dụ tải dữ liệu iris:

In [1]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names
print("Feature names:", feature_names)
print("Target names:", target_names)
print("\nFirst 10 rows of X:\n", X[:10])

Feature names: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Target names: ['setosa' 'versicolor' 'virginica']

First 10 rows of X:
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]


**Tách tập dữ liệu**

Để kiểm tra tính chính xác của mô hình (model), chúng ta có thể tách tập dữ liệu thành hai phần riêng biệt dành cho huấn luyện (tranning set) và thử (testing test). Sử dụng tập huấn luyện để huấn luyện (train) mô hình và tập thử dùng để thử lại tính chính xác của mô hình. Sau đây chúng ta có thể tính toán mô hình đã dùng chính xác như thế nào.

**Ví dụ**

Ví dụ sau sẽ chia dữ liệu thành tỷ lệ 70:30, tức là 70% dữ liệu sẽ được sử dụng làm dữ liệu đào tạo và 30% sẽ được sử dụng làm dữ liệu thử nghiệm. Tập dữ liệu là tập dữ liệu **iris** như trong ví dụ trên.

In [3]:
from sklearn.datasets import load_iris
iris = load_iris()

X = iris.data
y = iris.target

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
   X, y, test_size = 0.3, random_state = 1
)

print(X_train.shape)
print(X_test.shape)

print(y_train.shape)
print(y_test.shape)

(105, 4)
(45, 4)
(105,)
(45,)


Như đã thấy trong ví dụ trên, nó sử dụng hàm train_test_split() của scikit-learning để chia nhỏ tập dữ liệu. Hàm này có các đối số sau:

**X, y** - Ở đây, X là ma trận đặc trưng (feature matrix) và y là vectơ phản hồi (response vector) cần được tách ra.

**test_size** - Điều này đại diện cho tỷ lệ của dữ liệu thử nghiệm trên tổng số dữ liệu đã cho. Như trong ví dụ trên, chúng ta đang đặt test_data = 0,3 cho 150 hàng X. Nó sẽ tạo ra dữ liệu thử nghiệm là 150 * 0,3 = 45 hàng.

**random_size** - Nó được sử dụng để đảm bảo rằng sự phân chia sẽ luôn giống nhau. Điều này rất hữu ích trong những trường hợp bạn muốn có kết quả có thể lặp lại.

# Train the Model

Tiếp theo, chúng ta có thể sử dụng tập dữ liệu của mình để đào tạo một số mô hình dự đoán. Như đã thảo luận, scikit-learning có nhiều thuật toán Máy học (Machine Learning - ML) có giao diện nhất quán (consistent interface) để điều chỉnh, dự đoán độ chính xác (predicting accuracy), v.v.

**Ví dụ**

Trong ví dụ dưới đây, chúng ta sẽ sử dụng bộ phân loại KNN (K nearest neighbors). Đừng đi vào chi tiết của các thuật toán KNN. Ví dụ này được sử dụng để giúp bạn chỉ hiểu phần triển khai.

In [5]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
   X, y, test_size = 0.4, random_state=1
)
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
classifier_knn = KNeighborsClassifier(n_neighbors = 3)
classifier_knn.fit(X_train, y_train)
y_pred = classifier_knn.predict(X_test)
# Finding accuracy by comparing actual response values(y_test)with predicted response value(y_pred)
print("Accuracy:", metrics.accuracy_score(y_test, y_pred))
# Providing sample data and the model will make prediction out of that data

sample = [[5, 5, 3, 2], [2, 4, 3, 5]]
preds = classifier_knn.predict(sample)
pred_species = [iris.target_names[p] for p in preds] 
print("Predictions:", pred_species)

Accuracy: 0.9833333333333333
Predictions: ['versicolor', 'virginica']


# Scikit Learn - Introduction

Phần còn lại, các bạn sinh viên tự thực hành thông qua link dưới đây.

https://www.tutorialspoint.com/scikit_learn/scikit_learn_quick_guide.htm