### Modeling Technique Selection

Một bước quan trọng trong quy trình khai phá dữ liệu, nó quyết định cách tìm ra mẫu hoặc xu hướng từ dữ liệu. Tùy thuộc vào bài toán và dữ liệu, ta sẽ chọn những thuật toán và kỹ thuật phù hợp để đạt được mục tiêu mong muốn.

#### 1. Chọn phương pháp dựa trên loại bài toán
Dựa vào mục tiêu khai phá, bài toán của chúng ta sẽ rơi vào một trong các bài toán:
1. Phân loại (Classification) - Khi cần dự đoán một nhãn thuộc loại nào
2. Hồi quy (Regression) - Khi cần dự đoán một giá trị số liên tục
3. Phân cụm (Clustering) - Khi cần nhóm các đối tượng dựa vào đặc điểm tương đồng.
4. Khai phá luật kết hợp (association rule mining) - Khi cần tìm mối quan hệ giữa các đối tượng
5. Phát hiện bất thường (Anomaly Detection) - Khi cần phát hiện các giá trị hoặc sự kiến bất thường trong dữ liệu

#### 2. Các kỹ thuật phổ biến trong khai phá dữ liệu
##### 2.1 Phân loại (Classification)
+ Mục tiêu: Dự đoán nhãn (label) của đối tượng dựa trên dữ liệu đã biết.
+ Ví dụ: Phân loại email thành "Spam" hay "Không spam", hoặc dự đoán xem khách hàng có rời bỏ dịch vụ hay không
+ Thuật toán phổ biến:
    + Decision tree: dễ hiểu và trực quan
    + Random fores: tập hợp nhiều decision tree để tăng độ chính xác
    + SVM: tìm đường biên tối ưu giữa các lớp
    + Naive Bayes: dựa trên xác suất có điều kiện và hoạt động tốt với dữ liệu văn bản

In [5]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split 
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [2]:
X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [6]:
model = RandomForestClassifier()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f"Accuracy score: {acc}")

Accuracy score: 1.0


#### 2.2 Hồi quy (Regression)
+ Mục tiêu: dự đoán giá trị số liên tục dựa trên dữ liệu đầu vào
+ Ví dụ: Dự đoán giá nhà dựa vào diện tích và vị trí.
+ Thuật toán phổ biến:
    + Linear Regression: Mô hình đơn giản và dễ triển khai
    + Ridge và Lasso Regression: Thêm hệ số điều chuẩn để tránh overfitting
    + Polynomia Regression: áp dụng cho quan hệ phi tuyến

In [7]:
from sklearn.linear_model import LinearRegression

X = [[50], [60], [80], [100], [120]]  # Diện tích (m2)
y = [150, 180, 240, 300, 350]  # Giá nhà (nghìn USD)

In [8]:
model = LinearRegression()
model.fit(X, y)

predicted_price = model.predict([[90]])
print(f"Giá nhà dự đoán: {predicted_price[0]} nghìn USD")

Giá nhà dự đoán: 267.0731707317073 nghìn USD


##### 2.3 Phân cụm (Clustering)
+ Mục tiêu: nhóm đối tượng có đặc điểm tương tự nhau
+ Ví dụ: Phân nhóm khách hàng dựa trên thói quen mua sắm
+ Thuật toán phổ biến:
    + K-means: Tạo `k` cụm với khoảng cách nhỏ nhất trong mỗi cụm
    + DBSCAB: tìm cụm dựa trên mật độ dữ liệu
    + Hierarchical Clustering: Xây dựng phân cấp cụm theo dạng cây

In [11]:
from sklearn.cluster import KMeans
import numpy as np 

In [10]:
X = np.array([[1, 2], [2, 3], [3, 3], [8, 8], [8, 9], [9, 8]])

kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X)

print(f"Nhãn cụm: {kmeans.labels_}")

Nhãn cụm: [0 0 0 1 1 1]




##### 2.4 Khai phá luật kết hợp (Association Rule Mining)
+ **Mục tiêu**: Tìm ra các quy tắc liên kết giữa các mục trong dữ liệu
+ **Ví dụ**: Tìm ra rằng nếu khách hàng mua sữa thì có khả năng cao mua bánh mì.
+ **Thuật toán phổ biến**:
    + Apriori: Xây dựng luật kết hợp từ các tập mục phổ biến
    + FP-Growth: Nhanh hơn Apriori khi dữ liệu lớn

##### 2.5 Phát hiện bất thường
+ Mục tiêu: Phát hiện các sự kiện hoặc điểm dữ liệu bất thường
+ Ví dụ: Phát hiện gian lận trong giao dịch thẻ tín dụng
+ Thuật toán phổ biến:
    + Isolation Forest: Phát hiện bất thường dựa trên phân lập dữ liệu
    + One-class SVM: Phát hiện bất thường trong không gian dữ liệu cao
    + LOF (Local Outlier Factor): Tìm bất thường dựa trên mật độ cục bộ

#### 3. Lựa chọn thuật toán phù hợp
Khi chọn phương pháp khai phá, bạn cần xem xét:
+ Loại dữ liệu: dữ liệu là số, văn bản hay danh mục?
+ Kích thước dữ liệu: dữ liệu lớn cần các thuật toán nhanh và tối ưu
+ Mục tiêu bài toán: bạn muốn dự đoán, phân loại hay phát hiện bất thường?
+ Độ phức tạp: Một số thuật toán dễ hiểu và triển khai hơn các thuật toán khác

#### 4. Thực hành và tối ưu hóa mô hình
+ Đánh giá mô hình: sử dụng các chỉ số như độ chính xác F1-score, RMSE để đánh giá
+ Tối ưu hóa siêu tham số: thử nghiệm với nhiều tham số khác nhau để tìm ra mô hình tốt nhất.