<a href="https://colab.research.google.com/github/NguyenSang2003/Machine-Learning/blob/main/Lab_7_21130512_NguyenVanSang.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# This lab deals with **GridSearchCV** for tuning the hyper-parameters of an estimator and applying vectorization techniques to the **movie reviews dataset** for classification task.

*   **Deadline: 23:59, 22/4/2024 (lớp TH thứ 3) || 29/4/2024 (lớp TH thứ 5)**



# Import libraries

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression,LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.naive_bayes import GaussianNB
from sklearn import svm
from sklearn.svm import SVC
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import GridSearchCV
from prettytable import PrettyTable

In [None]:
# n_estimators: số cây quyết định
# max_features: số thuộc tính tối đa

# criterien: tiêu chí chọn nút gốc

#Task 1. With **iris** dataset
*  1.1. Apply **GridSearchCV** for **SVM** to find the best hyperparameters using the following param_grid.

```
param_grid = {'C': [0.1, 1, 10, 100, 1000],
              'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
              'kernel': ['rbf','linear']}
```




In [None]:
# Load dataset
iris = datasets.load_iris()
X = iris.data
y = iris.target

In [None]:
# Định nghĩa lưới tham số
param_grid = {'C': [0.1, 1, 10, 100, 1000],
              'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
              'kernel': ['rbf', 'linear']}

# Tạo mô hình SVM
svm_model = SVC()

# Khởi tạo GridSearchCV
grid_search = GridSearchCV(estimator=svm_model, param_grid=param_grid, cv=5)

# Huấn luyện GridSearchCV trên dữ liệu
grid_search.fit(X, y)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất:", grid_search.best_params_)
print("Điểm số tốt nhất:", grid_search.best_score_)

Hyperparameters tốt nhất: {'C': 1, 'gamma': 1, 'kernel': 'linear'}
Điểm số tốt nhất: 0.9800000000000001


*  1.2. Apply **GridSearchCV** for **kNN** to find the best hyperparameters using the following param_grid.

```
grid_params = { 'n_neighbors' : [5,7,9,11,13,15],
               'weights' : ['uniform','distance'],
               'metric' : ['minkowski','euclidean','manhattan']}
```
where

    *  **n_neighbors**: Decide the best k based on the values we have computed earlier.
    *  **weights**: Check whether adding weights to the data points is beneficial to the model or not. 'uniform' assigns no weight, while 'distance' weighs points by the inverse of their distances meaning nearer points will have more weight than the farther points.
    *  **metric**: The distance metric to be used will calculating the similarity.


In [None]:
# Tạo mô hình kNN
knn_model = KNeighborsClassifier()

# Định nghĩa lưới tham số
grid_params = {'n_neighbors': [5, 7, 9, 11, 13, 15],  # Số lượng láng giềng
               'weights': ['uniform', 'distance'],  # Cách tính trọng số
               'metric': ['minkowski', 'euclidean', 'manhattan']}  # Phương pháp đo khoảng cách

# Khởi tạo GridSearchCV
grid_search_knn = GridSearchCV(estimator=knn_model, param_grid=grid_params, cv=5)

# Huấn luyện GridSearchCV trên dữ liệu
grid_search_knn.fit(X, y)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Các tham số tốt nhất cho kNN:", grid_search_knn.best_params_)
print("Điểm số tốt nhất:", grid_search_knn.best_score_)

Các tham số tốt nhất cho kNN: {'metric': 'minkowski', 'n_neighbors': 11, 'weights': 'distance'}
Điểm số tốt nhất: 0.9866666666666667


*  1.3. Apply **GridSearchCV** for **Random Forest** to find the best hyperparameters using the following param_grid.

```
param_grid = {
    'n_estimators': [25, 50, 100, 150],
    'max_features': ['sqrt', 'log2', None],
    'max_depth': [3, 6, 9],
    'max_leaf_nodes': [3, 6, 9],
}
```

In [None]:
# Định nghĩa lưới tham số cho Random Forest
param_grid_rf = {
    'n_estimators': [25, 50, 100, 150],  # Số lượng cây quyết định trong ensemble
    'max_features': ['sqrt', 'log2', None],  # Số lượng tính năng được sử dụng khi tạo ra các cây quyết định
    'max_depth': [3, 6, 9],  # Độ sâu tối đa của các cây quyết định
    'max_leaf_nodes': [3, 6, 9],  # Số lượng nút lá tối đa mà mỗi cây quyết định được phép có
}

# Tạo mô hình Random Forest
rf_model = RandomForestClassifier()

# Khởi tạo GridSearchCV cho Random Forest với các tham số đã định nghĩa
grid_search_rf = GridSearchCV(estimator=rf_model, param_grid=param_grid_rf, cv=5)

# Huấn luyện GridSearchCV trên dữ liệu
grid_search_rf.fit(X, y)

# In ra các siêu tham số tốt nhất và điểm số tốt nhất
print("Các tham số tốt nhất cho Random Forest:", grid_search_rf.best_params_)
print("Điểm số tốt nhất cho Random Forest:", grid_search_rf.best_score_)

Các tham số tốt nhất cho Random Forest: {'max_depth': 3, 'max_features': 'sqrt', 'max_leaf_nodes': 6, 'n_estimators': 25}
Điểm số tốt nhất cho Random Forest: 0.9666666666666668


*   1.4 Compare the best obtained results from 1.1 to 1.3 (use PrettyTable to dispaly the results)

In [None]:
# Khởi tạo bảng
table = PrettyTable()

# Đặt tên các cột
table.field_names = ["Task", "Model", "Best Parameters", "Best Score"]

# Thêm thông tin cho Task 1.1 - GridSearchCV for SVM
table.add_row(["1.1", "SVM", grid_search.best_params_, grid_search.best_score_])

# Thêm thông tin cho Task 1.2 - GridSearchCV for kNN
table.add_row(["1.2", "kNN", grid_search_knn.best_params_, grid_search_knn.best_score_])

# Thêm thông tin cho Task 1.3 - GridSearchCV for Random Forest
table.add_row(["1.3", "Random Forest", grid_search_rf.best_params_, grid_search_rf.best_score_])

# In ra bảng
print(table)

+------+---------------+-----------------------------------------------------------------------------------+--------------------+
| Task |     Model     |                                  Best Parameters                                  |     Best Score     |
+------+---------------+-----------------------------------------------------------------------------------+--------------------+
| 1.1  |      SVM      |                      {'C': 1, 'gamma': 1, 'kernel': 'linear'}                     | 0.9800000000000001 |
| 1.2  |      kNN      |         {'metric': 'minkowski', 'n_neighbors': 11, 'weights': 'distance'}         | 0.9866666666666667 |
| 1.3  | Random Forest | {'max_depth': 3, 'max_features': 'sqrt', 'max_leaf_nodes': 9, 'n_estimators': 25} | 0.9666666666666668 |
+------+---------------+-----------------------------------------------------------------------------------+--------------------+


#Task 2.
For breast cancer dataset (https://tinyurl.com/3vme8hr3) which could be loaded from datasets in sklearn as follows:

```
#Import scikit-learn dataset library
from sklearn import datasets

#Load dataset
cancer = datasets.load_breast_cancer()
```

*   Apply **GridSearchCV** to different classification algorithms such as **SVM, kNN, LogisticRegression, RandomForest**.
*   Compare the results obtained by the best hyperparameters among classification algorithms.

In [2]:
# Import scikit-learn dataset library
from sklearn import datasets

# Load dataset
cancer = datasets.load_breast_cancer()

X = cancer.data
y = cancer.target

*   2.1. Apply **GridSearchCV** to **SVM**


In [None]:
# Định nghĩa lưới tham số
# param_grid = {'C': [0.1, 1, 10, 100, 1000],
#               'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
#               'kernel': ['rbf', 'linear','poly'],
#               'degree': [2,3]}

#  giảm lưới tham số cho mô hình SVM
param_grid = {'C': [0.1, 1, 10],
              'gamma': [1, 0.1, 0.01],
              'kernel': ['rbf', 'linear'],
              'degree': [2,3]}

# Tạo mô hình SVM
svm_model = SVC()

# Khởi tạo GridSearchCV
grid_search = GridSearchCV(estimator=svm_model, param_grid=param_grid, cv=3)

# Huấn luyện GridSearchCV trên dữ liệu
grid_search.fit(X, y)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất:", grid_search.best_params_)
print("Điểm số tốt nhất:", grid_search.best_score_)

Hyperparameters tốt nhất: {'C': 10, 'degree': 2, 'gamma': 1, 'kernel': 'linear'}
Điểm số tốt nhất: 0.9543024227234754


*   2.2. Apply **GridSearchCV** to **kNN**

In [None]:
# Định nghĩa lưới tham số cho kNN
param_grid_knn = {'n_neighbors': [5, 7, 9, 11, 13, 15],
                  'weights': ['uniform', 'distance'],
                  'metric': ['minkowski', 'euclidean', 'manhattan']}

# Tạo mô hình kNN
knn_model = KNeighborsClassifier()

# Khởi tạo GridSearchCV cho kNN với các tham số đã định nghĩa
grid_search_knn = GridSearchCV(estimator=knn_model, param_grid=param_grid_knn, cv=3)

# Huấn luyện GridSearchCV trên dữ liệu
grid_search_knn.fit(X, y)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất cho kNN:", grid_search_knn.best_params_)
print("Điểm số tốt nhất cho kNN:", grid_search_knn.best_score_)

Hyperparameters tốt nhất cho kNN: {'metric': 'minkowski', 'n_neighbors': 11, 'weights': 'uniform'}
Điểm số tốt nhất cho kNN: 0.931486122714193


*   2.3. Apply **GridSearchCV** to **LogisticRegression**

In [None]:
# Scale dữ liệu
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Định nghĩa lưới tham số cho Logistic Regression
param_grid_lr = {'C': [0.1, 1, 10, 100, 1000],
                 'penalty': ['l2']}

# Tạo mô hình Logistic Regression
lr_model = LogisticRegression(max_iter=1000)  # Tăng số lần lặp tối đa

# Khởi tạo GridSearchCV cho Logistic Regression với các tham số đã định nghĩa
grid_search_lr = GridSearchCV(estimator=lr_model, param_grid=param_grid_lr, cv=3)

# Huấn luyện GridSearchCV trên dữ liệu đã được tỷ lệ
grid_search_lr.fit(X_scaled, y)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất cho Logistic Regression:", grid_search_lr.best_params_)
print("Điểm số tốt nhất cho Logistic Regression:", grid_search_lr.best_score_)

Hyperparameters tốt nhất cho Logistic Regression: {'C': 1, 'penalty': 'l2'}
Điểm số tốt nhất cho Logistic Regression: 0.975392184164114


*   2.4. Apply **GridSearchCV** to **RandomForest**

In [None]:
# Định nghĩa lưới tham số cho RandomForest
param_grid_rf = {
    'n_estimators': [25, 50, 100, 150],
    'max_features': ['sqrt', 'log2', None],
    'max_depth': [3, 6, 9],
    'max_leaf_nodes': [3, 6, 9],
}

# Tạo mô hình RandomForest
rf_model = RandomForestClassifier()

# Khởi tạo GridSearchCV cho RandomForest với các tham số đã định nghĩa
grid_search_rf = GridSearchCV(estimator=rf_model, param_grid=param_grid_rf, cv=3)

# Huấn luyện GridSearchCV trên dữ liệu
grid_search_rf.fit(X, y)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất cho RandomForest:", grid_search_rf.best_params_)
print("Điểm số tốt nhất cho RandomForest:", grid_search_rf.best_score_)

Hyperparameters tốt nhất cho RandomForest: {'max_depth': 9, 'max_features': 'log2', 'max_leaf_nodes': 9, 'n_estimators': 25}
Điểm số tốt nhất cho RandomForest: 0.9613570964448157


*   2.5. Compare the best obtained results among classification algorithms (use PrettyTable to dispaly the results)

In [None]:
# Tạo bảng
table = PrettyTable()

# Thêm cột
table.field_names = ["Thuật toán", "Điểm số tốt nhất"]

# Thêm dữ liệu
table.add_row(["SVM", grid_search.best_score_])
table.add_row(["kNN", grid_search_knn.best_score_])
table.add_row(["Logistic Regression", grid_search_lr.best_score_])
table.add_row(["Random Forest", grid_search_rf.best_score_])

# In ra bảng
print(table)

+---------------------+--------------------+
|      Thuật toán     |  Điểm số tốt nhất  |
+---------------------+--------------------+
|         SVM         | 0.9543024227234754 |
|         kNN         | 0.931486122714193  |
| Logistic Regression | 0.975392184164114  |
|    Random Forest    | 0.9613570964448157 |
+---------------------+--------------------+


#Task 3. With **mobile price classification** dataset
* 3.1.  Apply **GridSearchCV** for **SVM, kNN, RandomForest** algorithms to find the best hyperparameters for each classification algorithm.
* 3.2. Compare the best obtained results among classification algorithms (use PrettyTable to dispaly the results)

In [3]:
from google.colab import drive
drive.mount('/content/gdrive')
%cd '/content/gdrive/MyDrive/Data_Labs_ML/Lab6'

Mounted at /content/gdrive
/content/gdrive/MyDrive/Data_Labs_ML/Lab6


In [4]:
# Đọc dữ liệu từ cả hai tệp CSV
data = pd.read_csv("mobile.csv")

# Chia dữ liệu thành features (X) và labels (y)
X = data.drop('price_range', axis=1)
y = data['price_range']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

data.tail()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
1995,794,1,0.5,1,0,1,2,0.8,106,6,...,1222,1890,668,13,4,19,1,1,0,0
1996,1965,1,2.6,1,0,0,39,0.2,187,4,...,915,1965,2032,11,10,16,1,1,1,2
1997,1911,0,0.9,1,1,1,36,0.7,108,8,...,868,1632,3057,9,1,5,1,1,0,3
1998,1512,0,0.9,0,4,1,46,0.1,145,5,...,336,670,869,18,10,19,1,1,1,0
1999,510,1,2.0,1,5,1,45,0.9,168,6,...,483,754,3919,19,4,2,1,1,1,3


In [None]:
# 3.1
# Định nghĩa lưới tham số cho SVM
param_grid_svm = {'C': [0.1, 1, 10, 100, 1000],
                  'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
                  'kernel': ['rbf', 'linear', 'poly'],
                  'degree': [2, 3]}

# Định nghĩa lưới tham số cho kNN
param_grid_knn = {'n_neighbors': [5, 7, 9, 11, 13, 15],
                  'weights': ['uniform', 'distance'],
                  'metric': ['minkowski', 'euclidean', 'manhattan']}

# Định nghĩa lưới tham số cho RandomForest
param_grid_rf = {
    'n_estimators': [25, 50, 100, 150],
    'max_features': ['sqrt', 'log2', None],
    'max_depth': [3, 6, 9],
    'max_leaf_nodes': [3, 6, 9],
}

# Tạo mô hình và khởi tạo GridSearchCV cho SVM, kNN và RandomForest
svm_model = SVC()
knn_model = KNeighborsClassifier()
rf_model = RandomForestClassifier()

grid_search_svm = GridSearchCV(estimator=svm_model, param_grid=param_grid_svm, cv=3)
grid_search_knn = GridSearchCV(estimator=knn_model, param_grid=param_grid_knn, cv=3)
grid_search_rf = GridSearchCV(estimator=rf_model, param_grid=param_grid_rf, cv=3)

# Huấn luyện GridSearchCV trên tập huấn luyện
grid_search_svm.fit(X_train, y_train)
grid_search_knn.fit(X_train, y_train)
grid_search_rf.fit(X_train, y_train)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("SVM - Hyperparameters tốt nhất:", grid_search_svm.best_params_)
print("SVM - Điểm số tốt nhất:", grid_search_svm.best_score_)

print("\nkNN - Hyperparameters tốt nhất:", grid_search_knn.best_params_)
print("kNN - Điểm số tốt nhất:", grid_search_knn.best_score_)

print("\nRandom Forest - Hyperparameters tốt nhất:", grid_search_rf.best_params_)
print("Random Forest - Điểm số tốt nhất:", grid_search_rf.best_score_)


SVM - Hyperparameters tốt nhất: {'C': 0.1, 'degree': 2, 'gamma': 1, 'kernel': 'linear'}
SVM - Điểm số tốt nhất: 0.9674972419559978

kNN - Hyperparameters tốt nhất: {'metric': 'manhattan', 'n_neighbors': 13, 'weights': 'distance'}
kNN - Điểm số tốt nhất: 0.9306237746906424

Random Forest - Hyperparameters tốt nhất: {'max_depth': 9, 'max_features': 'log2', 'max_leaf_nodes': 9, 'n_estimators': 150}
Random Forest - Điểm số tốt nhất: 0.8281112024603393


In [None]:
# 3.2
# Tạo bảng
table = PrettyTable()

# Thêm cột
table.field_names = ["Thuật toán", "Điểm số tốt nhất"]

# Thêm dữ liệu
table.add_row(["SVM", grid_search_svm.best_score_])
table.add_row(["kNN", grid_search_knn.best_score_])
table.add_row(["Random Forest", grid_search_rf.best_score_])

# In ra bảng
print(table)

+---------------+--------------------+
|   Thuật toán  |  Điểm số tốt nhất  |
+---------------+--------------------+
|      SVM      | 0.9674972419559978 |
|      kNN      | 0.9306237746906424 |
| Random Forest | 0.8281112024603393 |
+---------------+--------------------+


#Task 4.
The dataset consists of **2000 user-created movie reviews** archived on the IMDb(Internet Movie Database). The reviews are equally partitioned into a positive set and a negative set (1000+1000). Each review consists of a plain text file (.txt) and a class label representing the overall user opinion.
The class attribute has only two values: **pos** (positive) or **neg** (negative).


*   4.1 Importing additional libraries

In [5]:
import nltk, random
nltk.download('movie_reviews')#download movie reviews dataset
from nltk.corpus import movie_reviews
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import cross_val_score
from collections import Counter
from sklearn.model_selection import train_test_split

[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.


*   4.2. Movie reviews information

In [6]:
#code
print(len(movie_reviews.fileids()))
print(movie_reviews.categories())
print(movie_reviews.words()[:100])
print(movie_reviews.fileids()[:10])

2000
['neg', 'pos']
['plot', ':', 'two', 'teen', 'couples', 'go', 'to', ...]
['neg/cv000_29416.txt', 'neg/cv001_19502.txt', 'neg/cv002_17424.txt', 'neg/cv003_12683.txt', 'neg/cv004_12641.txt', 'neg/cv005_29357.txt', 'neg/cv006_17022.txt', 'neg/cv007_4992.txt', 'neg/cv008_29326.txt', 'neg/cv009_29417.txt']


*   4.3. Create dataset from movie reviews

In [7]:
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]
random.seed(123)
random.shuffle(documents)

In [8]:
print('Number of Reviews/Documents: {}'.format(len(documents)))
print('Corpus Size (words): {}'.format(np.sum([len(d) for (d,l) in documents])))
print('Sample Text of Doc 1:')
print('-'*30)
print(' '.join(documents[0][0][:50])) # first 50 words of the first document

Number of Reviews/Documents: 2000
Corpus Size (words): 1583820
Sample Text of Doc 1:
------------------------------
most movies seem to release a third movie just so it can be called a trilogy . rocky iii seems to kind of fit in that category , but manages to be slightly unique . the rocky formula of " rocky loses fight / rocky trains / rocky wins fight


In [9]:
sentiment_distr = Counter([label for (words, label) in documents])
print(sentiment_distr)

Counter({'pos': 1000, 'neg': 1000})


*   4.4. Train test split

In [10]:
train, test = train_test_split(documents, test_size = 0.33, random_state=42)

In [11]:
## Sentiment Distrubtion for Train and Test
print(Counter([label for (words, label) in train]))
print(Counter([label for (words, label) in test]))

Counter({'neg': 674, 'pos': 666})
Counter({'pos': 334, 'neg': 326})


In [12]:
X_train = [' '.join(words) for (words, label) in train]
X_test = [' '.join(words) for (words, label) in test]
y_train = [label for (words, label) in train]
y_test = [label for (words, label) in test]

*   4.5. Text Vectorization

In [13]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

tfidf_vec = TfidfVectorizer(min_df = 10, token_pattern = r'[a-zA-Z]+')
X_train_bow = tfidf_vec.fit_transform(X_train) # fit train
X_test_bow = tfidf_vec.transform(X_test) # transform test

*   4.6. Apply **SVM** with **GridSearchCV**

In [14]:
# Định nghĩa lưới tham số
param_grid_svm = {'C': [0.1, 1, 10, 100, 1000],
                  'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
                  'kernel': ['rbf', 'linear', 'poly'],
                  'degree': [2, 3]}

# Tạo mô hình SVM
svm_model = SVC()

# Khởi tạo GridSearchCV
grid_search_svm = GridSearchCV(estimator=svm_model, param_grid=param_grid_svm, cv=3)

# Huấn luyện GridSearchCV
grid_search_svm.fit(X_train_bow, y_train)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất cho SVM:", grid_search_svm.best_params_)
print("Điểm số tốt nhất cho SVM:", grid_search_svm.best_score_)

Hyperparameters tốt nhất cho SVM: {'C': 10, 'degree': 2, 'gamma': 1, 'kernel': 'poly'}
Điểm số tốt nhất cho SVM: 0.8373126941610404


*   4.7. Apply **RandomForest** with **GridSearchCV**

In [None]:
# Định nghĩa lưới tham số
param_grid_rf = {
    'n_estimators': [25, 50, 100, 150],
    'max_features': ['sqrt', 'log2', None],
    'max_depth': [3, 6, 9],
    'max_leaf_nodes': [3, 6, 9]
}

# Tạo mô hình RandomForest
rf_model = RandomForestClassifier()

# Khởi tạo GridSearchCV
grid_search_rf = GridSearchCV(estimator=rf_model, param_grid=param_grid_rf, cv=3)

# Huấn luyện GridSearchCV
grid_search_rf.fit(X_train_bow, y_train)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất cho RandomForest:", grid_search_rf.best_params_)
print("Điểm số tốt nhất cho RandomForest:", grid_search_rf.best_score_)

Hyperparameters tốt nhất cho RandomForest: {'max_depth': 6, 'max_features': 'sqrt', 'max_leaf_nodes': 9, 'n_estimators': 150}
Điểm số tốt nhất cho RandomForest: 0.791760716686229


*   4.8. Apply **kNN** with **GridSearchCV**

In [None]:
# Định nghĩa lưới tham số
param_grid_knn = {
    'n_neighbors': [5, 7, 9, 11, 13, 15],
    'weights': ['uniform', 'distance'],
    'metric': ['minkowski', 'euclidean', 'manhattan']
}

# Tạo mô hình kNN
knn_model = KNeighborsClassifier()

# Khởi tạo GridSearchCV
grid_search_knn = GridSearchCV(estimator=knn_model, param_grid=param_grid_knn, cv=3)

# Huấn luyện GridSearchCV
grid_search_knn.fit(X_train_bow, y_train)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất cho kNN:", grid_search_knn.best_params_)
print("Điểm số tốt nhất cho kNN:", grid_search_knn.best_score_)

Hyperparameters tốt nhất cho kNN: {'metric': 'manhattan', 'n_neighbors': 15, 'weights': 'distance'}
Điểm số tốt nhất cho kNN: 0.6492460950431878


*   4.9. Apply **LogisticRegression** with **GridSearchCV**

In [None]:
# Định nghĩa lưới tham số
param_grid_lr = {
    'C': [0.1, 1, 10, 100, 1000],
    'penalty': ['l1', 'l2']
}

# Tạo mô hình Logistic Regression
lr_model = LogisticRegression()

# Khởi tạo GridSearchCV
grid_search_lr = GridSearchCV(estimator=lr_model, param_grid=param_grid_lr, cv=3)

# Huấn luyện GridSearchCV
grid_search_lr.fit(X_train_bow, y_train)

# In ra các hyperparameters tốt nhất và điểm số tốt nhất
print("Hyperparameters tốt nhất cho Logistic Regression:", grid_search_lr.best_params_)
print("Điểm số tốt nhất cho Logistic Regression:", grid_search_lr.best_score_)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
15 fits failed out of a total of 30.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the fai

Hyperparameters tốt nhất cho Logistic Regression: {'C': 10, 'penalty': 'l2'}
Điểm số tốt nhất cho Logistic Regression: 0.8328300612286528


*   4.10. Compare the best obtained results among classification algorithms (use PrettyTable to dispaly the results)

In [None]:
# Tạo bảng
table = PrettyTable()

# Thêm các cột
table.field_names = ["Algorithm", "Best Hyperparameters", "Best Score"]

# Thêm dữ liệu cho từng thuật toán
table.add_row(["SVM", grid_search_svm.best_params_, grid_search_svm.best_score_])
table.add_row(["kNN", grid_search_knn.best_params_, grid_search_knn.best_score_])
table.add_row(["RandomForest", grid_search_rf.best_params_, grid_search_rf.best_score_])
table.add_row(["LogisticRegression", grid_search_lr.best_params_, grid_search_lr.best_score_])

# In ra bảng
print(table)

+--------------------+------------------------------------------------------------------------------------+--------------------+
|     Algorithm      |                                Best Hyperparameters                                |     Best Score     |
+--------------------+------------------------------------------------------------------------------------+--------------------+
|        SVM         |                {'C': 10, 'degree': 2, 'gamma': 1, 'kernel': 'poly'}                | 0.8373126941610404 |
|        kNN         |         {'metric': 'manhattan', 'n_neighbors': 15, 'weights': 'distance'}          | 0.6492460950431878 |
|    RandomForest    | {'max_depth': 6, 'max_features': 'sqrt', 'max_leaf_nodes': 9, 'n_estimators': 150} | 0.791760716686229  |
| LogisticRegression |                             {'C': 10, 'penalty': 'l2'}                             | 0.8328300612286528 |
+--------------------+---------------------------------------------------------------------------

#Finally,
Save a copy in your Github. Remember renaming the notebook.