Trong bài toán này, chúng ta sẽ được cho một bộ dataset mô tả thông tin về các batch của 1 loại rượu đỏ ở Bồ Đào Nha, bao gồm các features liên quan đến tính chất của rượu như: nồng độ acid, độ đường, độ pH,... Nhiệm vụ của chúng ta là phân tích, xử lí bộ data dưới đây và trả lời các câu hỏi yêu cầu người làm phải thực hiện coding. Đây là một bài toán phân loại với 11 features đầu vào và 1 feature đầu ra là chất lượng của rượu (từ 0 đến 10).
[winequality-red.csv](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv)

# **Thực hiện các yêu cầu sau đây**

1. **Đọc dữ liệu**
- Sử dụng pandas, đọc file csv được cung cấp, sau đó hiển thị ra màn hỉnh để hiểu các trường dữ liệu.

2. **Tách dữ liệu thành bộ feature (X) và label (y)**
- Sử dụng các cột "fixed acidity", "volatile acidity", "citric acid",... làm features đầu vào (`X`).
- Sử dụng cột "quality" làm biến đầu ra (`y`).

3. **Tách tập dữ liệu thành tập train và test**  
- Chia dữ liệu thành tập huấn luyện (`X_train`, `y_train`) và tập kiểm tra (`X_test`, `y_test`) với tỷ lệ `80:20`.
- Đảm bảo rằng việc chia tách dữ liệu là ngẫu nhiên nhưng tái lập (reproducibility) được với `random_state=42`

**Lưu ý:** Sử dụng các mô hình regressor trong sklearn để thực hiện đề bài này.

# Thư viện

In [1]:
# !pip install pandas scikit-learn

In [2]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Tải và đọc dữ liệu

In [3]:
df = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
    sep=';'
)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


In [5]:
df.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0
mean,8.319637,0.527821,0.270976,2.538806,0.087467,15.874922,46.467792,0.996747,3.311113,0.658149,10.422983,5.636023
std,1.741096,0.17906,0.194801,1.409928,0.047065,10.460157,32.895324,0.001887,0.154386,0.169507,1.065668,0.807569
min,4.6,0.12,0.0,0.9,0.012,1.0,6.0,0.99007,2.74,0.33,8.4,3.0
25%,7.1,0.39,0.09,1.9,0.07,7.0,22.0,0.9956,3.21,0.55,9.5,5.0
50%,7.9,0.52,0.26,2.2,0.079,14.0,38.0,0.99675,3.31,0.62,10.2,6.0
75%,9.2,0.64,0.42,2.6,0.09,21.0,62.0,0.997835,3.4,0.73,11.1,6.0
max,15.9,1.58,1.0,15.5,0.611,72.0,289.0,1.00369,4.01,2.0,14.9,8.0


# Tiền xử lý

In [6]:
features = df.drop('quality', axis=1)
labels = df['quality']
# Chia tập dữ liệu thành tập train và test với tỉ lệ (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(
    features, labels, test_size=0.2, random_state=42
)
X_train.shape, y_train.shape, X_test.shape, y_test.shape

((1279, 11), (1279,), (320, 11), (320,))

In [7]:
print(f"Train set head: {X_train.head()}")

Train set head:      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
493            8.7             0.690         0.31             3.0      0.086   
354            6.1             0.210         0.40             1.4      0.066   
342           10.9             0.390         0.47             1.8      0.118   
834            8.8             0.685         0.26             1.6      0.088   
705            8.4             1.035         0.15             6.0      0.073   

     free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
493                 23.0                  81.0  1.00020  3.48       0.74   
354                 40.5                 165.0  0.99120  3.25       0.59   
342                  6.0                  14.0  0.99820  3.30       0.75   
834                 16.0                  23.0  0.99694  3.32       0.47   
705                 11.0                  54.0  0.99900  3.37       0.49   

     alcohol  
493     11.6  
354     11.9  
3

In [8]:
print(f"Train label head: \n{y_train.head()}")

Train label head: 
493    6
354    6
342    6
834    5
705    5
Name: quality, dtype: int64


# Khởi tạo các tham số của mô hình Random Forest

In [9]:
# Định nghĩa các tham số cho mô hình Random Forest
settings = {
    'n_estimators': 50,         # Số lượng cây trong rừng
    # 'max_depth': 3,             # Độ sâu tối đa của mỗi cây
    # 'min_samples_split': 2,     # Số lượng mẫu tối thiểu để chia nhánh
    # 'min_samples_leaf': 1,      # Số lượng mẫu tối thiểu tại mỗi nút lá
    'random_state': 42          # Giá trị ngẫu nhiên để đảm bảo kết quả lặp lại
}

# Huấn luyện mô hình

In [10]:
forest = RandomForestRegressor(**settings) # Khởi tạo mô hình Random Forest với các tham số đã định nghĩa
forest.fit(X_train, y_train) # Huấn luyện mô hình trên tập huấn luyện

# Đánh giá mô hình Random Forest

In [11]:
# Đánh giá mô hình với MSE và R2
# MSE: càng nhỏ càng tốt
# R2: càng gần 1 càng tốt
predictions = forest.predict(X_test)
mse = mean_squared_error(y_test, predictions)
r2 = r2_score(y_test, predictions)

print(f"MSE: {mse:.4f}")
print(f"R^2: {r2:.4f}")

MSE: 0.3062
R^2: 0.5314


# Thử nghiệm Number of Trees (n_estimators)

In [13]:
best_mse = float('inf')
best_trees = None

for count in [10, 20, 50, 100]:
    # Tạo mô hình với số lượng cây count
    model = RandomForestRegressor(n_estimators=count, random_state=42)

    # Huấn luyện
    model.fit(X_train, y_train)

    # Dự đoán trên tập kiểm tra
    preds = model.predict(X_test)

    # Tính MSE
    mse = mean_squared_error(y_test, preds)

    print(f"n_estimators = {count}, MSE = {mse:.4f}")

    # Cập nhật best model
    if mse < best_mse:
        best_mse = mse
        best_trees = count

print(f"\nOptimal tree count: {best_trees} with MSE {best_mse:.4f}")

n_estimators = 10, MSE = 0.3206
n_estimators = 20, MSE = 0.3162
n_estimators = 50, MSE = 0.3062
n_estimators = 100, MSE = 0.3012

Optimal tree count: 100 with MSE 0.3012


# Tree Depth (Độ sâu của cây)

In [15]:
best_mse = float('inf')
best_depth = None

for depth in range(1, 11):
    # Tạo mô hình với max_depth = depth
    model = RandomForestRegressor(max_depth=depth, random_state=100)

    # Huấn luyện
    model.fit(X_train, y_train)

    # Dự đoán trên tập kiểm tra
    preds = model.predict(X_test)

    # Tính MSE
    mse = mean_squared_error(y_test, preds)

    print(f"max_depth = {depth}, MSE = {mse:.4f}")

    # Cập nhật best model
    if mse < best_mse:
        best_mse = mse
        best_depth = depth

print(f"\nOptimal depth: {best_depth} with MSE {best_mse:.4f}")

max_depth = 1, MSE = 0.5073
max_depth = 2, MSE = 0.4497
max_depth = 3, MSE = 0.4146
max_depth = 4, MSE = 0.3916
max_depth = 5, MSE = 0.3756
max_depth = 6, MSE = 0.3588
max_depth = 7, MSE = 0.3506
max_depth = 8, MSE = 0.3388
max_depth = 9, MSE = 0.3282
max_depth = 10, MSE = 0.3286

Optimal depth: 9 with MSE 0.3282
