# Bài tập về nhà Decision Tree, Random Forest


- Thực hiện các yêu cầu dưới đây với tập dữ liệu Australian credit
- Down dữ liệu tại đường link dưới đây và đặt vào folder /data

  https://archive.ics.uci.edu/ml/datasets/Statlog+(Australian+Credit+Approval)
    

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV

## 1. Tìm hiểu dữ liệu

In [None]:
'''
- Tìm hiểu cấu trúc data tại trang web UCI
- Down các files, đặt trong folder data/
- Chú ý:
    - Đọc mô tả dữ liệu trong file 'australian.doc'
    - Kiểm tra DecisionTree/RandomForest của Sklearn có hỗ trợ với kiểu dữ liệu được cung cấp không
'''
data_path = "https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/australian/australian.dat"
columns = ['A1', 'A2', 'A3', 'A4', 'A5', 'A6', 'A7', 'A8', 'A9', 'A10', 'A11', 'A12', 'A13', 'A14', 'Class']
data = pd.read_csv(data_path, header=None, delim_whitespace=True, names=columns)
data.head()

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12,A13,A14,Class
0,1,22.08,11.46,2,4,4,1.585,0,0,0,1,2,100,1213,0
1,0,22.67,7.0,2,8,4,0.165,0,0,0,0,2,160,1,0
2,0,29.58,1.75,1,4,4,1.25,0,0,0,1,2,280,1,0
3,0,21.67,11.5,1,5,3,0.0,1,1,11,1,2,0,1,1
4,1,20.17,8.17,2,6,4,1.96,1,1,14,0,2,60,159,1


In [None]:
X = data.drop("Class", axis = 1)
y = data["Class"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

## 2. Decision Tree

### 2.1. Khảo sát các giá trị khác nhau của max_depth

In [None]:
# code
import pandas as pd

# Load the .dat file with tab-separated values
data = pd.read_csv(data_path, sep='\t', header=None)
data = data[0].str.split(expand=True)
data.columns = ['A1', 'A2', 'A3', 'A4', 'A5', 'A6', 'A7', 'A8', 'A9', 'A10', 'A11', 'A12', 'A13', 'A14', 'A15']
data.isnull().sum()

Max depth = 3: Accuracy = 0.8478260869565217
Max depth = 5: Accuracy = 0.8695652173913043
Max depth = 7: Accuracy = 0.8913043478260869
Max depth = 10: Accuracy = 0.855072463768116


In [None]:
index=[]
test_score=[]
train_score=[]
for i in range(1,10):
    tree_clf=DecisionTreeClassifier(max_depth=i)
    tree_clf.fit(x_train,y_train)
    index.append(i)
    test_score.append(tree_clf.score(x_test,y_test))
    train_score.append(tree_clf.score(x_train,y_train))
    print(f'{i}: {tree_clf.score(x_test,y_test)}')

In [None]:
plt.figure(figsize=(16,8),dpi=80)
plt.plot(index,test_score,marker='o',color='r')
plt.plot(index,train_score,marker='o',color='b')
plt.xlabel('max_depth')
plt.ylabel('score')
plt.legend(['test','train'])
plt.show()

### 2.2. Tìm kiếm siêu tham số

In [None]:
#code
param_grid = {
    "max_depth": [3, 5, 7, 10],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4]
}

model = DecisionTreeClassifier(random_state = 42)
grid_search = GridSearchCV(model, param_grid, cv = 5, scoring = "accuracy")

grid_search.fit(X_train, y_train)
print(f"Siêu tham số tốt nhất: {grid_search.best_params_}")
print(f"Accuray score tốt nhất: {grid_search.best_score_}")

Siêu tham số tốt nhất: {'max_depth': 5, 'min_samples_leaf': 2, 'min_samples_split': 2}
Accuray score tốt nhất: 0.8478787878787879


## 3. Random Forest

### 3.1 Khảo sát các giá trị khác nhau của n_estimators

In [None]:
#code
n_estimators_list = [10, 50, 100, 200, 500]
for n_estimator in n_estimators_list:
  rf = RandomForestClassifier(n_estimators = n_estimator, random_state = 42)
  rf.fit(X_train, y_train)
  y_pred = rf.predict(X_test)
  acc = accuracy_score(y_pred, y_test)
  print(f"N_estimators = {n_estimator}:  Accuracy = {acc}")

N_estimators = 10:  Accuracy = 0.8623188405797102
N_estimators = 50:  Accuracy = 0.8695652173913043
N_estimators = 100:  Accuracy = 0.8768115942028986
N_estimators = 200:  Accuracy = 0.8768115942028986
N_estimators = 500:  Accuracy = 0.8623188405797102


### 3.2 Tìm kiếm siêu tham số

In [None]:
# code
param_grid = {
    'n_estimators': [10, 50, 100, 200, 500],
    'max_depth': [10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

model = RandomForestClassifier(random_state = 42)
grid_search = GridSearchCV(model, param_grid, cv = 5, scoring = "accuracy")
grid_search.fit(X_train, y_train)

print(f"Siêu tham số tốt nhất: {grid_search.best_params_}")
print(f"Accuracy score tốt nhất: {grid_search.best_score_}")

Siêu tham số tốt nhất: {'max_depth': 20, 'min_samples_leaf': 2, 'min_samples_split': 5, 'n_estimators': 50}
Accuracy score tốt nhất: 0.8804914004914005
