In [1]:
import numpy as np
import pandas as pd

In [12]:
# --- Block 1: Tạo dữ liệu cho cột 'Miles_Per_week' ---
mean1 = 55         # Giá trị mean1 được cập nhật theo yêu cầu
std_dev1 = 10
num_samples = 500

# Tạo số ngẫu nhiên theo phân phối chuẩn
column1_numbers = np.random.normal(mean1, std_dev1, num_samples)
# Giới hạn giá trị trong khoảng [30, 120]
column1_numbers = np.clip(column1_numbers, 30, 120)
# Làm tròn thành số nguyên gần nhất và chuyển kiểu dữ liệu thành int
column1_numbers = np.round(column1_numbers).astype(int)

# --- Block 2: Tạo dữ liệu cho cột 'Farthest_run' ---
mean2 = 18
std_dev2 = 3

# Tạo số ngẫu nhiên theo phân phối chuẩn
column2_numbers = np.random.normal(mean2, std_dev2, num_samples)
# Giới hạn giá trị trong khoảng [12, 26]
column2_numbers = np.clip(column2_numbers, 12, 26)
# Làm tròn thành số nguyên gần nhất và chuyển kiểu dữ liệu thành int
column2_numbers = np.round(column2_numbers).astype(int)

# --- Block 3: Tạo dữ liệu cho cột 'Qualified_Boston_Marathon' ---
# Tạo mảng gồm các số nguyên ngẫu nhiên 0 hoặc 1
column3_numbers = np.random.randint(2, size=num_samples)
# Sử dụng boolean indexing:
# Nếu giá trị trong column1_numbers > mean1 (55), thì đặt giá trị tương ứng trong column3_numbers thành 1
column3_numbers[column1_numbers > mean1] = 1

# --- Block 4: Tạo dictionary chứa dữ liệu ---
data = {'Miles_Per_week': column1_numbers,
        'Farthest_run': column2_numbers,
        'Qualified_Boston_Marathon': column3_numbers}

# --- (Tùy chọn) Chuyển dictionary thành Pandas DataFrame ---
df = pd.DataFrame(data)

In [13]:
df.head(10)

Unnamed: 0,Miles_Per_week,Farthest_run,Qualified_Boston_Marathon
0,41,19,1
1,66,21,1
2,55,18,1
3,46,16,1
4,38,21,1
5,74,19,1
6,41,13,1
7,65,21,1
8,54,14,0
9,52,19,1


In [14]:
X = df.iloc[:, 0:2]

In [15]:
y = df.iloc[:, 2 ]


In [16]:
from sklearn.model_selection import train_test_split

In [17]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=26, test_size = 0.3)

In [18]:
from sklearn.ensemble import RandomForestClassifier

In [19]:
rf = RandomForestClassifier()

In [24]:
param_grid = [{
    'n_estimators': [500, 1000, 1500],
    # 'criterion': ['entropy', 'gini'],
    'min_samples_split': [5, 10, 15],
    'min_samples_leaf': [1, 2, 4]#,
    # 'max_depth': [10, 20, 30]
}]

In [22]:
from sklearn.model_selection import GridSearchCV

In [27]:
grid_search = GridSearchCV(rf,
                            param_grid, 
                           cv = 2,
                           scoring = 'accuracy',
                           n_jobs = -1 # all the Number of CPUs can be used 
                           
    
)

In [28]:
grid_search.fit(X_train, y_train)

In [29]:
grid_search.best_score_

np.float64(0.7314285714285714)

In [30]:
grid_search.best_params_

{'min_samples_leaf': 1, 'min_samples_split': 10, 'n_estimators': 1000}

In [32]:
from sklearn.model_selection import RandomizedSearchCV

In [34]:
random_param_grid = [{
    'n_estimators': [500, 1000, 1500],
    'criterion': ['entropy', 'gini'],
    'min_samples_split': [5, 10, 15],
    'min_samples_leaf': [1, 2, 4],
    'max_depth': [10, 20, 30]
}]

In [36]:
random_grid_search = RandomizedSearchCV(rf, 
                                       random_param_grid,
                                       cv = 5,
                                       scoring = 'accuracy',
                                       n_jobs = -1, # all the Number of CPUs can be used
                                       random_state = 26)

In [37]:
random_grid_search.fit(X_train, y_train)

In [38]:
random_grid_search.best_score_

np.float64(0.7142857142857142)

In [39]:
random_grid_search.best_params_

{'n_estimators': 1500,
 'min_samples_split': 15,
 'min_samples_leaf': 4,
 'max_depth': 10,
 'criterion': 'gini'}