## Ghi chú:
- Những bước cần làm khi làm một mô hình máy học:
  * Bước 1: Xác định vấn đề
  * Bước 2: Thu nhập dữ liệu
  * Bước 3: Chuẩn bị sữ lí dữ liệu
  * Bước 4: Phân tich dữ liệu thăm dò bằng thống kê
  * Bước 5: Xây dựng mô hình dữ liệu
  * Bước 6: Đánh giá mô hình
  * Bước 7: Tinh chỉnh mô hình bằng siêu tham số
  * Bước 8: Tinh chỉnh mô hình bằng chọn lọc đặc trưng
  * Bước 9: Xác thực và triển khai
  * Bước 10: Kết luận tối ưu hóa và chiến lược

# Bước 3: Chuẩn bị sữ lí dữ liệu
## Bước 3.1: Import thư viện

In [1]:

#load Thư viện
import sys  # Kiểm tra phiên bản Python
print("Python version: {}". format(sys.version))

import pandas as pd # Xử lý dữ liệu dạng bảng (DataFrame).
print("pandas version: {}". format(pd.__version__))

import matplotlib # Vẽ biểu đồ khoa học
print("matplotlib version: {}". format(matplotlib.__version__))

import numpy as np # Tính toán khoa học, xử lý mảng số học
print("NumPy version: {}". format(np.__version__))

import scipy as sp # Công cụ toán học nâng cao
print("SciPy version: {}". format(sp.__version__)) 

import IPython
from IPython import display # Hiển thị dữ liệu đẹp hơn trong Jupyter Notebook
print("IPython version: {}". format(IPython.__version__)) 

import sklearn # Các thuật toán Machine Learning
print("scikit-learn version: {}". format(sklearn.__version__))

import random # Làm việc với các số ngẫu nhiên
import time # Xử lý thời gian


# Tắt cảnh báo không quan trọng
import warnings
warnings.filterwarnings('ignore')
print('-'*25)



# Chương trình kiểm tra danh sách tệp trong thư mục chứa dữ liệu bằng lệnh:

from subprocess import check_output
print(check_output(["ls", "../input"]).decode("utf8"))

# Any results you write to the current directory are saved as output.

In [2]:
from sklearn import svm, tree, linear_model, neighbors, naive_bayes, ensemble, discriminant_analysis, gaussian_process
from xgboost import XGBClassifier

### Các thuật toán phổ biến được sử dụng:
- ✅ `svm` → Support Vector Machines (SVM).
- ✅ `tree` → Decision Tree Classifier.
- ✅ `linear_model` → Các mô hình hồi quy tuyến tính (Logistic Regression).
- ✅ `neighbors` → K-Nearest Neighbors (KNN).
- ✅ `naive_bayes` → Naive Bayes Classifier.
- ✅ `ensemble` → Các mô hình ensemble như Random Forest, Gradient Boosting.
- ✅ `discriminant_analysis` → Linear Discriminant Analysis (LDA).
- ✅ `gaussian_process` → Gaussian Process Classifier.
- ✅ `XGBClassifier` từ xgboost → Một mô hình boosting mạnh mẽ.

In [3]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn import feature_selection, model_selection, metrics
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer


### Các công cụ giúp xử lý dữ liệu đầu vào:
- ✅ `OneHotEncoder` & `LabelEncoder` → Mã hóa biến phân loại (categorical variables).-
- ✅ `feature_selection` → Chọn các đặc trưng quan trọng nhất.
- ✅ `model_selection` → Chia tập dữ liệu (train/test split), k-fold cross-validation.
- ✅ `metrics` → Các phép đánh giá mô hình (accuracy, F1-score, confusion matrix).
- ✅ `Pipeline` → Tạo pipeline giúp chuẩn hóa và huấn luyện mô hình dễ dàng hơn.
- ✅ `ColumnTransformer` → Dùng để xử lý các cột dữ liệu khác nhau theo cách khác nhau.

## 3.2 Khám phá dữ liệu (Meet and Greet Data)
### Mục tiêu:
- Kiểm tra sơ bộ dữ liệu bằng cách import và quan sát.
- Nhận diện các biến đầu vào (feature variables) và biến mục tiêu (target variable).
- Xác định các kiểu dữ liệu (số, chuỗi, boolean).
- Kiểm tra thông tin thiếu dữ liệu
### Ví dụ:

In [7]:
import pandas as pd

# Đọc file dữ liệu từ Kaggle
data_raw = pd.read_csv('./data/train.csv')
data_val = pd.read_csv('./data/test.csv')

# Sao chép dữ liệu để làm sạch mà không ảnh hưởng đến bản gốc
data1 = data_raw.copy(deep=True)

# Danh sách chứa cả tập train và test (tiện xử lý dữ liệu)
data_cleaner = [data1, data_val]

# Hiển thị thông tin tổng quan về dữ liệu
print(data_raw.info()) 

# Hiển thị 10 dòng ngẫu nhiên trong tập dữ liệu
data_raw.sample(4)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   8693 non-null   object 
 1   HomePlanet    8492 non-null   object 
 2   CryoSleep     8476 non-null   object 
 3   Cabin         8494 non-null   object 
 4   Destination   8511 non-null   object 
 5   Age           8514 non-null   float64
 6   VIP           8490 non-null   object 
 7   RoomService   8512 non-null   float64
 8   FoodCourt     8510 non-null   float64
 9   ShoppingMall  8485 non-null   float64
 10  Spa           8510 non-null   float64
 11  VRDeck        8505 non-null   float64
 12  Name          8493 non-null   object 
 13  Transported   8693 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 891.5+ KB
None


Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
2192,2347_04,Earth,True,G/377/P,PSO J318.5-22,0.0,False,0.0,0.0,0.0,0.0,0.0,Joanry Wellierras,True
1400,1474_01,Mars,True,F/287/P,TRAPPIST-1e,32.0,False,0.0,0.0,0.0,,0.0,Morms Melte,True
6208,6563_02,Earth,False,G/1067/S,TRAPPIST-1e,30.0,False,0.0,123.0,0.0,1.0,784.0,Juanna Gainney,False
4253,4524_01,Earth,False,F/930/P,PSO J318.5-22,,,0.0,116.0,2048.0,2.0,0.0,Briane Fulloydez,True


In [8]:
#  Kiểu tra trùng dữ liệu
print(f'Duplicates in train set: {data_raw.duplicated().sum()}, ({np.round(100*data_raw.duplicated().sum()/len(data_raw),1)}%)')
print('')
print(f'Duplicates in test set: {data_val.duplicated().sum()}, ({np.round(100*data_val.duplicated().sum()/len(data_val),1)}%)')

Duplicates in train set: 0, (0.0%)

Duplicates in test set: 0, (0.0%)


#### 3.21 Tóm tắt 4 bước làm sạch dữ liệu (4 C's of Data Cleaning)
- **1.Correction (Chỉnh sửa dữ liệu lỗi, ngoại lệ)**:
    * Xác định và sửa các giá trị bất thường (outlier).
    * Ví dụ: Nếu có hành khách có tuổi 800 thay vì 80, cần sửa lại hoặc loại bỏ.
    * Tránh chỉnh sửa dữ liệu gốc trừ khi có lý do rõ ràng.
- **2.Completing (Hoàn thiện dữ liệu bị thiếu - xử lý missing values)**:
    * Một số thuật toán không xử lý được giá trị rỗng (NaN), nên cần điền giá trị hợp lý.
    * Dữ liệu định tính (categorical) → Thường điền bằng mode (giá trị xuất hiện nhiều nhất).
    * Dữ liệu định lượng (numerical) → Điền bằng mean (trung bình), median (trung vị) hoặc trung bình + độ lệch chuẩn ngẫu nhiên.
    * Ví dụ:
    * Cột Age → Điền giá trị median (trung vị) để tránh ảnh hưởng bởi outlier.
    * Cột HomePlanet → Điền bằng mode (hành tinh phổ biến nhất).
- **3.Creating (Tạo đặc trưng mới - Feature Engineering)**:
    * Dùng các cột hiện có để tạo ra đặc trưng mới giúp cải thiện mô hình.
    * Ví dụ:
    * Cột Cabin có dạng deck/num/side, có thể tách thành 3 cột riêng (Deck, Num, Side).
    * Xác định xem họ của hành khách có ảnh hưởng đến việc được chọn không.
- **4.Converting (Chuyển đổi dữ liệu về dạng phù hợp)**:
    * Chuyển đổi dữ liệu về đúng kiểu:
    * Categorical (chuỗi văn bản) → Chuyển thành dummies (one-hot encoding) để dễ tính toán.
    * Boolean (True/False) → Chuyển thành 0/1.
    * Ví dụ:
    * Cột CryoSleep (True/False) → Đổi thành 0/1.
    * Cột HomePlanet → Ánh xạ các hành tinh thành số hoặc dùng One-Hot Encoding.
- 💡 Mục tiêu: Làm sạch, chuẩn bị dữ liệu tốt hơn để cải thiện độ chính xác của mô hình AI/ML. 🚀

In [9]:
# Xác định cột nào có dữ liệu bị thiếu để xử lý.
print('Train columns with null values:\n', data1.isnull().sum())
print("-"*10)

print('Test/Validation columns with null values:\n', data_val.isnull().sum())
print("-"*10)

data_raw.describe(include = 'all')

Train columns with null values:
 PassengerId       0
HomePlanet      201
CryoSleep       217
Cabin           199
Destination     182
Age             179
VIP             203
RoomService     181
FoodCourt       183
ShoppingMall    208
Spa             183
VRDeck          188
Name            200
Transported       0
dtype: int64
----------
Test/Validation columns with null values:
 PassengerId       0
HomePlanet       87
CryoSleep        93
Cabin           100
Destination      92
Age              91
VIP              93
RoomService      82
FoodCourt       106
ShoppingMall     98
Spa             101
VRDeck           80
Name             94
dtype: int64
----------


Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
count,8693,8492,8476,8494,8511,8514.0,8490,8512.0,8510.0,8485.0,8510.0,8505.0,8493,8693
unique,8693,3,2,6560,3,,2,,,,,,8473,2
top,0001_01,Earth,False,G/734/S,TRAPPIST-1e,,False,,,,,,Gollux Reedall,True
freq,1,4602,5439,8,5915,,8291,,,,,,2,4378
mean,,,,,,28.82793,,224.687617,458.077203,173.729169,311.138778,304.854791,,
std,,,,,,14.489021,,666.717663,1611.48924,604.696458,1136.705535,1145.717189,,
min,,,,,,0.0,,0.0,0.0,0.0,0.0,0.0,,
25%,,,,,,19.0,,0.0,0.0,0.0,0.0,0.0,,
50%,,,,,,27.0,,0.0,0.0,0.0,0.0,0.0,,
75%,,,,,,38.0,,47.0,76.0,27.0,59.0,46.0,,


In [10]:
data_raw.nunique()

PassengerId     8693
HomePlanet         3
CryoSleep          2
Cabin           6560
Destination        3
Age               80
VIP                2
RoomService     1273
FoodCourt       1507
ShoppingMall    1115
Spa             1327
VRDeck          1306
Name            8473
Transported        2
dtype: int64

- Continuous Features (6 đặc trưng liên tục - số thực hoặc số nguyên)
- Categorical Features (4 đặc trưng phân loại - rời rạc)
- Descriptive/Qualitative Features (3 đặc trưng mô tả/định tính - không trực tiếp dùng để dự đoán

- Mục đích của việc phân loại này:
    * **Các đặc trưng liên tục** (Continuous) có thể được chuẩn hóa hoặc xử lý outlier.
    * **Các đặc trưng phân loại** (Categorical) cần được mã hóa (Encoding) để đưa vào mô hình.
    * **Các đặc trưng mô tả** (Descriptive) có thể được loại bỏ hoặc tách thành thông tin hữu ích hơn.

In [12]:
# Expenditure features
exp_feats=['RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck']

# Categorical features
cat_feats=['HomePlanet', 'CryoSleep', 'Destination', 'VIP']

# Qualitative features
qual_feats=['PassengerId', 'Cabin' ,'Name']

### 3.22 Làm sạch dữ liệu
** Developer Documentation: **
* [pandas.DataFrame](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)
* [pandas.DataFrame.info](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html)
* [pandas.DataFrame.describe](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html)
* [Indexing and Selecting Data](https://pandas.pydata.org/pandas-docs/stable/indexing.html)
* [pandas.isnull](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.isnull.html)
* [pandas.DataFrame.sum](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sum.html)
* [pandas.DataFrame.mode](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.mode.html)
* [pandas.DataFrame.copy](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.copy.html)
* [pandas.DataFrame.fillna](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html)
* [pandas.DataFrame.drop](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html)
* [pandas.Series.value_counts](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html)
* [pandas.DataFrame.loc](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html)

##### Ghi chú:
- sns: countPlot,histPlot

#### 3.23 Mã hóa dữ liệu
- Chúng tôi sẽ chuyển đổi dữ liệu phân loại thành các biến giả để phân tích toán học. Có nhiều cách để mã hóa các biến phân loại; chúng tôi sẽ sử dụng các hàm sklearn và pandas
-  **Developer Documentation:**
* [Categorical Encoding](http://pbpython.com/categorical-encoding.html)
* [Sklearn LabelEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)
* [Sklearn OneHotEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)
* [Pandas Categorical dtype](https://pandas.pydata.org/pandas-docs/stable/categorical.html)
* [pandas.get_dummies](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html)

In [None]:
#CONVERT: convert objects to category using Label Encoder for train and test/validation dataset

#code categorical data
label = LabelEncoder()

for data in data_cleaner:

    data['HomePlanet_Code'] = label.fit_transform(data['HomePlanet'])
    data['CryoSleep_Code'] = label.fit_transform(data['CryoSleep'])
    data['Destination_Code'] = label.fit_transform(data['Destination'])
    data['VIP_Code'] = label.fit_transform(data['VIP'])
    data['Age_group_Code'] = label.fit_transform(data['Age_group'])
    data['Cabin_deck_Code'] = label.fit_transform(data['Cabin_deck'])
    data['Cabin_side_Code'] = label.fit_transform(data['Cabin_side'])


In [None]:
# define y variable aka target/outcome
Target = ['Transported']

# define x variables for original features aka feature selection

# 'HomePlanet', 'CryoSleep', 'Destination', 'Age', 'VIP', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck'
data1_x = ['HomePlanet', 'CryoSleep', 'Destination', 'Age', 'VIP', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck'] # Original data
# 'HomePlanet', 'CryoSleep', 'Destination', 'Age', 'VIP', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck', 'Transported', 'Age_group', 'Expenditure', 'No_spending', 'Group', 'Group_size', 'Solo', 'Cabin_deck', 'Cabin_number', 'Cabin_side', 'Cabin_region1', 'Cabin_region2', 'Cabin_region3', 'Cabin_region4', 'Cabin_region5', 'Cabin_region6', 'Cabin_region7', 'Family_size', 'HomePlanet_Code', 'CryoSleep_Code', 'Destination_Code', 'VIP_Code', 'Age_group_Code', 'Cabin_deck_Code', 'Cabin_side_Code'

data1_x_calc = ['Age', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck', 'Expenditure', 'No_spending', 'Group', 'Group_size', 'Solo', 'Cabin_number', 'Cabin_region1', 'Cabin_region2', 'Cabin_region3', 'Cabin_region4', 'Cabin_region5', 'Cabin_region6', 'Cabin_region7', 'Family_size', 'HomePlanet_Code', 'CryoSleep_Code', 'Destination_Code', 'VIP_Code', 'Age_group_Code', 'Cabin_deck_Code', 'Cabin_side_Code'] # coded for algorithm calculation
data1_xy =  Target + data1_x
print('Original X Y: ', data1_xy, '\n')


# define x variables for original w/bin features to remove continuous variables
data1_x_bin = ['Age', 'No_spending', 'Group_size', 'Solo', 'Cabin_region1', 'Cabin_region2', 'Cabin_region3', 'Cabin_region4', 'Cabin_region5', 'Cabin_region6', 'Cabin_region7', 'Family_size', 'HomePlanet_Code', 'CryoSleep_Code', 'Destination_Code', 'VIP_Code', 'Age_group_Code', 'Cabin_deck_Code', 'Cabin_side_Code']
data1_xy_bin = Target + data1_x_bin
print('Bin X Y: ', data1_xy_bin, '\n')


#define x and y variables for dummy features original
data1_dummy = pd.get_dummies(data1[data1_x])
data1_x_dummy = data1_dummy.columns.tolist()
data1_xy_dummy = Target + data1_x_dummy
print('Dummy X Y: ', data1_xy_dummy, '\n')



data1_dummy.head()

## 3.24 Kiểm tra dữ liệu đã làm sạch Da-Double

Bây giờ chúng ta đã làm sạch dữ liệu, hãy thực hiện kiểm tra da-double!

In [None]:
print('Train columns with null values: \n', data1.isnull().sum())
print("-"*10)
print (data1.info())
print("-"*10)

print('Test/Validation columns with null values: \n', data_val.isnull().sum())
print("-"*10)
print (data_val.info())
print("-"*10)

data_raw.describe(include = 'all')

## 3.25 Phân chia dữ liệu đào tạo và thử nghiệm

Như đã đề cập trước đó, tệp thử nghiệm được cung cấp thực sự là dữ liệu xác thực để gửi bài dự thi. Vì vậy, chúng ta sẽ sử dụng hàm *sklearn* để phân chia dữ liệu đào tạo thành hai tập dữ liệu; chia 75/25. Điều này rất quan trọng, vì vậy chúng ta không [quá phù hợp với mô hình của mình](https://www.coursera.org/learn/python-machine-learning/lecture/fVStr/overfitting-and-underfitting). Nghĩa là, thuật toán quá cụ thể đối với một tập hợp con nhất định, nên nó không thể khái quát chính xác một tập hợp con khác, từ cùng một tập dữ liệu. Điều quan trọng là thuật toán của chúng ta chưa nhìn thấy tập hợp con mà chúng ta sẽ sử dụng để thử nghiệm, vì vậy nó không "gian lận" bằng cách ghi nhớ các câu trả lời. Chúng ta sẽ sử dụng hàm train_test_split của [*sklearn*](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html). Trong các phần sau, chúng ta cũng sẽ sử dụng các hàm xác thực chéo của [*sklearn*](http://scikit-learn.org/stable/modules/cross_validation.html#cross-validation), chia tập dữ liệu của chúng ta thành tập huấn luyện và tập kiểm tra để so sánh mô hình dữ liệu.

In [None]:
#split train and test data with function defaults
#random_state -> seed or control random number generator: https://www.quora.com/What-is-seed-in-random-number-generation
train1_x, test1_x, train1_y, test1_y = model_selection.train_test_split(data1[data1_x_calc], data1[Target], random_state = 0)
train1_x_bin, test1_x_bin, train1_y_bin, test1_y_bin = model_selection.train_test_split(data1[data1_x_bin], data1[Target] , random_state = 0)
train1_x_dummy, test1_x_dummy, train1_y_dummy, test1_y_dummy = model_selection.train_test_split(data1_dummy[data1_x_dummy], data1[Target], random_state = 0)


print("Data1 Shape: {}".format(data1.shape))
print("Train1 Shape: {}".format(train1_x.shape))
print("Test1 Shape: {}".format(test1_x.shape))

train1_x_bin.head()

<a id="ch6"></a>
# Bước 4: Thực hiện Phân tích thăm dò với Thống kê
Bây giờ dữ liệu của chúng ta đã được làm sạch, chúng ta sẽ khám phá dữ liệu của mình bằng thống kê mô tả và đồ họa để mô tả và tóm tắt các biến của chúng ta. Trong giai đoạn này, bạn sẽ thấy mình đang phân loại các tính năng và xác định mối tương quan của chúng với biến mục tiêu và với nhau.

In [None]:
#Discrete Variable Correlation by Survival using
#group by aka pivot table: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html
for x in data1_x:
    if data1[x].dtype != 'float64' :
        print('Transported Correlation by:', x)
        print(data1[[x, Target[0]]].groupby(x, as_index=False).mean())
        print('-'*10, '\n')      


In [None]:
#correlation heatmap of dataset
def correlation_heatmap(df):
    _ , ax = plt.subplots(figsize =(14, 12))
    colormap = sns.diverging_palette(220, 10, as_cmap = True)
    
    _ = sns.heatmap(
        df.corr(), 
        cmap = colormap,
        square=True, 
        cbar_kws={'shrink':.9 }, 
        ax=ax,
        annot=True, 
        linewidths=0.1,vmax=1.0, linecolor='white',
        annot_kws={'fontsize': 5 }
    )
    
    plt.title('Pearson Correlation of Features', y=1.05, size=15)

correlation_heatmap(data1)

In [None]:
#pair plots of entire dataset
pp = sns.pairplot(data1, hue = 'Transported', palette = 'deep', size=1.2, diag_kind = 'kde', diag_kws=dict(shade=True), plot_kws=dict(s=10) )
pp.set(xticklabels=[])

## Bước 5: Mô hình hóa dữ liệu  

**Khoa học dữ liệu** là một lĩnh vực đa ngành kết hợp giữa toán học (thống kê, đại số tuyến tính, v.v.), khoa học máy tính (ngôn ngữ lập trình, hệ thống máy tính, v.v.) và quản lý kinh doanh (giao tiếp, kiến thức chuyên môn, v.v.). Hầu hết các nhà khoa học dữ liệu xuất thân từ một trong ba lĩnh vực này, do đó họ có xu hướng nghiêng về lĩnh vực đó. Tuy nhiên, khoa học dữ liệu giống như một chiếc ghế ba chân, không có chân nào quan trọng hơn chân nào. Vì vậy, bước này sẽ đòi hỏi kiến thức nâng cao về toán học. Nhưng đừng lo, chúng ta chỉ cần một cái nhìn tổng quan, và chúng ta sẽ cùng nhau khám phá. Nhờ khoa học máy tính, nhiều công việc phức tạp đã được tự động hóa. Những bài toán từng yêu cầu bằng cấp cao trong toán học hay thống kê, giờ đây chỉ cần vài dòng code. Cuối cùng, chúng ta cần hiểu biết về kinh doanh để tư duy giải quyết vấn đề. Sau cùng, giống như việc huấn luyện một chú chó dẫn đường, máy học từ chúng ta chứ không phải ngược lại.  

### **Giới thiệu về Machine Learning (ML)**  
Machine Learning (ML) - Học máy - đúng như tên gọi, là việc dạy máy tính "cách suy nghĩ" thay vì "suy nghĩ về cái gì". Mặc dù lĩnh vực này và dữ liệu lớn (Big Data) đã xuất hiện từ lâu, nhưng gần đây nó ngày càng phổ biến do rào cản tiếp cận thấp hơn, cho cả doanh nghiệp lẫn cá nhân. Điều này vừa là cơ hội vừa là thách thức. Điểm tích cực là ngày càng có nhiều người tiếp cận được các thuật toán mạnh mẽ để giải quyết nhiều vấn đề thực tế hơn. Tuy nhiên, điều tiêu cực là nhiều người sử dụng các công cụ này mà không thực sự hiểu rõ chúng, dẫn đến những kết luận sai lệch.  

Trước đây, mình đã từng ví von rằng nếu bạn yêu cầu ai đó đưa cho bạn một tua vít đầu chữ thập (*Philip screwdriver*), nhưng họ lại đưa cho bạn một tua vít dẹt hoặc tệ hơn là một cái búa, điều đó sẽ phản ánh rõ sự thiếu hiểu biết. Trong khoa học dữ liệu, điều này có thể khiến dự án thất bại hoặc thậm chí đưa ra quyết định sai lầm nghiêm trọng. Vì vậy, thay vì chỉ hướng dẫn bạn **làm thế nào**, mình sẽ giải thích **tại sao bạn làm như vậy**.  

### **Các loại Machine Learning**
Mục đích của ML là giải quyết các vấn đề của con người. ML có thể được chia thành ba loại chính:  

1. **Học có giám sát (*Supervised Learning*):** Cung cấp cho mô hình một tập dữ liệu huấn luyện chứa các đầu vào cùng với nhãn đầu ra đúng.  
2. **Học không giám sát (*Unsupervised Learning*):** Dữ liệu huấn luyện không có nhãn, mô hình tự phát hiện ra các mẫu từ dữ liệu.  
3. **Học củng cố (*Reinforcement Learning*):** Mô hình không được cung cấp ngay đáp án đúng, mà sẽ nhận được phản hồi sau một chuỗi hành động để dần dần học hỏi.  

Trong trường hợp của chúng ta, bài toán yêu cầu dự đoán một hành khách có "sống sót" hay không, tức là một bài toán **phân loại có giám sát (*Supervised Classification*)**.  

### **Các thuật toán Machine Learning phổ biến**
Có rất nhiều thuật toán ML, nhưng chúng có thể được chia thành bốn nhóm chính:  
- **Phân loại (*Classification*)**: Dùng khi biến mục tiêu (*target variable*) có giá trị rời rạc (như "sống sót" hoặc "không sống sót").  
- **Hồi quy (*Regression*)**: Dùng khi biến mục tiêu có giá trị liên tục (như dự đoán giá nhà).  
- **Phân cụm (*Clustering*)**: Tìm các nhóm dữ liệu tương tự mà không cần nhãn.  
- **Giảm chiều dữ liệu (*Dimensionality Reduction*)**: Giảm số lượng đặc trưng để mô hình đơn giản hơn.  

Vì bài toán của chúng ta là **phân loại (*Classification*)**, ta có thể chọn một trong các thuật toán dưới đây:  
- **Ensemble Methods** (Học tập tổ hợp)  
- **Generalized Linear Models (GLM)** (Hồi quy tuyến tính, Logistic Regression)  
- **Naive Bayes** (Xác suất Bayes)  
- **Nearest Neighbors** (*K-NN*)  
- **Support Vector Machines (*SVM*)**  
- **Decision Trees** (Cây quyết định)  
- **Discriminant Analysis** (Phân tích biệt số)  

### **Làm thế nào để chọn thuật toán Machine Learning tốt nhất?**
Một câu hỏi phổ biến của người mới học ML là **"Thuật toán nào là tốt nhất?"**. Câu trả lời là **không có thuật toán nào tốt nhất trong mọi trường hợp**. Điều này được chứng minh qua **Định lý Không bữa trưa miễn phí (*No Free Lunch Theorem - NFLT*)**, nói rằng **không có thuật toán nào vượt trội trong mọi tình huống**. Do đó, cách tiếp cận tốt nhất là thử nghiệm nhiều thuật toán khác nhau, tinh chỉnh chúng và so sánh kết quả.  

Một số nghiên cứu đã so sánh các thuật toán ML, chẳng hạn như:  
- **Caruana & Niculescu-Mizil (2006):** So sánh các thuật toán phổ biến.  
- **Ogutu et al. (2011):** Ứng dụng trong chọn lọc gen.  
- **Fernandez-Delgado et al. (2014):** So sánh 179 bộ phân loại từ 17 nhóm thuật toán.  
- **Thoma (2016):** So sánh thuật toán trong *Scikit-learn*.  

Ngoài ra, có một quan điểm khác: **"Dữ liệu nhiều quan trọng hơn thuật toán tốt"**, nghĩa là một thuật toán đơn giản nhưng có nhiều dữ liệu tốt vẫn có thể cho kết quả vượt trội hơn một thuật toán phức tạp nhưng dữ liệu nghèo nàn.  

### **Khởi đầu với Decision Tree, Random Forest, và Boosting**
Nếu bạn là người mới, mình khuyên bạn nên bắt đầu với **Cây quyết định (*Decision Tree*), Rừng ngẫu nhiên (*Random Forest*) và Boosting**.  
- Chúng dễ hiểu và dễ triển khai.  
- Chúng dễ tinh chỉnh hơn so với các thuật toán như *SVM*.  

Dưới đây, mình sẽ hướng dẫn cách chạy và so sánh nhiều thuật toán ML khác nhau. Tuy nhiên, phần còn lại của bài này sẽ tập trung vào việc học cách mô hình hóa dữ liệu bằng **Decision Trees và các biến thể của nó**. 🚀


In [None]:
#Machine Learning Algorithm (MLA) Selection and Initialization
MLA = [
    #Ensemble Methods
    ensemble.AdaBoostClassifier(),
    ensemble.BaggingClassifier(),
    ensemble.ExtraTreesClassifier(),
    ensemble.GradientBoostingClassifier(),
    ensemble.RandomForestClassifier(),

    #Gaussian Processes
    gaussian_process.GaussianProcessClassifier(),
    
    #GLM
    linear_model.LogisticRegressionCV(),
    linear_model.PassiveAggressiveClassifier(),
    linear_model.RidgeClassifierCV(),
    linear_model.SGDClassifier(),
    linear_model.Perceptron(),
    
    #Navies Bayes
    naive_bayes.BernoulliNB(),
    naive_bayes.GaussianNB(),
    
    #Nearest Neighbor
    neighbors.KNeighborsClassifier(),
    
    #SVM
    svm.SVC(probability=True),
    svm.NuSVC(probability=True),
    svm.LinearSVC(),
    
    #Trees    
    tree.DecisionTreeClassifier(),
    tree.ExtraTreeClassifier(),
    
    #Discriminant Analysis
    discriminant_analysis.LinearDiscriminantAnalysis(),
    discriminant_analysis.QuadraticDiscriminantAnalysis(),

    
    #xgboost: http://xgboost.readthedocs.io/en/latest/model.html
    XGBClassifier()    
    ]

#split dataset in cross-validation with this splitter class: http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ShuffleSplit.html#sklearn.model_selection.ShuffleSplit
#note: this is an alternative to train_test_split
cv_split = model_selection.ShuffleSplit(n_splits = 10, test_size = .3, train_size = .6, random_state = 0 ) # run model 10x with 60/30 split intentionally leaving out 10%

#create table to compare MLA metrics
MLA_columns = ['MLA Name', 'MLA Parameters','MLA Train Accuracy Mean', 'MLA Test Accuracy Mean', 'MLA Test Accuracy 3*STD' ,'MLA Time']
MLA_compare = pd.DataFrame(columns = MLA_columns)

#create table to compare MLA predictions
MLA_predict = data1[Target]

#index through MLA and save performance to table
row_index = 0
for alg in MLA:

    #set name and parameters
    MLA_name = alg.__class__.__name__
    MLA_compare.loc[row_index, 'MLA Name'] = MLA_name
    MLA_compare.loc[row_index, 'MLA Parameters'] = str(alg.get_params())
    
    #score model with cross validation: http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html#sklearn.model_selection.cross_validate
    cv_results = model_selection.cross_validate(alg, data1[data1_x_bin], data1[Target], cv  = cv_split, return_train_score=True )

    MLA_compare.loc[row_index, 'MLA Time'] = cv_results['fit_time'].mean()
    MLA_compare.loc[row_index, 'MLA Train Accuracy Mean'] = cv_results['train_score'].mean()
    MLA_compare.loc[row_index, 'MLA Test Accuracy Mean'] = cv_results['test_score'].mean()   
    #if this is a non-bias random sample, then +/-3 standard deviations (std) from the mean, should statistically capture 99.7% of the subsets
    MLA_compare.loc[row_index, 'MLA Test Accuracy 3*STD'] = cv_results['test_score'].std()*3   #let's know the worst that can happen!
    

    #save MLA predictions - see section 6 for usage
    alg.fit(data1[data1_x_bin], data1[Target])
    MLA_predict[MLA_name] = alg.predict(data1[data1_x_bin])
    
    row_index+=1
    
#print and sort table: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html
MLA_compare.sort_values(by = ['MLA Test Accuracy Mean'], ascending = False, inplace = True)
MLA_compare
#MLA_predict

In [None]:
#barplot using https://seaborn.pydata.org/generated/seaborn.barplot.html
sns.barplot(x='MLA Test Accuracy Mean', y = 'MLA Name', data = MLA_compare, color = 'm')

#prettify using pyplot: https://matplotlib.org/api/pyplot_api.html
plt.title('Machine Learning Algorithm Accuracy Score \n')
plt.xlabel('Accuracy Score (%)')
plt.ylabel('Algorithm')

## 5.1 Đánh giá Hiệu suất Mô hình  

Hãy cùng tổng kết lại: với một số bước làm sạch dữ liệu cơ bản, phân tích dữ liệu và áp dụng thuật toán Machine Learning (MLA), chúng ta có thể dự đoán việc vận chuyển hành khách với **độ chính xác khoảng 80%**. Không tệ chỉ với vài dòng code.  

Nhưng câu hỏi luôn được đặt ra là: **Chúng ta có thể làm tốt hơn không?** Và quan trọng hơn, **việc đầu tư thời gian có xứng đáng không?** Ví dụ, nếu chúng ta chỉ tăng độ chính xác thêm **0.1%**, nhưng phải mất **3 tháng phát triển**, thì có thực sự đáng không? Nếu bạn làm trong lĩnh vực nghiên cứu, câu trả lời có thể là "có". Nhưng nếu bạn làm trong kinh doanh, phần lớn câu trả lời sẽ là "không". Vì vậy, hãy luôn cân nhắc điều này khi cải thiện mô hình của mình.  

---

### **Khoa học Dữ liệu 101: Xác định Độ chính xác Cơ bản (Baseline Accuracy)**  

Trước khi quyết định **cải thiện mô hình**, chúng ta cần xác định xem mô hình hiện tại **có đáng để giữ lại không**. Để làm điều đó, hãy quay về **kiến thức cơ bản của khoa học dữ liệu**.  

🟢 **Đây là một bài toán nhị phân**, vì chỉ có hai kết quả có thể xảy ra:  
1️⃣ Hành khách được vận chuyển.  
2️⃣ Hành khách không được vận chuyển.  

Hãy nghĩ về nó như một **vấn đề tung đồng xu**. Nếu bạn có một đồng xu công bằng và đoán mặt **ngửa hoặc sấp**, thì **xác suất đoán đúng là 50%**. Vì vậy, chúng ta đặt **50% là mức hiệu suất mô hình thấp nhất**, bởi vì nếu mô hình của bạn còn kém hơn mức này, thì tôi có thể đơn giản **tung đồng xu** thay vì dùng mô hình của bạn.  

🚀 **Nhưng chúng ta có dữ liệu!**  
- Trong tập dữ liệu của chúng ta, có **4.378 / 8.693 (~50.4%)** hành khách được vận chuyển.  
- Nếu chúng ta **luôn dự đoán rằng 100% hành khách sẽ được vận chuyển**, chúng ta sẽ đúng **50.3%** thời gian.  

📌 Vì vậy, hãy đặt **51% là mức hiệu suất mô hình kém**, bởi vì nếu mô hình của bạn kém hơn mức này, tôi có thể **đơn giản dự đoán theo tần suất phổ biến nhất** mà vẫn có kết quả tốt hơn.  

---

### **Khoa học Dữ liệu 101: Cách Tạo Mô hình của Riêng Bạn**  

Mô hình của chúng ta đang dần được cải thiện, nhưng liệu chúng ta có thể **làm tốt hơn không**? Liệu có **dấu hiệu (signal)** nào trong dữ liệu không?  

🔍 Để minh họa điều này, chúng ta sẽ xây dựng một **mô hình cây quyết định (Decision Tree)**, vì đây là mô hình **dễ hình dung nhất** và chỉ yêu cầu **các phép tính cộng và nhân đơn giản**.  

📌 **Cách xây dựng cây quyết định:**  
- Chúng ta cần đặt các câu hỏi để **phân nhóm dữ liệu** sao cho nhóm "được vận chuyển" (1) và "không được vận chuyển" (0) trở nên đồng nhất.  
- Đây là **sự kết hợp giữa khoa học và nghệ thuật**, giống như trò chơi "21 câu hỏi".  
- Nếu bạn muốn thực hành, hãy tải tập dữ liệu huấn luyện, nhập vào **Excel** và tạo **Pivot Table** để phân tích từng yếu tố sau.  

🎯 **Mục tiêu:** Xây dựng một cây quyết định để **tách nhóm "được vận chuyển" và "không được vận chuyển"**.  

🚀 **Câu hỏi phân nhóm (Decision Rules):**  
1️⃣ **Trẻ em (0-18 tuổi) có tỷ lệ được vận chuyển cao hơn.**  
2️⃣ **Những người được vận chuyển có xu hướng chi tiêu ít hơn.**  
3️⃣ **Người từ Trái Đất có ít cơ hội được vận chuyển hơn, trong khi người từ châu Âu thì may mắn hơn.**  
4️⃣ **Những người ở trong buồng đông lạnh (cryopod) có khả năng được vận chuyển cao.**  
5️⃣ **Vị trí của cabin cũng ảnh hưởng đến khả năng vận chuyển.**  

📌 **Kết quả:**  
- Chỉ với **một số quy tắc đơn giản**, chúng ta đã đạt được **độ chính xác 70%**.  
- Nếu chúng ta xếp hạng mô hình theo thang **Tệ - Kém - Tốt - Khá - Xuất sắc**, thì **70% sẽ được xếp vào mức "Tốt"**.  
- **Nhưng liệu chúng ta có thể làm tốt hơn mô hình tự tạo này không?** 🤔  

---

### **📌 Trước khi tiếp tục, hãy viết lại các bước trên thành mã Python!**  

Hãy nhớ rằng, quá trình trên **được thực hiện thủ công**, nhưng chúng ta có thể **tự động hóa** bằng các thuật toán MLA.  

🔍 **Ví MLA giống như một máy tính TI-89 trong kỳ thi Toán**.  
- Nó **rất mạnh mẽ** và giúp bạn thực hiện hầu hết các công việc tính toán.  
- **Nhưng nếu bạn không hiểu bài toán**, thì ngay cả máy tính mạnh nhất cũng **không thể giúp bạn giải bài**.  

📝 Vì vậy, hãy nghiên cứu kỹ phần tiếp theo trước khi đi sâu vào Machine Learning! 🚀  

📖 **Tài liệu tham khảo:**  
- [Hướng dẫn về Cross-Validation và Decision Tree](http://www.cs.utoronto.ca/~fidler/teaching/2015/slides/CSC411/tutorial3_CrossVal-DTs.pdf)



In [None]:
#IMPORTANT: This is a handmade model for learning purposes only.
#However, it is possible to create your own predictive model without a fancy algorithm :)

#coin flip model with random 1/survived 0/died

#iterate over dataFrame rows as (index, Series) pairs: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.html
for index, row in data1.iterrows(): 
    #random number generator: https://docs.python.org/2/library/random.html
    if random.random() > .5:     # Random float x, 0.0 <= x < 1.0    
        data1.at[index, 'Random_Predict'] = 1 # predict survived/1
    else: 
        data1.at[index, 'Random_Predict'] = 0 # predict died/0
    

#score random guess of survival. Use shortcut 1 = Right Guess and 0 = Wrong Guess
#the mean of the column will then equal the accuracy
data1['Random_Score'] = 0 #assume prediction wrong
data1.loc[(data1['Transported'] == data1['Random_Predict']), 'Random_Score'] = 1 #set to 1 for correct prediction
print('Coin Flip Model Accuracy: {:.2f}%'.format(data1['Random_Score'].mean()*100))

#we can also use scikit's accuracy_score function to save us a few lines of code
#http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score
print('Coin Flip Model Accuracy w/SciKit: {:.2f}%'.format(metrics.accuracy_score(data1[Target], data1['Random_Predict'])*100))


In [None]:
data1.info()

In [None]:
#group by or pivot table: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html
pivot_age = data1.groupby(['Age_group'])['Transported'].mean()
print('Survival Decision Tree age Node: \n',pivot_age)

pivot_vip = data1.groupby(['VIP_Code'])['Transported'].mean()
print('\n Survival Decision Tree vip Node: \n',pivot_vip)

pivot_HomePlanet = data1.groupby(['HomePlanet_Code'])['Transported'].mean()
print('\n Survival Decision Tree HomePlanet Node: \n',pivot_HomePlanet)

pivot_CryoSleep = data1.groupby(['CryoSleep_Code'])['Transported'].mean()
print('\n Survival Decision Tree CryoSleep Node: \n',pivot_CryoSleep)

pivot_Cabin_deck_Code = data1.groupby(['Cabin_deck_Code'])['Transported'].mean()
print('\n Survival Decision Tree Cabin_deck_Code Node: \n',pivot_Cabin_deck_Code)

pivot_Cabin_side_Code = data1.groupby(['Cabin_side_Code'])['Transported'].mean()
print('\n Survival Decision Tree Cabin_side_Code Node: \n',pivot_Cabin_side_Code)

# pivot_male = data1[data1.Sex=='male'].groupby(['Sex','Title'])['Transported'].mean()
# print('\n\nSurvival Decision Tree w/Male Node: \n',pivot_male)

In [None]:
#handmade data model using brain power (and Microsoft Excel Pivot Tables for quick calculations)
def mytree(df):
    
    #initialize table to store predictions
    Model = pd.DataFrame(data = {'Predict':[]})

    for index, row in df.iterrows():
        #Question 1: Age_group (55-69%)
        if (df.loc[index, 'Age_group'] == 'Age_0-12') or (df.loc[index, 'Age_group'] == 'Age_13-17'):
                  Model.loc[index, 'Predict'] = 1
                
        #Question 2: HomePlanet_Code (66-67%)
        if (df.loc[index, 'HomePlanet_Code'] == 0):
                  Model.loc[index, 'Predict'] = 0
        if (df.loc[index, 'HomePlanet_Code'] == 1):
                  Model.loc[index, 'Predict'] = 1 
        
        #Question 3: VIP_Code (71%)
        if (df.loc[index, 'VIP_Code'] == 1):
                  Model.loc[index, 'Predict'] = 0
        
        #Question 4: CryoSleep_Code (68-81%)
        if (df.loc[index, 'CryoSleep_Code'] == 0):
                  Model.loc[index, 'Predict'] = 0
        if (df.loc[index, 'CryoSleep_Code'] == 1):
                  Model.loc[index, 'Predict'] = 1  
                
        #Question 5: Cabin_deck_Code_Code (73-80%)
        if (df.loc[index, 'Cabin_deck_Code'] == 7):
                  Model.loc[index, 'Predict'] = 0
        if (df.loc[index, 'Cabin_deck_Code'] == 1):
                  Model.loc[index, 'Predict'] = 1
        if (df.loc[index, 'Cabin_deck_Code'] == 2):
                  Model.loc[index, 'Predict'] = 1
        if (df.loc[index, 'Cabin_deck_Code'] == 4):
                  Model.loc[index, 'Predict'] = 0                
        
        #Question 6: Cabin_side_Code (72%)
        if (df.loc[index, 'Cabin_side_Code'] == 2):
                  Model.loc[index, 'Predict'] = 0
                
        
    return Model


#model data
Tree_Predict = mytree(data1)
print('Decision Tree Model Accuracy/Precision Score: {:.2f}%\n'.format(metrics.accuracy_score(data1['Transported'], Tree_Predict)*100))


#Accuracy Summary Report with http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report
#Where recall score = (true positives)/(true positive + false negative) w/1 being best:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score
#And F1 score = weighted average of precision and recall w/1 being best: http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score
print(metrics.classification_report(data1['Transported'], Tree_Predict))



In [None]:
#Plot Accuracy Summary
#Credit: http://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
import itertools
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

# Compute confusion matrix
cnf_matrix = metrics.confusion_matrix(data1['Transported'], Tree_Predict)
np.set_printoptions(precision=2)

class_names = ['NotTransported', 'Transported']
# Plot non-normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names,
                      title='Confusion matrix, without normalization')

# Plot normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=True, 
                      title='Normalized confusion matrix')



## 5.11 Hiệu suất Mô hình với Cross-Validation (CV)

Ở bước 5.0, chúng ta đã sử dụng hàm [`sklearn cross_validate`](http://scikit-learn.org/stable/modules/cross_validation.html#multimetric-cross-validation) để huấn luyện, kiểm tra và đánh giá hiệu suất của mô hình.

Hãy nhớ rằng, điều quan trọng là chúng ta phải sử dụng các tập dữ liệu khác nhau cho quá trình huấn luyện và kiểm tra mô hình. Nếu không, mô hình sẽ bị **overfitting** (quá khớp). Điều này có nghĩa là mô hình sẽ hoạt động rất tốt trên dữ liệu đã thấy trước đó, nhưng lại kém hiệu quả khi dự đoán trên dữ liệu mới—và đó không phải là dự đoán thực sự. Nó giống như việc gian lận trong một bài kiểm tra ở trường để đạt điểm tuyệt đối, nhưng khi thi thật thì lại trượt vì thực ra chưa bao giờ thực sự hiểu bài. Điều tương tự cũng xảy ra với machine learning.

**Cross-Validation (CV)** là một cách giúp chia tập dữ liệu thành nhiều phần và đánh giá mô hình nhiều lần. Điều này giúp chúng ta có cái nhìn tổng quan hơn về hiệu suất của mô hình trên dữ liệu chưa từng thấy. Dù tốn nhiều tài nguyên tính toán hơn, nhưng đây là một bước quan trọng để tránh có được sự tự tin sai lầm. Điều này đặc biệt hữu ích trong các cuộc thi trên Kaggle hoặc trong bất kỳ trường hợp nào mà tính ổn định và sự chính xác là yếu tố quan trọng.

Ngoài CV, chúng ta cũng sử dụng một phiên bản tùy chỉnh của [`sklearn train_test_split`](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection), giúp tạo ra sự ngẫu nhiên trong quá trình phân chia dữ liệu kiểm tra. Dưới đây là hình ảnh minh họa về cách chia mặc định của CV.


<a id="ch9"></a>
# 5.12 Điều chỉnh Mô hình với Hyper-Parameters

Khi chúng ta sử dụng [sklearn Decision Tree (DT) Classifier](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier), chúng ta đã chấp nhận tất cả các giá trị mặc định của hàm. Điều này mở ra cơ hội để xem cách các thiết lập khác nhau của **hyper-parameter** sẽ ảnh hưởng đến độ chính xác của mô hình. [(Nhấn vào đây để tìm hiểu thêm về parameters và hyper-parameters.)](https://www.youtube.com/watch?v=EJtTNboTsm8)

Tuy nhiên, để điều chỉnh một mô hình, trước tiên chúng ta cần thực sự hiểu nó. Đó là lý do tại sao ở các phần trước, tôi đã dành thời gian để giải thích cách dự đoán hoạt động. Bây giờ, hãy cùng tìm hiểu thêm về thuật toán **Decision Tree (DT)**.

**Nguồn:** [sklearn](http://scikit-learn.org/stable/modules/tree.html#classification)

## ✅ **Ưu điểm của cây quyết định (Decision Tree):**
- Dễ hiểu và dễ diễn giải. Cây quyết định có thể được trực quan hóa.
- Yêu cầu rất ít công tác chuẩn bị dữ liệu. Trong khi các phương pháp khác thường yêu cầu chuẩn hóa dữ liệu, tạo biến giả (dummy variables), và xử lý giá trị trống thì Decision Tree không cần.
- Chi phí tính toán thấp (tỉ lệ logarit với số điểm dữ liệu được sử dụng để huấn luyện cây).
- Có thể xử lý cả dữ liệu số và dữ liệu phân loại, trong khi nhiều thuật toán khác chỉ hoạt động tốt với một loại dữ liệu.
- Có thể xử lý các bài toán nhiều đầu ra (multi-output).
- Là một mô hình **white box** (hộp trắng), dễ dàng giải thích các điều kiện của mô hình bằng logic Boolean. Ngược lại, các mô hình **black box** (hộp đen) như mạng nơ-ron nhân tạo (ANN) có thể rất khó diễn giải.
- Có thể kiểm tra độ tin cậy của mô hình bằng các bài kiểm tra thống kê.
- Hoạt động tốt ngay cả khi các giả định của mô hình không hoàn toàn chính xác.

## ❌ **Nhược điểm của cây quyết định:**
- Có thể tạo ra các cây quyết định quá phức tạp, không tổng quát hóa dữ liệu tốt (**overfitting**). Để khắc phục, cần sử dụng các cơ chế như **pruning** (cắt tỉa), đặt giới hạn số mẫu tối thiểu tại một node lá, hoặc đặt độ sâu tối đa của cây.
- Nhạy cảm với dữ liệu: Chỉ cần một chút thay đổi trong tập dữ liệu, cây quyết định có thể thay đổi hoàn toàn.
- Bài toán tìm cây quyết định tối ưu là **NP-complete**, do đó hầu hết các thuật toán hiện nay đều dựa trên các phương pháp tham lam (**greedy algorithm**) để tìm lời giải cục bộ.
- Một số loại bài toán khó học bằng cây quyết định, ví dụ như bài toán **XOR**, **parity**, hoặc **multiplexer**.
- Có thể tạo ra các cây có độ chệch cao nếu một số lớp dữ liệu chiếm ưu thế. Do đó, nên cân bằng tập dữ liệu trước khi huấn luyện mô hình.

---




In [None]:
#base model
dtree = tree.DecisionTreeClassifier(random_state = 0)
base_results = model_selection.cross_validate(dtree, data1[data1_x_bin], data1[Target], cv  = cv_split, return_train_score=True )
dtree.fit(data1[data1_x_bin], data1[Target])

print('BEFORE DT Parameters: ', dtree.get_params())
print("BEFORE DT Training w/bin score mean: {:.2f}". format(base_results['train_score'].mean()*100)) 
print("BEFORE DT Test w/bin score mean: {:.2f}". format(base_results['test_score'].mean()*100))
print("BEFORE DT Test w/bin score 3*std: +/- {:.2f}". format(base_results['test_score'].std()*100*3))
#print("BEFORE DT Test w/bin set score min: {:.2f}". format(base_results['test_score'].min()*100))
print('-'*10)


#tune hyper-parameters: http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier
param_grid = {'criterion': ['gini', 'entropy'],  #scoring methodology; two supported formulas for calculating information gain - default is gini
              #'splitter': ['best', 'random'], #splitting methodology; two supported strategies - default is best
              'max_depth': [2,4,6,8,10,None], #max depth tree can grow; default is none
              #'min_samples_split': [2,5,10,.03,.05], #minimum subset size BEFORE new split (fraction is % of total); default is 2
              #'min_samples_leaf': [1,5,10,.03,.05], #minimum subset size AFTER new split split (fraction is % of total); default is 1
              #'max_features': [None, 'auto'], #max features to consider when performing split; default none or all
              'random_state': [0] #seed or control random number generator: https://www.quora.com/What-is-seed-in-random-number-generation
             }

#print(list(model_selection.ParameterGrid(param_grid)))

#choose best model with grid_search: #http://scikit-learn.org/stable/modules/grid_search.html#grid-search
#http://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_digits.html
tune_model = model_selection.GridSearchCV(tree.DecisionTreeClassifier(), param_grid=param_grid, scoring = 'roc_auc', cv = cv_split, return_train_score=True )
tune_model.fit(data1[data1_x_bin], data1[Target])

#print(tune_model.cv_results_.keys())
#print(tune_model.cv_results_['params'])
print('AFTER DT Parameters: ', tune_model.best_params_)
#print(tune_model.cv_results_['mean_train_score'])
print("AFTER DT Training w/bin score mean: {:.2f}". format(tune_model.cv_results_['mean_train_score'][tune_model.best_index_]*100)) 
#print(tune_model.cv_results_['mean_test_score'])
print("AFTER DT Test w/bin score mean: {:.2f}". format(tune_model.cv_results_['mean_test_score'][tune_model.best_index_]*100))
print("AFTER DT Test w/bin score 3*std: +/- {:.2f}". format(tune_model.cv_results_['std_test_score'][tune_model.best_index_]*100*3))
print('-'*10)


#duplicates gridsearchcv
#tune_results = model_selection.cross_validate(tune_model, data1[data1_x_bin], data1[Target], cv  = cv_split)

#print('AFTER DT Parameters: ', tune_model.best_params_)
#print("AFTER DT Training w/bin set score mean: {:.2f}". format(tune_results['train_score'].mean()*100)) 
#print("AFTER DT Test w/bin set score mean: {:.2f}". format(tune_results['test_score'].mean()*100))
#print("AFTER DT Test w/bin set score min: {:.2f}". format(tune_results['test_score'].min()*100))
#print('-'*10)
#base model
dtree = tree.DecisionTreeClassifier(random_state = 0)
base_results = model_selection.cross_validate(dtree, data1[data1_x_bin], data1[Target], cv  = cv_split, return_train_score=True )
dtree.fit(data1[data1_x_bin], data1[Target])

print('BEFORE DT Parameters: ', dtree.get_params())
print("BEFORE DT Training w/bin score mean: {:.2f}". format(base_results['train_score'].mean()*100)) 
print("BEFORE DT Test w/bin score mean: {:.2f}". format(base_results['test_score'].mean()*100))
print("BEFORE DT Test w/bin score 3*std: +/- {:.2f}". format(base_results['test_score'].std()*100*3))
#print("BEFORE DT Test w/bin set score min: {:.2f}". format(base_results['test_score'].min()*100))
print('-'*10)


#tune hyper-parameters: http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier
param_grid = {'criterion': ['gini', 'entropy'],  #scoring methodology; two supported formulas for calculating information gain - default is gini
              #'splitter': ['best', 'random'], #splitting methodology; two supported strategies - default is best
              'max_depth': [2,4,6,8,10,None], #max depth tree can grow; default is none
              #'min_samples_split': [2,5,10,.03,.05], #minimum subset size BEFORE new split (fraction is % of total); default is 2
              #'min_samples_leaf': [1,5,10,.03,.05], #minimum subset size AFTER new split split (fraction is % of total); default is 1
              #'max_features': [None, 'auto'], #max features to consider when performing split; default none or all
              'random_state': [0] #seed or control random number generator: https://www.quora.com/What-is-seed-in-random-number-generation
             }

#print(list(model_selection.ParameterGrid(param_grid)))

#choose best model with grid_search: #http://scikit-learn.org/stable/modules/grid_search.html#grid-search
#http://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_digits.html
tune_model = model_selection.GridSearchCV(tree.DecisionTreeClassifier(), param_grid=param_grid, scoring = 'roc_auc', cv = cv_split, return_train_score=True )
tune_model.fit(data1[data1_x_bin], data1[Target])

#print(tune_model.cv_results_.keys())
#print(tune_model.cv_results_['params'])
print('AFTER DT Parameters: ', tune_model.best_params_)
#print(tune_model.cv_results_['mean_train_score'])
print("AFTER DT Training w/bin score mean: {:.2f}". format(tune_model.cv_results_['mean_train_score'][tune_model.best_index_]*100)) 
#print(tune_model.cv_results_['mean_test_score'])
print("AFTER DT Test w/bin score mean: {:.2f}". format(tune_model.cv_results_['mean_test_score'][tune_model.best_index_]*100))
print("AFTER DT Test w/bin score 3*std: +/- {:.2f}". format(tune_model.cv_results_['std_test_score'][tune_model.best_index_]*100*3))
print('-'*10)


#duplicates gridsearchcv
#tune_results = model_selection.cross_validate(tune_model, data1[data1_x_bin], data1[Target], cv  = cv_split)

#print('AFTER DT Parameters: ', tune_model.best_params_)
#print("AFTER DT Training w/bin set score mean: {:.2f}". format(tune_results['train_score'].mean()*100)) 
#print("AFTER DT Test w/bin set score mean: {:.2f}". format(tune_results['test_score'].mean()*100))
#print("AFTER DT Test w/bin set score min: {:.2f}". format(tune_results['test_score'].min()*100))
#print('-'*10)


<a id="ch10"></a>  
## 5.13 Tinh chỉnh mô hình với lựa chọn đặc trưng  

Như đã đề cập từ đầu, có nhiều biến dự đoán hơn không có nghĩa là mô hình sẽ tốt hơn, mà quan trọng là chọn đúng biến dự đoán. Vì vậy, một bước quan trọng trong quá trình xây dựng mô hình là **lựa chọn đặc trưng**.  

[Sklearn](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_selection) cung cấp nhiều phương pháp để thực hiện lựa chọn đặc trưng. Trong phần này, chúng ta sẽ sử dụng **loại bỏ đặc trưng đệ quy (Recursive Feature Elimination - RFE) kết hợp với Cross Validation (CV)** để tối ưu hóa việc lựa chọn đặc trưng.  

Tham khảo tài liệu về RFE với CV tại đây: [RFECV - Sklearn](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html#sklearn.feature_selection.RFECV).  


In [None]:
#base model
print('BEFORE DT RFE Training Shape Old: ', data1[data1_x_bin].shape) 
print('BEFORE DT RFE Training Columns Old: ', data1[data1_x_bin].columns.values)

print("BEFORE DT RFE Training w/bin score mean: {:.2f}". format(base_results['train_score'].mean()*100)) 
print("BEFORE DT RFE Test w/bin score mean: {:.2f}". format(base_results['test_score'].mean()*100))
print("BEFORE DT RFE Test w/bin score 3*std: +/- {:.2f}". format(base_results['test_score'].std()*100*3))
print('-'*10)



#feature selection
dtree_rfe = feature_selection.RFECV(dtree, step = 1, scoring = 'accuracy', cv = cv_split)
dtree_rfe.fit(data1[data1_x_bin], data1[Target])

#transform x&y to reduced features and fit new model
#alternative: can use pipeline to reduce fit and transform steps: http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html
X_rfe = data1[data1_x_bin].columns.values[dtree_rfe.get_support()]
rfe_results = model_selection.cross_validate(dtree, data1[X_rfe], data1[Target], cv  = cv_split, return_train_score=True )

#print(dtree_rfe.grid_scores_)
print('AFTER DT RFE Training Shape New: ', data1[X_rfe].shape) 
print('AFTER DT RFE Training Columns New: ', X_rfe)

print("AFTER DT RFE Training w/bin score mean: {:.2f}". format(rfe_results['train_score'].mean()*100)) 
print("AFTER DT RFE Test w/bin score mean: {:.2f}". format(rfe_results['test_score'].mean()*100))
print("AFTER DT RFE Test w/bin score 3*std: +/- {:.2f}". format(rfe_results['test_score'].std()*100*3))
print('-'*10)


#tune rfe model
rfe_tune_model = model_selection.GridSearchCV(tree.DecisionTreeClassifier(), param_grid=param_grid, scoring = 'roc_auc', cv = cv_split, return_train_score=True )
rfe_tune_model.fit(data1[X_rfe], data1[Target])

#print(rfe_tune_model.cv_results_.keys())
#print(rfe_tune_model.cv_results_['params'])
print('AFTER DT RFE Tuned Parameters: ', rfe_tune_model.best_params_)
#print(rfe_tune_model.cv_results_['mean_train_score'])
print("AFTER DT RFE Tuned Training w/bin score mean: {:.2f}". format(rfe_tune_model.cv_results_['mean_train_score'][tune_model.best_index_]*100)) 
#print(rfe_tune_model.cv_results_['mean_test_score'])
print("AFTER DT RFE Tuned Test w/bin score mean: {:.2f}". format(rfe_tune_model.cv_results_['mean_test_score'][tune_model.best_index_]*100))
print("AFTER DT RFE Tuned Test w/bin score 3*std: +/- {:.2f}". format(rfe_tune_model.cv_results_['std_test_score'][tune_model.best_index_]*100*3))
print('-'*10)

In [None]:
#Graph MLA version of Decision Tree: http://scikit-learn.org/stable/modules/generated/sklearn.tree.export_graphviz.html
import graphviz 
dot_data = tree.export_graphviz(dtree, out_file=None, 
                                feature_names = data1_x_bin, class_names = True,
                                filled = True, rounded = True)
graph = graphviz.Source(dot_data) 
graph

<a id="ch11"></a>
# Bước 6: Xác thực và Triển khai

Bước tiếp theo là chuẩn bị cho việc nộp kết quả bằng cách sử dụng dữ liệu kiểm tra.


In [None]:
#compare algorithm predictions with each other, where 1 = exactly similar and 0 = exactly opposite
#there are some 1's, but enough blues and light reds to create a "super algorithm" by combining them
correlation_heatmap(MLA_predict)

In [None]:
#why choose one model, when you can pick them all with voting classifier
#http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingClassifier.html
#removed models w/o attribute 'predict_proba' required for vote classifier and models with a 1.0 correlation to another model

vote_est = [
    #Ensemble Methods: http://scikit-learn.org/stable/modules/ensemble.html
    ('ada', ensemble.AdaBoostClassifier()),
    ('bc', ensemble.BaggingClassifier()),
    ('etc',ensemble.ExtraTreesClassifier()),
    ('gbc', ensemble.GradientBoostingClassifier()),
    ('rfc', ensemble.RandomForestClassifier()),

    #Gaussian Processes: http://scikit-learn.org/stable/modules/gaussian_process.html#gaussian-process-classification-gpc
    ('gpc', gaussian_process.GaussianProcessClassifier()),
    
    #GLM: http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
    ('lr', linear_model.LogisticRegressionCV()),
    
    #Navies Bayes: http://scikit-learn.org/stable/modules/naive_bayes.html
    ('bnb', naive_bayes.BernoulliNB()),
    ('gnb', naive_bayes.GaussianNB()),
    
    #Nearest Neighbor: http://scikit-learn.org/stable/modules/neighbors.html
    ('knn', neighbors.KNeighborsClassifier()),
    
    #SVM: http://scikit-learn.org/stable/modules/svm.html
    ('svc', svm.SVC(probability=True)),
    
    #xgboost: http://xgboost.readthedocs.io/en/latest/model.html
   ('xgb', XGBClassifier())

]

#Hard Vote or majority rules
vote_hard = ensemble.VotingClassifier(estimators = vote_est , voting = 'hard')
vote_hard_cv = model_selection.cross_validate(vote_hard, data1[data1_x_bin], data1[Target], cv  = cv_split, return_train_score=True )
vote_hard.fit(data1[data1_x_bin], data1[Target])

print("Hard Voting Training w/bin score mean: {:.2f}". format(vote_hard_cv['train_score'].mean()*100)) 
print("Hard Voting Test w/bin score mean: {:.2f}". format(vote_hard_cv['test_score'].mean()*100))
print("Hard Voting Test w/bin score 3*std: +/- {:.2f}". format(vote_hard_cv['test_score'].std()*100*3))
print('-'*10)

#Soft Vote or weighted probabilities
vote_soft = ensemble.VotingClassifier(estimators = vote_est , voting = 'soft')
vote_soft_cv = model_selection.cross_validate(vote_soft, data1[data1_x_bin], data1[Target], cv  = cv_split, return_train_score=True )
vote_soft.fit(data1[data1_x_bin], data1[Target])

print("Soft Voting Training w/bin score mean: {:.2f}". format(vote_soft_cv['train_score'].mean()*100)) 
print("Soft Voting Test w/bin score mean: {:.2f}". format(vote_soft_cv['test_score'].mean()*100))
print("Soft Voting Test w/bin score 3*std: +/- {:.2f}". format(vote_soft_cv['test_score'].std()*100*3))
print('-'*10)

In [None]:
#WARNING: Running is very computational intensive and time expensive.
#Code is written for experimental/developmental purposes and not production ready!

#Hyperparameter Tune with GridSearchCV: http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
grid_n_estimator = [10, 50, 100, 300]
grid_ratio = [.1, .25, .5, .75, 1.0]
grid_learn = [.01, .03, .05, .1, .25]
grid_max_depth = [2, 4, 6, 8, 10, None]
grid_min_samples = [5, 10, .03, .05, .10]
grid_criterion = ['gini', 'entropy']
grid_bool = [True, False]
grid_seed = [0]


grid_param = [
            [{
            #AdaBoostClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html
            'n_estimators': grid_n_estimator, #default=50
            'learning_rate': grid_learn, #default=1
            #'algorithm': ['SAMME', 'SAMME.R'], #default=’SAMME.R
            'random_state': grid_seed
            }],       
    
            [{
            #BaggingClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html#sklearn.ensemble.BaggingClassifier
            'n_estimators': grid_n_estimator, #default=10
            'max_samples': grid_ratio, #default=1.0
            'random_state': grid_seed
             }],
    
            [{
            #ExtraTreesClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier
            'n_estimators': grid_n_estimator, #default=10
            'criterion': grid_criterion, #default=”gini”
            'max_depth': grid_max_depth, #default=None
            'random_state': grid_seed
             }],

            [{
            #GradientBoostingClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier
            #'loss': ['deviance', 'exponential'], #default=’deviance’
            'learning_rate': [.05], #default=0.1 -- 12/31/17 set to reduce runtime -- The best parameter for GradientBoostingClassifier is {'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 300, 'random_state': 0} with a runtime of 264.45 seconds.
            'n_estimators': [300], #default=100 -- 12/31/17 set to reduce runtime -- The best parameter for GradientBoostingClassifier is {'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 300, 'random_state': 0} with a runtime of 264.45 seconds.
            #'criterion': ['friedman_mse', 'mse', 'mae'], #default=”friedman_mse”
            'max_depth': grid_max_depth, #default=3   
            'random_state': grid_seed
             }],
    
            [{
            #RandomForestClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier
            'n_estimators': grid_n_estimator, #default=10
            'criterion': grid_criterion, #default=”gini”
            'max_depth': grid_max_depth, #default=None
            'oob_score': [True], #default=False -- 12/31/17 set to reduce runtime -- The best parameter for RandomForestClassifier is {'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'oob_score': True, 'random_state': 0} with a runtime of 146.35 seconds.
            'random_state': grid_seed
             }],
    
            [{    
            #GaussianProcessClassifier
            'max_iter_predict': grid_n_estimator, #default: 100
            'random_state': grid_seed
            }],        
    
            [{
            #LogisticRegressionCV - http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegressionCV.html#sklearn.linear_model.LogisticRegressionCV
            'fit_intercept': grid_bool, #default: True
            #'penalty': ['l1','l2'],
            'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'], #default: lbfgs
            'random_state': grid_seed
             }],            
    
            [{
            #BernoulliNB - http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB
            'alpha': grid_ratio, #default: 1.0
             }],    
    
            #GaussianNB - 
            [{}],
    
            [{
            #KNeighborsClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier
            'n_neighbors': [1,2,3,4,5,6,7], #default: 5
            'weights': ['uniform', 'distance'], #default = ‘uniform’
            'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute']
            }],            
    
            [{
            #SVC - http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC
            #http://blog.hackerearth.com/simple-tutorial-svm-parameter-tuning-python-r
            #'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
            'C': [1,2,3,4,5], #default=1.0
            'gamma': grid_ratio, #edfault: auto
            'decision_function_shape': ['ovo', 'ovr'], #default:ovr
            'probability': [True],
            'random_state': grid_seed
             }],
    
            [{
            #XGBClassifier - http://xgboost.readthedocs.io/en/latest/parameter.html
            'learning_rate': grid_learn, #default: .3
            'max_depth': [1,2,4,6,8,10], #default 2
            'n_estimators': grid_n_estimator, 
            'seed': grid_seed  
             }]   
        ]

start_total = time.perf_counter() #https://docs.python.org/3/library/time.html#time.perf_counter
for clf, param in zip (vote_est, grid_param): #https://docs.python.org/3/library/functions.html#zip

    #print(clf[1]) #vote_est is a list of tuples, index 0 is the name and index 1 is the algorithm
    #print(param)    
    
    start = time.perf_counter()        
    best_search = model_selection.GridSearchCV(estimator = clf[1], param_grid = param, cv = cv_split, scoring = 'roc_auc')
    best_search.fit(data1[data1_x_bin], data1[Target])
    run = time.perf_counter() - start

    best_param = best_search.best_params_
    print('The best parameter for {} is {} with a runtime of {:.2f} seconds.'.format(clf[1].__class__.__name__, best_param, run))
    clf[1].set_params(**best_param) 


run_total = time.perf_counter() - start_total
print('Total optimization time was {:.2f} minutes.'.format(run_total/60))

print('-'*10)

In [None]:
#Hard Vote or majority rules w/Tuned Hyperparameters
grid_hard = ensemble.VotingClassifier(estimators = vote_est , voting = 'hard')
grid_hard_cv = model_selection.cross_validate(grid_hard, data1[data1_x_bin], data1[Target], cv  = cv_split, return_train_score=True)
grid_hard.fit(data1[data1_x_bin], data1[Target])

print("Hard Voting w/Tuned Hyperparameters Training w/bin score mean: {:.2f}". format(grid_hard_cv['train_score'].mean()*100)) 
print("Hard Voting w/Tuned Hyperparameters Test w/bin score mean: {:.2f}". format(grid_hard_cv['test_score'].mean()*100))
print("Hard Voting w/Tuned Hyperparameters Test w/bin score 3*std: +/- {:.2f}". format(grid_hard_cv['test_score'].std()*100*3))
print('-'*10)

#Soft Vote or weighted probabilities w/Tuned Hyperparameters
grid_soft = ensemble.VotingClassifier(estimators = vote_est , voting = 'soft')
grid_soft_cv = model_selection.cross_validate(grid_soft, data1[data1_x_bin], data1[Target], cv  = cv_split, return_train_score=True)
grid_soft.fit(data1[data1_x_bin], data1[Target])

print("Soft Voting w/Tuned Hyperparameters Training w/bin score mean: {:.2f}". format(grid_soft_cv['train_score'].mean()*100)) 
print("Soft Voting w/Tuned Hyperparameters Test w/bin score mean: {:.2f}". format(grid_soft_cv['test_score'].mean()*100))
print("Soft Voting w/Tuned Hyperparameters Test w/bin score 3*std: +/- {:.2f}". format(grid_soft_cv['test_score'].std()*100*3))
print('-'*10)

In [None]:
#prepare data for modeling
print(data_val.info())
print("-"*10)
#data_val.sample(10)

#handmade decision tree - submission score = 0.77990
# data_val['Transported'] = mytree(data_val).astype(int)  # 0 V7
data_val['Transported'] = mytree(data_val)

#decision tree w/full dataset modeling submission score: defaults= 0.76555, tuned= 0.77990
#submit_dt = tree.DecisionTreeClassifier()
#submit_dt = model_selection.GridSearchCV(tree.DecisionTreeClassifier(), param_grid=param_grid, scoring = 'roc_auc', cv = cv_split)
#submit_dt.fit(data1[data1_x_bin], data1[Target])
#print('Best Parameters: ', submit_dt.best_params_) #Best Parameters:  {'criterion': 'gini', 'max_depth': 4, 'random_state': 0}
#data_val['Survived'] = submit_dt.predict(data_val[data1_x_bin])


#bagging w/full dataset modeling submission score: defaults= 0.75119, tuned= 0.77990
#submit_bc = ensemble.BaggingClassifier()
#submit_bc = model_selection.GridSearchCV(ensemble.BaggingClassifier(), param_grid= {'n_estimators':grid_n_estimator, 'max_samples': grid_ratio, 'oob_score': grid_bool, 'random_state': grid_seed}, scoring = 'roc_auc', cv = cv_split)
#submit_bc.fit(data1[data1_x_bin], data1[Target])
#print('Best Parameters: ', submit_bc.best_params_) #Best Parameters:  {'max_samples': 0.25, 'n_estimators': 500, 'oob_score': True, 'random_state': 0}
#data_val['Survived'] = submit_bc.predict(data_val[data1_x_bin])


#extra tree w/full dataset modeling submission score: defaults= 0.76555, tuned= 0.77990
#submit_etc = ensemble.ExtraTreesClassifier()
#submit_etc = model_selection.GridSearchCV(ensemble.ExtraTreesClassifier(), param_grid={'n_estimators': grid_n_estimator, 'criterion': grid_criterion, 'max_depth': grid_max_depth, 'random_state': grid_seed}, scoring = 'roc_auc', cv = cv_split)
#submit_etc.fit(data1[data1_x_bin], data1[Target])
#print('Best Parameters: ', submit_etc.best_params_) #Best Parameters:  {'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'random_state': 0}
#data_val['Survived'] = submit_etc.predict(data_val[data1_x_bin])


#random foreset w/full dataset modeling submission score: defaults= 0.71291, tuned= 0.73205
#submit_rfc = ensemble.RandomForestClassifier()
#submit_rfc = model_selection.GridSearchCV(ensemble.RandomForestClassifier(), param_grid={'n_estimators': grid_n_estimator, 'criterion': grid_criterion, 'max_depth': grid_max_depth, 'random_state': grid_seed}, scoring = 'roc_auc', cv = cv_split)
#submit_rfc.fit(data1[data1_x_bin], data1[Target])
#print('Best Parameters: ', submit_rfc.best_params_) #Best Parameters:  {'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'random_state': 0}
#data_val['Survived'] = submit_rfc.predict(data_val[data1_x_bin])


#ada boosting w/full dataset modeling submission score: defaults= 0.74162, tuned= 0.75119
#submit_abc = ensemble.AdaBoostClassifier()
#submit_abc = model_selection.GridSearchCV(ensemble.AdaBoostClassifier(), param_grid={'n_estimators': grid_n_estimator, 'learning_rate': grid_ratio, 'algorithm': ['SAMME', 'SAMME.R'], 'random_state': grid_seed}, scoring = 'roc_auc', cv = cv_split)
#submit_abc.fit(data1[data1_x_bin], data1[Target])
#print('Best Parameters: ', submit_abc.best_params_) #Best Parameters:  {'algorithm': 'SAMME.R', 'learning_rate': 0.1, 'n_estimators': 300, 'random_state': 0}
#data_val['Survived'] = submit_abc.predict(data_val[data1_x_bin])


#gradient boosting w/full dataset modeling submission score: defaults= 0.75119, tuned= 0.77033
#submit_gbc = ensemble.GradientBoostingClassifier()
#submit_gbc = model_selection.GridSearchCV(ensemble.GradientBoostingClassifier(), param_grid={'learning_rate': grid_ratio, 'n_estimators': grid_n_estimator, 'max_depth': grid_max_depth, 'random_state':grid_seed}, scoring = 'roc_auc', cv = cv_split)
#submit_gbc.fit(data1[data1_x_bin], data1[Target])
#print('Best Parameters: ', submit_gbc.best_params_) #Best Parameters:  {'learning_rate': 0.25, 'max_depth': 2, 'n_estimators': 50, 'random_state': 0}
#data_val['Survived'] = submit_gbc.predict(data_val[data1_x_bin])

#extreme boosting w/full dataset modeling submission score: defaults= 0.73684, tuned= 0.77990
#submit_xgb = XGBClassifier()
#submit_xgb = model_selection.GridSearchCV(XGBClassifier(), param_grid= {'learning_rate': grid_learn, 'max_depth': [0,2,4,6,8,10], 'n_estimators': grid_n_estimator, 'seed': grid_seed}, scoring = 'roc_auc', cv = cv_split)
#submit_xgb.fit(data1[data1_x_bin], data1[Target])
#print('Best Parameters: ', submit_xgb.best_params_) #Best Parameters:  {'learning_rate': 0.01, 'max_depth': 4, 'n_estimators': 300, 'seed': 0}
#data_val['Survived'] = submit_xgb.predict(data_val[data1_x_bin])


#hard voting classifier w/full dataset modeling submission score: defaults=-, tuned = 0.74655 V4
# data_val['Transported'] = vote_hard.predict(data_val[data1_x_bin])  # 0.74655 V4
# data_val['Transported'] = grid_hard.predict(data_val[data1_x_bin])  # 0.70189 V4


#soft voting classifier w/full dataset modeling submission score: defaults=-, tuned = 0.75005 V6
# data_val['Transported'] = vote_soft.predict(data_val[data1_x_bin])  # 0.75005 V6
# data_val['Transported'] = grid_soft.predict(data_val[data1_x_bin])  # 0.74982 V5


#submit file
submit = data_val[['PassengerId','Transported']]
submit.to_csv("submission.csv", index=False)

print('Validation Data Distribution: \n', data_val['Transported'].value_counts(normalize = True))
submit.sample(10)

# The best parameter for AdaBoostClassifier is {'learning_rate': 0.1, 'n_estimators': 300, 'random_state': 0} with a runtime of 154.92 seconds.
# The best parameter for BaggingClassifier is {'max_samples': 0.1, 'n_estimators': 300, 'random_state': 0} with a runtime of 269.41 seconds.
# The best parameter for ExtraTreesClassifier is {'criterion': 'gini', 'max_depth': 8, 'n_estimators': 300, 'random_state': 0} with a runtime of 284.94 seconds.
# The best parameter for GradientBoostingClassifier is {'learning_rate': 0.05, 'max_depth': 4, 'n_estimators': 300, 'random_state': 0} with a runtime of 497.71 seconds.
# The best parameter for RandomForestClassifier is {'criterion': 'gini', 'max_depth': 8, 'n_estimators': 300, 'oob_score': True, 'random_state': 0} with a runtime of 396.49 seconds.
# The best parameter for GaussianProcessClassifier is {'max_iter_predict': 10, 'random_state': 0} with a runtime of 1470.09 seconds.
# The best parameter for LogisticRegressionCV is {'fit_intercept': True, 'random_state': 0, 'solver': 'lbfgs'} with a runtime of 445.46 seconds.
# The best parameter for BernoulliNB is {'alpha': 0.5} with a runtime of 1.12 seconds.
# The best parameter for GaussianNB is {} with a runtime of 0.26 seconds.
# The best parameter for KNeighborsClassifier is {'algorithm': 'ball_tree', 'n_neighbors': 7, 'weights': 'distance'} with a runtime of 47.07 seconds.
# The best parameter for SVC is {'C': 1, 'decision_function_shape': 'ovo', 'gamma': 0.1, 'probability': True, 'random_state': 0} with a runtime of 5298.85 seconds.
# The best parameter for XGBClassifier is {'learning_rate': 0.1, 'max_depth': 4, 'n_estimators': 50, 'seed': 0} with a runtime of 614.08 seconds.
# Total optimization time was 158.01 minutes.