# <font color='darkblue'>Artificial Neural Network (ANN)</font>

---

## <font color='darkblue'>Lý thuyết</font>
Ở những chương đầu tiên trong lớp học này, chúng ta đã bắt đầu cuộc hành trình và đi qua các thuật toán học máy với neural thần kinh nhân tạo trong **chương 2, Training Simple Machine Learning Algorithms for Classification**. Neural thần kinh nhân tạo có thể được hình dung như các khối gạch được sử dụng để xây nên một mạng thần kinh nhân tạo đa lớp (Multi layers artificial NNs), cái mà chúng ta sẽ cùng đề cập tới trong chương này. 

### <font color='blue'>Mô hình hóa các bài toán phức tạp với ANN</font>
Khái niệm cơ bản đằng sau các NN nhân tạo được xây dựng trên **các giả thuyết và mô hình về cách thức hoạt động của bộ não con người** để giải quyết các nhiệm vụ phức tạp. Mặc dù NN nhân tạo chỉ mới phổ biến trong những năm gần đây, nhưng những nền tảng khái niệm đầu tiên của NN được xây dựng vào những năm đầu 1940 khi Warren McCulloch và Walter Pitts lần đầu tiên mô tả lại cách mà các neural hoạt động. *{A logical calculus of the ideas immanent in nervous activity, W. S. McCulloch and W. Pitts. The Bulletin of Mathematical Biophysics, 5(4):115–133, 1943.}*

Tuy nhiên, sau nhiều thập kỷ kể từ khi thực nghiệm mô hình neural nhân tạo đầu tiên được thực hiện *(Rosenblatt's perceptron vào năm 1950s)*. Nhiều nhà nghiên cứu và nghiên cứu sinh dần dần chán nản và mất đi hứng thú với NN vì không một ai vào lúc bấy giờ có thể cho ra một giải pháp tốt cho NN nhiều lớp. 

*Dành cho các đọc giả quan tâm đến lịch sử của Artificial Intelligence (AI), machine learning hay NN nói riêng, tôi khuyến khích các bạn đọc qua bài viết bằng tiếng Anh rất chi tiết về các giai đoạn này trên Wikipedia có tựa [AI winters](https://en.wikipedia.org/wiki/AI_winter).*

Cuối cùng, vào năm 1986 khi D.E.Rumelhart, G.E. Hinton và R.J. Williams đã công bố thuật toán backpropagation để đào tạo NN hiệu quả hơn, chúng ta sẽ thảo luận chi tiết hơn sau trong chương này, đã đưa NN trở lại cuộc đua trong lĩnh vực trí nghiên cứu về trí tuệ nhân tạo cùng với sự phát triển vượt bậc của phần cứng (GPU, TPU) mà NN đã và đang ngày càng trở nên phổ biến hơn bao giờ hết. Từ đó dẫn đến sự ra đời của khái niệm kiến trúc hay giải thuật **deep learning** mà chúng ta vẫn thường hay ghe tới. Một chủ đề nóng không chỉ trong giới nghiên cứu học thuật mà còn được đầu tư một khoản không nhỏ từ các ông lớn trong ngành công nghệ như Facebook, Microsoft, Amazon, Uber, và Google.

Cho đến ngày nay, các NN phức tạp được hỗ trợ bởi các thuật toán học sâu được coi là giải pháp tiên tiến (SOTA) để giải quyết vấn đề phức tạp như nhận dạng hình ảnh, giọng nói hay xử lý ngôn ngữ. Các ví dụ phổ biến về các sản phẩm trong cuộc sống hàng ngày của chúng ta được hỗ trợ bởi các NN học sâu là tìm kiếm hình ảnh của Google và Google Dịch - một ứng dụng cho điện thoại thông minh có thể tự động nhận dạng văn bản trong hình ảnh để dịch theo thời gian thực sang hơn 20 ngôn ngữ.

### <font color='blue'>Nhắc lại về mạng lưới thần kinh một lớp</font>
![./SLNN.png](attachment:https://drive.google.com/file/d/1nLlf2-vycDEU0PLkBTvfXW59wxa5eFcA/)

## <font color='darkblue'>Thực hành:
Trong bài này, bạn sẽ thực hành: 
- (i) tiền xử lý dữ liệu
- (ii) huấn luyện Neural Net với weight decay và early stopping.

Bộ dữ liệu được sử dụng là bộ [Kaggle Titanic](https://www.kaggle.com/c/titanic); trong đó, đầu vào là thông tin của hành khách trên tàu Titanic (bạn xem chi tiết trong file `description.txt` đính kèm), đầu ra là một trong hai lớp sống/chết (1 | 0). Mình có đính kèm các file dữ liệu: `train.csv` - tập huấn luyện, `val.csv` - tập validation, `test.csv` - tập kiểm tra (chỉ có đầu vào); thật ra, Kaggle chỉ cung cấp hai file là `train.csv` và `test.csv`, mình đã tách file `train.csv` của Kaggle ra hai file là `train.csv` (80%) và `val.csv` (20%).

### <font color='blue'>Import</font>

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import copy, re
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import classification_report, confusion_matrix, precision_recall_fscore_support
from tqdm.notebook import tqdm
#import cPickle
# You can also import other things ...

### <font color='blue'>Đọc dữ liệu tập huấn luyện và tập validation vào data frame

In [2]:
apellation = [' Mr',' Master',' Mrs',' Miss',' Dr',' Rev',' Don',' Col',' Jonkheer',
              ' Ms',' Mlle',' Mme',' the Countess',' Major',' Lady',' Capt']

In [3]:
train_df = pd.read_csv('train.csv', index_col=0)
train_df.info()
train_df.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 496 to 153
Data columns (total 11 columns):
Survived    712 non-null int64
Pclass      712 non-null int64
Name        712 non-null object
Sex         712 non-null object
Age         574 non-null float64
SibSp       712 non-null int64
Parch       712 non-null int64
Ticket      712 non-null object
Fare        712 non-null float64
Cabin       160 non-null object
Embarked    711 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 66.8+ KB


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
496,0,3,"Yousseff, Mr. Gerious",male,,0,0,2627,14.4583,,C
649,0,3,"Willey, Mr. Edward",male,,0,0,S.O./P.P. 751,7.55,,S
279,0,3,"Rice, Master. Eric",male,7.0,4,1,382652,29.125,,Q
32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C
256,1,3,"Touma, Mrs. Darwis (Hanne Youssef Razi)",female,29.0,0,2,2650,15.2458,,C


In [4]:
val_df = pd.read_csv('val.csv', index_col=0)
val_df.info()
val_df.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 179 entries, 529 to 685
Data columns (total 11 columns):
Survived    179 non-null int64
Pclass      179 non-null int64
Name        179 non-null object
Sex         179 non-null object
Age         140 non-null float64
SibSp       179 non-null int64
Parch       179 non-null int64
Ticket      179 non-null object
Fare        179 non-null float64
Cabin       44 non-null object
Embarked    178 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 16.8+ KB


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
529,0,3,"Salonen, Mr. Johan Werner",male,39.0,0,0,3101296,7.925,,S
697,0,3,"Kelly, Mr. James",male,44.0,0,0,363592,8.05,,S
622,1,1,"Kimball, Mr. Edwin Nelson Jr",male,42.0,1,0,11753,52.5542,D19,S
462,0,3,"Morley, Mr. William",male,34.0,0,0,364506,8.05,,S
599,0,3,"Boulos, Mr. Hanna",male,,0,0,2664,7.225,,C


### <font color='blue'>Tiền xử lý

#### **Tiền xử lý tập huấn luyện**

In [5]:
train_input_df = train_df.iloc[:, 1:]
train_output_df = train_df.Survived

##### Xây dựng `train_X` từ `train_input_df`

(`train_X` là mảng numpy chứa các véc-tơ đầu vào mà có thể đưa trực tiếp vào mô hình học như ở các bài tập trước.)

Đầu tiên, ta sẽ tiến hành: 
- Bỏ cột `Cabin` vì cột này có nhiều giá thiếu (552/712) (và có vẻ cột này sẽ không giúp ích được gì nhiều cho việc dự đoán sống/chết).
- Bỏ cột `Ticket` vì cột này có giá trị không phải dạng số, sẽ cần phải tốn sức để chuyển sang dạng số (và có vẻ cột này cũng sẽ không giúp ích được gì nhiều cho việc dự đoán sống/chết).
- Bỏ cột `Name` vì cột này có giá trị không phải dạng số, sẽ cần phải tốn sức để chuyển sang dạng số. Lưu ý là, việc bỏ cột `Name` có thể sẽ làm mất mát thông tin cần thiết để dự đoán sống/chết (vì trong cột `Name` có các từ như là `Miss`, `Mrs`, `Mr`, ... có thể sẽ có ích cho việc dự đoán); tuy nhiên, ở đây, để đơn giản, ta bỏ luôn :-).

In [6]:
dropped_cols = ['Ticket', 'Cabin']
train_input_df.drop(dropped_cols, axis=1, inplace=True)
train_input_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 496 to 153
Data columns (total 8 columns):
Pclass      712 non-null int64
Name        712 non-null object
Sex         712 non-null object
Age         574 non-null float64
SibSp       712 non-null int64
Parch       712 non-null int64
Fare        712 non-null float64
Embarked    711 non-null object
dtypes: float64(2), int64(3), object(3)
memory usage: 50.1+ KB


Kế đến, ta sẽ xử lý các giá trị thiếu ở cột `Age` và cột `Embarked`. Ở đây, ta xử lý đơn giản là điền giá trị mean (giá trị trung bình) vào các giá trị thiếu ở cột `Age`, và điền giá trị mode (giá trị xuất hiện nhiều nhất) vào các giá trị thiếu ở cột `Embarked`. *Lưu ý là, khi điền các giá trị thiếu ở tập validation/test, ta sẽ sử dụng các giá trị mean/mode được tính từ tập huấn luyện*. Trong thực tế,  ta thường sẽ không biết ở thời điểm test biến đầu vào nào sẽ thiếu giá trị; do đó, ta có thể làm một cách tổng quát như sau: với biến đầu vào có giá trị số, ta sẽ điền giá trị mean; ngược lại, điền giá trị mode. Dưới đây, hàm `compute_mean_mode` sẽ tính từ tập huấn luyện giá trị mean/mode của *tất cả* các biến đầu vào; hàm `fill_missing_values` sẽ dùng các giá trị mean/mode này để điền giá trị thiếu cho một tập dữ liệu nào đó (tập huấn luyện/validation/kiểm tra).

In [7]:
def preprocessing_Name(input_df):
    index = input_df.index.values.tolist()
    vector = []
    for key in apellation:
        tmp = list([])
        for i in index:
            apell = input_df.loc[i]["Name"].split(',')[1].split('.')[0]
            if(apell == key):
                tmp.append(1.0)
            else:
                tmp.append(0.0)
        vector.append(tmp)
        k = 6
    for i in range(len(vector)):
        input_df.insert(k+i, apellation[i], vector[i], allow_duplicates = True)
    input_df.drop('Name', axis=1, inplace=True)
    return input_df

In [8]:
def compute_mean_mode(train_input_df):
    '''
    Computes means for numeric input variables and modes for non-numeric ones.
    
    Parameters
    ----------
    train_input_df : data frame
        The data frame containing training inputs.
    
    Returns
    -------
    mean_mode_dict : dictionary, len = # input variables (# columns) of train_input_df
        mean_mode_dict[<column_name>] = mean/mode of this column.
    '''
    dic = {}
    for column in train_input_df:
        num = 0
        for i in range(7000):
            try:
                a = train_input_df.loc[i][column]
                num = i
                break
            except:
                next
        if (isinstance(train_input_df.loc[num][column], str)):
            if(len(train_input_df[column].mode()) > 0):
                dic[column] = str(train_input_df[column].mode()[0])
            else:
                dic[column] = ''
        else:
            dic[column] = train_input_df[column].mean()
    return dic

In [9]:
mean_mode_dict = compute_mean_mode(train_input_df)
mean_mode_dict

{'Pclass': 2.3230337078651684,
 'Name': 'Abbott, Mr. Rossmore Edward',
 'Sex': 'male',
 'Age': 29.488815331010457,
 'SibSp': 0.5140449438202247,
 'Parch': 0.37359550561797755,
 'Fare': 32.18301095505614,
 'Embarked': 'S'}

In [10]:
def fill_missing_values(input_df, mean_mode_dict):
    '''
    Fills missing values for ALL columns of `input_df` using `mean_mode_dict`.
    
    Parameters
    ----------
    input_df : data frame
        The data frame containing inputs.
    mean_mode_dict : dictionary
        mean_mode_dict[<column_name>] = mean/mode of this column (estimated from the training set).
    
    Returns
    -------
    filled_input_df : data frame
        The data frame containing inputs after filling missing values.
    '''
    for column in input_df:
        df = input_df[pd.isnull(input_df).any(axis=1)]
        index = df.index.to_numpy()
        for i in index:
            if(pd.isnull(input_df.loc[i, column])):
                input_df.loc[i, column] = mean_mode_dict[column]
    return input_df

In [11]:
# Before filling
missing_age_mask = train_input_df.Age.isnull()
missing_embarked_mask = train_input_df.Embarked.isnull()
print(train_input_df.Age[missing_age_mask].head())
print()
print(train_input_df.Embarked[missing_embarked_mask].head())

PassengerId
496   NaN
649   NaN
32    NaN
299   NaN
368   NaN
Name: Age, dtype: float64

PassengerId
62    NaN
Name: Embarked, dtype: object


In [12]:
# Fill and check the result
train_input_df = fill_missing_values(train_input_df, mean_mode_dict)
print(train_input_df.Age[missing_age_mask].head())
print()
print(train_input_df.Embarked[missing_embarked_mask].head())
print()
train_input_df.info()

PassengerId
496    29.488815
649    29.488815
32     29.488815
299    29.488815
368    29.488815
Name: Age, dtype: float64

PassengerId
62    S
Name: Embarked, dtype: object

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 496 to 153
Data columns (total 8 columns):
Pclass      712 non-null int64
Name        712 non-null object
Sex         712 non-null object
Age         712 non-null float64
SibSp       712 non-null int64
Parch       712 non-null int64
Fare        712 non-null float64
Embarked    712 non-null object
dtypes: float64(2), int64(3), object(3)
memory usage: 70.1+ KB


Đến đây, ta đã bỏ các cột `Name`, `Ticket`, `Cabin`; và điền giá trị thiếu cho cột `Age`, `Embarked`. Kế đến, ta sẽ chuyển các cột có giá trị không phải dạng số (`Sex` và `Embarked`) sang dạng số. Vì `Sex` và `Embarked` là các biến có giá trị rời-rạc và không-có-thứ-tự nên ta có thể chuyển sang dạng "one-hot" (và bỏ cột cuối). Vd:

```
Sex    --> Female | Male
------     --------------
female --> 1      | 0
male   --> 0      | 1
female --> 1      | 0
```
và ta có thể bỏ cột `Male` đi.

In [13]:
def process_categorical_cols(input_df):
    '''
    Converts `Sex` column and `Embarked` column to one-hot forms.
    
    Parameters
    ----------
    input_df : data frame
        The data frame containing inputs.
    
    Returns
    -------
    numeric_input_df : data frame
        The data frame containing inputs after converting.
    '''
    sex_tag = ['female', 'male']
    Embarked_tag = ['C','Q','S']
    index = input_df.index.to_numpy()
    value_sex = []
    value_C = []
    value_Q = []
    
    print(len(input_df))
    
    try:
        for i in range(len(index)):
            if(input_df.loc[int(index[i])]['Sex'] == sex_tag[0]):
                value_sex.append(1.0)
            else:
                value_sex.append(0.0)
            if(input_df.loc[int(index[i])]['Embarked'] == Embarked_tag[0]):
                value_C.append(1.0)
            else:
                value_C.append(0.0)
            if(input_df.loc[int(index[i])]['Embarked'] == Embarked_tag[1]):
                value_Q.append(1.0)
            else:
                value_Q.append(0.0)
    
        input_df.insert(6, 'female', value_sex, allow_duplicates = True)
        input_df.insert(7, 'C', value_C, allow_duplicates = True)
        input_df.insert(8, 'Q', value_Q, allow_duplicates = True)
        input_df.drop('Sex', axis=1, inplace=True)
        input_df.drop('Embarked', axis=1, inplace=True)
    except:
        return input_df
    return input_df

In [14]:
train_input_df = process_categorical_cols(train_input_df)
train_input_df.info()

712
<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 496 to 153
Data columns (total 9 columns):
Pclass    712 non-null int64
Name      712 non-null object
Age       712 non-null float64
SibSp     712 non-null int64
Parch     712 non-null int64
female    712 non-null float64
C         712 non-null float64
Q         712 non-null float64
Fare      712 non-null float64
dtypes: float64(5), int64(3), object(1)
memory usage: 75.6+ KB


In [15]:
train_input_df = preprocessing_Name(train_input_df)
train_input_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 496 to 153
Data columns (total 24 columns):
Pclass           712 non-null int64
Age              712 non-null float64
SibSp            712 non-null int64
Parch            712 non-null int64
female           712 non-null float64
 Mr              712 non-null float64
 Master          712 non-null float64
 Mrs             712 non-null float64
 Miss            712 non-null float64
 Dr              712 non-null float64
 Rev             712 non-null float64
 Don             712 non-null float64
 Col             712 non-null float64
 Jonkheer        712 non-null float64
 Ms              712 non-null float64
 Mlle            712 non-null float64
 Mme             712 non-null float64
 the Countess    712 non-null float64
 Major           712 non-null float64
 Lady            712 non-null float64
 Capt            712 non-null float64
C                712 non-null float64
Q                712 non-null float64
Fare             712 non-

Cuối cùng, ta sẽ xây dựng `train_X`. Để giúp Gradient Descent hội tụ nhanh hơn, ta sẽ chuẩn hóa để các cột của `train_X` có mean bằng 0 và có độ lệch chuẩn bằng 1. *Lưu ý là, khi chuẩn hóa `val_X`/`test_X`, ta sẽ dùng mean và độ lệch chuẩn được ước lượng từ tập huấn luyện.*

In [16]:
train_X = train_input_df.values
print(train_X.shape)

(712, 24)


In [17]:
# compute `X_mean` and `X_std`
X_mean = train_X.mean(axis=0)
X_std = train_X.std(axis=0)

In [18]:
print(X_mean)
print(X_std)

[2.32303371e+00 2.94888153e+01 5.14044944e-01 3.73595506e-01
 3.49719101e-01 5.80056180e-01 4.63483146e-02 1.27808989e-01
 2.12078652e-01 7.02247191e-03 8.42696629e-03 1.40449438e-03
 2.80898876e-03 1.40449438e-03 1.40449438e-03 2.80898876e-03
 1.40449438e-03 1.40449438e-03 2.80898876e-03 1.40449438e-03
 1.40449438e-03 1.79775281e-01 8.42696629e-02 3.21830110e+01]
[8.34392606e-01 1.31205457e+01 1.07438220e+00 8.00827868e-01
 4.76881171e-01 4.93549398e-01 2.10238313e-01 3.33877000e-01
 4.08780255e-01 8.35054298e-02 9.14108994e-02 3.74502574e-02
 5.29254036e-02 3.74502574e-02 3.74502574e-02 5.29254036e-02
 3.74502574e-02 3.74502574e-02 5.29254036e-02 3.74502574e-02
 3.74502574e-02 3.84000168e-01 2.77791805e-01 5.22947658e+01]


In [19]:
# normalize train_X using X_mean and X_std
train_X = (train_X - X_mean) / X_std

In [20]:
print(train_X.mean(axis=0))
print(train_X.std(axis=0))

[ 2.09570189e-16 -4.98976640e-18  1.24744160e-18 -4.24130144e-17
  6.48669632e-17  3.99181312e-17 -2.49488320e-18 -3.49283648e-17
  8.60734704e-17 -9.97953281e-18 -7.48464960e-18  2.49488320e-18
 -9.97953281e-18 -2.49488320e-18  2.49488320e-18  0.00000000e+00
 -4.98976640e-18  0.00000000e+00 -9.97953281e-18  2.49488320e-18
  2.49488320e-18  2.49488320e-17  7.48464960e-18 -5.48874304e-17]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [21]:
# Add x_0 column
train_X = np.hstack([np.ones((len(train_X), 1)), train_X])
print(train_X.shape)

(712, 25)


**1.2. Xây dựng `train_Y` từ `train_output_df`**

(`train_Y` là mảng numpy chứa các đầu ra đúng mà có thể đưa trực tiếp vào mô hình học như ở các bài tập trước.)

In [22]:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')

train_Y = train_output_df.values.reshape(-1, 1)
enc.fit(train_Y)

train_Y = enc.transform(train_Y).toarray()
print(train_Y.shape)

(712, 2)


In [23]:
train_input_df.to_csv('text.csv')

**2. Tiền xử lý tập validation**

In [24]:
val_input_df = val_df.iloc[:, 1:]
val_output_df = val_df.Survived
len(val_input_df)

179

**2.1. Xây dựng `val_X` từ `val_input_df`**

Cách xây dựng `test_X` từ `test_input_df` sẽ *giống hệt* cách xây dựng `val_X` từ `val_input_df`. Do đó, ta sẽ viết phần xử lý này vào một hàm để lúc sau có thể dùng lại cho tập kiểm tra.

In [25]:
def process_new_input_df(new_input_df, dropped_cols, mean_mode_dict, X_mean, X_std):
    '''
    Builds `new_X` from `new_input_df`:
    1. Drop columns using `dropped_cols` (`dropped_cols` is the list containing names of dropped columns)
    2. Fill missing values using `mean_mode_dict` (use `fill_missing_values` function)
    3. Convert categorial columns to one-hot (use `process_categorical_cols` function)
    4. Subtract by `X_mean` and divide by `X_std`
    5. Add `x_0` column
    
    Parameters
    ----------
    I'm lazy now ...
    
    Returns
    -------
    new_X : numpy array
        The matrix of input vectors.
    '''
    # TODO
    new_input_df = new_input_df.drop(dropped_cols, axis=1)
    new_input_df = fill_missing_values(new_input_df, mean_mode_dict)
    new_input_df = process_categorical_cols(new_input_df)
    new_input_df = preprocessing_Name(new_input_df)
    print(new_input_df.info())
    new_X = new_input_df.values
    new_X = (new_X - X_mean)/X_std
    new_X = np.hstack([np.ones((len(new_X), 1)), new_X])
    return new_X

In [26]:
val_X = process_new_input_df(val_input_df, dropped_cols, mean_mode_dict, X_mean, X_std)
val_X.shape

179
<class 'pandas.core.frame.DataFrame'>
Int64Index: 179 entries, 529 to 685
Data columns (total 24 columns):
Pclass           179 non-null int64
Age              179 non-null float64
SibSp            179 non-null int64
Parch            179 non-null int64
female           179 non-null float64
 Mr              179 non-null float64
 Master          179 non-null float64
 Mrs             179 non-null float64
 Miss            179 non-null float64
 Dr              179 non-null float64
 Rev             179 non-null float64
 Don             179 non-null float64
 Col             179 non-null float64
 Jonkheer        179 non-null float64
 Ms              179 non-null float64
 Mlle            179 non-null float64
 Mme             179 non-null float64
 the Countess    179 non-null float64
 Major           179 non-null float64
 Lady            179 non-null float64
 Capt            179 non-null float64
C                179 non-null float64
Q                179 non-null float64
Fare             179 

(179, 25)

**2.2. Xây dựng `val_Y` từ `val_output_df`**

In [27]:
val_Y = val_output_df.values.reshape(-1, 1)
# val_Y = enc.transform(val_Y).toarray()
val_Y.shape

(179, 1)

### <font color='blue'>Huấn luyện

#### Các activation function thường gặp

**Sigmoid**


**tanh**


**relu**


**softmax**



In [28]:
def sigmoid(z):
    """
    Sigmoid activation function.
        g(z) = 1 / (1 + e^-z)
    """
    return 1/(1+np.exp(-z))

def tanh(z):
    """
    Tanh activation function.
        g(z) = tanh(z)
    """
    return np.tanh(z)

def relu(z):
    """
    Relu activation function.
        g(z) = max(0, z)
    """
    return z*(z > 0)

def softmax(z, axis=-1):
    """
    Softmax activation function. Use at the output layer.
        g(z) = e^z / sum(e^z)
    """
    z_prime = z - np.max(z, axis=axis, keepdims=True)
    return np.exp(z_prime) / np.sum(np.exp(z_prime), axis=axis, keepdims=True)

#### Derivative của các Activation Function

In [29]:
def sigmoid_grad(z):
    """
    Sigmoid derivative.
        g'(z) = g(z)(1-g(z))
    """
    return z*(1-z)

def tanh_grad(z):
    """
    Tanh derivative.
        g'(z) = 1 - g^2(z).
    """
    return 1 - z**2

def relu_grad(z):
    """
    Relu derivative.
        g'(z) = 0 if g(z) <= 0
        g'(z) = 1 if g(z) > 0
    """
    return 1*(z > 0)

In [30]:
def he_normal(weight_shape):
    """
    Initialize weights according `He normal` distribution. With mean = 0, std = sqrt(2 / num_input)
    """
    if len(weight_shape) == 4:
        fW, fH, fC, _ = weight_shape
        return np.random.normal(0, np.sqrt(2 / (fW*fH*fC)), weight_shape)
    num_input, _ = weight_shape
    return np.random.normal(0, np.sqrt(2 / num_input), weight_shape)

def he_uniform(weight_shape):
    """
    Initialize weights according `He uniform` distribution within the range [-limit, limit].
                With limit = sqrt(6 / num_input)
    """
    if len(weight_shape) == 4:
        fW, fH, fC, _ = weight_shape
        return np.random.uniform(-np.sqrt(6 / (fW*fH*fC)), np.sqrt(6 / (fW*fH*fC)), weight_shape)
    num_input, _ = weight_shape
    return np.random.uniform(-np.sqrt(6 / num_input), np.sqrt(6 / num_input), weight_shape)

def xavier_normal(weight_shape):
    """
    Initialize weights according `Xavier normal` distribution. With mean = 0, std = sqrt(2 / (num_input + num_output))
    """
    if len(weight_shape) == 4:
        fW, fH, fC, num_fitls = weight_shape
        return np.random.normal(0, np.sqrt(2 / (fW*fH*fC + num_fitls)), weight_shape)
    num_input, num_output = weight_shape
    return np.random.normal(0, np.sqrt(2 / (num_input + num_output)), weight_shape)

def xavier_uniform(weight_shape):
    """
    Initialize weights according `Xavier uniform` distribution within the range [-limit, limit].
                With limit = sqrt(6 / (num_input + num_output))
    """
    if len(weight_shape) == 4:
        fW, fH, fC, num_fitls = weight_shape
        return np.random.uniform(-np.sqrt(6 / (fW*fH*fC + num_fitls)), np.sqrt(6 / (fW*fH*fC + num_fitls)), weight_shape)
    num_input, num_output = weight_shape
    return np.random.uniform(-np.sqrt(6 / (num_input + num_output)), np.sqrt(6 / (num_input + num_output)), weight_shape)

def standard_normal(weight_shape):
    """
    Initialize weights according standard normal distribution with mean 0 variance 1.
    """
    return np.random.normal(size=weight_shape)

**Hàm huấn luyện Neural Net**

In [31]:
initialization_mapping = {"he_normal": he_normal, "xavier_normal": xavier_normal, "std": standard_normal,
                          "he_uniform": he_uniform, "xavier_uniform": xavier_uniform}

In [32]:
class Layer:

    def forward(self, X):
        raise NotImplementedError("forward() function not defined")

    def backward(self):
        raise NotImplementedError("backward() function not defined")

In [33]:
class LearnableLayer:

    def forward(self, X):
        raise NotImplementedError("forward() function not defined")

    def backward_layer(self):
        pass

    def backward(self):
        raise NotImplementedError("backward() function not defined")

    def update_params(self, grad):
        self.W = self.W - grad

In [34]:
class Input(Layer):

    def __init__(self, return_dX=False):
        self.return_dX = return_dX
        self.output = None

    def forward(self, X):
        self.output = X
        return self.output

    def backward(self, d_prev, weights_prev):
        """
        d_prev: gradient of J respect to A[l+1] of the previous layer according backward direction.
        weights_prev: the weights of previous layer according backward direction.
        """
        if self.return_dX:
            return d_prev.dot(weights_prev.T)
        return None

In [35]:
class Dense(LearnableLayer):

    def __init__(self, num_neurons, weight_init="std"):
        """
        The fully connected layer.
        Parameters
        ----------
        num_neurons: (integer) number of neurons in the layer.     
        weight_init: (string) either `he_normal`, `xavier_normal`, `he_uniform`, `xavier_uniform` or standard normal distribution.
        """
        assert weight_init in ["std", "he_normal", "xavier_normal", "he_uniform", "xavier_uniform"],\
                "Unknow weight initialization type."
        self.num_neurons = num_neurons
        self.weight_init = weight_init
        self.output = None
        self.W = None

    def forward(self, inputs):
        """
        Layer forward level. 
        Parameters
        ----------
        inputs: inputs of the current layer. This is equivalent to the output of the previous layer.
        Returns
        -------
        output: Output value LINEAR of the current layer.
        """
        if self.W is None:
            self.W = initialization_mapping[self.weight_init](weight_shape=(inputs.shape[1], self.num_neurons))
        self.output = inputs.dot(self.W)
        return self.output

    def backward_layer(self, d_prev, _):
        """
        Compute gradient w.r.t X only.
        """
        d_prev = d_prev.dot(self.W.T)
        return d_prev

    def backward(self, d_prev, prev_layer):
        """
        Layer backward level. Compute gradient respect to W and update it.
        Also compute gradient respect to X for computing gradient of previous
        layers as the forward direction [l-1].
        Parameters
        ----------
        d_prev: gradient of J respect to A[l+1] of the previous layer according backward direction.
        prev_layer: previous layer according forward direction.
        Returns
        -------
        d_prev: gradient of J respect to A[l] at the current layer.
        """
        dW = prev_layer.output.T.dot(d_prev)
        d_prev = self.backward_layer(d_prev, None)
        return d_prev, dW

In [36]:
class Dropout(Layer):

    """
    Refer to the paper: 
        http://jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf
    """

    def __init__(self, keep_prob):
        """
        keep_prob: (float) probability to keep neurons in network, use for dropout technique.
        """
        assert 0.0 < keep_prob < 1.0, "keep_prob must be in range [0, 1]."
        self.keep_prob = keep_prob

    def forward(self, X, prediction=False):
        """
        Drop neurons random uniformly.
        """
        self.mask = np.random.uniform(size=X.shape) < self.keep_prob
        self.output = X * self.mask
        return self.output

    def backward(self, d_prev, _):
        """
        Flow gradient of previous layer [l+1] according backward direction through dropout layer.
        """
        return d_prev * self.mask

In [37]:
class Activation(Layer):

    def __init__(self, activation):
        """
        activation: (string) available activation functions. Must be in [sigmoid, tanh,
                                relu, softmax]. Softmax activation must be at the last layer.
        
        """
        assert activation in ["sigmoid", "tanh", "relu", "softmax"], "Unknown activation function: " + str(activation)
        self.activation = activation

    def forward(self, X):
        """
        Activation layer forward propgation.
        """
        self.output = eval(self.activation)(X)
        return self.output

    def backward(self, d_prev, _):
        """
        Activation layer backward propagation.
        Parameters
        ---------- 
        d_prev: gradient of J respect to A[l+1] of the previous layer according backward direction.
        
        Returns
        -------
        Gradient of J respect to type of activations (sigmoid, tanh, relu) in this layer `l`.
        """
        d_prev = d_prev * eval(self.activation + "_grad")(self.output)
        return d_prev

In [38]:
class CrossEntropy:
    
    def __init__(self, weights=1, epsilon=1e-20):
        self.weights = 1
        self.epsilon = epsilon

    def __call__(self, Y_hat, Y):
        """
        Compute cross-entropy loss.
        Parameters
        ----------
        Y: one-hot encoding label. shape=(num_dataset, num_classes)
        Y_hat: softmax probability distribution over each data point. 
            shape=(num_dataset, num_classes)
        Returns
        -------
        J: cross-entropy loss.
        """
        assert Y.shape == Y_hat.shape, "Unmatch shape."
        Y_hat[Y_hat == 0] = self.epsilon
        loss = np.sum(self.weights * Y * np.log(Y_hat), axis=-1)
        return -np.mean(loss)

    def backward(self, Y_hat, Y):
        """
        Compute gradient of CE w.r.t linear (LINEAR -> SOFTMAX -> CE)
        Parameters
        ----------
        Y: one-hot encoding label. shape=(num_dataset, num_classes)
        Y_hat: softmax probability distribution over each data point. 
            shape=(num_dataset, num_classes)
        Returns
        -------
        grad CE w.r.t LINEAR
        """
        m = Y.shape[0]
        return (Y_hat - Y)/m

class MSE:
    
    def __init__(self):
        pass

    def __call__(self, y_hat, y):
        """
        Mean squared error
        """
        m = len(y)
        loss = np.sum((y_hat - y)**2)/(2*m)
        return loss

    def backward(self, y_hat, y):
        """
        Compute gradient of MSE w.r.t y_hat
        Parameters
        ----------
        y_hat: output from linear transformation. shape = (num_dataset, )
        y: ground truth, real values. shape = (num_dataset, )
        """
        m = len(y)
        grad = (y_hat - y)/m
        return grad

class BinaryCrossEntropy:
    
    def __init__(self, epsilon=1e-10):
        self.epsilon = epsilon

    def __call__(self, y_hat, y):
        m = len(y_hat)
        y_hat[y_hat == 0] = self.epsilon
        y_hat[y_hat == 1] = 1 - self.epsilon
        loss = -np.mean(y*np.log(y_hat) + (1-y)*np.log(1 - y_hat))
        return loss

    def backward(self, y_hat, y):
        m = len(y)
        grad = (y_hat - y)/m
        return grad

In [39]:
class Optimizers_: 

    def __init__(self):
        pass

    def step(self, grads, layers):
        raise NotImplementedError("step() function not defined")

class SGD(Optimizers_):

    def __init__(self, alpha=0.01):
        self.alpha = alpha

    def step(self, grads, layers):
        for grad, layer in zip(grads, layers):
            layer.update_params(grad)

class SGDMomentum(Optimizers_):

    def __init__(self, alpha=0.01, beta=0.9):
        self.alpha = alpha
        self.beta = beta
        self.v = []
    
    def step(self, grads, layers):
        if len(self.v) == 0:
            self.v = [np.zeros_like(grad) for grad in grads]
        for i, (grad, layer) in enumerate(zip(grads, layers)):
            self.v[i] = self.beta*self.v[i] + (1-self.beta)*grad
            grad = self.alpha * self.v[i]
            layer.update_params(grad)

class RMSProp(Optimizers_):

    def __init__(self, alpha=0.01, beta=0.9, epsilon=1e-9):
        self.alpha = alpha
        self.beta = beta
        self.epsilon = epsilon
        self.s = []

    def step(self, grads, layers):
        if len(self.s) == 0:
            self.s = [np.zeros_like(grad) for grad in grads]
        for i, (grad, layer) in enumerate(zip(grads, layers)):
            self.s[i] = self.beta*self.s[i] + (1-self.beta)*grad**2
            grad = self.alpha * (grad/(np.sqrt(self.s[i]) + self.epsilon))
            layer.update_params(grad)

class Adam(Optimizers_):
    
    def __init__(self, alpha=0.01, beta_1=0.9, beta_2=0.99, epsilon=1e-9):
        self.alpha = alpha
        self.beta_1 = beta_1
        self.beta_2 = beta_2
        self.epsilon = epsilon
        self.v = []
        self.s = []
        self.t = 1

    def step(self, grads, layers):
        if len(self.s) == 0 and len(self.v) == 0:
            self.v = [np.zeros_like(grad) for grad in grads]
            self.s = [np.zeros_like(grad) for grad in grads]
        for i, (grad, layer) in enumerate(zip(grads, layers)):
            self.v[i] = (self.beta_1*self.v[i] + (1-self.beta_1)*grad)
            self.s[i] = (self.beta_2*self.s[i] + (1-self.beta_2)*grad**2)
            v_correct = self.v[i] / (1-self.beta_1**self.t)
            s_correct = self.s[i] / (1-self.beta_2**self.t)
            grad = self.alpha * (v_correct / (np.sqrt(s_correct) + self.epsilon))
            layer.update_params(grad)
        self.t += 1

In [40]:
class Model:

    def __init__(self, optimizer:object, layers:list, loss_func:object=CrossEntropy()):
        """
        Deep neural network architecture.
        Parameters
        ----------
        optimizer: (object) optimizer object uses to optimize the loss.
        layers: (list) a list of sequential layers. For neural network, it should have [Dense, Activation, BatchnormLayer, Dropout]
        loss_func: (object) the type of loss function we want to optimize. 
        """
        self.optimizer = optimizer
        self.loss_func = loss_func
        self.layers = layers

    def _forward(self, train_X, prediction=False):
        """
        NN forward propagation level.
        Parameters
        ----------
        train_X: training dataset X.
                shape = (N, D)
        prediction: whether this forward pass is prediction stage or training stage.
        Returns
        -------
        Probability distribution of softmax at the last layer.
            shape = (N, C)
        """
        inputs = train_X
        layers = self.layers
        if hasattr(self, "output_layers"):
            layers = layers + self.output_layers
        for layer in layers:
            if isinstance(layer, (Dropout)):
                inputs = layer.forward(inputs, prediction=prediction)
                continue
            inputs = layer.forward(inputs)
        output = inputs
        return output

    def _backward_last(self, Y, Y_hat):
        """
        Special formula of backpropagation for the last layer.
        """
        if not hasattr(self, "output_layers"):
            self.output_layers = self.layers[-2:]
            self.layers = self.layers[:-2]
            self.learnable_layers = [layer for layer in self.layers if isinstance(layer, LearnableLayer)]
            self.learnable_layers.extend(layer for layer in self.output_layers if isinstance(layer, LearnableLayer))
            self.learnable_layers = self.learnable_layers[::-1]

        delta = self.loss_func.backward(Y_hat, Y)
        dW_last = self.layers[-1].output.T.dot(delta)
        dA_last = delta.dot(self.output_layers[0].W.T)
        return dA_last, dW_last

    def _backward(self, dA_last, dW_last):
        """
        NN backward propagation level. Update weights of the neural network.
        """
        dA_prev, dW = dA_last, dW_last
        grads = [dW]
        if dW is None:
            grads.pop()
        for i in range(len(self.layers)-1, 0, -1):
            if isinstance(self.layers[i], LearnableLayer):
                dA_prev, dW = self.layers[i].backward(dA_prev, self.layers[i-1])
                grads.append(dW)
                continue
            dA_prev = self.layers[i].backward(dA_prev, self.layers[i-1])
        return grads
    
    def _update_params(self, grads):
        self.optimizer.step(grads, self.learnable_layers )

    def backward(self, Y, Y_hat, X):
        """
        Parameters
        ----------
        Y: one-hot encoding label.
            shape = (N, C).
        Y_hat: output values of forward propagation NN.
            shape = (N, C).
        X: training dataset.
            shape = (N, D).
        """
        dA_last, dW_last = self._backward_last(Y, Y_hat)
        grads = self._backward(dA_last, dW_last)
        self._update_params(grads)

    def __call__(self, X, prediction=False):
        return self._forward(X, prediction)

    def predict(self, test_X):
        """
        Predict function.
        """
        y_hat = self._forward(test_X, prediction=True)
        return np.argmax(y_hat, axis=1)
    
    def fit(self, X_train, y_train, validation, batch_size, epochs):
        m = X_train.shape[0]
        X_val, y_val = validation
        train_losses, val_losses = [],[]

        for e in range(epochs):
            indices = np.random.permutation(m)
            X_train = X_train[indices]
            y_train = y_train[indices]
            epoch_loss, val_loss = 0.0, 0.0
            num_batches = 0
            pbar = tqdm(range(0, X_train.shape[0], batch_size), desc="Epoch " + str(e+1))

            for it in pbar:
                X_batch = X_train[it:it+batch_size]
                y_batch = y_train[it:it+batch_size]
                
                y_hat = self._forward(X_batch)
                batch_loss = self.loss_func(y_hat, y_batch)
                self.backward(y_batch, y_hat, X_batch)

                epoch_loss += batch_loss
                num_batches += 1
                pbar.set_description("Epoch " + str(e+1) + " - Loss: %.5f" % (epoch_loss/num_batches))
            y_val_hat = self._forward(X_val)
            val_loss = self.loss_func(y_val, y_val_hat)
            train_losses.append(epoch_loss)
            val_losses.append(val_loss)
            print("Loss at epoch %d: %.5f - Validation loss: %.5f" % (e+1, epoch_loss/num_batches, val_loss))
        return train_losses, val_losses

In [41]:
optimizer = Adam(0.0001)
loss_func = BinaryCrossEntropy()
archs = [
    Input(),
    Dense(num_neurons=128, weight_init="he_normal"),
    Activation(activation="relu"),
    Dropout(keep_prob=0.5),
    Dense(num_neurons=8, weight_init="he_normal"),
    Activation(activation="sigmoid"),
    Dense(num_neurons=2, weight_init="he_normal"),
    Activation(activation="softmax"),
]

val_set = (val_X, enc.transform(val_Y).toarray())

model = Model(optimizer=optimizer, layers=archs, loss_func=loss_func)
train_losses, val_losses = model.fit(train_X, train_Y, val_set, batch_size=16, epochs=50)

import pickle
with open("nn_weights.pkl", "wb") as f:
    pickle.dump(model, f, pickle.HIGHEST_PROTOCOL)

HBox(children=(FloatProgress(value=0.0, description='Epoch 1', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 1: 1.07482 - Validation loss: 11.66551


HBox(children=(FloatProgress(value=0.0, description='Epoch 2', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 2: 1.02158 - Validation loss: 11.45884


HBox(children=(FloatProgress(value=0.0, description='Epoch 3', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 3: 0.95255 - Validation loss: 11.54671


HBox(children=(FloatProgress(value=0.0, description='Epoch 4', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 4: 0.89405 - Validation loss: 11.27387


HBox(children=(FloatProgress(value=0.0, description='Epoch 5', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 5: 0.85643 - Validation loss: 11.13681


HBox(children=(FloatProgress(value=0.0, description='Epoch 6', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 6: 0.80585 - Validation loss: 11.16004


HBox(children=(FloatProgress(value=0.0, description='Epoch 7', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 7: 0.76947 - Validation loss: 10.77795


HBox(children=(FloatProgress(value=0.0, description='Epoch 8', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 8: 0.73649 - Validation loss: 10.67007


HBox(children=(FloatProgress(value=0.0, description='Epoch 9', max=45.0, style=ProgressStyle(description_width…


Loss at epoch 9: 0.70603 - Validation loss: 10.68488


HBox(children=(FloatProgress(value=0.0, description='Epoch 10', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 10: 0.68890 - Validation loss: 10.10311


HBox(children=(FloatProgress(value=0.0, description='Epoch 11', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 11: 0.65542 - Validation loss: 10.23795


HBox(children=(FloatProgress(value=0.0, description='Epoch 12', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 12: 0.64381 - Validation loss: 10.08901


HBox(children=(FloatProgress(value=0.0, description='Epoch 13', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 13: 0.62512 - Validation loss: 9.83415


HBox(children=(FloatProgress(value=0.0, description='Epoch 14', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 14: 0.60101 - Validation loss: 9.63360


HBox(children=(FloatProgress(value=0.0, description='Epoch 15', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 15: 0.59654 - Validation loss: 9.43304


HBox(children=(FloatProgress(value=0.0, description='Epoch 16', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 16: 0.57910 - Validation loss: 9.45777


HBox(children=(FloatProgress(value=0.0, description='Epoch 17', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 17: 0.55333 - Validation loss: 9.43257


HBox(children=(FloatProgress(value=0.0, description='Epoch 18', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 18: 0.54698 - Validation loss: 9.16126


HBox(children=(FloatProgress(value=0.0, description='Epoch 19', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 19: 0.53508 - Validation loss: 8.85340


HBox(children=(FloatProgress(value=0.0, description='Epoch 20', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 20: 0.53327 - Validation loss: 8.80965


HBox(children=(FloatProgress(value=0.0, description='Epoch 21', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 21: 0.52343 - Validation loss: 8.32752


HBox(children=(FloatProgress(value=0.0, description='Epoch 22', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 22: 0.53025 - Validation loss: 8.37300


HBox(children=(FloatProgress(value=0.0, description='Epoch 23', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 23: 0.51845 - Validation loss: 8.49814


HBox(children=(FloatProgress(value=0.0, description='Epoch 24', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 24: 0.51710 - Validation loss: 8.39196


HBox(children=(FloatProgress(value=0.0, description='Epoch 25', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 25: 0.49793 - Validation loss: 8.39962


HBox(children=(FloatProgress(value=0.0, description='Epoch 26', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 26: 0.48027 - Validation loss: 8.26956


HBox(children=(FloatProgress(value=0.0, description='Epoch 27', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 27: 0.50291 - Validation loss: 8.30921


HBox(children=(FloatProgress(value=0.0, description='Epoch 28', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 28: 0.48172 - Validation loss: 8.12335


HBox(children=(FloatProgress(value=0.0, description='Epoch 29', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 29: 0.49210 - Validation loss: 7.99067


HBox(children=(FloatProgress(value=0.0, description='Epoch 30', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 30: 0.48369 - Validation loss: 7.64661


HBox(children=(FloatProgress(value=0.0, description='Epoch 31', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 31: 0.47285 - Validation loss: 7.56948


HBox(children=(FloatProgress(value=0.0, description='Epoch 32', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 32: 0.47482 - Validation loss: 7.69860


HBox(children=(FloatProgress(value=0.0, description='Epoch 33', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 33: 0.46974 - Validation loss: 7.64274


HBox(children=(FloatProgress(value=0.0, description='Epoch 34', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 34: 0.47329 - Validation loss: 7.38191


HBox(children=(FloatProgress(value=0.0, description='Epoch 35', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 35: 0.47389 - Validation loss: 7.59626


HBox(children=(FloatProgress(value=0.0, description='Epoch 36', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 36: 0.45414 - Validation loss: 7.36507


HBox(children=(FloatProgress(value=0.0, description='Epoch 37', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 37: 0.46893 - Validation loss: 7.38395


HBox(children=(FloatProgress(value=0.0, description='Epoch 38', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 38: 0.46394 - Validation loss: 7.37440


HBox(children=(FloatProgress(value=0.0, description='Epoch 39', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 39: 0.46468 - Validation loss: 7.35886


HBox(children=(FloatProgress(value=0.0, description='Epoch 40', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 40: 0.45322 - Validation loss: 7.25213


HBox(children=(FloatProgress(value=0.0, description='Epoch 41', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 41: 0.45665 - Validation loss: 7.18472


HBox(children=(FloatProgress(value=0.0, description='Epoch 42', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 42: 0.45632 - Validation loss: 7.16456


HBox(children=(FloatProgress(value=0.0, description='Epoch 43', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 43: 0.45068 - Validation loss: 7.05125


HBox(children=(FloatProgress(value=0.0, description='Epoch 44', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 44: 0.45973 - Validation loss: 7.06639


HBox(children=(FloatProgress(value=0.0, description='Epoch 45', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 45: 0.45489 - Validation loss: 7.03010


HBox(children=(FloatProgress(value=0.0, description='Epoch 46', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 46: 0.46146 - Validation loss: 7.19828


HBox(children=(FloatProgress(value=0.0, description='Epoch 47', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 47: 0.44041 - Validation loss: 7.02917


HBox(children=(FloatProgress(value=0.0, description='Epoch 48', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 48: 0.44839 - Validation loss: 7.11427


HBox(children=(FloatProgress(value=0.0, description='Epoch 49', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 49: 0.45811 - Validation loss: 7.02493


HBox(children=(FloatProgress(value=0.0, description='Epoch 50', max=45.0, style=ProgressStyle(description_widt…


Loss at epoch 50: 0.45459 - Validation loss: 7.14459


In [42]:
with open("nn_weights.pkl", "rb") as f:
            model = pickle.load(f)
pred = model.predict(val_X)
# val_Y = enc.inverse_transform(val_Y).reshape(val_Y.shape[0])
print("Accuracy:", len(pred[val_Y.reshape(val_Y.shape[0]) == pred]) / len(pred))
from sklearn.metrics import confusion_matrix
print("Confusion matrix: ")
print(confusion_matrix(val_Y.reshape(val_Y.shape[0]), pred))

Accuracy: 0.8100558659217877
Confusion matrix: 
[[89  9]
 [25 56]]


## Kiểm tra (test)

**1. Đọc dữ liệu tập kiểm tra vào data frame `test_input_df`**

In [43]:
test_input_df = pd.read_csv('test.csv', index_col=0)
test_input_df.info()
test_input_df.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 418 entries, 892 to 1309
Data columns (total 10 columns):
Pclass      418 non-null int64
Name        418 non-null object
Sex         418 non-null object
Age         332 non-null float64
SibSp       418 non-null int64
Parch       418 non-null int64
Ticket      418 non-null object
Fare        417 non-null float64
Cabin       91 non-null object
Embarked    418 non-null object
dtypes: float64(2), int64(3), object(5)
memory usage: 35.9+ KB


Unnamed: 0_level_0,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [44]:
def remove_special_charaters(name):
    if '"' in name:
        return re.sub('"', '', name)

# test_input_df['Name'] = test_input_df['Name'].apply(remove_special_charaters)

**2. Xây dựng `test_X` từ `test_input_df`**

In [45]:
test_X = process_new_input_df(test_input_df, dropped_cols, mean_mode_dict, X_mean, X_std)

418
<class 'pandas.core.frame.DataFrame'>
Int64Index: 418 entries, 892 to 1309
Data columns (total 24 columns):
Pclass           418 non-null int64
Age              418 non-null float64
SibSp            418 non-null int64
Parch            418 non-null int64
female           418 non-null float64
 Mr              418 non-null float64
 Master          418 non-null float64
 Mrs             418 non-null float64
 Miss            418 non-null float64
 Dr              418 non-null float64
 Rev             418 non-null float64
 Don             418 non-null float64
 Col             418 non-null float64
 Jonkheer        418 non-null float64
 Ms              418 non-null float64
 Mlle            418 non-null float64
 Mme             418 non-null float64
 the Countess    418 non-null float64
 Major           418 non-null float64
 Lady            418 non-null float64
 Capt            418 non-null float64
C                418 non-null float64
Q                418 non-null float64
Fare             418

**3. Dự đoán nhãn lớp của test_X**

In [46]:
with open("nn_weights.pkl", "rb") as f:
            nn = pickle.load(f)
        
# Predict
preds = nn.predict(test_X)
preds_df = pd.DataFrame(preds, index=test_input_df.index, columns=['Survived'])
preds_df.head()
preds_df.to_csv('preds.csv')

*submit file `preds.csv` lên [Kaggle](https://www.kaggle.com/c/titanic/submissions/attach), và ghi nhận lại độ chính xác.*

Kết quả cho single model MLP from Scratch: ```Your submission scored 0.80622```