ในการเทรน Neural Network แล้ว Operation ส่วนใหญ่ก็คือ การคุณเมตริกซ์ Activation ของ Layer ก่อนหน้า กับ Weight ของ Layer นั้น 

เราได้ Normalize ข้อมูล Input ให้มีขนาด mean = 0, std = 1 เรียบร้อยแล้ว แล้ว Weight เราควร Initialize อย่างไร ให้ไม่เกิดปัญหา Vanishing Gradient และ Exploding Gradient

# 0. Import

In [1]:
import torch, math

# 1. Vanishing Gradient

สมมติ Weight เรา Inital ไว้น้อยเกินไป จะทำให้เกิด Vanishing Gradient คือ Gradient น้อยลงจนโมเดลเทรนไม่ไปไหน

In [2]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * 0.01

In [3]:
x.mean(), x.std()

(tensor(-6.3651e-05), tensor(1.0006))

In [4]:
a.mean(), a.std()

(tensor(-6.1226e-05), tensor(0.0100))

In [5]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.0011630874359980226, 0.09881862998008728
-9.938931179931387e-05, 0.009742888621985912
-3.5831983495882014e-06, 0.0009556368459016085
-2.8256377504476404e-07, 9.345661965198815e-05
-6.211658387655916e-08, 9.210143616655841e-06
-8.053242517291892e-09, 9.127396083385975e-07
-1.4066118929345617e-11, 8.959891317772417e-08
1.0251621079815365e-10, 8.865979062022689e-09
-1.3077318091261891e-12, 8.646317550820015e-10
1.9120481294186004e-13, 8.463672124259247e-11
-1.6820102439769197e-14, 8.386395744519604e-12
8.900033521849846e-16, 8.323172337974805e-13
4.080926124625802e-16, 8.236235315723511e-14
7.754544280465757e-17, 8.152502381942456e-15
1.3551446858188811e-17, 8.075928697686536e-16
8.083402299336371e-19, 7.965972306778801e-17
-1.0700220188084868e-20, 7.821642855650343e-18
-3.757167837212008e-21, 7.800549439837511e-19
4.812225702336045e-23, 7.828140049169218e-20
6.19976640139249e-23, 7.976001814837339e-21
1.906804406170605e-24, 8.152802986989704e-22
9.255074528531537e-26, 8.30883967404242

ผลลัพธ์น้อยลง ๆ ๆ จนหายไปหมด กลายเป็น 0 เรียกว่า Vanishing Gradient

# 2. Exploding Gradient

สมมติ Weight เรา Inital ไว้มากเกินไป จะทำให้เกิด Exploding Gradient คือ Gradient มากจนโมเดล Error

In [6]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) 

In [7]:
x.mean(), x.std()

(tensor(-0.0070), tensor(1.0001))

In [8]:
a.mean(), a.std()

(tensor(-0.0089), tensor(0.9929))

In [9]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.07788599282503128, 9.884371757507324
0.9893532991409302, 98.22242736816406
4.274112701416016, 987.0665893554688
-16.095008850097656, 9915.076171875
448.4031982421875, 98888.9375
5332.09912109375, 988017.25
38937.65625, 9834292.0
-701215.25, 98642112.0
-945300.875, 995289408.0
9441489.0, 9910586368.0
289350400.0, 98051645440.0
-11162839040.0, 963159523328.0
-11825137664.0, 9305675792384.0
-161594425344.0, 90775618584576.0
-7740103065600.0, 901637853937664.0
47723977900032.0, 9023469664600064.0
-654618514161664.0, 9.008764340823654e+16
5848977194876928.0, 9.024520686047068e+17
-1.5257465444630528e+16, 9.070089120826524e+18
1.0786029538849587e+17, 9.09828455720456e+19
-5.910861123787162e+17, 9.260312812798282e+20
-1.780301190148391e+19, 9.428170978109635e+21
5.588821562227268e+19, 9.583198838442573e+22
-6.374246293792497e+21, 9.820426849534239e+23
4.829742205905338e+22, 1.0110837976711915e+25
-8.457347210187954e+23, 1.0352820981965031e+26
5.110378756480566e+24, 1.0730100617055846e+27
-

ผลลัพธ์มากขึ้น ๆ ๆ ๆ จนเกินค่ามากที่สุด ที่ระบบรับไหว เหมือนกับระเบิดออก กลายเป็น Infinity (inf) หรือ Not a number (nan) เรียกว่า Exploding Gradient

# 3. Kaiming Initialization

การ Initialize Weight ที่เหมาะสม ด้วย Kaiming Initialization จะช่วยให้เราเทรนโมเดล เร็วขึ้น และเทรนได้นานขึ้นตามที่เราต้องการโดยไม่ Error ไปเสียก่อน

In [10]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * math.sqrt(1./100.)

ในเคสนี้ เป็น Kaiming Initialization เวอร์ชัน สำหรับไม่มี Activation Function

In [11]:
x.mean(), x.std()

(tensor(-0.0052), tensor(0.9905))

In [12]:
a.mean(), a.std()

(tensor(0.0004), tensor(0.0995))

In [13]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.001961028901860118, 0.9804835319519043
0.0066825104877352715, 0.9459649920463562
0.0017954708309844136, 0.9131015539169312
-0.00032662798184901476, 0.886145830154419
0.0010511792497709394, 0.847648561000824
0.007113030180335045, 0.8228991031646729
0.00364466430619359, 0.7976378202438354
0.0033620528411120176, 0.769417405128479
-0.001324192387983203, 0.7414211630821228
-0.005430674646049738, 0.7284957766532898
0.0033862190321087837, 0.7002277374267578
-0.006812638137489557, 0.6694394946098328
0.009031752124428749, 0.648523211479187
-0.008022509515285492, 0.6283957362174988
0.006218841765075922, 0.6164788603782654
-0.003018713556230068, 0.604532778263092
0.0005841413512825966, 0.6006419658660889
-0.001683267648331821, 0.599172055721283
-0.001811545342206955, 0.6022291779518127
0.004914507269859314, 0.5919215083122253
-0.005394812673330307, 0.5832630395889282
0.0054840147495269775, 0.5660291910171509
-0.007155246566981077, 0.5505449175834656
0.007717013359069824, 0.5433059930801392
-0.

คูณเมตริกซ์ยังไง ก็ยังใกล้เคียง mean = 0, std = 1 สามารถเทรนไปได้อีกยาว ๆ ไม่มี Vanishing Gradient และ Exploding Gradient 

# 4. Kaiming Initialization and ReLU Activation Function

การ Initialize Weight ที่เหมาะสม ด้วย Kaiming Initialization จะช่วยให้เราเทรนโมเดล เร็วขึ้น และเทรนได้นานขึ้นตามที่เราต้องการโดยไม่ Error ไปเสียก่อน 

In [14]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * math.sqrt(2./100.) 

ในเคสนี้ เป็น Kaiming Initialization เวอร์ชัน รองรับ ReLU Activation Function

In [15]:
x.mean(), x.std()

(tensor(-0.0056), tensor(1.0042))

In [16]:
a.mean(), a.std()

(tensor(0.0011), tensor(0.1416))

เพิ่ม ReLU Activation Function หลังจากที่ คุณเมตริกซ์

In [17]:
def relu(x):
    return x.clamp_(0.).sub_(0.5) # -0.5 for move mean

In [18]:
for i in range(50):
    x = x @ a 
    relu(x)
    print(f'{x.mean()}, {x.std()}')

0.06648430228233337, 0.8230900764465332
-0.02886865846812725, 0.6905091404914856
-0.12622737884521484, 0.5658187866210938
-0.17850901186466217, 0.4789811670780182
-0.20579160749912262, 0.432671457529068
-0.2205767035484314, 0.4147087335586548
-0.21839232742786407, 0.42126333713531494
-0.20855812728405, 0.43228211998939514
-0.21237443387508392, 0.4301563799381256
-0.21884819865226746, 0.42264682054519653
-0.22108007967472076, 0.41701412200927734
-0.22786010801792145, 0.4049307703971863
-0.23186254501342773, 0.4062361717224121
-0.22901150584220886, 0.4085143208503723
-0.22873610258102417, 0.4160333573818207
-0.2273184061050415, 0.4199058413505554
-0.22548164427280426, 0.4195462465286255
-0.22702814638614655, 0.4176771640777588
-0.22986826300621033, 0.41568467020988464
-0.230134516954422, 0.41105762124061584
-0.2328823208808899, 0.40973997116088867
-0.23497958481311798, 0.4088752567768097
-0.23537060618400574, 0.4109871983528137
-0.23631909489631653, 0.4115966856479645
-0.2354335635900497

คูณเมตริกซ์ยังไง ก็ยังใกล้เคียง mean = 0, std = 1 สามารถเทรนไปได้อีกยาว ๆ ไม่มี Vanishing Gradient และ Exploding Gradient 

# 4. สรุป

1. Initialization เป็นวิธีง่าย ๆ ที่คนมองข้ามไป ที่จะมาช่วยแก้ปัญหา Vanishing Gradient และ Exploding Gradient
1. อันนี้เป็นตัวอย่างง่าย ๆ ให้พอเห็นภาพ แต่ Neural Network จริง ๆ จะซับซ้อนกว่านี้ และมี Activation Function มาคั่น ทำให้พฤติกรรมของ Gradient เปลี่ยนไปอีก
1. ยังมีอีกหลายเทคนิค ที่มาช่วยคุมให้ไม่เกิดการ Vanishing Gradient และ Exploding Gradient เช่น เปลี่ยนจาก Sigmoid Activation Function เป็น ReLU Activation Function, Batch Normalization, LSTM, Residual Neural Network, etc.

# Credit

* https://course.fast.ai/videos/?lesson=8
* https://arxiv.org/abs/1502.01852
* http://proceedings.mlr.press/v9/glorot10a.html