ในการเทรน Neural Network แล้ว Operation ส่วนใหญ่ก็คือ การคุณเมตริกซ์ Activation ของ Layer ก่อนหน้า กับ Weight ของ Layer นั้น 

เราได้ Normalize ข้อมูล Input ให้มีขนาด mean = 0, std = 1 เรียบร้อยแล้ว แล้ว Weight เราควร Initialize อย่างไร ให้ไม่เกิดปัญหา Vanishing Gradient และ Exploding Gradient

# 0. Import

In [1]:
import torch, math

# 1. Vanishing Gradient

สมมติ Weight เรา Inital ไว้น้อยเกินไป จะทำให้เกิด Vanishing Gradient คือ Gradient น้อยลงจนโมเดลเทรนไม่ไปไหน

In [2]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * 0.01

In [3]:
x.mean(), x.std()

(tensor(0.0001), tensor(1.0025))

In [4]:
a.mean(), a.std()

(tensor(-0.0001), tensor(0.0100))

In [5]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.00017507371376268566, 0.10167848318815231
-7.372301479335874e-05, 0.010261043906211853
-2.8780448246834567e-06, 0.0010143351973965764
-1.6876927588782564e-07, 9.777984087122604e-05
3.359240352551751e-08, 9.540214705339167e-06
3.691448258180685e-09, 9.169621080218349e-07
2.2091392604117743e-10, 9.000610390330621e-08
2.3500966797596057e-11, 8.619646330032538e-09
-4.689652312317438e-12, 8.395186212872829e-10
-6.89078297460427e-13, 8.345434066026058e-11
-9.060880165742344e-14, 8.246623002527986e-12
-1.074634681236383e-14, 8.031314328860173e-13
4.0925230644648974e-17, 7.924113839055669e-14
-4.940155883099421e-17, 7.702458530473195e-15
9.769065072797198e-18, 7.462395734815052e-16
5.931241196656489e-19, 7.295576169273564e-17
5.596971565763158e-20, 7.080672660898817e-18
1.8003073083301636e-21, 6.833727298200579e-19
-3.273794213683821e-22, 6.744837177105923e-20
-8.420163251670666e-24, 6.68612270169243e-21
1.02225891327365e-24, 6.659254275965445e-22
-3.2391686335025807e-25, 6.588797889967663e

Gradient น้อยลง ๆ ๆ จนหายไปหมด กลายเป็น 0 เรียกว่า Vanishing Gradient

# 2. Exploding Gradient

สมมติ Weight เรา Inital ไว้มากเกินไป จะทำให้เกิด Exploding Gradient คือ Gradient มากจนโมเดล Error

In [6]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) 

In [7]:
x.mean(), x.std()

(tensor(0.0048), tensor(0.9941))

In [8]:
a.mean(), a.std()

(tensor(0.0006), tensor(0.9968))

In [9]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.13390818238258362, 9.991456985473633
-0.05380872264504433, 100.56512451171875
6.502710342407227, 1014.0548706054688
99.55369567871094, 10225.2802734375
-1185.7562255859375, 102960.796875
-3255.572509765625, 1034719.5
33751.78515625, 10397952.0
370168.03125, 106319144.0
8326245.5, 1092690560.0
96204656.0, 11263079424.0
-327059072.0, 115864281088.0
-13615388672.0, 1202106531840.0
-82196611072.0, 12214876504064.0
669934354432.0, 125522004672512.0
7082630709248.0, 1299222775201792.0
5463895179264.0, 1.3444827110703104e+16
-314454688399360.0, 1.3723501983485133e+17
-6957735350370304.0, 1.3998246746442957e+18
-1.894995405570048e+16, 1.419161978056527e+19
8.099675413875261e+17, 1.4332929234869368e+20
6.592233015005413e+18, 1.4394997633827555e+21
-2.6162531737255543e+19, 1.4556200323314585e+22
-7.762676644775754e+20, 1.439431145412933e+23
-3.3720249035224085e+21, 1.43265081404434e+24
3.144139440972736e+22, 1.406440296558608e+25
3.623719118380136e+23, 1.3843241030953261e+26
1.127447415732182

Gradient มากขึ้น ๆ ๆ ๆ จนเกินค่ามากที่สุด ที่ระบบรับไหว เหมือนกับระเบิดออก กลายเป็น Infinity (inf) หรือ Not a number (nan) เรียกว่า Exploding Gradient

# 3. Kaiming Initialization

การ Initialize Weight ที่เหมาะสม ด้วย Kaiming Initialization จะช่วยให้เราเทรนโมเดล เร็วขึ้น และเทรนได้นานขึ้นตามที่เราต้องการโดยไม่ Error ไปเสียก่อน

In [10]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * math.sqrt(1./100.)

ในเคสนี้ เป็น Kaiming Initialization เวอร์ชัน สำหรับไม่มี Activation Function

In [11]:
x.mean(), x.std()

(tensor(0.0041), tensor(0.9940))

In [12]:
a.mean(), a.std()

(tensor(0.0009), tensor(0.1007))

In [13]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

0.01355910673737526, 1.009394884109497
-0.0009019583812914789, 1.008618950843811
0.006854343228042126, 1.035135269165039
0.005343644414097071, 1.0571950674057007
-0.01608518324792385, 1.0883299112319946
-0.03656657040119171, 1.1212023496627808
0.011612932197749615, 1.150809407234192
-0.007006821222603321, 1.170104742050171
-0.01744045503437519, 1.1924595832824707
0.04205748066306114, 1.2023160457611084
0.007699768058955669, 1.208798885345459
0.0028597936034202576, 1.2344635725021362
-0.012984923087060452, 1.250748634338379
0.0026043711695820093, 1.2699295282363892
-0.008521312847733498, 1.2942026853561401
-0.03892156854271889, 1.3185118436813354
0.022261012345552444, 1.3530927896499634
0.01013812143355608, 1.3929109573364258
-0.006325617432594299, 1.4162572622299194
0.026290105655789375, 1.4530174732208252
0.027532892301678658, 1.4988577365875244
-0.035421572625637054, 1.5125532150268555
-2.3201537260320038e-05, 1.557770013809204
0.003481278195977211, 1.595447063446045
-0.0615068674087

เทรนยังไง ก็ยังใกล้เคียง mean = 0, std = 1 สามารถเทรนไปได้อีกยาว ๆ ไม่มี Vanishing Gradient และ Exploding Gradient 

# 4. Kaiming Initialization and ReLU

การ Initialize Weight ที่เหมาะสม ด้วย Kaiming Initialization จะช่วยให้เราเทรนโมเดล เร็วขึ้น และเทรนได้นานขึ้นตามที่เราต้องการโดยไม่ Error ไปเสียก่อน 

In [22]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * math.sqrt(2./100.) 

ในเคสนี้ เป็น Kaiming Initialization เวอร์ชัน รองรับ ReLU Activation Function

In [23]:
x.mean(), x.std()

(tensor(-0.0201), tensor(1.0026))

In [24]:
a.mean(), a.std()

(tensor(-0.0009), tensor(0.1421))

เพิ่ม ReLU Activation Function หลังจากที่ คุณเมตริกซ์

In [25]:
for i in range(50):
    x = x @ a 
    x.clamp_(0.).sub_(0.5)
    print(f'{x.mean()}, {x.std()}')

0.05886748060584068, 0.8281500339508057
-0.033054009079933167, 0.6885173916816711
-0.10326369851827621, 0.5854166746139526
-0.1523090898990631, 0.5158868432044983
-0.18360678851604462, 0.46670782566070557
-0.2053983211517334, 0.43096715211868286
-0.22285041213035583, 0.41442015767097473
-0.2292095273733139, 0.40878817439079285
-0.23003438115119934, 0.40389448404312134
-0.2422867864370346, 0.38915613293647766
-0.24782265722751617, 0.384470671415329
-0.24618056416511536, 0.3883412778377533
-0.2510676383972168, 0.3791261315345764
-0.2583562135696411, 0.3744102120399475
-0.25615394115448, 0.3753649592399597
-0.2604292333126068, 0.36984989047050476
-0.2650303542613983, 0.3634847402572632
-0.2675199508666992, 0.3619166314601898
-0.2693164646625519, 0.3584318161010742
-0.2713205814361572, 0.3555430769920349
-0.2736847996711731, 0.3526526093482971
-0.27716296911239624, 0.34966370463371277
-0.2775050103664398, 0.3492511808872223
-0.27866366505622864, 0.34820398688316345
-0.28135573863983154, 0.

# 4. สรุป

1. Initialization เป็นวิธีง่าย ๆ ที่คนมองข้ามไป ที่จะมาช่วยแก้ปัญหา Vanishing Gradient และ Exploding Gradient
1. อันนี้เป็นตัวอย่างง่าย ๆ ให้พอเห็นภาพ แต่ Neural Network จริง ๆ จะซับซ้อนกว่านี้ และมี Activation Function มาคั่น ทำให้พฤติกรรมของ Gradient เปลี่ยนไปอีก
1. ยังมีอีกหลายเทคนิค ที่มาช่วยคุมให้ไม่เกิดการ Vanishing Gradient และ Exploding Gradient เช่น เปลี่ยนจาก Sigmoid Activation Function เป็น ReLU Activation Function, Batch Normalization, LSTM, Residual Neural Network, etc.

# Credit

* https://course.fast.ai/videos/?lesson=8
* https://arxiv.org/abs/1502.01852
* http://proceedings.mlr.press/v9/glorot10a.html