ในการเทรน Neural Network แล้ว Operation ส่วนใหญ่ก็คือ การคุณเมตริกซ์ Activation ของ Layer ก่อนหน้า กับ Weight ของ Layer นั้น 

เราได้ Normalize ข้อมูล Input ให้มีขนาด mean = 0, std = 1 เรียบร้อยแล้ว แล้ว Weight เราควร Initialize อย่างไร ให้ไม่เกิดปัญหา Vanishing Gradient และ Exploding Gradient

# 0. Import

In [1]:
import torch, math

# 1. Vanishing Gradient

สมมติ Weight เรา Inital ไว้น้อยเกินไป จะทำให้เกิด Vanishing Gradient คือ Gradient น้อยลงจนโมเดลเทรนไม่ไปไหน

In [2]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * 0.01

In [3]:
x.mean(), x.std()

(tensor(0.0080), tensor(1.0046))

In [4]:
a.mean(), a.std()

(tensor(0.0003), tensor(0.0099))

In [5]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

0.0013508675619959831, 0.09889435768127441
1.2939473890583031e-05, 0.009698805399239063
-2.5330593871331075e-06, 0.0009285073028877378
-3.030596076314396e-07, 8.779012568993494e-05
-5.6284992666633116e-08, 8.152215741574764e-06
-4.944944009821484e-09, 7.76597687490721e-07
5.459238963667623e-11, 7.322491057948355e-08
-1.900024408640899e-11, 6.916601069661965e-09
-4.817770748316574e-12, 6.510081362876008e-10
-5.367187813978824e-13, 6.147349990159867e-11
4.144454283884144e-15, 5.719657820285606e-12
1.7179949987850083e-15, 5.423727330970685e-13
-5.937874602006833e-16, 4.9925694004318566e-14
-3.6180777422673474e-17, 4.7063446008735986e-15
3.67145510748945e-19, 4.4337092591079097e-16
4.0051017679839524e-19, 4.1577148229014267e-17
1.651644615340415e-20, 3.891963364220188e-18
-2.4049175691244315e-21, 3.6353468642939205e-19
3.708558808833915e-22, 3.417113806612101e-20
5.475120036033917e-23, 3.1905816313042533e-21
4.810118023769475e-24, 3.0252921738131464e-22
2.303291665680055e-25, 2.76706310032

Gradient น้อยลง ๆ ๆ จนหายไปหมด กลายเป็น 0 เรียกว่า Vanishing Gradient

# 2. Exploding Gradient

สมมติ Weight เรา Inital ไว้มากเกินไป จะทำให้เกิด Exploding Gradient คือ Gradient มากจนโมเดล Error

In [6]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) 

In [7]:
x.mean(), x.std()

(tensor(-0.0011), tensor(1.0101))

In [8]:
a.mean(), a.std()

(tensor(0.0065), tensor(0.9965))

In [9]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.0003418514388613403, 10.19948959350586
0.5510010123252869, 100.68623352050781
2.801199436187744, 993.396240234375
61.76595687866211, 9814.9091796875
1061.1104736328125, 97966.046875
6292.462890625, 994154.8125
173913.6875, 10093417.0
-385668.53125, 102973224.0
-10731432.0, 1046072320.0
-7138667.0, 10570327040.0
-363239488.0, 107324006400.0
6509600768.0, 1087270617088.0
27184347136.0, 11186716278784.0
355075620864.0, 117136500457472.0
13243606106112.0, 1194452819378176.0
32262942883840.0, 1.2279713078706176e+16
-241811339608064.0, 1.278929505699758e+17
-2720320079265792.0, 1.318578874249904e+18
-3.2799058921783296e+16, 1.350602700164694e+19
2.133871865846825e+17, 1.3852103124340598e+20
-8.976034147407495e+18, 1.4389750940261669e+21
-4.664219804393223e+19, 1.5034666125426147e+22
1.0805825059609526e+21, 1.56545249148188e+23
9.298384555198212e+21, 1.6436972748030777e+24
3.9043357990738075e+22, 1.733038978046432e+25
6.37433798708091e+23, 1.80777188031894e+26
2.2766321576274106e+24, 1.900

Gradient มากขึ้น ๆ ๆ ๆ จนเกินค่ามากที่สุด ที่ระบบรับไหว เหมือนกับระเบิดออก กลายเป็น Infinity (inf) หรือ Not a number (nan) เรียกว่า Exploding Gradient

# 3. Good Gradient

การ Initialize Weight ที่เหมาะสม ด้วย Kaiming Initialization จะช่วยให้เราเทรนโมเดล เร็วขึ้น และเทรนได้นานขึ้นตามที่เราต้องการโดยไม่ Error ไปเสียก่อน

In [10]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * math.sqrt(1./100.)

ในเคสนี้ เป็น Kaiming Initialization เวอร์ชัน สำหรับไม่มี Activation Function

In [11]:
x.mean(), x.std()

(tensor(-0.0075), tensor(1.0050))

In [12]:
a.mean(), a.std()

(tensor(-0.0022), tensor(0.0995))

In [13]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.008308516815304756, 1.0066359043121338
0.003701099893078208, 1.0122220516204834
0.003555767936632037, 1.0264790058135986
-0.009853304363787174, 1.0358673334121704
0.00206198962405324, 1.0479158163070679
-0.01695556566119194, 1.0603300333023071
0.0034912917762994766, 1.0605497360229492
-0.01663830876350403, 1.0677226781845093
-0.005277976393699646, 1.0787073373794556
0.013829351402819157, 1.0773532390594482
-0.0060759070329368114, 1.0773873329162598
0.015359742566943169, 1.066588044166565
0.008619128726422787, 1.0800039768218994
-0.010508550330996513, 1.0964856147766113
-0.003669534344226122, 1.0933401584625244
-0.001840923447161913, 1.0962908267974854
0.004351073410362005, 1.0991324186325073
0.016973178833723068, 1.0983566045761108
-0.001919321483001113, 1.0963629484176636
4.821686161449179e-05, 1.092624306678772
0.0020963200367987156, 1.1001993417739868
-0.011290794238448143, 1.110417127609253
-0.00031993776792660356, 1.0924584865570068
0.0021475080866366625, 1.088010311126709
0.00

เทรนยังไง ก็ยังใกล้เคียง mean = 0, std = 1 สามารถเทรนไปได้อีกยาว ๆ ไม่มี Vanishing Gradient และ Exploding Gradient 

# 4. สรุป

1. Initialization เป็นวิธีง่าย ๆ ที่คนมองข้ามไป ที่จะมาช่วยแก้ปัญหา Vanishing Gradient และ Exploding Gradient
1. อันนี้เป็นตัวอย่างง่าย ๆ ให้พอเห็นภาพ แต่ Neural Network จริง ๆ จะซับซ้อนกว่านี้ และมี Activation Function มาคั่น ทำให้พฤติกรรมของ Gradient เปลี่ยนไปอีก
1. ยังมีอีกหลายเทคนิค ที่มาช่วยคุมให้ไม่เกิดการ Vanishing Gradient และ Exploding Gradient เช่น เปลี่ยนจาก Sigmoid Activation Function เป็น ReLU Activation Function, Batch Normalization, LSTM, Residual Neural Network, etc.

# Credit

* https://course.fast.ai/videos/?lesson=8
* https://arxiv.org/abs/1502.01852
* http://proceedings.mlr.press/v9/glorot10a.html