ในการเทรน Neural Network แล้ว Operation ส่วนใหญ่ก็คือ การคุณเมตริกซ์ Activation ของ Layer ก่อนหน้า กับ Weight ของ Layer นั้น 

เราได้ Normalize ข้อมูล Input ให้มีขนาด mean = 0, std = 1 เรียบร้อยแล้ว แล้ว Weight เราควร Initialize อย่างไร ให้ไม่เกิดปัญหา Vanishing Gradient และ Exploding Gradient

# 0. Import

In [1]:
import torch, math

# 1. Vanishing Gradient

สมมติ Weight เรา Inital ไว้น้อยเกินไป จะทำให้เกิด Vanishing Gradient คือ Gradient น้อยลงจนโมเดลเทรนไม่ไปไหน

In [2]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * 0.01

In [3]:
x.mean(), x.std()

(tensor(-0.0199), tensor(1.0092))

In [4]:
a.mean(), a.std()

(tensor(2.1250e-05), tensor(0.0099))

In [5]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

0.00017913724877871573, 0.09934860467910767
-4.0855993574950844e-05, 0.009869304485619068
1.0142174687644001e-05, 0.0009959685849025846
-4.893249183623993e-07, 0.00010263946751365438
7.321295925066806e-08, 1.0609285709506366e-05
-1.3883056482200118e-08, 1.1004365205735667e-06
1.5150761756288489e-09, 1.1394649135354484e-07
-4.7354190013670916e-11, 1.1809905053894454e-08
-4.9366045105914136e-12, 1.2106459168492734e-09
-1.6561505855952618e-12, 1.208376732009242e-10
1.0133922509741183e-13, 1.2119871946325578e-11
-7.945319817109948e-15, 1.1908142657710008e-12
8.610282608835463e-16, 1.166913381244264e-13
7.736781734864038e-17, 1.1342849436676936e-14
-4.2793481751007154e-18, 1.1064583866910848e-15
7.320693177701492e-19, 1.1011072295770262e-16
-1.398837120576241e-19, 1.0798391256265322e-17
3.682074135538328e-21, 1.0617941598841726e-18
-1.4835097302532886e-22, 1.0585236428385028e-19
-5.642357285763323e-23, 1.058220962588968e-20
4.913668244923764e-24, 1.0762545702691002e-21
-2.893685705836116e-2

Gradient น้อยลง ๆ ๆ จนหายไปหมด กลายเป็น 0 เรียกว่า Vanishing Gradient

# 2. Exploding Gradient

สมมติ Weight เรา Inital ไว้มากเกินไป จะทำให้เกิด Exploding Gradient คือ Gradient มากจนโมเดล Error

In [6]:
x = torch.randn(100, 100)
a = torch.randn(100, 100)

In [7]:
x.mean(), x.std()

(tensor(-0.0062), tensor(0.9879))

In [8]:
a.mean(), a.std()

(tensor(0.0135), tensor(0.9968))

In [9]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.006464483682066202, 9.851457595825195
-1.161303162574768, 98.49085235595703
-11.613266944885254, 989.3695678710938
152.9934844970703, 9853.14453125
-21.10472869873047, 98597.2578125
4141.78173828125, 999077.5625
-17801.60546875, 10104777.0
763903.625, 101989200.0
8819832.0, 1033927680.0
-31683038.0, 10528658432.0
696496768.0, 106959970304.0
-1886714752.0, 1102285897728.0
-116700585984.0, 10966904340480.0
-252804923392.0, 109206833201152.0
6071649828864.0, 1102194237505536.0
13513369059328.0, 1.1191731290636288e+16
1332040754528256.0, 1.1169257444763238e+17
7320393798909952.0, 1.1304452191923732e+18
-8.097337920874086e+16, 1.1530863213998506e+19
4.021033251068969e+17, 1.1609892811268162e+20
-7.212661588036157e+18, 1.1615433646184711e+21
-1.2412689131660902e+19, 1.1883213739378487e+22
-2.085838121213855e+20, 1.2122614737290359e+23
-1.610218136669954e+21, 1.244752855370287e+24
5.351034313133436e+22, 1.2593393876622719e+25
-1.0982890220743588e+24, 1.2655860086079521e+26
-2.7201052698574

Gradient มากขึ้น ๆ ๆ ๆ จนเกินค่ามากที่สุด ที่ระบบรับไหว เหมือนกับระเบิดออก กลายเป็น Not a number (nan) เรียกว่า Exploding Gradient

# 3. Good Gradient

การ Initialize Weight ที่เหมาะสม ด้วย Kaiming Initialization เวอร์ชันง่าย จะช่วยให้เราเทรนโมเดล เร็วขึ้น และเทรนได้นานขึ้นตามที่เราต้องการโดยไม่ Error ไปเสียก่อน

In [10]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) / math.sqrt(100.)

In [11]:
x.mean(), x.std()

(tensor(-0.0072), tensor(1.0007))

In [12]:
a.mean(), a.std()

(tensor(0.0004), tensor(0.0997))

In [13]:
for i in range(50):
    x = x @ a 
    print(f'{x.mean()}, {x.std()}')

-0.003423361573368311, 0.9862010478973389
-0.001551432884298265, 0.9918045401573181
0.0027205597143620253, 0.9681825637817383
-0.009682733565568924, 0.9528613686561584
-0.004332737531512976, 0.9425724148750305
0.0016004531644284725, 0.9508942365646362
0.005176842678338289, 0.9488039016723633
0.009042403660714626, 0.9557508826255798
-0.0028722744900733232, 0.9818627238273621
-0.005652995314449072, 1.001180648803711
-0.01023608073592186, 1.0218453407287598
0.0008424305124208331, 1.0508816242218018
-0.0035227970220148563, 1.0933455228805542
-0.00042081528226844966, 1.1434849500656128
-0.00550262164324522, 1.203572154045105
-0.009716606698930264, 1.2859938144683838
-0.01619739457964897, 1.3919053077697754
-0.0075619034469127655, 1.495025873184204
-0.009142210707068443, 1.5948179960250854
-0.007113755214959383, 1.723465085029602
-0.018964460119605064, 1.8694158792495728
-0.01763538084924221, 2.019660472869873
-0.016216063871979713, 2.183741331100464
-0.013646665960550308, 2.357043743133545


เทรนไปได้อีกยาว ๆ ไม่มี Vanishing Gradient และ Exploding Gradient 

# 4. สรุป

1. Initialization เป็นวิธีง่าย ๆ ที่คนมองข้ามไป ที่จะมาช่วยแก้ปัญหา Vanishing Gradient และ Exploding Gradient
1. อันนี้เป็นตัวอย่างง่าย ๆ ให้พอเห็นภาพ แต่ Neural Network จริง ๆ จะซับซ้อนกว่านี้ และมี Activation Function มาคั่น ทำให้พฤติกรรมของ Gradient เปลี่ยนไปอีก
1. ยังมีอีกหลายเทคนิค ที่มาช่วยคุมให้ไม่เกิดการ Vanishing Gradient และ Exploding Gradient เช่น เปลี่ยนจาก Sigmoid Activation Function เป็น ReLU Activation Function, Batch Normalization, etc.

# Credit

* https://course.fast.ai/videos/?lesson=8
* https://arxiv.org/abs/1502.01852
* http://proceedings.mlr.press/v9/glorot10a.html