ในการเทรน Neural Network แล้ว Operation ส่วนใหญ่ก็คือ การคุณเมตริกซ์ Activation ของ Layer ก่อนหน้า กับ Weight ของ Layer นั้น 

เราได้ Normalize ข้อมูล Input ให้มีขนาด mean = 0, std = 1 เรียบร้อยแล้ว แล้ว Weight เราควร Initialize อย่างไร ให้ไม่เกิดปัญหา Vanishing Gradient และ Exploding Gradient

# 0. Import

In [1]:
import torch, math

# 1. Vanishing Gradient

สมมติ Weight เรา Inital ไว้น้อยเกินไป จะทำให้เกิด Vanishing Gradient คือ Gradient น้อยลงจนโมเดลเทรนไม่ไปไหน

In [2]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * 0.01

In [3]:
x.mean(), x.std()

(tensor(0.0084), tensor(1.0040))

In [4]:
a.mean(), a.std()

(tensor(3.0860e-05), tensor(0.0099))

In [5]:
for i in range(50):
    x = x @ a 
    print(f'{i}, {x.mean()}, {x.std()}')

0, -0.00012308883015066385, 0.10081212222576141
1, 6.062877218937501e-05, 0.009958631359040737
2, -5.713999598810915e-06, 0.0009827547473832965
3, -2.6385391720396e-06, 9.923477045958862e-05
4, 1.8872927398660977e-07, 9.949823834176641e-06
5, 6.353400916481178e-09, 1.009312995847722e-06
6, -2.987314395852536e-09, 1.0363645230881957e-07
7, 2.2307683478217655e-10, 1.0457650745365754e-08
8, 4.485252447228305e-12, 1.082509304417556e-09
9, -2.21616366750943e-12, 1.1044364034429321e-10
10, -9.716613093551513e-14, 1.132850757645798e-11
11, -1.1563880143164104e-14, 1.1714003248300409e-12
12, 2.821596555103241e-15, 1.2018770039531196e-13
13, 4.366935600467934e-17, 1.2278859806908512e-14
14, -4.1292419427283714e-17, 1.2419247894619387e-15
15, 5.672071035082906e-19, 1.2641872770052847e-16
16, 3.116762522866051e-19, 1.2977833499330239e-17
17, -1.6383184448665015e-20, 1.334556346488074e-18
18, -1.7409013616233646e-21, 1.3774881059541302e-19
19, -6.945157284203479e-23, 1.4424008783420303e-20
20, 2.6

ผลลัพธ์น้อยลง ๆ ๆ จนหายไปหมด กลายเป็น 0 เรียกว่า Vanishing Gradient

# 2. Exploding Gradient

สมมติ Weight เรา Inital ไว้มากเกินไป จะทำให้เกิด Exploding Gradient คือ Gradient มากจนโมเดล Error

In [6]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) 

In [7]:
x.mean(), x.std()

(tensor(0.0052), tensor(1.0035))

In [8]:
a.mean(), a.std()

(tensor(0.0036), tensor(1.0041))

In [9]:
for i in range(50):
    x = x @ a 
    print(f'{i}, {x.mean()}, {x.std()}')

0, 0.06944113224744797, 10.123376846313477
1, 0.046876031905412674, 102.4043960571289
2, 0.909347653388977, 1025.0296630859375
3, 135.59620666503906, 10326.9931640625
4, -453.7614440917969, 103001.0625
5, -21130.669921875, 1014882.625
6, -71946.9296875, 9843137.0
7, -24773.82421875, 98388896.0
8, 4196430.0, 977391168.0
9, -90994256.0, 9854563328.0
10, -93759464.0, 99021996032.0
11, 10142417920.0, 979634028544.0
12, -3620067328.0, 9672285224960.0
13, 297260023808.0, 94938733740032.0
14, -6461432791040.0, 953410731900928.0
15, -61434331398144.0, 9274541641564160.0
16, -407568740515840.0, 9.12780451339305e+16
17, -1256197269225472.0, 9.051564548921754e+17
18, -6.097315962028032e+16, 8.988005080254906e+18
19, -5.3255419498961306e+17, 9.200909454103963e+19
20, -5.971085498809057e+17, 9.268659953232637e+20
21, 5.46994170532515e+18, 9.409074589789678e+21
22, -2.1198788252879395e+20, 9.562251695855747e+22
23, -4.3926077108665083e+20, 9.528083425914842e+23
24, -3.3611557472967265e+22, 9.6459823

ผลลัพธ์มากขึ้น ๆ ๆ ๆ จนเกินค่ามากที่สุด ที่ระบบรับไหว เหมือนกับระเบิดออก กลายเป็น Infinity (inf) หรือ Not a number (nan) เรียกว่า Exploding Gradient

# 3. Kaiming Initialization

การ Initialize Weight ที่เหมาะสม ด้วย Kaiming Initialization จะช่วยให้เราเทรนโมเดล เร็วขึ้น และเทรนได้นานขึ้นตามที่เราต้องการโดยไม่ Error ไปเสียก่อน

In [10]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * math.sqrt(1./100.)

ในเคสนี้ เป็น Kaiming Initialization เวอร์ชัน สำหรับไม่มี Activation Function

In [11]:
x.mean(), x.std()

(tensor(0.0068), tensor(0.9893))

In [12]:
a.mean(), a.std()

(tensor(-0.0003), tensor(0.0997))

In [13]:
for i in range(50):
    x = x @ a 
    print(f'{i}, {x.mean()}, {x.std()}')

0, -0.0002966029569506645, 0.9761020541191101
1, -0.0003545041545294225, 0.9636297225952148
2, 0.008720957674086094, 0.9397486448287964
3, 0.0005875895731151104, 0.9026142954826355
4, 0.009837822057306767, 0.8824164271354675
5, -0.004870842210948467, 0.8637325167655945
6, 0.009631485678255558, 0.8482977151870728
7, -0.00699358806014061, 0.8444557189941406
8, 0.007382232695817947, 0.8386370539665222
9, 0.004917025100439787, 0.825736403465271
10, 0.009946335107088089, 0.8209970593452454
11, -0.014773333445191383, 0.8316162824630737
12, -0.010095912963151932, 0.830187976360321
13, -0.00988482404500246, 0.828865647315979
14, 0.014411764219403267, 0.8282093405723572
15, -0.004298543091863394, 0.8409703969955444
16, -0.008712172508239746, 0.8465444445610046
17, -0.015099233947694302, 0.8531993627548218
18, 0.013269342482089996, 0.871336042881012
19, 0.004237722605466843, 0.8973748087882996
20, 0.013615096919238567, 0.9357888698577881
21, -0.006991087459027767, 0.9703547954559326
22, 0.004890

คูณเมตริกซ์ยังไง ก็ยังใกล้เคียง mean = 0, std = 1 สามารถเทรนไปได้อีกยาว ๆ ไม่มี Vanishing Gradient และ Exploding Gradient 

# 4. Kaiming Initialization and ReLU Activation Function

การ Initialize Weight ที่เหมาะสม ด้วย Kaiming Initialization จะช่วยให้เราเทรนโมเดล เร็วขึ้น และเทรนได้นานขึ้นตามที่เราต้องการโดยไม่ Error ไปเสียก่อน 

In [14]:
gain = math.sqrt(2.)

In [15]:
x = torch.randn(100, 100)
a = torch.randn(100, 100) * math.sqrt(1./100.) * gain

ในเคสนี้ เป็น Kaiming Initialization เวอร์ชัน รองรับ ReLU Activation Function

In [16]:
x.mean(), x.std()

(tensor(-0.0034), tensor(1.0043))

In [17]:
a.mean(), a.std()

(tensor(0.0003), tensor(0.1395))

เพิ่ม ReLU Activation Function หลังจากที่ คุณเมตริกซ์

In [18]:
def relu(x):
    return x.clamp_(0.).sub_(0.5) # -0.5 for move mean

In [19]:
for i in range(50):
    x = x @ a 
    relu(x)
    print(f'{i}, {x.mean()}, {x.std()}')

0, 0.07064563035964966, 0.827333927154541
1, -0.046542372554540634, 0.6736540198326111
2, -0.13649706542491913, 0.5447353720664978
3, -0.19656209647655487, 0.4531916677951813
4, -0.21645238995552063, 0.4117547869682312
5, -0.21927060186862946, 0.3951576054096222
6, -0.2151007354259491, 0.3940693140029907
7, -0.2132544368505478, 0.39335212111473083
8, -0.20003201067447662, 0.4055188000202179
9, -0.19418643414974213, 0.4183146059513092
10, -0.18435138463974, 0.4282020032405853
11, -0.181589737534523, 0.433869868516922
12, -0.17619332671165466, 0.43589404225349426
13, -0.17180456221103668, 0.4391709268093109
14, -0.169425830245018, 0.4414549171924591
15, -0.1683892160654068, 0.4369339048862457
16, -0.16912926733493805, 0.4300256371498108
17, -0.17198164761066437, 0.424317330121994
18, -0.17612454295158386, 0.4219188094139099
19, -0.17541316151618958, 0.41755664348602295
20, -0.18087436258792877, 0.4102037250995636
21, -0.1807420402765274, 0.4083867073059082
22, -0.1825791299343109, 0.4087

คูณเมตริกซ์ยังไง ก็ยังใกล้เคียง mean = 0, std = 1 สามารถเทรนไปได้อีกยาว ๆ ไม่มี Vanishing Gradient และ Exploding Gradient 

# 4. สรุป

1. Initialization เป็นวิธีง่าย ๆ ที่คนมองข้ามไป ที่จะมาช่วยแก้ปัญหา Vanishing Gradient และ Exploding Gradient
1. อันนี้เป็นตัวอย่างง่าย ๆ ให้พอเห็นภาพ แต่ Neural Network จริง ๆ จะซับซ้อนกว่านี้ และมี Activation Function มาคั่น ทำให้พฤติกรรมของ Gradient เปลี่ยนไปอีก
1. ยังมีอีกหลายเทคนิค ที่มาช่วยคุมให้ไม่เกิดการ Vanishing Gradient และ Exploding Gradient เช่น เปลี่ยนจาก Sigmoid Activation Function เป็น ReLU Activation Function, Batch Normalization, LSTM, Residual Neural Network, etc.

# Credit

* https://course.fast.ai/videos/?lesson=9
* https://arxiv.org/abs/1502.01852
* http://proceedings.mlr.press/v9/glorot10a.html