-
Notifications
You must be signed in to change notification settings - Fork 207
/
Lecture 7 Training Neural Networks II.ko.srt
3457 lines (2732 loc) · 98.1 KB
/
Lecture 7 Training Neural Networks II.ko.srt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
1
-00:00:00,485 --> 00:00:05,515
Translated by visionNoob, KNU
https://github.com/insurgent92/CS231N_17_KOR_SUB
2
00:00:08,355 --> 00:00:11,357
자 12시가 지났군요 시작합니다.
3
00:00:14,644 --> 00:00:17,419
우선 지난시간에 배운 내용을 복습하겠습니다.
4
00:00:17,419 --> 00:00:23,400
지난시간에 Nerural networks를 학습 시킬 때 필요한 여러가지
중요한 것들을 배웠습니다.
5
00:00:23,400 --> 00:00:30,439
지난 시간에 배운 내용을 다시 한번 살펴 본 뒤에
몇 가지 더 배워보겠습니다.
6
00:00:30,439 --> 00:00:34,707
우선 공지사항을 몇 가지 전달합니다.
7
00:00:34,707 --> 00:00:39,645
우선 과제 1의 마감기한이 종료되었습니다.
여러분 모두 잘 제출했길 바랍니다.
8
00:00:39,645 --> 00:00:57,322
다들 잘 했나요?
과제 1은 체점 중에 있습니다.
9
00:00:57,322 --> 00:01:04,121
그리고 두 번째는 프로젝트 제안서 제출은
금일 11:59 PM 까지 입니다.
10
00:01:04,959 --> 00:01:09,074
오늘 까지 꼭 제출 해 주시기 바랍니다.
자세한 사항은 web과 Piazza에서 확인바랍니다.
11
00:01:09,074 --> 00:01:15,269
그리고 과제 2가 나왔습니다.
제출까지 1주일정도의 기간이 남았습니다.
12
00:01:15,269 --> 00:01:25,860
과제 2는 우리 수업에서 가장 오래 걸리는 과제 입니다.
그러니 서둘러 진행 하는 것을 추천드립니다.
13
00:01:27,122 --> 00:01:32,484
그리고 과제 2를 하실때 팁을 드리자면
현재 대다수가 Googld Cloud를 쓰고 계신데
14
00:01:32,484 --> 00:01:38,586
Googld Cloud에서 instances를 사용하지 않을 시에는
반드시 종료시켜 줘야 합니다. 아니면 요금이 계속 지불됩니다.
15
00:01:38,586 --> 00:01:42,899
여러분들이 쿠폰을 너무 많이 씁니다.
16
00:01:42,899 --> 00:01:52,223
instance에서 아무 작업도 하지 않더라도 켜져 있으면
요금이 부과됩니다.
17
00:01:52,223 --> 00:01:57,118
그러니 사용하지 않으면 반드시 종료시켜 줘야 합니다.
18
00:01:57,118 --> 00:02:04,970
여기 제 대쉬보드 화면인데, 이런 식으로 확실하게
STOP 버튼을 눌러줘야 합니다.
19
00:02:04,970 --> 00:02:08,644
매일 매일 이렇게 종료 시켜 주시기 바랍니다.
20
00:02:09,481 --> 00:02:20,853
그리고 Googld Cloud를 사용할 때 아셔하 할 것은
GPU를 쓰는 것이 CPU보다 더 비싸다는 것입니다.
21
00:02:20,853 --> 00:02:28,322
GPU를 쓰시면 어림잡아 시간당 거의 1 달러를 사용하게 됩니다.
상당히 가격이 높습니다.
22
00:02:28,322 --> 00:02:39,739
CPU instances는 조금 더 쌉니다. 추천 드리는 방법은 GPU
instance는 GPU가 필요할 때만 쓰는 것입니다.
23
00:02:39,739 --> 00:02:47,377
가령 과제 2를 하실 때 대게는 CPU만 있으면 됩니다. 따라서
CPU instance만 사용하면 됩니다.
24
00:02:47,377 --> 00:02:52,990
하지만 과제2의 마지막 문제를 풀때 사용하는
Tensorflow와 PyTorch는 GPU가 필요합니다.
25
00:02:52,990 --> 00:02:58,897
CPU와 GPU instance를 각각 만들고 정말 필요할 때만
GPU instance를 사용하시길 권장드립니다.
26
00:02:58,897 --> 00:03:04,307
그러니 비용이 얼마나 지불되는 지를 모니터링 하면서
지나치게 지불되는 것을 주의하시기 바랍니다.
27
00:03:04,307 --> 00:03:07,748
공지사항 관련한 질문사항 있나요?
28
00:03:11,180 --> 00:03:12,182
질문있나요?
29
00:03:12,182 --> 00:03:13,902
[학생이 질문]
30
00:03:13,902 --> 00:03:16,133
RAM을 얼마나 사용해야 하냐고 하셨는데
31
00:03:16,133 --> 00:03:21,863
과제용으로는 8~16기가면 충분합니다.
32
00:03:21,863 --> 00:03:27,114
CPU나 RAM을 너무 많이 추가하면 돈이 많이 듭니다.
33
00:03:27,114 --> 00:03:34,542
CPU는 2~4개를 쓰고 RAM은 8~16 기가를 쓰시면
과제 하실 때 충분한 사양입니다.
34
00:03:36,636 --> 00:03:40,417
지난 시간 내용을 복습해 보면
Activation function을 배웠습니다.
35
00:03:40,417 --> 00:03:44,962
지난 시간에 다양한 Activation Function과 각각의
특성을 배웠습니다.
36
00:03:44,962 --> 00:03:59,736
10년 전에는 sigmoid가 아주 유명했습니다. 하지만 Vanishing
gradients가 생기는 문제가 있었죠 tanh도 마찬가지 이구요
37
00:03:59,736 --> 00:04:09,230
그래서 요즘은 대부분 ReLU를 씁니다. 일반적인
네트워크에서 가장 잘 동작하는 녀석입니다.
38
00:04:09,230 --> 00:04:16,820
그래서 가중치 초기화에 대해서도 배웠습니다.
39
00:04:16,820 --> 00:04:23,787
가중치가 지나치게 작으면 activatiom이 사라집니다.
40
00:04:23,788 --> 00:04:29,583
작은 값이 여러 번 곱해지기 때문에 점점
0이 되는 것이었습니다.
41
00:04:29,583 --> 00:04:33,072
결국 모든 값이 0이 되고 학습은 일어나지 않습니다.
42
00:04:33,072 --> 00:04:41,208
반면에 가중치가 너무 큰 값으로 초기화되면 그 값이 또
계속 곱해질 것이고 결국은 터져버릴 것입니다(explode).
43
00:04:41,208 --> 00:04:45,389
이 경우에도 학습이 일어나지 않을 것입니다.
44
00:04:45,389 --> 00:04:58,531
Xavier/MSRA(HE) Initialzation 같은 방법으로 초기화를
잘 시켜주면 Activation의 분포를 좋게 유지시킬 수 있습니다.
45
00:04:58,531 --> 00:05:04,328
명심해야 할 점은 위의 것들이 Network가 깊어지면 깊어질
수록 더 중요하다는 것입니다.
46
00:05:04,328 --> 00:05:11,620
Network가 깊어지면 깊어질수록 가중치를 더 많이
곱하게 되기 때문입니다.
47
00:05:11,620 --> 00:05:23,666
그리고 데이터 전처리가 있었죠. CNN은 zero-mean을 주로 사용하며,
그 밖에 zero-mean, unit variance에 대해서도 배웠습니다.
48
00:05:23,666 --> 00:05:29,968
제가 여러분에게 왜 그걸 해야하는 지를 좀
더 직관적으로 말씀 드리겠습니다.
49
00:05:29,968 --> 00:05:39,532
자 여기에서 우리는 Binary classification 문제를 풉니다.
빨간/파란 점들을 나누는 것입니다.
50
00:05:39,532 --> 00:05:46,948
왼쪽의 경우 not normalized/centered 데이터 입니다.
51
00:05:46,948 --> 00:05:55,007
이 경우에도 물론 classification이 가능하지만 선이 조금만
움직여도 classification이 잘 되지 않습니다.
52
00:05:55,007 --> 00:06:05,992
왼쪽의 예시가 의미하는 것은 손실 함수가 아주 약간의
가중치 변화에도 엄청 예민하다는 것입니다.
53
00:06:07,315 --> 00:06:14,554
왼쪽의 경우 동일한 함수를 쓰더라도 학습 시키기 아주 어렵습니다.
재차 말씀드리지만 Loss가 파라미터에 너무 민감하기 때문입니다.
54
00:06:14,554 --> 00:06:25,351
반면 오른쪽은 데이터의 중심을 원점에 맞추고(zero-center),
Unit variance로 만들어 준 경우 입니다.
55
00:06:25,351 --> 00:06:35,523
오른쪽에서의 선이 조금씩 흔들리는 경우는 보면
손실 함수는 이런 가중치의 변동에 덜 민감함을 알 수 있습니다.
56
00:06:35,523 --> 00:06:41,064
이 경우가 최적화가 더 쉽습니다.
학습이 더 잘되는 것입니다.
57
00:06:41,064 --> 00:06:46,539
그리고 이는 Linear classification의 경우에만
국한되는 것이 아닙니다.
58
00:06:46,539 --> 00:06:57,756
Neural network 내부에도 다수의(interleavings)
linear classifer가 있다고 생각할 수 있습니다.
59
00:06:59,078 --> 00:07:05,687
이 경우에도 Neural network의 입력이 zero-centered가
아니고 Unit variance가 아닌 경우라면
60
00:07:05,687 --> 00:07:15,632
레이어의 Weight matrix가 아주 조금만 변해도 출력은 엄청
심하게 변하게 됩니다. 이는 학습을 어렵게 합니다.
61
00:07:15,632 --> 00:07:20,481
이를 통해 왜 nomalization가 중요한지를 좀 더
직관적으로 이해하실 수 있을 것입니다.
62
00:07:21,864 --> 00:07:26,862
자 우리는 Normalization이 엄청 중요하다는 것을 알고
있기 때문에 batch normalization도 배웠습니다.
63
00:07:26,862 --> 00:07:36,030
이는 actications이 zero mean과 unit variance가
될 수 있도록 레이어를 하나 추가하는 방법이었습니다.
64
00:07:36,030 --> 00:07:41,465
제가 이 슬라이드에 batch normalization 수식을
다시한번 적어 봤습니다.
65
00:07:41,465 --> 00:07:45,172
이 슬라이드를 보면 과제 2를 하실 때 수월할 것입니다.
66
00:07:45,172 --> 00:07:59,254
BN에서는 forward pass 시에 미니배치에서의 평균과 표준편차를
계산해서 Normalization을 수행했습니다.
67
00:07:59,254 --> 00:08:05,641
그리고 레이어의 유연한 표현성(expressivity)을 위해서
scale, shift 파라미터를 추가했습니다.
68
00:08:05,641 --> 00:08:09,990
과제 2를 하실때 이를 참고하시기 바랍니다.
69
00:08:09,990 --> 00:08:18,146
그리고 학습 과정을 다루는 방법도 배웠습니다. 학습 도중
Loss curve가 어떻게 보여야 하는지도 말이죠
70
00:08:18,146 --> 00:08:26,683
여기 예제 네트워크가 있습니다. 주말동안 한번 돌려봤습니다.
저는 학습을 진행할 때 이런 식으로 진행합니다.
71
00:08:26,683 --> 00:08:35,795
가운데 그래프는 시간에 따른 Loss 값을 나타냅니다.
네트워크가 Loss를 줄이고 있으면 잘 하고 있는 것이죠
72
00:08:35,795 --> 00:08:48,464
맨 오른쪽 그래프를 보면 X는 시간축이고 Y는 성능 지표입니다.
Training/Validation set의 성능지표를 나타냅니다.
73
00:08:48,465 --> 00:08:58,680
이를 해석해보면 Training set의 성능을 계속 올라가죠 Loss도
계속 내려갑니다. 하지만 validation은 침체하고 있습니다.
74
00:08:58,680 --> 00:09:05,066
이런 경우는 overfititing이라고 할 수 있겠습니다.
추가적인 regularization이 필요한 것입니다.
75
00:09:06,317 --> 00:09:09,504
그리고 이전 강의에서 hyperparameter search도 배웠습니다.
76
00:09:09,504 --> 00:09:14,798
네트워크에는 무수히 많은 하이퍼파라미터가 존재합니다.
이를 올바르게 잘 선택하는 것은 상당히 중요합니다.
77
00:09:14,798 --> 00:09:20,725
그리고 grid search와 random search를 배웠습니다.
이론상 random search가 더 좋았습니다.
78
00:09:20,725 --> 00:09:30,669
왜냐하면 성능이 특정 하이퍼파라미터에 의해 크게 좌우될 때 그
파라미터를 좀 더 넓은 범위로 탐색할 수 있기 때문입니다.
79
00:09:30,669 --> 00:09:37,005
그리고 하이퍼파라미터 최적화 시에
coarse search 이후 fine search를 한다고 배웠습니다.
80
00:09:37,005 --> 00:09:43,408
처음에는 하이퍼파라미터를 조금 더 넒은 범위에서 찾습니다.
Interation도 작게 줘서 학습시켜봅니다.(coarse)
81
00:09:43,408 --> 00:09:47,973
그리고 결과가 좋은 범위로 좁히는 것입니다.
82
00:09:47,973 --> 00:09:51,666
그리고 iterations를 조금 더 돌면서 더 작은 범위를
다시 탐색합니다. (fine search)
83
00:09:51,666 --> 00:09:56,708
적절한 하이퍼파라미터를 찾을 때 까지
이 과정을 반복합니다.
84
00:09:56,708 --> 00:10:04,455
가장 중요한 점은 coarse range를 설정할 때 가능한
최대한 넓은 범위를 설정해 줘야 한다는 것입니다.
85
00:10:04,455 --> 00:10:13,746
그 범위가 하이퍼파라미터 범위의 끝에서 끝까지 다 살펴볼 수
있도록 할수록 좋습니다. 충분히 넓은 범위를 사용해야 합니다.
86
00:10:17,462 --> 00:10:18,295
질문 있나요?
87
00:10:20,044 --> 00:10:26,672
[학생이 질문]
88
00:10:31,840 --> 00:10:34,554
질문은 보통 하이퍼파라미터를 몇 개씩 선택하는지 입니다.
89
00:10:34,554 --> 00:10:38,244
여기 예제에서는 2개 인데 보통은 2개보단 많습니다.
90
00:10:38,244 --> 00:10:45,442
그 선택은 모델에 따라 다릅니다. 선택한 하이퍼파라미터의 수가
많을 수록 기하급수적으로 경우의 수가 늘어납니다.
91
00:10:45,442 --> 00:10:48,012
때문에 한번에 너무 많이 할 수 는 없습니다.
92
00:10:48,012 --> 00:10:51,737
또 이는 여러분이 얼마나 많은 자원을
학습에 사용할 수 있는지도 중요합니다.
93
00:10:51,737 --> 00:10:55,745
이는 사람마다 다르고 실험마다 다릅니다.
94
00:10:55,745 --> 00:11:05,353
저같은 경우 두 세가지 정도를 고르는 편이고 많아도 네 가지 정도만
선택합니다. 그 이상이면 out of control이 되버립니다.
95
00:11:05,353 --> 00:11:10,406
일반적으로는 Learning rate가 가장 중요합니다.
Learning rate를 가장 먼저 선택해 놔야만 합니다.
96
00:11:10,406 --> 00:11:19,542
regularization, learning rate decay,
model size 같은 것들은 LR보단 덜 중요합니다.
97
00:11:19,542 --> 00:11:22,723
Block Coordinate Descent(BCD)
같은 방법을 쓸 수도 있습니다.
98
00:11:22,723 --> 00:11:27,459
가령, 우선 Learning rate를 정해놓은 다음에 다양한
모델 사이즈를 시도해 보는 것입니다.
99
00:11:27,459 --> 00:11:30,759
이 방법을 쓰면 기하급수적으로 늘어나는 Search space를
조금은 줄일 수 있습니다.
100
00:11:30,759 --> 00:11:35,370
하지만 이 방법은 정확히 어떤 순서로 어떻게 찾아야
할지 정해야 하는 것이 가장 큰 문제입니다.
101
00:11:36,253 --> 00:11:38,120
다른 질문 있으신가요?
102
00:11:38,120 --> 00:11:57,041
[학생이 질문]
103
00:11:57,041 --> 00:12:04,537
질문은 우리가 어떤 하이퍼파리미터 값을 변경할 시에 다른 하이퍼파라미터
의 최적 값이 변해버리는 경우가 빈번하냐는 것입니다.
104
00:12:04,537 --> 00:12:11,339
그런 일이 가끔 발생하긴 합니다. Learning rates가 이런 문제에
덜 민감함에도 실제로 이런 일이 발생하곤 합니다.
105
00:12:11,339 --> 00:12:18,130
Leraning rates가 좋은 범위 내에 속했으면 하지만 보통은
optimal 보다는 작은 값이고 학습 속도가 길어지곤 합니다.
106
00:12:18,130 --> 00:12:31,291
이런 경우에는, 오늘 배우게 될, 더 좋은(fancier) 최적화 방법을
사용하면 모델이 learning rate에 덜 민감하도록 할 수 있습니다.
107
00:12:31,291 --> 00:12:32,962
다른 질문 있으신가요?
108
00:12:32,962 --> 00:12:37,308
[학생이 질문]
109
00:12:37,308 --> 00:12:41,292
질문은 Learning rate를 작게 하고 Epoch을 늘리면
어떤 일이 발생하는지 입니다.
110
00:12:41,292 --> 00:12:45,139
그렇게 되면 엄청 오래 걸리겠죠
111
00:12:45,139 --> 00:12:48,383
[학생이 질문]
112
00:12:48,383 --> 00:12:54,853
Learning rates를 낮추고 오랫동안 학습시키게 되면
이론적으로는 항상 동작하는 것이 맞습니다.
113
00:12:54,853 --> 00:13:00,491
하지만 실제로는 Learning rate가 0.01이냐 0.001이냐는
상당히 중요한 문제가 됩니다.
114
00:13:00,491 --> 00:13:03,931
여러분이 적절한 Leraning rate를 찾으면 6시간, 12시간 또는
하루면 학습을 다 시킬 수 있을 텐데
115
00:13:03,931 --> 00:13:11,911
그런데 여러분이 엄청 조심스러워서 Learning rate를
10배, 100배 줄여 버라면 하루면 끝나는 것이 100일이 걸릴수 있습니다.
116
00:13:11,911 --> 00:13:16,400
그럼 세 달이 걸리게 되는 것입니다. 좋지 않은 경우입니다.
117
00:13:16,400 --> 00:13:20,668
보통 컴퓨터과학 분야를 배울때 이런 constants(10배 100배)를
중요하게 다루지 않는 경향이 있는데
118
00:13:20,668 --> 00:13:25,444
당신은 실제로 훈련하는 것에 대해 생각하고 있습니다.
그 constants은 많은 문제가됩니다.
119
00:13:25,444 --> 00:13:26,861
다른 질문 있나요?
120
00:13:27,877 --> 00:13:33,385
[학생이 질문]
121
00:13:33,385 --> 00:13:37,807
질문은 Low learning rate를 주게되면
local optima에 빠질 수 있지 않냐는 것입니다.
122
00:13:37,807 --> 00:13:42,601
이는 직관적으로는 그럴 수 있겠지만 실제로
그런 일은 많이 발생하지는 않습니다.
123
00:13:42,601 --> 00:13:47,030
이에 관한 내용을 오늘 잠시 뒤에 다시 배울 것입니다.
124
00:13:47,030 --> 00:13:53,151
오늘은 Neural networks를 학습시킬 때 필요한 흥미롭고
아주 중요한 문제를 몇 가지 배워보도록 하겠습니다.
125
00:13:53,151 --> 00:13:59,655
제가 이전에 더 강력한 최적화 알고리즘이 있다고
앞서 몇 번 언급한 적이 있었습니다.
126
00:13:59,655 --> 00:14:07,067
오늘은 사람들이 많이 사용하는 그 강력한 알고리즘들에 대해서
좀 더 자세히 알아보는 시간이 되겠습니다.
127
00:14:07,067 --> 00:14:10,364
지난 강의에 Regularization에 대해서도 조금 배웠었죠
128
00:14:10,364 --> 00:14:15,806
네트워크의 Train/Test Error 간의 격차를 줄이고자
사용하는 추가적인 기법입니다.
129
00:14:15,806 --> 00:14:22,143
Neural Network에서 실제로 사람들이 사용하고 있는
Regularization 전략에 대해서 다뤄보도록 하겠습니다.
130
00:14:22,143 --> 00:14:26,401
그리고 Transfer learning에 대해서도 배울 것입니다.
131
00:14:26,401 --> 00:14:31,490
원하는 양 보다 더 적은 데이터만을 가지고 있을때
사용할 수 있는 방법입니다.
132
00:14:32,821 --> 00:14:39,885
지난 강의를 돌이켜보면 Neural network에서 가장 중요한 것은
바로 최적화 문제 였다는 것을 알 수 있습니다.
133
00:14:39,885 --> 00:14:50,982
Nerwork의 가중치에 대해서 손실 함수를 정의해 놓으면 이
손심 함수는 그 가중치가 얼마나 좋은지 나쁜지를 알려줍니다.
134
00:14:50,982 --> 00:14:56,508
그리고 우리는 손심 함수가 가중치에 대한
"산(landscape)"이라고 상상해 볼 수 있을 것입니다.
135
00:14:56,508 --> 00:15:04,142
여기 맨 오른쪽 사진에 간단한 예제를 가져왔습니다.
X/Y축은 두 개의 가중치를 의미합니다.
136
00:15:04,142 --> 00:15:07,984
그리고 각 색은 Loss의 값을 나타냅니다.
137
00:15:07,984 --> 00:15:15,195
이 오른쪽의 2차원의 문제를 두 개의 가중치
W_1과 W_2를 최적화 시키는 문제라고 생각해 봅시다.
138
00:15:15,195 --> 00:15:23,203
우리의 목적은 가장 붉은색인 지점을 찾는 것입니다.
즉 가장 낮은 Loss를 가진 가중치를 찾는 것이죠.
139
00:15:23,203 --> 00:15:29,099
자 지금까지 배운 것을 생각해 봅시다. 가장 간단한 최적화 알고리즘은
바로 Stochastic Gradient Descent 입니다.
140
00:15:29,099 --> 00:15:32,393
이 세 줄로 된 엄청 간단한 알고리즘이죠
141
00:15:32,393 --> 00:15:39,179
우선 미니 배치 안의 데이터에서 Loss를 계산합니다.
142
00:15:39,179 --> 00:15:44,656
그리고 'Gradient 의 반대 방향" 을 이용해서
파라미터 벡터를 업데이트합니다.
143
00:15:44,656 --> 00:15:48,798
반대 방향인 이유는 손실 함수를 내려가는
방향 이어야 하기 때문입니다.
144
00:15:48,798 --> 00:15:56,282
이 단계를 계속 반복하면 결국 붉은색 지역으로 수렴할 것이고
Loss가 낮을 것입니다.
145
00:15:56,282 --> 00:16:05,462
하지만 이 심플한 알고리즘을 실제로 사용하게 되면
몇 가지 문제에 봉착하고 맙니다.
146
00:16:05,462 --> 00:16:08,713
SGD의 문제점 중 하나는,
147
00:16:08,713 --> 00:16:18,969
가령 우리의 손실함수가 이런 식으로 생겼다고 생각해 봅시다.
여기에 똑같이 W_1과 W_2가 있다고 해봅시다.
148
00:16:18,969 --> 00:16:23,472
둘중 어떤 하나는 업데이트를 해도 손실 함수가
아주 느리게 변합니다.
149
00:16:23,472 --> 00:16:26,687
즉, 수평 축의 가중치는 변해도 Loss가 아주 천천히 줄어듭니다.
150
00:16:28,152 --> 00:16:34,930
다시 말해 Loss는 수직 방향의 가중치 변화에 훨씬 더
민감하게 반응하는 것입니다.
151
00:16:34,930 --> 00:16:40,757
다시 말해 현재 지점에서 Loss는 bad condition number를
지니고 있다고 말할 수 있을 것입니다.
152
00:16:40,757 --> 00:16:46,050
이 지점의 Hessian maxrix의 최대/최소 singular values
값의 비율이 매우 안좋다는 뜻입니다.
153
00:16:46,050 --> 00:16:50,497
이를 좀 더 직관적으로 이해해보면 우선 Loss가
taco shell 같은 모양입니다.
154
00:16:50,497 --> 00:16:54,393
한 방향으로는 엄청나게 민감한 반면에 다른 방향으로는
덜 민감한 상태에 있는 것입니다.
155
00:16:54,393 --> 00:17:00,633
그렇다면 질문입니다. 이런 상황에서 SGD으로 학습이 되는
과정은 어떤 모습일까요?
156
00:17:05,310 --> 00:17:12,196
손실 함수가 이런 식으로 생긴 환경에서 SGD를 수행하면,
이런 특이한 지그재그 형태를 볼 수 있을 것입니다.
157
00:17:12,197 --> 00:17:22,111
왜냐하면 이런 함수에서는 gradient의 방향이
고르지 못하기 때문입니다.
158
00:17:22,112 --> 00:17:29,335
Gradient를 계산하고 업데이트 하게 되면 line을
넘나들면서 왔다갔다 하게 됩니다.
159
00:17:29,335 --> 00:17:35,995
Loss에 영향을 덜 주는 수평방향 차원의 가중치는
업데이트가 아주 느리게 진행됩니다.
160
00:17:35,995 --> 00:17:41,551
이렇게 빠르게 변하는 수직 차원을 가로지르면서
지그지그로 아주 지저분하게(nasty) 움직이게 됩니다.
161
00:17:41,551 --> 00:17:50,139
아주 바람직하지 않은 행동입니다. 그리고 이 문제는 고차원
공간에서 훨씬 더 빈번하게 발생합니다.
162
00:17:51,186 --> 00:18:00,617
우리가 본 예시 그림은 2차원 밖에 되지 않습니다만 실제로는
가중치가 수천 수억개 일 수 있을 것입니다.
163
00:18:00,617 --> 00:18:14,221
이 경우 수억개의 방향으로 움직일 수 있습니다. 이런 수억개의 방향중에
불균형한 방향이 존재한다면 SGD는 잘 동작하지 않을 것입니다.
164
00:18:14,221 --> 00:18:20,573
수억개의 파라미터가 있다고 했을때 이런 불균형의
발생 비율은 상당히 높습니다.
165
00:18:20,573 --> 00:18:26,398
고차원 공간에서 발생할 수 있는 이런 문제는
실제로도 정말 큰 문제가 됩니다.
166
00:18:27,793 --> 00:18:33,564
SGD에서 발생하는 또 다른 문제는
local minima 와 saddle points와 관련된 문제입니다.
167
00:18:33,564 --> 00:18:44,003
그림을 좀 바꿨습니다. 이제는 X축은 어떤 하나의 가중치를 나타내고
Y축은 Loss를 나타내고 있습니다.
168
00:18:44,003 --> 00:18:51,583
우선 위의 그래프를 보면, 이 휘어진 손실함수는
중간에 "valley"가 하나 있습니다.
169
00:18:51,583 --> 00:18:55,036
이런 상황에서 SGD는 어떻게 움직일까요?
170
00:18:55,036 --> 00:18:57,031
[학생이 대답]
171
00:18:57,031 --> 00:19:04,454
이 경우 SGD는 멈춰버립니다. 왜냐하면 gradient가 0이
되기 때문이죠. locally falt 합니다.
172
00:19:04,454 --> 00:19:09,194
SGD의 동작을 생각해보면 gradient를 계산하고
그 반대방향으로 이동하는 것 이었습니다.
173
00:19:09,194 --> 00:19:15,862
저 위치에서는 "opposite gradient" 도 0 이 되며,
따라서 학습이 멈춰버리게 됩니다.
174
00:19:15,862 --> 00:19:19,406
또 다른 문제는 saddle points에 관한 것입니다.
175
00:19:19,406 --> 00:19:26,140
local minima는 아니지만, 한쪽 방향으로는 증가하고 있고
다른 한쪽 방향으로는 감소하고 있는 지역을 생각해 볼 수 있습니다.
176
00:19:26,140 --> 00:19:28,953
이런 곳에서도 gradient는 0이 됩니다.(아래 그림)
177
00:19:28,953 --> 00:19:35,899
saddle point에서도 gradient = 0 이므로 멈추게 됩니다.
178
00:19:35,899 --> 00:19:48,122
비록 이처럼 1차원의 예제만 봐서는 local minima가 엄청 심각하고
saddle point는 좀 덜 심각해 보이지만,
179
00:19:48,122 --> 00:19:57,171
고차원 공간에서는 그 반대입니다. 여러분에게 1억 차원의 공간이
있다고 생각해 봅시다. 여기에서 saddle point는 무엇일까요?
180
00:19:57,171 --> 00:20:03,135
Saddle point가 의미하는 것이 어떤 방향은 Loss가 증가하고
몇몇 방향은 Loss가 감소하고 있는 곳을 생각해 볼 수 있습니다.
181
00:20:03,135 --> 00:20:09,591
1억개의 차원에서 생각해보면 이는 정말 빈번하게 발생합니다.
사실 거의 모든 곳에서 발생한다고 할 수 있습니다.
182
00:20:09,591 --> 00:20:16,744
Local minima를 생각해보면 1억 개의 방향을 계산했는데 그 방향이
전부 Loss가 상승하는 방향이라는 것입니다.
183
00:20:16,744 --> 00:20:22,316
고차원 공간을 생각하면 그런 일이 발생하는 것은
매우 드문 경우입니다.
184
00:20:23,270 --> 00:20:33,283
지난 몇 년간 알려진 사실은 very large neural network가
local minima 보다는 saddle point에 취약하다는 것입니다.
185
00:20:33,283 --> 00:20:40,140
그리고 또한 saddle point 뿐만 아니라 saddle point의
근처에서도 문제는 발생합니다.
186
00:20:40,140 --> 00:20:47,935
아래 예시를 보면 saddle point 근처에서 gradient가 0 은
아니지만 기울기가 아주 작습니다.
187
00:20:47,935 --> 00:20:53,611
그것이 의미하는 바는 gradient를 계산해서 업데이트를 해도
기울기가 아주 작기 때문에
188
00:20:53,611 --> 00:21:01,872
현재 가중치의 위치가 saddle point 근처라면
업데이트는 아주 느리게 진행됩니다.
189
00:21:01,872 --> 00:21:10,115
이는 아주 큰 문제입니다.
그리고 SGD의 또 다른 문제가 있습니다.
190
00:21:10,115 --> 00:21:13,521
SGD는 Stochastic gradient descent라는
것을 다시한번 명심하시기 바랍니다.
191
00:21:13,521 --> 00:21:20,586
사실 손실함수를 계산할 때는 엄청 엄청 많은 Traing set
각각의 loss를 전부 계산해야 합니다.
192
00:21:20,586 --> 00:21:26,119
이 예시의 N이 전체 training set일 경우에
이 값은 "n = 백만"이 될 수도 있습니다.
193
00:21:26,119 --> 00:21:29,347
Loss를 계산할 때 마다 매번 전부를 계산하는 것은 어렵습니다.
194
00:21:29,347 --> 00:21:36,957
그래서 실제로는 미니배치의 데이터들만 가지고
실제 Loss를 추정하기만 합니다.
195
00:21:36,957 --> 00:21:42,148
이는 매번 정확한 gradient를 얻을 수가
없다는 것을 의미합니다.
196
00:21:42,148 --> 00:21:46,773
대신에 gradient의 부정확한
추정값(noisy estimate) 만을 구할 뿐입니다.
197
00:21:46,773 --> 00:21:50,575
오른쪽에 보이는 것은 제가 좀 과장해서 그린 것입니다.
198
00:21:50,575 --> 00:21:59,927
각 지점의 gradient에 random uniform noise를 추가하고
SGD를 수행하게 만들었습니다.
199
00:21:59,927 --> 00:22:07,987
따라서 실제로 SGD가 이런식으로 동작하진 않지만 이 예제로
gradient에 noise가 들어가면 어떻게 되는지 알 수 있습니다.
200
00:22:07,987 --> 00:22:14,036
손실함수 공간을 이런식으로 비틀거리면서 돌아다니게 되면
minima까지 도달하는데 시간이 더 오래 걸릴 것입니다.
201
00:22:15,723 --> 00:22:18,966
지금까지 SGD에 어떤 문제가 있는지에 대해서
이야기해 보았습니다.
202
00:22:18,966 --> 00:22:20,956
질문 있나요?
203
00:22:20,956 --> 00:22:25,123
[학생이 질문]
204
00:22:29,099 --> 00:22:34,435
질문은 바로 SGD를 쓰지 않고 그냥 GD를 쓰면
이런 문제가 전부 해결되는지 입니다.
205
00:22:35,281 --> 00:22:44,106
자 이전의 taco shell에서의 문제를 다시한번 살펴보면
full batch gradient descent에서도 같은 문제가 발생합니다
206
00:22:44,106 --> 00:22:54,120
Noise의 문제도 한번 볼까요. Noise는 미니배치이기 때문에서만이
아니라 네트워크의 explicit stochasticity 로도 발생합니다.
207
00:22:54,120 --> 00:22:57,736
이는 나중에 더 살펴 볼 것이지만
이는 여전히 문제가 됩니다.
208
00:22:57,736 --> 00:23:05,101
Saddle points 또한 full batch GD에서 문제가 됩니다.
전체 데이터를 사용한다고 해도 여전히 나타날 수 있겠죠
209
00:23:05,101 --> 00:23:10,249
기본적으로 full batch gradient descent를 사용한다
하더라도 이런 문제들이 해결되지는 않습니다.
210
00:23:10,249 --> 00:23:16,604
이러한 위험요소들을 다루기 위해서는 더 좋은
최적화 알고리즘이 필요합니다.
211
00:23:16,604 --> 00:23:21,966
이번 문제들의 대다수를 해결할 수 있는 아주