분산 딥러닝 환경에서 Loss로 통신 시점을 결정하는 비동기 SGD

논문명 : 분산 딥러닝을 위해 Loss로 통신 시점을 결정하는 비동기 SGD [논문 바로가기]
- 석사학위논문, 경희대학교 대학원, 2021
분산 딥러닝에서 노드 간 파라미터 통신을 수행할때 가 노드에서 학습 중인 모델들의 Loss 상태에 따라 통신 여부를 결정하는 결정하는 방식이 모델의 성능에 어떠한 영향을 미치는지를 실험함

초록

딥러닝 기술의 발전으로 학습데이터와 딥러닝 모델의 규모가 커짐에 따라 딥러닝 모델의 학습 시간이 급속도로 증가하는 문제가 발생하였다. 이를 해결하기 위하여 다수의 하드웨어 자원에 학습 연산을 분산하여 학습 시간을 단축하는 분산 딥러닝 기술이 주목을 받아 다양한 연구가 진행되고 있다. 본 연구에서는 학습 데이터를 분산하여 학습 노드 간 집단 통신을 수행하는 환경에서 딥러닝 모델의 학습 속도 및 성능 향상을 위하여 Loss로 파라미터 통신 시점을 결정하는 비동기 SGD 기법을 제안한다. 본 제안은 다수의 노드에서 학습 중인 모델들 간에 학습 파라미터를 공유하기 위하여 통신 시점을 결정할 때 기존 기법들에서 사용하는 고정된 하이터 파라미터를 대체하기 위하여 현재의 모델의 학습 상태를 보고 판단하는 기법으로서, 현재 학습 중인 모델들의 Loss의 표준 편차를 계산하고 이전 학습보다 표준 편차가 증가할 때 비동기 방식으로 파라미터 통신을 수행한다. 비동기 방식으로 통신할 때 네트워크 속도에 의해서 학습 연산의 병목현상을 줄일수 있는 장점이 있으나 이전 시점의 데이터로 학습한 Gradient가 현재 학습에 반영되어 모델의 수렴을 방해하는 Stale Gradient Problem이 발생하게 되는데, 이를 해결하기 위하여 Lookahead 기법에서 착안하여 현재 시점의 Gradient와 이전 시점의 Gradient의 차이에 따라 현재의 Gradient를 보정하는 기법을 적용하는 연구를 수행하였다. 본 제안의 검증을 위하여 기존 기법들과 비교 실험을 수행하였으며 그 결과로 모델의 성능을 유지하면서 학습 시간이 단축되는 것을 확인하였다.

Name	Name	Last commit message	Last commit date
Latest commit copper-light Update README.md Jul 31, 2024 a7ccc88 · Jul 31, 2024 History 27 Commits
.ipynb_checkpoints	.ipynb_checkpoints	first	Jul 6, 2021
__pycache__	__pycache__	first	Jul 6, 2021
core	core	first	Jul 6, 2021
default.etcd/member	default.etcd/member	first	Jul 6, 2021
logs	logs	first	Jul 6, 2021
.gitignore	.gitignore	first	Jul 6, 2021
00_launch.py	00_launch.py	first	Jul 6, 2021
01_data_p.ipynb	01_data_p.ipynb	first	Jul 6, 2021
02_allreduce.py	02_allreduce.py	first	Jul 6, 2021
03_ring_allreduce.py	03_ring_allreduce.py	first	Jul 6, 2021
04_multi_node.py	04_multi_node.py	first	Jul 6, 2021
05_better.py	05_better.py	first	Jul 6, 2021
06_k_step.py	06_k_step.py	first	Jul 6, 2021
07_find_best_model.py	07_find_best_model.py	first	Jul 6, 2021
08_final.py	08_final.py	first	Jul 6, 2021
98_test.py	98_test.py	first	Jul 6, 2021
99_char_2.ipynb	99_char_2.ipynb	first	Jul 6, 2021
99_chart.ipynb	99_chart.ipynb	first	Jul 6, 2021
README.md	README.md	Update README.md	Jul 31, 2024
Untitled.ipynb	Untitled.ipynb	first	Jul 6, 2021
image1.png	image1.png	Add files via upload	Jul 31, 2024
image2.png	image2.png	Add files via upload	Jul 31, 2024
run.sh	run.sh	first	Jul 6, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

분산 딥러닝 환경에서 Loss로 통신 시점을 결정하는 비동기 SGD

초록

주요 실험 결과

About

Releases

Packages

Languages

copper-light/khu_thesis_experiment

Folders and files

Latest commit

History

Repository files navigation

분산 딥러닝 환경에서 Loss로 통신 시점을 결정하는 비동기 SGD

초록

주요 실험 결과

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages