Skip to content

Files

Latest commit

 

History

History
42 lines (29 loc) ยท 2.84 KB

ddp_series_intro.rst

File metadata and controls

42 lines (29 loc) ยท 2.84 KB

์†Œ๊ฐœ || DDP๋ž€ ๋ฌด์—‡์ธ๊ฐ€ || ๋‹จ์ผ ๋…ธ๋“œ ๋‹ค์ค‘-GPU ํ•™์Šต || ๊ฒฐํ•จ ๋‚ด์„ฑ || ๋‹ค์ค‘ ๋…ธ๋“œ ํ•™์Šต || minGPT ํ•™์Šต

PyTorch์˜ ๋ถ„์‚ฐ ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ - ๋น„๋””์˜ค ํŠœํ† ๋ฆฌ์–ผ

์ €์ž: Suraj Subramanian ๋ฒˆ์—ญ: ์†กํ˜ธ์ค€

์•„๋ž˜ ๋น„๋””์˜ค๋ฅผ ๋ณด๊ฑฐ๋‚˜ `YouTube <https://www.youtube.com/watch/-K3bZYHYHEA>`__์—์„œ๋„ ๋ณด์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋น„๋””์˜ค ํŠœํ† ๋ฆฌ์–ผ ์‹œ๋ฆฌ์ฆˆ๋Š” PyTorch์—์„œ DDP(Distributed Data Parallel)๋ฅผ ์‚ฌ์šฉํ•œ ๋ถ„์‚ฐ ํ•™์Šต์— ๋Œ€ํ•ด ์•ˆ๋‚ดํ•ฉ๋‹ˆ๋‹ค.

์ด ์‹œ๋ฆฌ์ฆˆ๋Š” ๋‹จ์ˆœํ•œ ๋น„๋ถ„์‚ฐ ํ•™์Šต ์ž‘์—…์—์„œ ์‹œ์ž‘ํ•˜์—ฌ, ํด๋Ÿฌ์Šคํ„ฐ ๋‚ด ์—ฌ๋Ÿฌ ๊ธฐ๊ธฐ๋“ค(multiple machines)์—์„œ ํ•™์Šต ์ž‘์—…์„ ๋ฐฐํฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋งˆ๋ฌด๋ฆฌ๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ `torchrun <https://pytorch.org/docs/stable/elastic/run.html>`__์„ ์‚ฌ์šฉํ•œ ๊ฒฐํ•จ ๋‚ด์„ฑ(fault-tolerant) ๋ถ„์‚ฐ ํ•™์Šต์— ๋Œ€ํ•ด์„œ๋„ ๋ฐฐ์šฐ๊ฒŒ ๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

์ด ํŠœํ† ๋ฆฌ์–ผ์€ PyTorch์—์„œ ๋ชจ๋ธ ํ•™์Šต์— ๋Œ€ํ•œ ๊ธฐ๋ณธ์ ์ธ ์ดํ•ด๋ฅผ ์ „์ œ๋กœ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ฝ”๋“œ ์‹คํ–‰

ํŠœํ† ๋ฆฌ์–ผ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜๋ ค๋ฉด ์—ฌ๋Ÿฌ ๊ฐœ์˜ CUDA GPU๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์—ฌ๋Ÿฌ GPU๊ฐ€ ์žˆ๋Š” ํด๋ผ์šฐ๋“œ ์ธ์Šคํ„ด์Šค์—์„œ ์ด๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠœํ† ๋ฆฌ์–ผ์—์„œ๋Š” 4๊ฐœ์˜ GPU๊ฐ€ ํƒ‘์žฌ๋œ Amazon EC2 P3 ์ธ์Šคํ„ด์Šค๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํŠœํ† ๋ฆฌ์–ผ ์ฝ”๋“œ๋Š” ์ด `GitHub ์ €์žฅ์†Œ <https://github.com/pytorch/examples/tree/main/distributed/ddp-tutorial-series>`__์— ์˜ฌ๋ผ์™€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์žฅ์†Œ๋ฅผ ๋ณต์ œํ•˜๊ณ  ํ•จ๊ป˜ ์ง„ํ–‰ํ•˜์„ธ์š”!

ํŠœํ† ๋ฆฌ์–ผ ์„น์…˜

  1. ์†Œ๊ฐœ (์ด ํŽ˜์ด์ง€)
  2. DDP๋ž€ ๋ฌด์—‡์ธ๊ฐ€? DDP๊ฐ€ ๋‚ด๋ถ€์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ์ž‘์—…์— ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์†Œ๊ฐœ
  3. ๋‹จ์ผ ๋…ธ๋“œ ๋ฉ€ํ‹ฐ-GPU ํ•™์Šต ํ•œ ๊ธฐ๊ธฐ์—์„œ ์—ฌ๋Ÿฌ GPU๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•
  4. ๊ฒฐํ•จ ๋‚ด์„ฑ ๋ถ„์‚ฐ ํ•™์Šต torchrun์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„์‚ฐ ํ•™์Šต ์ž‘์—…์„ ๊ฒฌ๊ณ ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•
  5. ๋‹ค์ค‘ ๋…ธ๋“œ ํ•™์Šต ์—ฌ๋Ÿฌ ๊ธฐ๊ธฐ์—์„œ ์—ฌ๋Ÿฌ GPU๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•
  6. DDP๋ฅผ ์‚ฌ์šฉํ•œ GPT ๋ชจ๋ธ ํ•™์Šต DDP๋ฅผ ์‚ฌ์šฉํ•œ minGPT ๋ชจ๋ธ ํ•™์Šต์˜ โ€œ์‹ค์ œ ์˜ˆ์‹œโ€