🌐 [i18n-KO] Translated `videomae.md` to Korean by jihyun-0611 · Pull Request #40064 · huggingface/transformers

jihyun-0611 · 2025-08-10T07:18:34Z

What does this PR do?

Translated the videomae.md file of the documentation to Korean.
Thank you in advance for your review.

Part of #20179

Before reviewing

Check for missing / redundant translations (번역 누락/중복 검사)
Grammar Check (맞춤법 검사)
Review or Add new terms to glossary (용어 확인 및 추가)
Check Inline TOC (e.g. [[lowercased-header]])
Check live-preview for gotchas (live-preview로 정상작동 확인)

Who can review? (Initial)

May you please review this PR?

@yijun-lee, @songi104, @chhaewxn, @AhnJoonSung, @jihyun-0611, @seopp, @pyapyapya

Before submitting

This PR fixes a typo or improves the docs (you can dismiss the other checks if that's the case).
Did you read the contributor guideline,
Pull Request section?
Was this discussed/approved via a Github issue or the forum? Please add a link
to it if that's the case.
Did you make sure to update the documentation with your changes? Here are the
documentation guidelines, and
here are tips on formatting docstrings.
Did you write any new necessary tests?

Who can review? (Final)

pyapyapya

안녕하세요! 번역 해주신 내용에 대해 잘 읽었습니다! 가독성 부분 위주로 코멘트 남겼습니다!
다만, line 32 부분 Kinetics-400 은 원문과 다른 부분이 있어서, 조심스럽지만 이 부분 한번 확인해주시면 감사하겠습니다!

pyapyapya · 2025-08-11T16:03:34Z

+## Scaled Dot Product Attention (SDPA) 사용하기[[using-scaled-dot-product-attention-sdpa]]
+
+PyTorch에는 `torch.nn.functional`의 일부로 네이티브 scaled dot-product attention (SDPA) 연산자가 포함되어 있습니다. 이 함수에는 
+입력 및 사용 중인 하드웨어에 따라 적용할 수 있는 여러 가지 구현이 포함되어 있습니다. 


Suggested change

입력 및 사용 중인 하드웨어에 따라 적용할 수 있는 여러 가지 구현이 포함되어 있습니다.

입력과 사용 중인 하드웨어에 따라 서로 다른 구현을 사용합니다.

pyapyapya · 2025-08-11T16:07:45Z

+
+최상의 속도 향상을 위해 모델을 half-precision(예: `torch.float16` 또는 `torch.bfloat16`)으로 로드하는 것을 권장합니다.
+
+로컬 벤치마크(A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04)에서 `float32`와 `MCG-NJU/videomae-base-finetuned-kinetics` 모델을 사용하여 추론 중 다음과 같은 속도 향상을 확인했습니다.


Suggested change

로컬 벤치마크(A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04)에서 `float32`와 `MCG-NJU/videomae-base-finetuned-kinetics` 모델을 사용하여 추론 중 다음과 같은 속도 향상을 확인했습니다.

로컬 벤치마크(A100-40GB, PyTorch 2.3.0, Ubuntu 22.04)에서 모델 `MCG-NJU/videomae-base-finetuned-kinetics`을 `float32` 설정으로 실행했을 때, 추론 성능은 다음과 같이 향상되었습니다.

pyapyapya · 2025-08-11T16:11:34Z

+
+논문의 초록은 다음과 같습니다:
+
+*대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기 지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 백본을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinetics-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.*


Suggested change

*대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기 지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 백본을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinetics-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.*

*대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 기반을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinects-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.*

``

pyapyapya · 2025-08-11T16:12:31Z

+
+## VideoMAEForPreTraining[[transformers.VideoMAEForPreTraining]]
+
+`VideoMAEForPreTraining`은 자기 지도 사전 학습을 위한 디코더를 상단에 포함합니다.


Suggested change

`VideoMAEForPreTraining`은 자기 지도 사전 학습을 위한 디코더를 상단에 포함합니다.

`VideoMAEForPreTraining`은 자기지도 사전 학습을 위한 디코더를 상단에 포함합니다.

pyapyapya · 2025-08-11T16:14:47Z

+또는 [GPU 추론](https://huggingface.co/docs/transformers/main/en/perf_infer_gpu_one#pytorch-scaled-dot-product-attention)
+페이지에서 자세한 정보를 확인하세요.
+
+구현이 가능한 경우 SDPA는 기본적으로 `torch>=2.1.1`에서 사용되지만, 


Suggested change

구현이 가능한 경우 SDPA는 기본적으로 `torch>=2.1.1`에서 사용되지만,

사용 가능한 구현이 있을 경우 SDPA는 `torch>=2.1.1`에서 기본적으로 활성화되지만,

pyapyapya · 2025-08-11T16:21:53Z

+
+## 개요[[overview]]
+
+VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang이 작성한 [VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602) 논문에서 제안되었습니다.


Suggested change

VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang이 작성한 [VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602) 논문에서 제안되었습니다.

VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang의 논문 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602)에서 제안되었습니다.

jihyun-0611 added 3 commits August 10, 2025 15:22

docs: ko: videomae.md

a49585a

feat: nmt draft

cab73fb

fix: manual edits

4b40831

pyapyapya reviewed Aug 11, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

🌐 [i18n-KO] Translated `videomae.md` to Korean#40064

🌐 [i18n-KO] Translated `videomae.md` to Korean#40064
jihyun-0611 wants to merge 3 commits intohuggingface:mainfrom
jihyun-0611:ko-videomae.md

jihyun-0611 commented Aug 10, 2025 •

edited

Loading

Uh oh!

pyapyapya left a comment

Uh oh!

pyapyapya Aug 11, 2025

Uh oh!

pyapyapya Aug 11, 2025

Uh oh!

pyapyapya Aug 11, 2025

Uh oh!

pyapyapya Aug 11, 2025

Uh oh!

pyapyapya Aug 11, 2025

Uh oh!

pyapyapya Aug 11, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

	입력 및 사용 중인 하드웨어에 따라 적용할 수 있는 여러 가지 구현이 포함되어 있습니다.
	입력과 사용 중인 하드웨어에 따라 서로 다른 구현을 사용합니다.


		최상의 속도 향상을 위해 모델을 half-precision(예: `torch.float16` 또는 `torch.bfloat16`)으로 로드하는 것을 권장합니다.

		로컬 벤치마크(A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04)에서 `float32`와 `MCG-NJU/videomae-base-finetuned-kinetics` 모델을 사용하여 추론 중 다음과 같은 속도 향상을 확인했습니다.

	로컬 벤치마크(A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04)에서 `float32`와 `MCG-NJU/videomae-base-finetuned-kinetics` 모델을 사용하여 추론 중 다음과 같은 속도 향상을 확인했습니다.
	로컬 벤치마크(A100-40GB, PyTorch 2.3.0, Ubuntu 22.04)에서 모델 `MCG-NJU/videomae-base-finetuned-kinetics`을 `float32` 설정으로 실행했을 때, 추론 성능은 다음과 같이 향상되었습니다.


		논문의 초록은 다음과 같습니다:

		대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기 지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 백본을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinetics-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.


		## VideoMAEForPreTraining[[transformers.VideoMAEForPreTraining]]

		`VideoMAEForPreTraining`은 자기 지도 사전 학습을 위한 디코더를 상단에 포함합니다.

	`VideoMAEForPreTraining`은 자기 지도 사전 학습을 위한 디코더를 상단에 포함합니다.
	`VideoMAEForPreTraining`은 자기지도 사전 학습을 위한 디코더를 상단에 포함합니다.

	구현이 가능한 경우 SDPA는 기본적으로 `torch>=2.1.1`에서 사용되지만,
	사용 가능한 구현이 있을 경우 SDPA는 `torch>=2.1.1`에서 기본적으로 활성화되지만,


		## 개요[[overview]]

		VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang이 작성한 [VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602) 논문에서 제안되었습니다.

Conversation

jihyun-0611 commented Aug 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

What does this PR do?

Before reviewing

Who can review? (Initial)

Before submitting

Who can review? (Final)

Uh oh!

pyapyapya left a comment

Choose a reason for hiding this comment

Uh oh!

pyapyapya Aug 11, 2025

Choose a reason for hiding this comment

Uh oh!

pyapyapya Aug 11, 2025

Choose a reason for hiding this comment

Uh oh!

pyapyapya Aug 11, 2025

Choose a reason for hiding this comment

Uh oh!

pyapyapya Aug 11, 2025

Choose a reason for hiding this comment

Uh oh!

pyapyapya Aug 11, 2025

Choose a reason for hiding this comment

Uh oh!

pyapyapya Aug 11, 2025

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

jihyun-0611 commented Aug 10, 2025 •

edited

Loading