🌐 [i18n-KO] Translated videomae.md to Korean#40064
Draft
jihyun-0611 wants to merge 3 commits intohuggingface:mainfrom
Draft
🌐 [i18n-KO] Translated videomae.md to Korean#40064jihyun-0611 wants to merge 3 commits intohuggingface:mainfrom
videomae.md to Korean#40064jihyun-0611 wants to merge 3 commits intohuggingface:mainfrom
Conversation
pyapyapya
reviewed
Aug 11, 2025
Contributor
pyapyapya
left a comment
There was a problem hiding this comment.
안녕하세요! 번역 해주신 내용에 대해 잘 읽었습니다! 가독성 부분 위주로 코멘트 남겼습니다!
다만, line 32 부분 Kinetics-400 은 원문과 다른 부분이 있어서, 조심스럽지만 이 부분 한번 확인해주시면 감사하겠습니다!
| ## Scaled Dot Product Attention (SDPA) 사용하기[[using-scaled-dot-product-attention-sdpa]] | ||
|
|
||
| PyTorch에는 `torch.nn.functional`의 일부로 네이티브 scaled dot-product attention (SDPA) 연산자가 포함되어 있습니다. 이 함수에는 | ||
| 입력 및 사용 중인 하드웨어에 따라 적용할 수 있는 여러 가지 구현이 포함되어 있습니다. |
Contributor
There was a problem hiding this comment.
Suggested change
| 입력 및 사용 중인 하드웨어에 따라 적용할 수 있는 여러 가지 구현이 포함되어 있습니다. | |
| 입력과 사용 중인 하드웨어에 따라 서로 다른 구현을 사용합니다. |
|
|
||
| 최상의 속도 향상을 위해 모델을 half-precision(예: `torch.float16` 또는 `torch.bfloat16`)으로 로드하는 것을 권장합니다. | ||
|
|
||
| 로컬 벤치마크(A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04)에서 `float32`와 `MCG-NJU/videomae-base-finetuned-kinetics` 모델을 사용하여 추론 중 다음과 같은 속도 향상을 확인했습니다. |
Contributor
There was a problem hiding this comment.
Suggested change
| 로컬 벤치마크(A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04)에서 `float32`와 `MCG-NJU/videomae-base-finetuned-kinetics` 모델을 사용하여 추론 중 다음과 같은 속도 향상을 확인했습니다. | |
| 로컬 벤치마크(A100-40GB, PyTorch 2.3.0, Ubuntu 22.04)에서 모델 `MCG-NJU/videomae-base-finetuned-kinetics`을 `float32` 설정으로 실행했을 때, 추론 성능은 다음과 같이 향상되었습니다. |
|
|
||
| 논문의 초록은 다음과 같습니다: | ||
|
|
||
| *대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기 지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 백본을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinetics-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.* |
Contributor
There was a problem hiding this comment.
Suggested change
| *대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기 지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 백본을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinetics-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.* | |
| *대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 기반을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinects-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.* | |
| `` |
|
|
||
| ## VideoMAEForPreTraining[[transformers.VideoMAEForPreTraining]] | ||
|
|
||
| `VideoMAEForPreTraining`은 자기 지도 사전 학습을 위한 디코더를 상단에 포함합니다. |
Contributor
There was a problem hiding this comment.
Suggested change
| `VideoMAEForPreTraining`은 자기 지도 사전 학습을 위한 디코더를 상단에 포함합니다. | |
| `VideoMAEForPreTraining`은 자기지도 사전 학습을 위한 디코더를 상단에 포함합니다. |
| 또는 [GPU 추론](https://huggingface.co/docs/transformers/main/en/perf_infer_gpu_one#pytorch-scaled-dot-product-attention) | ||
| 페이지에서 자세한 정보를 확인하세요. | ||
|
|
||
| 구현이 가능한 경우 SDPA는 기본적으로 `torch>=2.1.1`에서 사용되지만, |
Contributor
There was a problem hiding this comment.
Suggested change
| 구현이 가능한 경우 SDPA는 기본적으로 `torch>=2.1.1`에서 사용되지만, | |
| 사용 가능한 구현이 있을 경우 SDPA는 `torch>=2.1.1`에서 기본적으로 활성화되지만, |
|
|
||
| ## 개요[[overview]] | ||
|
|
||
| VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang이 작성한 [VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602) 논문에서 제안되었습니다. |
Contributor
There was a problem hiding this comment.
Suggested change
| VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang이 작성한 [VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602) 논문에서 제안되었습니다. | |
| VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang의 논문 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602)에서 제안되었습니다. |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
What does this PR do?
Translated the
videomae.mdfile of the documentation to Korean.Thank you in advance for your review.
Part of #20179
Before reviewing
[[lowercased-header]])Who can review? (Initial)
May you please review this PR?
@yijun-lee, @songi104, @chhaewxn, @AhnJoonSung, @jihyun-0611, @seopp, @pyapyapya
Before submitting
Pull Request section?
to it if that's the case.
documentation guidelines, and
here are tips on formatting docstrings.
Who can review? (Final)