Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Translate huggingface_pytorch-transformers.md #2

Merged
merged 3 commits into from
Nov 7, 2021

Conversation

hrxorxm
Copy link
Contributor

@hrxorxm hrxorxm commented Sep 17, 2021

라이선스 동의

변경해주시는 내용에 BSD 3항 라이선스가 적용됨을 동의해주셔야 합니다.

더 자세한 내용은 기여하기 문서를 참고해주세요.

동의하시면 아래 [ ][x]로 만들어주세요.

  • 기여하기 문서를 확인하였으며, 본 PR 내용에 BSD 3항 라이선스가 적용됨에 동의합니다.

관련 이슈 번호

이 Pull Request와 관련있는 이슈 번호를 적어주세요.

이슈 또는 PR 번호 앞에 #을 붙이시면 제목을 바로 확인하실 수 있습니다. (예. #999 )

PR 종류

이 PR에 해당되는 종류 앞의 [ ][x]로 변경해주세요.

  • 오탈자를 수정하거나 번역을 개선하는 기여
  • 번역되지 않은 허브를 번역하는 기여
  • 공식 허브 내용을 반영하는 기여
  • 위 종류에 포함되지 않는 기여

PR 설명

이 PR로 무엇이 달라지는지 대략적으로 알려주세요.

  • 변경 사항

    • 파이토치 허브 모델 중 NLP 파트의 PyTorch-Transformers를 번역하였습니다.
    • 즉, huggingface_pytorch-transformers.md을 번역하였습니다.
  • 질문

    • 혹시 번역자를 작성하려면 어디를 수정하면 될까요?
  • 논의가 필요한 단어들

    • conversion -> 변환
    • configuration -> 설정값

Copy link
Contributor

@Jo-ad-fontes Jo-ad-fontes left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

좋은 번역 감사합니다. 간단한 의견드립니다!


The tokenizer object allows the conversion from character strings to tokens understood by the different models. Each model has its own tokenizer, and some tokenizing methods are different across tokenizers. The complete documentation can be found [here](https://huggingface.co/pytorch-transformers/main_classes/tokenizer.html).
토크나이저 객체를 사용하면 문자 문자열에서 다른 모델에서 이해할 수 있는 토큰으로 변환할 수 있습니다. 각 모델마다 고유한 토크나이저가 있고, 일부 토큰화 메소드는 토크나이저에 따라 다릅니다. 전체 문서는 [여기](https://huggingface.co/pytorch-transformers/main_classes/tokenizer.html)에서 확인해보실 수 있습니다.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

토크나이저 객체를 사용하면 문자 문자열에서 다른 모델에서 이해할 수 있는 토큰으로 변환할 수 있습니다.
-> 토크나이저 객체로 문자열을 모델에서 사용할 수 있는 토큰으로 변환할 수 있습니다.

'문자 문자열'을 '문자열'로 번역해도 될 것 같다는 의견과, 모델이 이해할 수 있다는 부분을 사용할 수 있다는 걸로 번역하는 것에 대해 의견드립니다.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

오 의견 감사합니다! character string 이라는게 의미가 있는 것일 수도 있겠다는 생각이 들어서 그대로 번역했는데, 제안해주신대로 번역해도 괜찮을 것 같습니다! 감사합니다!

@hyoyoung
Copy link
Member

hyoyoung commented Oct 5, 2021

formerly known as은 '이전엔' 보다는 '이전엔 ~으로 알려진', '이전엔 ~이였던' 정도로 번역이 좋지 않을까요?

저자와 번역자는 튜토리얼과 같은 포맷으로 하면 될거 같습니다

Copy link

@nninept nninept left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

관련 도메인 지식이 없는 사람이 이해하기 어려울 것 같은 단어들이 많아서, 관련 주석이나 번역이 필요할 것 같습니다

@@ -191,10 +191,10 @@ with torch.no_grad():
encoded_layers, _ = model(tokens_tensor, token_type_ids=segments_tensors)
```

## Using `modelForMaskedLM` to predict a masked token with BERT
## `modelForMaskedLM`을 사용하여, BERT로 마스킹된 토큰 예측하기
Copy link

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

mask에 대한 첨언이 좀 필요해 보입니다! 새로운 단어를 찾긴 어려워 보이는데, 주석을 달아보는건 어떨까요

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

마스킹이라는게 사실 마스크 토큰으로 변환한다는 간단한 의미인데, 처음 들으면 바로 떠오르기가 어려울 수도 있겠군요! 제목 대신 아래 주석의 마스킹 단어에서 뜻을 풀어서 써보도록 하겠습니다!

text_1 = "Jim Henson was a puppeteer"
text_2 = "Who was Jim Henson ?"
indexed_tokens = question_answering_tokenizer.encode(text_1, text_2, add_special_tokens=True)
segments_ids = [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]
segments_tensors = torch.tensor([segments_ids])
tokens_tensor = torch.tensor([indexed_tokens])

# Predict the start and end positions logits
# 시작 및 종료 위치에 대한 로짓을 예측합니다.
Copy link

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

로짓을 번역하는게, 읽는 사람이 더 이해하기 쉬울 것 같습니다!

Copy link
Contributor Author

@hrxorxm hrxorxm Oct 23, 2021

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

좋은 의견 감사드립니다! 다만, 로짓에 대해서 찾아봤는데, 로짓을 다른 용어로 번역하는 경우가 거의 없고, 로짓의 뜻을 풀이하자니 수학적으로 설명할 수 밖에 없고, 예측값으로 퉁치자니 비슷한 의미의 용어가 많아서, 로짓을 그대로 두는게 나을 것 같다는 생각이 듭니다. (대신 logits를 붙여주도록 하겠습니다!)

Copy link
Member

@hyoyoung hyoyoung left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

looks good to me

@hyoyoung hyoyoung merged commit 187d6cd into PyTorchKorea:master Nov 7, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

4 participants