# 73

###[M2M100](https://huggingface.co/docs/transformers/model_doc/m2m_100)

페이스북에서 개발한 MMT(다국어 기계번역 모델)이다.  
[소스](https://github.com/facebookresearch/fairseq/tree/main/examples/m2m_100) 확인.  

- 100개 언어 쌍으로 훈련했으며 4,450개의 쌍을 번역할 수 있다.
- 영어 데이터에 의존하지 않고 100개 언어 쌍을 번역하도록 했으므로 영어 중심 번역 모델보다 BLEU 측정 항목에서 우수한 성능을 보인다.
- 학습을 위해 100개 언어의 75억개 문장으로 훈련되었고, 150억개 매개변수를 가진다.
- 특이점
  - 학습 데이터가 없는 상태인 2개 언어 쌍으로 번역하는 것의 결과가 기대 이상 이었음.
  - 예를 들어 프랑스어-영어 그리고 독일어-스웨덴어 간 학습 데이터가 있다면 프랑스어-스웨덴어 간 번역이 가능하다는 것.
- [소개 자료](https://about.fb.com/news/2020/10/first-multilingual-machine-translation-model/)
- [논문](https://ai.meta.com/research/publications/beyond-english-centric-multilingual-machine-translation/)






In [1]:
# 런타임 1분 30초 소요
!pip install transformers
!pip install sentencepiece

from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

# 모델 및 토크나이저 불러오기
model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_418M")
tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_418M")



config.json:   0%|          | 0.00/908 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.94G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/233 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/298 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/3.71M [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/2.42M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/1.14k [00:00<?, ?B/s]



In [3]:
model

M2M100ForConditionalGeneration(
  (model): M2M100Model(
    (shared): M2M100ScaledWordEmbedding(128112, 1024, padding_idx=1)
    (encoder): M2M100Encoder(
      (embed_tokens): M2M100ScaledWordEmbedding(128112, 1024, padding_idx=1)
      (embed_positions): M2M100SinusoidalPositionalEmbedding()
      (layers): ModuleList(
        (0-11): 12 x M2M100EncoderLayer(
          (self_attn): M2M100Attention(
            (k_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (v_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (q_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (out_proj): Linear(in_features=1024, out_features=1024, bias=True)
          )
          (self_attn_layer_norm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
          (activation_fn): ReLU()
          (fc1): Linear(in_features=1024, out_features=4096, bias=True)
          (fc2): Linear(in_features=4096, out_features=1024, bias=True)
       

# 74

In [2]:
chinese_text = "生活就像一盒巧克力。"

# 소스 언어를 중국어(zh)로 지정
tokenizer.src_lang = "zh"

# 75

In [4]:
# 중국어 입력 문장을 토크나이저로 인코딩
encoded_zh = tokenizer(chinese_text, return_tensors="pt")

#76

In [5]:
# 토크나이저로 인코딩된 결과를 **kwargs 형식으로 model.generate()에 입력
# 자동번역 출력 언어를 영어(en)로 지정
generated_tokens = model.generate(**encoded_zh, forced_bos_token_id=tokenizer.get_lang_id("en"))

#77

In [6]:
# model.generate() 출력 결과를 디코딩
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

['Life is like a box of chocolate.']

# 78

In [7]:
# 소스 언어를 한국어(ko)로 지정
tokenizer.src_lang = "ko"
korean_text = "인생은 한 상자의 초콜릿과 같다."

# 79

In [8]:
# 한국어 입력 문장을 토크나이저로 인코딩
encoded_ko = tokenizer(korean_text, return_tensors="pt")

# 80

In [9]:
# 토크나이저로 인코딩된 결과를 **kwargs 형식으로 model.generate()에 입력
# 자동번역 출력 언어를 영어(en)로 지정
generated_tokens = model.generate(**encoded_ko, forced_bos_token_id=tokenizer.get_lang_id("en"))

# 81

In [10]:
# model.generate() 출력 결과를 디코딩
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

['Life is like a box of chocolate.']

# 보너스 코드

In [11]:
# 영문 텍스트 출처 동영상 (33분 52초 구간부터 약 10초간 플레이되는 음성 부분)
# https://www.jfklibrary.org/asset-viewer/archives/JFKWHA/1961/JFKWHA-032/JFKWHA-032

english_text = "I believe this nation should commit itself to achieving the goal, before this decade is out, of landing a man on the moon and returning him safely to the Earth."

In [12]:
tokenizer.src_lang = "en"
encoded_en = tokenizer(english_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_en, forced_bos_token_id=tokenizer.get_lang_id("ko"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

['나는 이 나라가 이 10년이 끝나기 전에 사람을 달에 착륙시키고 그를 안전하게 지구로 돌려보내는 목표를 달성하기 위해 노력해야 한다고 믿는다.']