#### spaCy - Setup

In [None]:
%%writefile req.txt
spacy[lookups,ja,th]~=3.0
regex==2020.11.13
emoji==1.2.0
pymorphy2==0.9.1
pymorphy2-dicts-ru==2.4.417127.4579844
pymorphy2-dicts-uk==2.4.1.1.1460299261
pyvi==0.1
jieba==0.42.1
fastcore==1.3.19

Writing req.txt


In [None]:
!pip install -r -q req.txt

In [None]:
# Use ontology tagging sentence splitter
!git clone https://github.com/dataiku/dss-plugin-nlp-analysis.git
%cd dss-plugin-nlp-analysis/python-lib/

In [None]:
from nlp.sentence_splitter import SentenceSplitter
from nlp.spacy_tokenizer import MultilingualTokenizer
from spacy.pipeline.sentencizer import Sentencizer

import pandas as pd

text_df = pd.DataFrame(["hello there! My name is Dr. No. I am a Doctor."], columns=["text"])
text_df = pd.DataFrame(["Bonjour! Je m'appelle Dr. No et je suis un docteur."], columns=["text"])
text_df = pd.DataFrame(["こんにちは。私は海がすきです！海も好きですか？"], columns=["text"])
text_df = pd.DataFrame(["మీరు ఎలా ఉన్నారు? మీరు ఎలా ఉన్నారు?"], columns=["text"])

config = {
            "sentencizer": {"punct_chars": Sentencizer.default_punct_chars + ["\n"]}
        }

tokenizer = MultilingualTokenizer(
            add_pipe_components=["sentencizer"],
            enable_pipe_components="sentencizer",
            config=config,
        )


languages = ["en", "fr", "ja", "te"]
for language in languages:
    tokenizer.add_spacy_tokenizer(language)


text_column = "text"

sentence_splitter = SentenceSplitter(
            text_df=text_df,
            text_column=text_column,
            tokenizer=tokenizer,
            language=languages[3],
            language_column=None)

In [None]:
out = sentence_splitter.split_sentences_df()
out[0].head()

Unnamed: 0,text,list_sentences
0,మీరు ఎలా ఉన్నారు? మీరు ఎలా ఉన్నారు?,"[మీరు ఎలా ఉన్నారు?, మీరు ఎలా ఉన్నారు?]"


#### PySBD - Setup

In [None]:
!pip install -q pysbd

[?25l[K     |████▋                           | 10 kB 22.7 MB/s eta 0:00:01[K     |█████████▏                      | 20 kB 12.5 MB/s eta 0:00:01[K     |█████████████▉                  | 30 kB 9.3 MB/s eta 0:00:01[K     |██████████████████▍             | 40 kB 8.5 MB/s eta 0:00:01[K     |███████████████████████         | 51 kB 5.1 MB/s eta 0:00:01[K     |███████████████████████████▋    | 61 kB 5.1 MB/s eta 0:00:01[K     |████████████████████████████████| 71 kB 3.2 MB/s 
[?25h

In [None]:
import pysbd
text = "My name is Jonas E. Smith. Please turn to p. 55."
seg = pysbd.Segmenter(language="en", clean=False)
print(seg.segment(text))

['My name is Jonas E. Smith. ', 'Please turn to p. 55.']


In [None]:
text = "こんにちは。私は海がすきです！海も好きですか？"

seg = pysbd.Segmenter(language="en", clean=False)
print(seg.segment(text))

['こんにちは。', '私は海がすきです！', '海も好きですか？']


In [None]:
text = "한국어(韓國語)는 대한민국과 조선민주주의인민공화국의 공용어로, 대한민국에서는 한국어 또는 한국말이라고 부르고, 조선민주주의인민공화국에서는 조선어(朝鮮語) 또는 조선말이라고 부른다. 한국과 북한에 비해서 인구는 적지만 중국 옌볜 조선족 자치주도 사용한다. 해외 이주에 의해 일본, 미국, 중화인민공화국, 러시아, 우즈베키스탄, 캐나다, 오스트레일리아, 필리핀, 베트남 등 세계 여러 지역에 한민족 인구가 거주하게 되면서 전세계 각지에서 한국어가 사용 되고 있다. 2016년 1월 초 기준으로 한국어 사용 인구는 거의 대부분이 대한민국과 조선민주주의인민공화국에 거주중이며 약 8000만 명으로 추산된다.[1]"

seg = pysbd.Segmenter(language="en", clean=False)
seg.segment(text)

['한국어(韓國語)는 대한민국과 조선민주주의인민공화국의 공용어로, 대한민국에서는 한국어 또는 한국말이라고 부르고, 조선민주주의인민공화국에서는 조선어(朝鮮語) 또는 조선말이라고 부른다. ',
 '한국과 북한에 비해서 인구는 적지만 중국 옌볜 조선족 자치주도 사용한다. ',
 '해외 이주에 의해 일본, 미국, 중화인민공화국, 러시아, 우즈베키스탄, 캐나다, 오스트레일리아, 필리핀, 베트남 등 세계 여러 지역에 한민족 인구가 거주하게 되면서 전세계 각지에서 한국어가 사용 되고 있다. ',
 '2016년 1월 초 기준으로 한국어 사용 인구는 거의 대부분이 대한민국과 조선민주주의인민공화국에 거주중이며 약 8000만 명으로 추산된다.',
 '[1]']

In [None]:
seg = pysbd.Segmenter(language="zh", clean=False)
seg.segment(text)

['한국어(韓國語)는 대한민국과 조선민주주의인민공화국의 공용어로, 대한민국에서는 한국어 또는 한국말이라고 부르고, 조선민주주의인민공화국에서는 조선어(朝鮮語) 또는 조선말이라고 부른다. ',
 '한국과 북한에 비해서 인구는 적지만 중국 옌볜 조선족 자치주도 사용한다. ',
 '해외 이주에 의해 일본, 미국, 중화인민공화국, 러시아, 우즈베키스탄, 캐나다, 오스트레일리아, 필리핀, 베트남 등 세계 여러 지역에 한민족 인구가 거주하게 되면서 전세계 각지에서 한국어가 사용 되고 있다. ',
 '2016년 1월 초 기준으로 한국어 사용 인구는 거의 대부분이 대한민국과 조선민주주의인민공화국에 거주중이며 약 8000만 명으로 추산된다.',
 '[1]']

#### PySBD vs spaCy

##### Catalan

In [None]:
# Catalan only in spaCy but not in PySBD
# > Choose Spanish for PySBD

# https://ca.wikipedia.org/wiki/Catal%C3%A0
ca_text = """
El català (denominació oficial a Catalunya, a les Illes Balears, a Andorra, a la ciutat de l'Alguer i tradicional a Catalunya Nord) o valencià (denominació oficial al País Valencià i tradicional al Carxe) és una llengua romànica parlada a Catalunya, el País Valencià (tret d'algunes comarques i localitats de l'interior), les Illes Balears, Andorra, la Franja de Ponent (a l'Aragó), la ciutat de l'Alguer (a l'illa de Sardenya), la Catalunya del Nord,[8] el Carxe (un petit territori de Múrcia poblat per immigrats valencians),[9][10] i en comunitats arreu del món (entre les quals destaca la de l'Argentina, amb 198.000 parlants).[11] Té deu milions de parlants, dels quals quasi la meitat ho són de llengua materna; el seu domini lingüístic, amb una superfície de 68.730 km² i 13.529.127 d'habitants (2009),[12] inclou 1.687 termes municipals. Com a llengua materna, és parlada per quatre milions de persones (29% de la població del territori lingüístic), de les quals 2.263.000 a Catalunya,[13] 1.521.000 al País Valencià[14] i 417.000 a les Illes Balears.[15] Com les altres llengües romàniques, el català prové del llatí vulgar que parlaven els romans que s'establiren a Hispània durant l'edat antiga.
"""
x = time.time()
# PYSBD
seg = pysbd.Segmenter(language="es", clean=False)

print("PySBD")
for i in seg.segment(ca_text):
  print(i)

y = time.time()
print("TIME:", y - x)

# SPACY
config = {
            "sentencizer": {"punct_chars": Sentencizer.default_punct_chars + ["\n"]}
        }
tokenizer = MultilingualTokenizer(
            add_pipe_components=["sentencizer"],
            enable_pipe_components="sentencizer",
            config=config,
        )
tokenizer.add_spacy_tokenizer("ca")
sentence_splitter = SentenceSplitter(
            text_df=pd.DataFrame([ca_text], columns=["text"]),
            text_column="text",
            tokenizer=tokenizer,
            language="ca",
            language_column=None)


print("-"*50)
out = sentence_splitter.split_sentences_df()[0].list_sentences.values.tolist()[0]
print("\nspaCy")
for i in out:
  print(i)


print("TIME:", time.time() - y)

PySBD
El català (denominació oficial a Catalunya, a les Illes Balears, a Andorra, a la ciutat de l'Alguer i tradicional a Catalunya Nord) o valencià (denominació oficial al País Valencià i tradicional al Carxe) és una llengua romànica parlada a Catalunya, el País Valencià (tret d'algunes comarques i localitats de l'interior), les Illes Balears, Andorra, la Franja de Ponent (a l'Aragó), la ciutat de l'Alguer (a l'illa de Sardenya), la Catalunya del Nord,[8] el Carxe (un petit territori de Múrcia poblat per immigrats valencians),[9][10] i en comunitats arreu del món (entre les quals destaca la de l'Argentina, amb 198.000 parlants).[11] 
Té deu milions de parlants, dels quals quasi la meitat ho són de llengua materna; el seu domini lingüístic, amb una superfície de 68.730 km² i 13.529.127 d'habitants (2009),[12] inclou 1.687 termes municipals. 
Com a llengua materna, és parlada per quatre milions de persones (29% de la població del territori lingüístic), de les quals 2.263.000 a Catalunya

100%|██████████| 1/1 [00:00<00:00, 96.13it/s]


spaCy
El català (denominació oficial a Catalunya, a les Illes Balears, a Andorra, a la ciutat de l'Alguer i tradicional a Catalunya Nord) o valencià (denominació oficial al País Valencià i tradicional al Carxe) és una llengua romànica parlada a Catalunya, el País Valencià (tret d'algunes comarques i localitats de l'interior), les Illes Balears, Andorra, la Franja de Ponent (a l'Aragó), la ciutat de l'Alguer (a l'illa de Sardenya), la Catalunya del Nord,[8] el Carxe (un petit territori de Múrcia poblat per immigrats valencians),[9][10] i en comunitats arreu del món (entre les quals destaca la de l'Argentina, amb 198.000 parlants).[11] Té deu milions de parlants, dels quals quasi la meitat ho són de llengua materna; el seu domini lingüístic, amb una superfície de 68.730 km² i 13.529.127 d'habitants (2009),[12] inclou 1.687 termes municipals.
Com a llengua materna, és parlada per quatre milions de persones (29% de la població del territori lingüístic), de les quals 2.263.000 a Catalunya,




spaCy does not catch a couple due to brackets - pySBD is better here.

##### Thai

In [None]:
# Thai
# Not in PySBD > Use Chinese instead

# https://th.wikipedia.org/wiki/%E0%B8%9B%E0%B8%B1%E0%B8%8D%E0%B8%8D%E0%B8%B2%E0%B8%9B%E0%B8%A3%E0%B8%B0%E0%B8%94%E0%B8%B4%E0%B8%A9%E0%B8%90%E0%B9%8C
th_text = """
แนวคิดเรื่องเครื่องจักรที่คิดได้และสิ่งมีชีวิตเทียมนั้นมีมาตั้งแต่สมัยกรีกโบราณ เช่นหุ่นยนต์ทาลอสแห่งครีต อันเป็นหุ่นยนต์ทองแดงของเทพฮิฟีสตัส แหล่งอารยธรรมใหญ่ ๆ ของโลกมักจะเชื่อเรื่องหุ่นยนต์ที่มีความคล้ายกับมนุษย์ เช่น ในอียิปต์และกรีซ ต่อมา ช่วงกลางศตวรรษที่ 19 และ 20 สิ่งมีชีวิตเทียมเริ่มปรากฏอย่างแพร่หลายในนิยายวิทยาศาสตร์ เช่น แฟรงเกนสไตน์ของแมรี เชลลีย์ หรือ R.U.R.ของกาเรล ชาเปก แนวคิดเหล่านี้ผ่านการอภิปรายมาอย่างแพร่หลาย โดยเฉพาะในแง่ของความหวัง ความกลัว หรือความกังวลด้านศีลธรรมเนื่องจากการมีอยู่ของปัญญาประดิษฐ์

กลไกหรือการให้เหตุผลอย่างมีแบบแผน ได้รับการพัฒนาขึ้นโดยนักปรัชญาและนักวิทยาศาสตร์มาตั้งแต่สมัยโบราณ การศึกษาด้านตรรกศาสตร์นำไปสู่การคิดค้นเครื่องคำนวณอิเล็กทรอนิกส์ดิจิทัลที่โปรแกรมได้โดยอาศัยหลักการทางคณิตศาสตร์ของแอลัน ทัวริงและคนอื่น ๆ ทฤษฎีการคำนวณของทัวริงชี้ว่า เครื่องจักรที่รู้จักการสลับตัวเลขระหว่าง 0 กับ 1 สามารถเข้าใจนิรนัยทางคณิตศาสตร์ได้ หลังจากนั้น การค้นพบทางด้านประสาทวิทยา ทฤษฎีสารสนเทศ และไซเบอร์เนติกส์ รวมทั้งทฤษฎีการคำนวณของทัวริง ได้ทำให้นักวิทยาศาสตร์บางกลุ่มเริ่มสนใจพิจารณาความเป็นไปได้ของการสร้าง สมองอิเล็กทรอนิกส์ ขึ้นมาอย่างจริงจัง

สาขาปัญญาประดิษฐ์นั้นเริ่มก่อตั้งขึ้นในที่ประชุมวิชาการที่วิทยาลัยดาร์ตมัธ สหรัฐอเมริกาในช่วงหน้าร้อน ค.ศ. 1956[2] โดยผู้ร่วมในการประชุมครั้งนั้น ได้แก่ จอห์น แม็กคาร์ธีย์ มาร์วิน มินสกี อัลเลน นิวเวลล์ อาเธอร์ ซามูเอล และเฮอร์เบิร์ต ไซมอน ที่ได้กลายมาเป็นผู้นำทางสาขาปัญญาประดิษฐ์ในอีกหลายสิบปีต่อมา นักวิทยาศาสตร์และนักศึกษาของพวกเขาเหล่านี้เขียนโปรแกรมที่หลายคนทึ่ง ไม่ว่าจะเป็น คอมพิวเตอร์ที่สามารถเอาชนะคนเล่นหมากรุก แก้ไขปัญหาเกี่ยวกับคำด้วยพีชคณิต พิสูจน์ทฤษฎีทางตรรกวิทยา หรือแม้กระทั่งพูดภาษาอังกฤษได้ ผู้ก่อตั้งสาขาปัญญาประดิษฐ์กลุ่มนี้เชื่อมั่นในอนาคตของเทคโนโลยีใหม่นี้มาก โดยเฮอร์เบิร์ต ไซมอนคาดว่าจะมีเครื่องจักรที่สามารถทำงานทุกอย่างได้เหมือนมนุษย์ภายใน 20 ปีข้างหน้า และมาร์วิน มินสกีก็เห็นพ้องโดยการเขียนว่า "เพียงชั่วอายุคน ปัญหาของการสร้างความฉลาดเทียมจะถูกแก้ไขอย่างยั่งยืน
"""

x = time.time()
# PYSBD
seg = pysbd.Segmenter(language="zh", clean=False)

print("PySBD")
for i in seg.segment(th_text):
  print(i)

y = time.time()
print("TIME:", y - x)

# SPACY - Errors out for Korean as not supported, so it doesnt seem like just because its listed 
config = {
            "sentencizer": {"punct_chars": Sentencizer.default_punct_chars + ["\n"]}
        }
tokenizer = MultilingualTokenizer(
            add_pipe_components=["sentencizer"],
            enable_pipe_components="sentencizer",
            config=config,
        )
tokenizer.add_spacy_tokenizer("th")
sentence_splitter = SentenceSplitter(
            text_df=pd.DataFrame([th_text], columns=["text"]),
            text_column="text",
            tokenizer=tokenizer,
            language="th",
            language_column=None)


print("-"*50)
out = sentence_splitter.split_sentences_df()[0].list_sentences.values.tolist()[0]

print("\nspaCy")
for i in out:
  print(i)


print("TIME:", time.time() - y)


PySBD
แนวคิดเรื่องเครื่องจักรที่คิดได้และสิ่งมีชีวิตเทียมนั้นมีมาตั้งแต่สมัยกรีกโบราณ เช่นหุ่นยนต์ทาลอสแห่งครีต อันเป็นหุ่นยนต์ทองแดงของเทพฮิฟีสตัส แหล่งอารยธรรมใหญ่ ๆ ของโลกมักจะเชื่อเรื่องหุ่นยนต์ที่มีความคล้ายกับมนุษย์ เช่น ในอียิปต์และกรีซ ต่อมา ช่วงกลางศตวรรษที่ 19 และ 20 สิ่งมีชีวิตเทียมเริ่มปรากฏอย่างแพร่หลายในนิยายวิทยาศาสตร์ เช่น แฟรงเกนสไตน์ของแมรี เชลลีย์ หรือ R.U.R.ของกาเรล ชาเปก แนวคิดเหล่านี้ผ่านการอภิปรายมาอย่างแพร่หลาย โดยเฉพาะในแง่ของความหวัง ความกลัว หรือความกังวลด้านศีลธรรมเนื่องจากการมีอยู่ของปัญญาประดิษฐ์


กลไกหรือการให้เหตุผลอย่างมีแบบแผน ได้รับการพัฒนาขึ้นโดยนักปรัชญาและนักวิทยาศาสตร์มาตั้งแต่สมัยโบราณ การศึกษาด้านตรรกศาสตร์นำไปสู่การคิดค้นเครื่องคำนวณอิเล็กทรอนิกส์ดิจิทัลที่โปรแกรมได้โดยอาศัยหลักการทางคณิตศาสตร์ของแอลัน ทัวริงและคนอื่น ๆ ทฤษฎีการคำนวณของทัวริงชี้ว่า เครื่องจักรที่รู้จักการสลับตัวเลขระหว่าง 0 กับ 1 สามารถเข้าใจนิรนัยทางคณิตศาสตร์ได้ หลังจากนั้น การค้นพบทางด้านประสาทวิทยา ทฤษฎีสารสนเทศ และไซเบอร์เนติกส์ รวมทั้งทฤษฎีการคำนวณของทัวริง ได้ทำให้นักวิ

100%|██████████| 1/1 [00:00<00:00, 41.36it/s]


spaCy
แนวคิดเรื่องเครื่องจักรที่คิดได้และสิ่งมีชีวิตเทียมนั้นมีมาตั้งแต่สมัยกรีกโบราณ เช่นหุ่นยนต์ทาลอสแห่งครีต อันเป็นหุ่นยนต์ทองแดงของเทพฮิฟีสตัส แหล่งอารยธรรมใหญ่ ๆ ของโลกมักจะเชื่อเรื่องหุ่นยนต์ที่มีความคล้ายกับมนุษย์ เช่น ในอียิปต์และกรีซ ต่อมา ช่วงกลางศตวรรษที่ 19 และ 20 สิ่งมีชีวิตเทียมเริ่มปรากฏอย่างแพร่หลายในนิยายวิทยาศาสตร์ เช่น แฟรงเกนสไตน์ของแมรี เชลลีย์ หรือ R.
U.
R.
ของกาเรล ชาเปก แนวคิดเหล่านี้ผ่านการอภิปรายมาอย่างแพร่หลาย โดยเฉพาะในแง่ของความหวัง ความกลัว หรือความกังวลด้านศีลธรรมเนื่องจากการมีอยู่ของปัญญาประดิษฐ์

กลไกหรือการให้เหตุผลอย่างมีแบบแผน ได้รับการพัฒนาขึ้นโดยนักปรัชญาและนักวิทยาศาสตร์มาตั้งแต่สมัยโบราณ การศึกษาด้านตรรกศาสตร์นำไปสู่การคิดค้นเครื่องคำนวณอิเล็กทรอนิกส์ดิจิทัลที่โปรแกรมได้โดยอาศัยหลักการทางคณิตศาสตร์ของแอลัน ทัวริงและคนอื่น ๆ ทฤษฎีการคำนวณของทัวริงชี้ว่า เครื่องจักรที่รู้จักการสลับตัวเลขระหว่าง 0 กับ 1 สามารถเข้าใจนิรนัยทางคณิตศาสตร์ได้ หลังจากนั้น การค้นพบทางด้านประสาทวิทยา ทฤษฎีสารสนเทศ และไซเบอร์เนติกส์ รวมทั้งทฤษฎีการคำนวณของทัวริง ได้ทำให้นั




In [None]:
th_text = """
แนวคิดเรื่องเครื่องจักรที่คิดได้และสิ่งมีชีวิตเทียมนั้นมีมาตั้งแต่สมัยกรีกโบราณ เช่นหุ่นยนต์ทาลอสแห่งครีต อันเป็นหุ่นยนต์ทองแดงของเทพฮิฟีสตัส แหล่งอารยธรรมใหญ่ ๆ ของโลกมักจะเชื่อเรื่องหุ่นยนต์ที่มีความคล้ายกับมนุษย์ เช่น ในอียิปต์และกรีซ ต่อมา ช่วงกลางศตวรรษที่ 19 และ 20 สิ่งมีชีวิตเทียมเริ่มปรากฏอย่างแพร่หลายในนิยายวิทยาศาสตร์ เช่น แฟรงเกนสไตน์ของแมรี เชลลีย์ หรือ R.U.R.ของกาเรล ชาเปก แนวคิดเหล่านี้ผ่านการอภิปรายมาอย่างแพร่หลาย โดยเฉพาะในแง่ของความหวัง ความกลัว หรือความกังวลด้านศีลธรรมเนื่องจากการมีอยู่ของปัญญาประดิษฐ์

กลไกหรือการให้เหตุผลอย่างมีแบบแผน ได้รับการพัฒนาขึ้นโดยนักปรัชญาและนักวิทยาศาสตร์มาตั้งแต่สมัยโบราณ การศึกษาด้านตรรกศาสตร์นำไปสู่การคิดค้นเครื่องคำนวณอิเล็กทรอนิกส์ดิจิทัลที่โปรแกรมได้โดยอาศัยหลักการทางคณิตศาสตร์ของแอลัน ทัวริงและคนอื่น ๆ ทฤษฎีการคำนวณของทัวริงชี้ว่า เครื่องจักรที่รู้จักการสลับตัวเลขระหว่าง 0 กับ 1 สามารถเข้าใจนิรนัยทางคณิตศาสตร์ได้ หลังจากนั้น การค้นพบทางด้านประสาทวิทยา ทฤษฎีสารสนเทศ และไซเบอร์เนติกส์ รวมทั้งทฤษฎีการคำนวณของทัวริง ได้ทำให้นักวิทยาศาสตร์บางกลุ่มเริ่มสนใจพิจารณาความเป็นไปได้ของการสร้าง สมองอิเล็กทรอนิกส์ ขึ้นมาอย่างจริงจัง

สาขาปัญญาประดิษฐ์นั้นเริ่มก่อตั้งขึ้นในที่ประชุมวิชาการที่วิทยาลัยดาร์ตมัธ สหรัฐอเมริกาในช่วงหน้าร้อน ค.ศ. 1956[2] โดยผู้ร่วมในการประชุมครั้งนั้น ได้แก่ จอห์น แม็กคาร์ธีย์ มาร์วิน มินสกี อัลเลน นิวเวลล์ อาเธอร์ ซามูเอล และเฮอร์เบิร์ต ไซมอน ที่ได้กลายมาเป็นผู้นำทางสาขาปัญญาประดิษฐ์ในอีกหลายสิบปีต่อมา นักวิทยาศาสตร์และนักศึกษาของพวกเขาเหล่านี้เขียนโปรแกรมที่หลายคนทึ่ง ไม่ว่าจะเป็น คอมพิวเตอร์ที่สามารถเอาชนะคนเล่นหมากรุก แก้ไขปัญหาเกี่ยวกับคำด้วยพีชคณิต พิสูจน์ทฤษฎีทางตรรกวิทยา หรือแม้กระทั่งพูดภาษาอังกฤษได้ ผู้ก่อตั้งสาขาปัญญาประดิษฐ์กลุ่มนี้เชื่อมั่นในอนาคตของเทคโนโลยีใหม่นี้มาก โดยเฮอร์เบิร์ต ไซมอนคาดว่าจะมีเครื่องจักรที่สามารถทำงานทุกอย่างได้เหมือนมนุษย์ภายใน 20 ปีข้างหน้า และมาร์วิน มินสกีก็เห็นพ้องโดยการเขียนว่า "เพียงชั่วอายุคน ปัญหาของการสร้างความฉลาดเทียมจะถูกแก้ไขอย่างยั่งยืน
"""
import time
x = time.time()
# PYSBD
seg = pysbd.Segmenter(language="my", clean=False)

print("PySBD")
for i in seg.segment(th_text):
  print(i)

y = time.time()
print("TIME:", y - x)

PySBD
แนวคิดเรื่องเครื่องจักรที่คิดได้และสิ่งมีชีวิตเทียมนั้นมีมาตั้งแต่สมัยกรีกโบราณ เช่นหุ่นยนต์ทาลอสแห่งครีต อันเป็นหุ่นยนต์ทองแดงของเทพฮิฟีสตัส แหล่งอารยธรรมใหญ่ ๆ ของโลกมักจะเชื่อเรื่องหุ่นยนต์ที่มีความคล้ายกับมนุษย์ เช่น ในอียิปต์และกรีซ ต่อมา ช่วงกลางศตวรรษที่ 19 และ 20 สิ่งมีชีวิตเทียมเริ่มปรากฏอย่างแพร่หลายในนิยายวิทยาศาสตร์ เช่น แฟรงเกนสไตน์ของแมรี เชลลีย์ หรือ R.U.R.ของกาเรล ชาเปก แนวคิดเหล่านี้ผ่านการอภิปรายมาอย่างแพร่หลาย โดยเฉพาะในแง่ของความหวัง ความกลัว หรือความกังวลด้านศีลธรรมเนื่องจากการมีอยู่ของปัญญาประดิษฐ์


กลไกหรือการให้เหตุผลอย่างมีแบบแผน ได้รับการพัฒนาขึ้นโดยนักปรัชญาและนักวิทยาศาสตร์มาตั้งแต่สมัยโบราณ การศึกษาด้านตรรกศาสตร์นำไปสู่การคิดค้นเครื่องคำนวณอิเล็กทรอนิกส์ดิจิทัลที่โปรแกรมได้โดยอาศัยหลักการทางคณิตศาสตร์ของแอลัน ทัวริงและคนอื่น ๆ ทฤษฎีการคำนวณของทัวริงชี้ว่า เครื่องจักรที่รู้จักการสลับตัวเลขระหว่าง 0 กับ 1 สามารถเข้าใจนิรนัยทางคณิตศาสตร์ได้ หลังจากนั้น การค้นพบทางด้านประสาทวิทยา ทฤษฎีสารสนเทศ และไซเบอร์เนติกส์ รวมทั้งทฤษฎีการคำนวณของทัวริง ได้ทำให้นักวิ

Both suck for Thai, since Thai has no punctuation marks

The first line where spaCy splits the RUR should not be split acc to Google Translate:

The concept of imaginative machines and artificial beings dates back to ancient Greece. like the robot Talos of Crete. which is a copper robot of the god Hiphaestus The world's major civilizations believed in human-like robots, such as in Egypt and Greece. Later, in the mid-19th and 20th centuries, artificial creatures began to appear in science fiction, such as Frankenstein. Mary Shelley's RUR or Garel Chapec's RUR, these ideas have been widely discussed by

##### Norwegian

In [None]:
# Norwegian
# Take Danish for PySBD (https://en.wikipedia.org/wiki/Bokm%C3%A5l#Differences_from_Danish)

no_text = """
Kunstig intelligens (KI) er en teknikk man bruker for å gi datamaskiner og dataprogrammer en mest mulig intelligent respons.[1] Fagfeltet kunstig intelligens er tverrfaglig av natur, og har vokst fram med bidrag fra blant annet informatikk, matematikk, statistikk, psykologi, nevrologi og lingvistikk. Grenen kunstig intelligens innen informatikk blir definert som studiet og utviklingen av intelligente agenter,[2] der en intelligent agent er et system som observerer sitt miljø og tar avgjørelser for å maksimere sin egen suksess.[3] Andreas Kaplan og Michael Haenlein definerer kunstig intelligens som "et systems evne til å korrekt tolke eksterne data, å lære av slike data, og å bruke denne kunnskapen til å oppnå spesifikke mål og oppgaver gjennom fleksibel tilpasning".[4]
"""

x = time.time()
# PYSBD
seg = pysbd.Segmenter(language="da", clean=False)

print("PySBD")
for i in seg.segment(no_text):
  print(i)

y = time.time()
print("TIME:", y - x)

# SPACY - Erros out for Korean as not supported, so it doesnt seem like just because its listed 
config = {
            "sentencizer": {"punct_chars": Sentencizer.default_punct_chars + ["\n"]}
        }
tokenizer = MultilingualTokenizer(
            add_pipe_components=["sentencizer"],
            enable_pipe_components="sentencizer",
            config=config,
        )
tokenizer.add_spacy_tokenizer("nb")
sentence_splitter = SentenceSplitter(
            text_df=pd.DataFrame([no_text], columns=["text"]),
            text_column="text",
            tokenizer=tokenizer,
            language="nb",
            language_column=None)


print("-"*50)
out = sentence_splitter.split_sentences_df()[0].list_sentences.values.tolist()[0]

print("\nspaCy")
for i in out:
  print(i)

print("TIME:", time.time() - y)

PySBD
Kunstig intelligens (KI) er en teknikk man bruker for å gi datamaskiner og dataprogrammer en mest mulig intelligent respons.[1] 
Fagfeltet kunstig intelligens er tverrfaglig av natur, og har vokst fram med bidrag fra blant annet informatikk, matematikk, statistikk, psykologi, nevrologi og lingvistikk. 
Grenen kunstig intelligens innen informatikk blir definert som studiet og utviklingen av intelligente agenter,[2] der en intelligent agent er et system som observerer sitt miljø og tar avgjørelser for å maksimere sin egen suksess.[3] 
Andreas Kaplan og Michael Haenlein definerer kunstig intelligens som "et systems evne til å korrekt tolke eksterne data, å lære av slike data, og å bruke denne kunnskapen til å oppnå spesifikke mål og oppgaver gjennom fleksibel tilpasning".
[4]

TIME: 0.01904129981994629
--------------------------------------------------


100%|██████████| 1/1 [00:00<00:00, 106.46it/s]


spaCy
Kunstig intelligens (KI) er en teknikk man bruker for å gi datamaskiner og dataprogrammer en mest mulig intelligent respons.[1] Fagfeltet kunstig intelligens er tverrfaglig av natur, og har vokst fram med bidrag fra blant annet informatikk, matematikk, statistikk, psykologi, nevrologi og lingvistikk.
Grenen kunstig intelligens innen informatikk blir definert som studiet og utviklingen av intelligente agenter,[2] der en intelligent agent er et system som observerer sitt miljø og tar avgjørelser for å maksimere sin egen suksess.[3] Andreas Kaplan og Michael Haenlein definerer kunstig intelligens som "et systems evne til å korrekt tolke eksterne data, å lære av slike data, og å bruke denne kunnskapen til å oppnå spesifikke mål og oppgaver gjennom fleksibel tilpasning".[4]
TIME: 0.1333620548248291





In [None]:

wo_brackets = no_text.replace("[1]", "").replace("[2]", "").replace("[3]", "").replace("[4]", "")

config = {
            "sentencizer": {"punct_chars": Sentencizer.default_punct_chars + ["\n"]}
        }
tokenizer = MultilingualTokenizer(
            add_pipe_components=["sentencizer"],
            enable_pipe_components="sentencizer",
            config=config,
        )
tokenizer.add_spacy_tokenizer("nb")

sentence_splitter = SentenceSplitter(
            text_df=pd.DataFrame([wo_brackets], columns=["text"]),
            text_column="text",
            tokenizer=tokenizer,
            language="nb",
            language_column=None)


print("-"*50)
out = sentence_splitter.split_sentences_df()[0].list_sentences.values.tolist()[0]

print("\nspaCy")
for i in out:
  print(i)

--------------------------------------------------


100%|██████████| 1/1 [00:00<00:00, 114.72it/s]


spaCy
Kunstig intelligens (KI) er en teknikk man bruker for å gi datamaskiner og dataprogrammer en mest mulig intelligent respons.
Fagfeltet kunstig intelligens er tverrfaglig av natur, og har vokst fram med bidrag fra blant annet informatikk, matematikk, statistikk, psykologi, nevrologi og lingvistikk.
Grenen kunstig intelligens innen informatikk blir definert som studiet og utviklingen av intelligente agenter, der en intelligent agent er et system som observerer sitt miljø og tar avgjørelser for å maksimere sin egen suksess.
Andreas Kaplan og Michael Haenlein definerer kunstig intelligens som "et systems evne til å korrekt tolke eksterne data, å lære av slike data, og å bruke denne kunnskapen til å oppnå spesifikke mål og oppgaver gjennom fleksibel tilpasning".





When removing the source brackets spaCy matches pySBD.

##### Armenian

In [None]:
# Armenian
# Choose Greek for pySBD

import time 
# https://hy.wikipedia.org/wiki/%D4%B1%D5%B6%D5%A1%D5%B6%D5%BB%D5%A1%D5%BF_%D5%A3%D6%80%D5%B8%D6%82%D5%A9%D5%B5%D5%B8%D6%82%D5%B6
hy_text = """
Չնայած որ անանջատ գրությունը հիմանականում հանդիպում է դասական հունարեն և լատիներեն ձեռագրերում, գրության այս ձևը ավելի հին պատմություն ունի։ Հնագույն դասական հունարենում կամ Ալեքսանդրիայում, գիրը ներկայացնում էին որպես մեծատառերի անանջատ շարք, որոնք շարվում էին աջից ձախ։ Հետագայում սա փոխակերպվեց՝ «բուստրոֆեդոնի», որը ներառում էր տարբեր ուղղությամբ շարված տողեր։ Դրանից ավելի ուշ հռոմեացիները լատիներենը գրելու համար սկսեցին կիրառել էտրուսկական այբուբենը, որում բառերը բաժանելու համար սկզբում օգտագործում էին կետեր, բայց հունական ազդեցությամբ՝ անցում կատարեցին անանջատ գրի[4]։
Մինչև գրքի հայտնաբերումը, լատինական և հունական ձեռագրերը գրվում էին գալարների վրա՝ ստրկացված գրիչների կողմից։ Գրիչը պետք է ուղղակի գրի առներ այն ամենն, ինչ լսում էր։ Քանի որ խոսքը շարունակական էր, գրում բացատներ թողնելը անտրամաբանական էր։ Բացի այդ, այն ժամանակ պապիրուսը և թանաքը շատ թանկ էին և բացատներ չդնելը միջոցները խնայելու եղանակ էր։

Անջատ բառերի բացակայությունը ընթերցողին տալիս էր գրվածը մեկնաբանելու ավելի մեծ ազատություն, քանի որ նա ազատ էր դադարներ տալ և տոնայնությունը փոխել ինչպես ցանկանում է՝ ընթերցանության գործընթացը դարձնելով ավելի սուբյեկտիվ։ Բացատների բացակայությունը որոշ առումով բերում էր նաև երկիմաստության, քանի որ բառերի տարբեր բաժանումը կարող էր գրվածին տալ տարբեր նշանակություն[5]։
"""

x = time.time()
# PYSBD
seg = pysbd.Segmenter(language="el", clean=False)

print("PySBD")
for i in seg.segment(hy_text):
  print(i)

y = time.time()
print("TIME:", y - x)

config = {
            "sentencizer": {"punct_chars": Sentencizer.default_punct_chars + ["\n"]}
        }
tokenizer = MultilingualTokenizer(
            add_pipe_components=["sentencizer"],
            enable_pipe_components="sentencizer",
            config=config,
        )
tokenizer.add_spacy_tokenizer("hy")

sentence_splitter = SentenceSplitter(
            text_df=pd.DataFrame([hy_text], columns=["text"]),
            text_column="text",
            tokenizer=tokenizer,
            language="hy",
            language_column=None)


print("-"*50)
out = sentence_splitter.split_sentences_df()[0].list_sentences.values.tolist()[0]

print("\nspaCy")
for i in out:
  print(i)

print("TIME:", time.time() - y)

PySBD
Չնայած որ անանջատ գրությունը հիմանականում հանդիպում է դասական հունարեն և լատիներեն ձեռագրերում, գրության այս ձևը ավելի հին պատմություն ունի։ Հնագույն դասական հունարենում կամ Ալեքսանդրիայում, գիրը ներկայացնում էին որպես մեծատառերի անանջատ շարք, որոնք շարվում էին աջից ձախ։ Հետագայում սա փոխակերպվեց՝ «բուստրոֆեդոնի», որը ներառում էր տարբեր ուղղությամբ շարված տողեր։ Դրանից ավելի ուշ հռոմեացիները լատիներենը գրելու համար սկսեցին կիրառել էտրուսկական այբուբենը, որում բառերը բաժանելու համար սկզբում օգտագործում էին կետեր, բայց հունական ազդեցությամբ՝ անցում կատարեցին անանջատ գրի[4]։

Մինչև գրքի հայտնաբերումը, լատինական և հունական ձեռագրերը գրվում էին գալարների վրա՝ ստրկացված գրիչների կողմից։ Գրիչը պետք է ուղղակի գրի առներ այն ամենն, ինչ լսում էր։ Քանի որ խոսքը շարունակական էր, գրում բացատներ թողնելը անտրամաբանական էր։ Բացի այդ, այն ժամանակ պապիրուսը և թանաքը շատ թանկ էին և բացատներ չդնելը միջոցները խնայելու եղանակ էր։


Անջատ բառերի բացակայությունը ընթերցողին տալիս էր գրվածը մեկնաբանելու ավ

100%|██████████| 1/1 [00:00<00:00, 101.33it/s]


spaCy
Չնայած որ անանջատ գրությունը հիմանականում հանդիպում է դասական հունարեն և լատիներեն ձեռագրերում, գրության այս ձևը ավելի հին պատմություն ունի։ Հնագույն դասական հունարենում կամ Ալեքսանդրիայում, գիրը ներկայացնում էին որպես մեծատառերի անանջատ շարք, որոնք շարվում էին աջից ձախ։ Հետագայում սա փոխակերպվեց՝ «բուստրոֆեդոնի», որը ներառում էր տարբեր ուղղությամբ շարված տողեր։ Դրանից ավելի ուշ հռոմեացիները լատիներենը գրելու համար սկսեցին կիրառել էտրուսկական այբուբենը, որում բառերը բաժանելու համար սկզբում օգտագործում էին կետեր, բայց հունական ազդեցությամբ՝ անցում կատարեցին անանջատ գրի[4]։

Մինչև գրքի հայտնաբերումը, լատինական և հունական ձեռագրերը գրվում էին գալարների վրա՝ ստրկացված գրիչների կողմից։ Գրիչը պետք է ուղղակի գրի առներ այն ամենն, ինչ լսում էր։ Քանի որ խոսքը շարունակական էր, գրում բացատներ թողնելը անտրամաբանական էր։ Բացի այդ, այն ժամանակ պապիրուսը և թանաքը շատ թանկ էին և բացատներ չդնելը միջոցները խնայելու եղանակ էր։

Անջատ բառերի բացակայությունը ընթերցողին տալիս էր գրվածը մեկնաբանելու ավ




Neither of them catches the ":" in the middles that is used as punctuation in Armenian - I guess just because spaCy lists a language doesn't mean it really provides reliable support for all functionalities.

Given these small tests I assume pySBD to be at least as good as spaCy on ALL languages covered by spaCy even though they may not be officially covered by pySBD. (Note that for languages covered by pySBD, pySBD reports that they outperform spaCy on their repo by a wide margin)

In addition
- pysbd is 10x faster
- pysbd has less dependencies
- pysbd requires less code

#### PySBD Splitting vs Non-Splitting

In [1]:
!git clone -b pysbd-benchmark https://github.com/Muennighoff/hf-translation-benchmark.git
%cd hf-translation-benchmark
!pip install -r requirements.txt

Cloning into 'hf-translation-benchmark'...
remote: Enumerating objects: 281, done.[K
remote: Counting objects: 100% (281/281), done.[K
remote: Compressing objects: 100% (192/192), done.[K
remote: Total 281 (delta 138), reused 219 (delta 86), pack-reused 0[K
Receiving objects: 100% (281/281), 267.86 KiB | 7.65 MiB/s, done.
Resolving deltas: 100% (138/138), done.
/content/hf-translation-benchmark
Collecting sacrebleu==1.5.0
  Downloading sacrebleu-1.5.0-py3-none-any.whl (65 kB)
[K     |████████████████████████████████| 65 kB 2.7 MB/s 
Collecting transformers[sentencepiece]>=4.1
  Downloading transformers-4.11.1-py3-none-any.whl (2.9 MB)
[K     |████████████████████████████████| 2.9 MB 15.5 MB/s 
Collecting mecab-python3==1.0.4
  Downloading mecab_python3-1.0.4-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (488 kB)
[K     |████████████████████████████████| 488 kB 62.1 MB/s 
[?25hCollecting mecab-ko-dic==1.0.0
  Downloading mecab-ko-dic-1.0.0.tar.gz (33.2 MB)
[K     |█████

In [2]:
!nvidia-smi

Thu Sep 30 09:32:11 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.63.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   38C    P0    27W / 250W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [3]:
from data.data import TRANSLATION_BENCHMARKS
from models.m2m import SRC_TO_PYSBD, SRC_TO_PYSBD_INDIRECT

In [4]:
### GET NON-FAMILY LANGUAGES ###

test_lang_pairs = set()
for lang_pair in TRANSLATION_BENCHMARKS:
    src, tar = lang_pair.split("-")[0], lang_pair.split("-")[-1]
    # Only makes sense, when the language is the source lang, as thats when we split
    if (src in SRC_TO_PYSBD_INDIRECT.keys()):
        test_lang_pairs.add(lang_pair)
test_lang_pairs

{'et-en',
 'fi-en',
 'gu-en',
 'hu-en',
 'km-en',
 'ko-en',
 'lt-en',
 'lv-en',
 'ps-en',
 'ro-en',
 'ta-en',
 'tr-en'}

In [6]:
# BLEU Score is expected to be higher as calculated over more words now
# https://en.wikipedia.org/wiki/BLEU
reports = ""
for pair in test_lang_pairs:
    !python main.py --model m2m --weights facebook/m2m100_418M --data {pair} --sample 500 --baseline --nosplitting
    reports += open("out.txt", "r").read()
    reports += "\n"*2

    !python main.py --model m2m --weights facebook/m2m100_418M --data {pair} --sample 500 --mergesents 10 --nosplitting
    reports += open("out.txt", "r").read()
    reports += "\n"*2

    !python main.py --model m2m --weights facebook/m2m100_418M --data {pair} --sample 500 --mergesents 10
    reports += open("out.txt", "r").read()


    reports += "\n"*20

with open("fin_report_sent10.txt", "w") as f:
    f.write(reports)

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Downloading http://data.statmt.org/wmt18/translation-task/test.tgz to /root/.sacrebleu/wmt18/test.tgz
Checksum passed: f996c245ecffea23d0006fa4c34e9064
Extracting /root/.sacrebleu/wmt18/test.tgz
Processing /root/.sacrebleu/wmt18/raw/test/newstest2018-eten-src.et.sgm to /root/.sacrebleu/wmt18/et-en.et
Processing /root/.sacrebleu/wmt18/raw/test/newstest2018-eten-ref.en.sgm to /root/.sacrebleu/wmt18/et-en.en
Starting translation from et to en.
Baseline: Preds reduced to 100 samples with 5 sentences each.
Baseline: Target reduced to 100 samples with 5 sentences each.
Scored 27.808906292791907 on language pair et-en.
100% 1/1 [05:12<00:00, 312.90s/it]
MODEL REPORT: facebook/m2m100_418M
---------------------------
et-en

BLEU
27.808906292791907

AVG SPEED
0.52569118309021

MEM REPORT
-------------------------------------------------------  ------------  ------------  -----------

Conclusions:
- The mappings perturbate performance by ~3% on average - Notable changes are:
  - Khmer (The language uses almost no punctuation so nothing gets split)
  - Gujarati (Same problem as Khmer)
  - Korean (~5% degradation)

- The language mapped to makes only a small difference, as pySBD applies very few language-specific splits (See ablations below)

- Results are sometimes better for the PySBD versions, since texts in the dataset logically follow each other, so squashing them together and setting the boundaries differently might help the model. (We could randomize the order, but this is more likely of a real-world scenario where text in a row is related)



###### KHMER

It doesn't matter - Khmer seems to never gets tokenized as it hardly contains Punctuation. The same is likely true for Thai & Laos.

In [8]:
# Baseline

!python main.py --model m2m --weights facebook/m2m100_418M --data km-en --sample 500 --baseline

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from km to en.
Mapped km to en
Baseline: Preds reduced to 100 samples with 5 sentences each.
Baseline: Target reduced to 100 samples with 5 sentences each.
Mapped km to en
Scored 2.8700016499755345 on language pair km-en.
100% 1/1 [04:58<00:00, 298.80s/it]
MODEL REPORT: facebook/m2m100_418M
---------------------------
km-en

BLEU
2.8700016499755345

AVG SPEED
0.5194755063056946

MEM REPORT
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ---

In [11]:
# Mapped to Nothing

!python main.py --model m2m --weights facebook/m2m100_418M --data km-en --sample 500 --mergesents 10 --nosplitting

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from km to en.
Benchmarking: Source reduced to 50 samples with 10 sentences each.
Benchmarking: Target reduced to 50 samples with 10 sentences each.
Sentence is too long (407 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (480 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (363 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (334 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.

In [7]:
# Mapped to Burmese

!python main.py --model m2m --weights facebook/m2m100_418M --data km-en --sample 500 --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from km to en.
Benchmarking: Source reduced to 50 samples with 10 sentences each.
Benchmarking: Target reduced to 50 samples with 10 sentences each.
Mapped km to my
Sentence is too long (407 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (480 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (334 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (373 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Se

In [9]:
# Mapped to English

!python main.py --model m2m --weights facebook/m2m100_418M --data km-en --sample 500 --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from km to en.
Benchmarking: Source reduced to 50 samples with 10 sentences each.
Benchmarking: Target reduced to 50 samples with 10 sentences each.
Mapped km to en
Sentence is too long (407 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (480 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (334 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (373 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Se

In [None]:
# Mapped to Chinese

!python main.py --model m2m --weights facebook/m2m100_418M --data km-en --sample 100 --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from km to en.
Benchmarking: Source reduced to 10 samples with 10 sentences each.
Benchmarking: Target reduced to 10 samples with 10 sentences each.
Mapped km to zh
Sentence is too long (407 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (480 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (334 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (373 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Se

###### GUJARATI

Swapping Hindi / Urdu makes no difference.
The baseline is likely worse because the splitters split almost nothing & it seems subsequent sentences are related to each other, so the translator performs better when seeing more of that.

In [None]:
# Baseline

!python main.py --model m2m --weights facebook/m2m100_418M --data gu-en --sample 100 --baseline --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from gu to en.
Baseline: Preds reduced to 10 samples with 10 sentences each.
Baseline: Target reduced to 10 samples with 10 sentences each.
Scored 0.17565088682203797 on language pair gu-en.
100% 1/1 [01:48<00:00, 108.52s/it]
MODEL REPORT: facebook/m2m100_418M
---------------------------
gu-en

BLEU
0.17565088682203797

AVG SPEED
0.7915417242050171

MEM REPORT
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  -----

In [None]:
# Hindi

!python main.py --model m2m --weights facebook/m2m100_418M --data gu-en --sample 100 --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from gu to en.
Benchmarking: Source reduced to 10 samples with 10 sentences each.
Benchmarking: Target reduced to 10 samples with 10 sentences each.
Mapped gu to hi
Sentence is too long (338 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (314 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (374 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (399 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Se

In [None]:
# Urdu

!python main.py --model m2m --weights facebook/m2m100_418M --data gu-en --sample 100 --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from gu to en.
Benchmarking: Source reduced to 10 samples with 10 sentences each.
Benchmarking: Target reduced to 10 samples with 10 sentences each.
Mapped gu to ur
Sentence is too long (338 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (314 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (374 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Sentence is too long (399 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Se

###### KOREAN

Result: Japanese / Chinese no difference in performance, but both better than English. Likely due to some punctuation marks the English splitting misses.

In [None]:
# Baseline

!python main.py --model m2m --weights facebook/m2m100_418M --data ko-en --sample 500 --baseline --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from ko to en.
Baseline: Preds reduced to 50 samples with 10 sentences each.
Baseline: Target reduced to 50 samples with 10 sentences each.
Sentence is too long (303 > 300), and will be translated in pieces, which might degrade performance. Check the source language and/or consider using the 'Split Sentences' option.
Scored 12.9392389402322 on language pair ko-en.
100% 1/1 [03:52<00:00, 232.08s/it]
MODEL REPORT: facebook/m2m100_418M
---------------------------
ko-en

BLEU
12.9392389402322

AVG SPEED
0.34565928602218626

MEM REPORT
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg    

In [None]:
# Map Korean to Japanese

!python main.py --model m2m --weights facebook/m2m100_418M --data ko-en --sample 500 --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from ko to en.
Benchmarking: Source reduced to 50 samples with 10 sentences each.
Benchmarking: Target reduced to 50 samples with 10 sentences each.
Mapped ko to ja
Mapped ko to ja
Scored 12.100539807262644 on language pair ko-en.
100% 1/1 [01:21<00:00, 81.97s/it]
MODEL REPORT: facebook/m2m100_418M
---------------------------
ko-en

BLEU
12.100539807262644

AVG SPEED
1.2806925201416015

MEM REPORT
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ---------

In [None]:
# Map Korean to Chinese

!python main.py --model m2m --weights facebook/m2m100_418M --data ko-en --sample 500 --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from ko to en.
Benchmarking: Source reduced to 50 samples with 10 sentences each.
Benchmarking: Target reduced to 50 samples with 10 sentences each.
Mapped ko to zh
Mapped ko to zh
Scored 12.100539807262644 on language pair ko-en.
100% 1/1 [01:22<00:00, 82.02s/it]
MODEL REPORT: facebook/m2m100_418M
---------------------------
ko-en

BLEU
12.100539807262644

AVG SPEED
1.2812775993347167

MEM REPORT
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ---------

In [None]:
# Map Korean to English

!python main.py --model m2m --weights facebook/m2m100_418M --data ko-en --sample 500 --mergesents 10

[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
  0% 0/1 [00:00<?, ?it/s]Starting translation from ko to en.
Benchmarking: Source reduced to 50 samples with 10 sentences each.
Benchmarking: Target reduced to 50 samples with 10 sentences each.
Mapped ko to en
Mapped ko to en
Scored 11.973293742663435 on language pair ko-en.
100% 1/1 [01:24<00:00, 84.03s/it]
MODEL REPORT: facebook/m2m100_418M
---------------------------
ko-en

BLEU
11.973293742663435

AVG SPEED
1.325267219543457

MEM REPORT
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ----------