<a href="https://colab.research.google.com/github/ARBML/adawat/blob/main/notebooks/turjuman.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#TURJUMAN
Turjuman is a neural machine translation toolkit. It translates from 20 languages into Modern Standard Arabic (MSA). Turjuman is described in this paper: [**TURJUMAN: A Public Toolkit for Neural Arabic Machine Translation**](https://arxiv.org/abs/2206.03933). Turjuman exploits our [AraT5 model](https://github.com/UBC-NLP/araT5). This endows Turjuman with a powerful ability to decode into Arabic. The toolkit offers the possibility of employing a number of diverse decoding methods, making it suited for acquiring paraphrases for the MSA translations as an added value.

---


https://github.com/UBC-NLP/turjuman

##Install requirments

In [None]:
!pip install git+https://github.com/UBC-NLP/turjuman.git --q

[K     |████████████████████████████████| 1.2 MB 3.2 MB/s 
[K     |████████████████████████████████| 4.2 MB 36.4 MB/s 
[K     |████████████████████████████████| 90 kB 5.9 MB/s 
[K     |████████████████████████████████| 114 kB 47.4 MB/s 
[K     |████████████████████████████████| 342 kB 37.1 MB/s 
[K     |████████████████████████████████| 1.1 MB 43.2 MB/s 
[K     |████████████████████████████████| 136 kB 50.6 MB/s 
[K     |████████████████████████████████| 84 kB 2.7 MB/s 
[K     |████████████████████████████████| 212 kB 50.4 MB/s 
[K     |████████████████████████████████| 127 kB 13.2 MB/s 
[K     |████████████████████████████████| 271 kB 43.0 MB/s 
[K     |████████████████████████████████| 144 kB 38.2 MB/s 
[K     |████████████████████████████████| 94 kB 2.0 MB/s 
[K     |████████████████████████████████| 6.6 MB 37.4 MB/s 
[K     |████████████████████████████████| 596 kB 50.3 MB/s 
[?25h  Building wheel for turjuman (setup.py) ... [?25l[?25hdone
[31mERROR: pip's depend

In [None]:
import pandas as pd
pd.set_option('display.max_columns', None)  
pd.set_option('display.max_colwidth', None)

##Turjuman Command Line Interface (CLI)
Turjuman cli support two types of inputs:
- **-t** or **--text**: Write you input text directly on the command line. The translation will display directly on the terminal.
- **-f** or **--input_file**: import the text from file. The translation will saved on the JSON format file.

### (1) Usage and Arguments


In [None]:
 !turjuman_translate -h

usage: turjuman_translate [-h] [-t TEXT] [-f INPUT_FILE] [-m SEARCH_METHOD]
                          [-s SEQ_LENGTH] [-o MAX_OUTPUTS] [-b NUM_BEAMS]
                          [-n NO_REPEAT_NGRAM_SIZE] [-k TOP_K] [-p TOP_P]
                          [-c CACHE_DIR] [-l LOGGING_FILE] [-bs BATCH_SIZE]

Turjuman Translate Command Line Interface (CLI)

optional arguments:
  -h, --help            show this help message and exit
  -t TEXT, --text TEXT  Translate the input text
  -f INPUT_FILE, --input_file INPUT_FILE
                        Translate the input file
  -m SEARCH_METHOD, --search_method SEARCH_METHOD
                        Turjuman translation search method should be one of
                        the follows ['greedy', 'beam', 'sampling'], default
                        value is beam search
  -s SEQ_LENGTH, --seq_length SEQ_LENGTH
                        The maximum sequence length value, default vlaue is
                        300
  -o MAX_OUTPUTS, --max_outputs MAX_OUTPUTS

## (2) Translate using beam search (default)
- **Beam search** is the *default* generation method on Turjuman
- Beam search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default value is 300*
  - **-o** or **--max_outputs**: The maximum of the output tanslations (*default value is 1*)
  - **-b** or **--num_beams NUM_BEAMS**: Number of beams (*default value is 1*)
  - **-n** or **--no_repeat_ngram_size**: Number of n-gram that doesn't appears twice (*default value is 2*)

In [None]:
 # Beam search is the default generation method on Turjuman
 !turjuman_translate --text "As US reaches one million COVID deaths, how are Americans coping?"

2022-05-18 00:00:27 | INFO | turjuman.translate_cli | Turjuman Translate Command Line Interface
2022-05-18 00:00:27 | INFO | turjuman.translate_cli | Translate from input sentence
2022-05-18 00:00:27 | INFO | turjuman.translate_cli | Loading model from UBC-NLP/turjuman
Downloading: 100% 1.85k/1.85k [00:00<00:00, 1.71MB/s]
Downloading: 100% 565/565 [00:00<00:00, 460kB/s]
Downloading: 100% 2.32M/2.32M [00:00<00:00, 12.4MB/s]
Downloading: 100% 1.74k/1.74k [00:00<00:00, 1.54MB/s]
Downloading: 100% 565/565 [00:00<00:00, 455kB/s]
Downloading: 100% 1.05G/1.05G [00:22<00:00, 51.3MB/s]
2022-05-18 00:00:57 | INFO | turjuman.translate_cli | Using beam search
2022-05-18 00:01:01 | ERROR | turjuman.translate_cli | extract outputs
target: وبينما تصل الولايات المتحدة إلى مليون حالة وفاة من فيروس كوفيد-19 ، كيف يتعامل الأمريكيون مع ذلك ؟


## (3) Translate using greedy search
- Greedy search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default vlaue is 300*

In [None]:
!turjuman_translate --search_method greedy --text "As US reaches one million COVID deaths, how are Americans coping?"

2022-05-18 00:01:07 | INFO | turjuman.translate_cli | Turjuman Translate Command Line Interface
2022-05-18 00:01:07 | INFO | turjuman.translate_cli | Translate from input sentence
2022-05-18 00:01:07 | INFO | turjuman.translate_cli | Loading model from UBC-NLP/turjuman
2022-05-18 00:01:14 | INFO | turjuman.translate_cli | Using greedy search
2022-05-18 00:01:16 | ERROR | turjuman.translate_cli | extract outputs
target: وبما أن الولايات المتحدة تصل إلى مليون حالة وفاة من فيروس كوفيد-19 ، كيف يمكن للولايات المتحدة أن تتصدى لهذا ؟


## (4) Translate using sampling search
- Sampling search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default value is 300*
  - **-o** or **--max_outputs**: The maximum of the output tanslations (*default value is 1*)
  - **-k** or **--top_k**: Sample from top K likely next words instead of all words (*default value is 50*)
  - **-p** or **--top_p**: Sample from the smallest set whose cumulative probability mass exceeds p for next words (*default value is 0.95*)

In [None]:
!turjuman_translate --search_method sampling --text "As US reaches one million COVID deaths, how are Americans coping?"

2022-05-18 00:01:38 | INFO | turjuman.translate_cli | Turjuman Translate Command Line Interface
2022-05-18 00:01:38 | INFO | turjuman.translate_cli | Translate from input sentence
2022-05-18 00:01:38 | INFO | turjuman.translate_cli | Loading model from UBC-NLP/turjuman
2022-05-18 00:01:44 | INFO | turjuman.translate_cli | Using sampling search
2022-05-18 00:01:47 | ERROR | turjuman.translate_cli | extract outputs
target: وبوصول الولايات المتحدة الأمريكية إلى مليون حالة وفاة بسبب كوفيد-19 ، كيف يمكن الأميركيين أن يتعاملوا مع ذلك ؟


## (5) Read and translate text from file
- **-f** or **--input_file**: import the text from file. The translation will saved on the JSON format file
- **-bs** or **--batch_size**: The maximum number of source examples utilized in one iteration (default value is 25)

In [None]:
!wget https://raw.githubusercontent.com/UBC-NLP/turjuman/main/examples/samples.txt

--2022-05-18 00:01:54--  https://raw.githubusercontent.com/UBC-NLP/turjuman/main/examples/samples.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 732 [text/plain]
Saving to: ‘samples.txt’


2022-05-18 00:01:54 (34.3 MB/s) - ‘samples.txt’ saved [732/732]



In [None]:
 # translate sentences that imported from file using default Beam search
 !turjuman_translate --input_file samples.txt

2022-05-18 00:02:08 | INFO | turjuman.translate_cli | Turjuman Translate Command Line Interface
2022-05-18 00:02:08 | INFO | turjuman.translate_cli | Translate from input file samples.txt
2022-05-18 00:02:08 | INFO | turjuman.translate_cli | Loading model from UBC-NLP/turjuman
2022-05-18 00:02:14 | INFO | turjuman.translate_cli | Using beam search
2022-05-18 00:02:14 | INFO | turjuman.translate_cli | Loading source text from file (samples.txt)
Downloading and preparing dataset text/default to ./turjuman_cache/text/default-9c05233ea5cb76ef/0.0.0/4b86d314f7236db91f0a0f5cda32d4375445e64c5eda2692655dd99c2dac68e8...
Downloading data files: 100% 1/1 [00:00<00:00, 5419.00it/s]
Extracting data files: 100% 1/1 [00:00<00:00, 1024.25it/s]
Dataset text downloaded and prepared to ./turjuman_cache/text/default-9c05233ea5cb76ef/0.0.0/4b86d314f7236db91f0a0f5cda32d4375445e64c5eda2692655dd99c2dac68e8. Subsequent calls will reuse this data.
100% 1/1 [00:00<00:00, 161.41it/s]
2022-05-18 00:02:14 | INFO | 

In [None]:
#read the output file
df = pd.read_json("samples_Turjuman_translate.json", orient='records', lines=True)
df

Unnamed: 0,source,target
0,"As US reaches one million COVID deaths, how are Americans coping?",وبينما تصل الولايات المتحدة إلى مليون حالة وفاة من فيروس كوفيد-19 ، كيف يتعامل الأمريكيون مع ذلك ؟
1,Here is what you need to know.,إليكم ما تحتاجون إلى معرفته.
2,Это список суверенных государств и зависимых территорий в Азии .,هذه قائمة الدول ذات السيادة والأقاليم التابعة في آسيا.
3,U-901 è un sottomarino tedesco .,يو-901 هي غواصة ألمانية.
4,Όλες οι πτήσεις προς τα Νησιά Ανταμάν και Νικομπάρ διεξάγονται στο Διεθνές Αεροδρόμιο Βιρ Σαβαρκάρ .,جميع الرحلات إلى جزر عدن و نيكبار تتم عبر مطار فير سافاركار الدولي.
5,Bir tür sözel olmayan iletişim biçimidir ve sosyal davranış üzerinde büyük etkisi olduğu düşünülmektedir .,وهو نوع من التواصل غير الرسمي ، ويعتقد أنه له تأثير كبير على السلوك الاجتماعي.
6,Jeg kan betale for din datters behandling .,يمكنني أن أدفع ثمن علاج ابنتك
7,Strefa przemysłowa dla inwestycji zagranicznych .,قطاع الصناعات التحويلية للاستثمار الأجنبي.
8,क्या तुम्हें यकीन है कि वही है ?,هل أنت واثق من ذلك ؟


In [None]:
 # translate sentences that imported from file usinf default Beam search
 !turjuman_translate --input_file samples.txt --max_outputs 3

2022-05-18 00:03:17 | INFO | turjuman.translate_cli | Turjuman Translate Command Line Interface
2022-05-18 00:03:17 | INFO | turjuman.translate_cli | Translate from input file samples.txt
2022-05-18 00:03:17 | INFO | turjuman.translate_cli | Loading model from UBC-NLP/turjuman
2022-05-18 00:03:24 | INFO | turjuman.translate_cli | Using beam search
2022-05-18 00:03:24 | INFO | turjuman.translate_cli | Loading source text from file (samples.txt)
100% 1/1 [00:00<00:00, 756.00it/s]
2022-05-18 00:03:24 | INFO | turjuman.translate_cli | Running tokenizer on source text
tcmalloc: large alloc 1290076160 bytes == 0x125500000 @  0x7fbff3483615 0x592b76 0x4df71e 0x593605 0x515244 0x593dd7 0x548ae9 0x51566f 0x593dd7 0x5118f8 0x549576 0x593fce 0x5118f8 0x593dd7 0x5118f8 0x549576 0x593fce 0x5118f8 0x549576 0x4bca8a 0x59c019 0x595ef6 0x5134a6 0x549576 0x593fce 0x5118f8 0x593dd7 0x5118f8 0x549576 0x593fce 0x5118f8
100% 1/1 [00:00<00:00, 129.90ba/s]
translate:   0% 0/1 [00:00<?, ?it/s]2022-05-18 00:03:

In [None]:
df = pd.read_json("samples_Turjuman_translate.json", orient='records', lines=True)
df

Unnamed: 0,source,3_targets
0,"As US reaches one million COVID deaths, how are Americans coping?","[وبينما تصل الولايات المتحدة إلى مليون حالة وفاة من فيروس كوفيد-19 ، كيف يتعامل الأمريكيون مع ذلك ؟, وبما أن الولايات المتحدة تصل إلى مليون حالة وفاة من فيروس كوفيد-19 ، فكيف يتعامل الأمريكيون مع ذلك ؟, وبما أن الولايات المتحدة تصل إلى مليون حالة وفاة من فيروس كوفيد-19 ، كيف يتعامل الأمريكيون مع ذلك ؟]"
1,Here is what you need to know.,"[إليكم ما تحتاجون إلى معرفته., إليكم ما تحتاجون معرفته., إليك ما تحتاج إلى معرفته.]"
2,Это список суверенных государств и зависимых территорий в Азии .,"[هذه قائمة الدول ذات السيادة والأقاليم التابعة في آسيا., هذه قائمة بالدول ذات السيادة والأقاليم التابعة في آسيا., هذه قائمة بالدول ذات السيادة والأقاليم التابعة لها في آسيا.]"
3,U-901 è un sottomarino tedesco .,"[يو-901 هي غواصة ألمانية., يو-901 هو غواصة ألمانية., يو-901 هي غواصة ألمانية من فئة الغواصات.]"
4,Όλες οι πτήσεις προς τα Νησιά Ανταμάν και Νικομπάρ διεξάγονται στο Διεθνές Αεροδρόμιο Βιρ Σαβαρκάρ .,"[جميع الرحلات إلى جزر عدن و نيكبار تتم عبر مطار فير سافاركار الدولي., كل الرحلات إلى جزر عدن و نيكبار تتم عبر مطار فير سافاركار الدولي., جميع الرحلات إلى جزر عدن و نيكبار تتم عبر مطار فير ساكار الدولي.]"
5,Bir tür sözel olmayan iletişim biçimidir ve sosyal davranış üzerinde büyük etkisi olduğu düşünülmektedir .,"[وهو نوع من التواصل غير الرسمي ، ويعتقد أنه له تأثير كبير على السلوك الاجتماعي., وهو نوع من التواصل غير الرسمي ، ويعتقد أن له تأثير كبير على السلوك الاجتماعي., وهو نوع من التواصل غير الرسمي ، ويعتقد أن له تأثيرا كبيرا على السلوك الاجتماعي.]"
6,Jeg kan betale for din datters behandling .,"[يمكنني أن أدفع ثمن علاج ابنتك, يمكنني أن أدفع ثمن علاج إبنتك, أستطيع أن أدفع ثمن علاج ابنتك]"
7,Strefa przemysłowa dla inwestycji zagranicznych .,"[قطاع الصناعات التحويلية للاستثمار الأجنبي., قطاع الصناعة للاستثمار الأجنبي., قطاع الصناعة من أجل الاستثمار الأجنبي المباشر.]"
8,क्या तुम्हें यकीन है कि वही है ?,"[هل أنت واثق من ذلك ؟, هل أنت واثق من هذا ؟, هل أنت متأكد من ذلك ؟]"
