# OCTOPUS

<p align="center">
    <br>
    <img src="https://github.com/UBC-NLP/octopus/raw/main/images/octopus.jpg" width="70%" height="70%"/>
    <br>
<p>
Octopus is a neural machine generation toolkit for Arabic Natural Lnagauge Generation (NLG) that described in our ArabiNLP 2023 paper: [**OCTOPUS: A Multitask Model and Toolkit for Arabic Natural Language Generation**](https://arxiv.org/abs/2310.16127v1). 

Octopus designed for eight machine generation tasks, encompassing diacritization, grammatical error correction, news headlines generation, paraphrasing, question answering, question generation, and
transliteration. This comprehensive package includes a Python library along with associated command-line scripts.

---


https://github.com/UBC-NLP/octopus

## Install requirments

In [1]:
!pip install git+https://github.com/UBC-NLP/octopus.git --q

[K     |████████████████████████████████| 1.2 MB 3.2 MB/s 
[K     |████████████████████████████████| 4.2 MB 36.4 MB/s 
[K     |████████████████████████████████| 90 kB 5.9 MB/s 
[K     |████████████████████████████████| 114 kB 47.4 MB/s 
[K     |████████████████████████████████| 342 kB 37.1 MB/s 
[K     |████████████████████████████████| 1.1 MB 43.2 MB/s 
[K     |████████████████████████████████| 136 kB 50.6 MB/s 
[K     |████████████████████████████████| 84 kB 2.7 MB/s 
[K     |████████████████████████████████| 212 kB 50.4 MB/s 
[K     |████████████████████████████████| 127 kB 13.2 MB/s 
[K     |████████████████████████████████| 271 kB 43.0 MB/s 
[K     |████████████████████████████████| 144 kB 38.2 MB/s 
[K     |████████████████████████████████| 94 kB 2.0 MB/s 
[K     |████████████████████████████████| 6.6 MB 37.4 MB/s 
[K     |████████████████████████████████| 596 kB 50.3 MB/s 
[?25h  Building wheel for turjuman (setup.py) ... [?25l[?25hdone
[31mERROR: pip's depend

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)  
pd.set_option('display.max_colwidth', None)

## Octopus Tasks
  - **Prefix**: `diacritize` **Task Name**: Diartization
  - **Prefix**: `correct_grammar` **Task Name**: Grammatical Error Correction
  - **Prefix**: `paraphrase` **Task Name**: Paraphrase
  - **Prefix**: `answer_question` **Task Name**: Question Answering
  - **Prefix**: `generate_question` **Task Name**: Question Generation
  - **Prefix**: `summarize` **Task Name**: Summarization
  - **Prefix**: `generate_title` **Task Name**: Title Generation
  - **Prefix**: `translitrate_ar2en` **Task Name**: Translitration Arabic-to-English
  - **Prefix**: `translitrate_en2ar` **Task Name**: Translitration English-to-Arabic

## Octopus Command Line Interface (CLI)
Octopus cli support two types of inputs:
- **-t** or **--text**: Write you input text directly on the command line. The translation will display directly on the terminal.
- **-f** or **--input_file**: import the text from file. The generation's output will saved on the JSON format file.

### (1) Usage and Arguments


In [2]:
!octopus -h

usage: octopus [-h] -x PREFIX [-t TEXT] [-f INPUT_FILE] [-m SEARCH_METHOD]
               [-s SEQ_LENGTH] [-o MAX_OUTPUTS] [-b NUM_BEAMS]
               [-n NO_REPEAT_NGRAM_SIZE] [-k TOP_K] [-p TOP_P] [-c CACHE_DIR]
               [-l LOGGING_FILE] [-bs BATCH_SIZE]

Octopus Command Line Interface (CLI)

options:
  -h, --help            show this help message and exit
  -x PREFIX, --prefix PREFIX
                        task prefix [’diacritize’,’correct_grammar’, ’paraphra
                        se’,’answer_question’,’generate_question’,’summarize’,
                        ’generate_title’,
                        ’translitrate_ar2en’,’translitrate_en2ar’]
  -t TEXT, --text TEXT  translate the input text into Arabic
  -f INPUT_FILE, --input_file INPUT_FILE
                        path of input file
  -m SEARCH_METHOD, --search_method SEARCH_METHOD
                        decoding method [‘greedy’, ‘beam’, ‘sampling’] ,
                        default value is beam search
  -s SEQ_LENG

## (2) Using beam search (default)
- **Beam search** is the *default* generation method on Turjuman
- Beam search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default value is 300*
  - **-o** or **--max_outputs**: The maximum of the output tanslations (*default value is 1*)
  - **-b** or **--num_beams NUM_BEAMS**: Number of beams (*default value is 1*)
  - **-n** or **--no_repeat_ngram_size**: Number of n-gram that doesn't appears twice (*default value is 2*)

In [2]:
text="""
أكد النجم البرازيلي نيمار مهاجم نادي الهلال أن الدوري السعودي بات أكثر قوة من الدوري الفرنسي مذكراً الجميع بتجربته في الأخير عندما انتقل إلى باريس سان جيرمان صيف 2017.
وأوضح نيمار خلال مؤتمر صحفي مقام في بارا البرازيلية لدى سؤاله عن الدوري السعودي: أؤكد لك أن كرة القدم هي نفسها، الكرة هي نفسها ويسجلون الأهداف وبالنظر إلى الأسماء فإن الدوري السعودي بات أقوى من الدوري الفرنسي. التدريبات هناك شديدة ونتعطش أنا وزملائي للفوز هناك بشكل كبير والتتويج مع الهلال.
وأضاف: الجميع اعتقد أن الدوري السعودي ضعيف والأمر نفسه حدث معي عندما انتقلت إلى الدوري الفرنسي، حينها ظن الناس الأمر نفسه لكني لم أضرب في حياتي من قبل المدافعين أكثر من هناك.
وأبان حول الدوري السعودي: اللاعبون الذين يلعبون هناك يعلمون مدى صعوبة اللعب في الدوري السعودي وأنا متأكد أنه لن يكون أمرا سهلا الفوز بالمسابقة لأن الفرق عززت صفوفها بلاعبين جدد، وستكون بطولة ممتعة وشيقة جدا.
وتلعب البرازيل أمام بوليفيا في بارا البرازيلية يوم السبت قبل أن تواجه بيرو يوم الأربعاء ضمن تصفيات كأس العالم لمنتخبات أميركا الجنوبية.
"""

In [3]:
import regex
text = regex.sub("[\r\n\f]+", " ", text)
print (text)

 أكد النجم البرازيلي نيمار مهاجم نادي الهلال أن الدوري السعودي بات أكثر قوة من الدوري الفرنسي مذكراً الجميع بتجربته في الأخير عندما انتقل إلى باريس سان جيرمان صيف 2017. وأوضح نيمار خلال مؤتمر صحفي مقام في بارا البرازيلية لدى سؤاله عن الدوري السعودي: أؤكد لك أن كرة القدم هي نفسها، الكرة هي نفسها ويسجلون الأهداف وبالنظر إلى الأسماء فإن الدوري السعودي بات أقوى من الدوري الفرنسي. التدريبات هناك شديدة ونتعطش أنا وزملائي للفوز هناك بشكل كبير والتتويج مع الهلال. وأضاف: الجميع اعتقد أن الدوري السعودي ضعيف والأمر نفسه حدث معي عندما انتقلت إلى الدوري الفرنسي، حينها ظن الناس الأمر نفسه لكني لم أضرب في حياتي من قبل المدافعين أكثر من هناك. وأبان حول الدوري السعودي: اللاعبون الذين يلعبون هناك يعلمون مدى صعوبة اللعب في الدوري السعودي وأنا متأكد أنه لن يكون أمرا سهلا الفوز بالمسابقة لأن الفرق عززت صفوفها بلاعبين جدد، وستكون بطولة ممتعة وشيقة جدا. وتلعب البرازيل أمام بوليفيا في بارا البرازيلية يوم السبت قبل أن تواجه بيرو يوم الأربعاء ضمن تصفيات كأس العالم لمنتخبات أميركا الجنوبية. 


In [7]:
 # Beam search is the default generation method on Octopus toolkit
!octopus --prefix "generate_title" --text "{text}" --max_outputs 5

2023-12-04 15:55:30 | INFO | octopus_cli | Octopus Translate Command Line Interface
2023-12-04 15:55:30 | INFO | octopus_cli | Loading model from UBC-NLP/octopus
2023-12-04 15:55:35 | INFO | octopus_cli | Run the model with CPU
2023-12-04 15:55:35 | INFO | octopus_cli | Task: Title Generation Method: Input Text
2023-12-04 15:55:35 | INFO | octopus_cli | Using beam search
2023-12-04 15:55:35 | INFO | octopus_cli | Add input to cpu
Output#1: نيمار: الدوري السعودي أقوى من الفرنسي
Output#2: نيمار: الدوري السعودي أقوى من الدوري الفرنسي
Output#3: نيمار: أعرف أن الدوري السعودي أقوى من الدوري الفرنسي
Output#4: نيمار: الدوري السعودي بات أقوى من الدوري الفرنسي
Output#5: نيمار: أعرف أن الدوري السعودي أقوى من الفرنسي


## (3) Using greedy search
- Greedy search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default vlaue is 300*

In [49]:
qa_example=f"[context: {text}] [question: متي انتقل بيمار الي باريس سان جيرمان؟]"
!octopus --prefix "answer_question" --search_method greedy --text "{qa_example}"

2023-12-04 02:05:55 | INFO | octopus.translate_cli | Octopus Translate Command Line Interface
2023-12-04 02:05:55 | INFO | octopus.translate_cli | Loading model from UBC-NLP/octopus
2023-12-04 02:06:07 | INFO | octopus.translate_cli | Run the model with CPU
2023-12-04 02:06:07 | INFO | octopus.translate_cli | Task: Question Answering Method: Input Text
2023-12-04 02:06:07 | INFO | octopus.translate_cli | Using greedy search
Output: صيف 2017


## (4) Using sampling search
- Sampling search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default value is 300*
  - **-o** or **--max_outputs**: The maximum of the output tanslations (*default value is 1*)
  - **-k** or **--top_k**: Sample from top K likely next words instead of all words (*default value is 50*)
  - **-p** or **--top_p**: Sample from the smallest set whose cumulative probability mass exceeds p for next words (*default value is 0.95*)

In [51]:
text="""
بالتزامن مع استنفار ليبيا لاسيما في الشرق جراء الإعصار دانيال الذي ضربها، وصلت العاصفة دانيال أيضا إلى مصر وضربت محافظتين في شمال البلاد، هما مرسى مطروح والإسكندرية فقد غطت العاصفة مناطق الحدود المصرية غرب البلاد، وشملت مدن السلوم وسيوة ومطروح والإسكندرية. وبينت القنوات المختلفة لصور الأقمار الصناعية شكل العاصفة التي طرقت الأبواب المصرية. وأظهرت طبقات من السحب المختلفة والأتربة المصاحبة لها.
"""
!octopus --prefix "paraphrase" --search_method sampling --text "{text}"

2023-12-04 02:08:19 | INFO | octopus.translate_cli | Octopus Translate Command Line Interface
2023-12-04 02:08:19 | INFO | octopus.translate_cli | Loading model from UBC-NLP/octopus
2023-12-04 02:08:24 | INFO | octopus.translate_cli | Run the model with CPU
2023-12-04 02:08:24 | INFO | octopus.translate_cli | Task: Paraphrase Method: Input Text
2023-12-04 02:08:24 | INFO | octopus.translate_cli | Using sampling search
Output: بالتزامن مع حالة التأهب في شرق ليبيا بسبب إعصار دانيال الذي ضربها، انضمت مصر إلى العاصفة ليشمل أجزاء من غرب البلاد، بما في ذلك مدن سل قم ومنارة مطروح والإسكندرية. وأظهرت صور الأقمار الصناعية المختلفة شكل العاصفة التي ضربت الباب المصري، مع طبقات من السحب المختلفة والأتربة المصاحبة لها.


## (5) Read text from file
- **-f** or **--input_file**: import the text from file. The translation will saved on the JSON format file
- **-bs** or **--batch_size**: The maximum number of source examples utilized in one iteration (default value is 25)

In [2]:
!wget https://raw.githubusercontent.com/UBC-NLP/octopus/main/examples/samples.txt

zsh:1: command not found: wget


In [4]:
 # translate sentences that imported from file using default Beam search
!octopus --prefix "translitrate_en2ar" --input_file samples.txt

2023-12-04 02:17:11 | INFO | octopus.translate_cli | Octopus Translate Command Line Interface
2023-12-04 02:17:11 | INFO | octopus.translate_cli | Loading model from UBC-NLP/octopus
2023-12-04 02:17:17 | INFO | octopus.translate_cli | Run the model with CPU
2023-12-04 02:17:17 | INFO | octopus.translate_cli | Task: Translitration English-to-Arabic Method: Input File samples.txt
2023-12-04 02:17:17 | INFO | octopus.translate_cli | Using beam search
2023-12-04 02:17:17 | INFO | octopus.translate_cli | Loading source text from file (samples.txt)
Downloading data files: 100%|██████████████████| 1/1 [00:00<00:00, 14074.85it/s]
Extracting data files: 100%|█████████████████████| 1/1 [00:00<00:00, 391.37it/s]
Generating source split: 10 examples [00:00, 547.56 examples/s]
2023-12-04 02:17:18 | INFO | octopus.translate_cli | Running tokenizer on source text
Map: 100%|██████████████████████████████| 10/10 [00:00<00:00, 612.56 examples/s]
2023-12-04 02:17:20 | INFO | octopus.translate_cli | >>>>>

In [6]:
#read the output file
import pandas as pd
df = pd.read_json("samples_octopus_outputs.json", orient='records', lines=True)
df

Unnamed: 0,source,target,task
0,Mantorov,ماموروف,Translitration English-to-Arabic
1,Meccano,ميتكو,Translitration English-to-Arabic
2,Laslo,لا زالو,Translitration English-to-Arabic
3,Mishari,مشاري,Translitration English-to-Arabic
4,Heiber,هايبر,Translitration English-to-Arabic
5,Korwin,كورينا,Translitration English-to-Arabic
6,Truliner,ترولينر,Translitration English-to-Arabic
7,Kuttner,كاندر,Translitration English-to-Arabic
8,Leumul,ليمو,Translitration English-to-Arabic
9,Dirhael,دهمش,Translitration English-to-Arabic
