# OCTOPUS

<p align="center">
    <br>
    <img src="https://github.com/UBC-NLP/octopus/raw/main/images/octopus.jpg" width="70%" height="70%"/>
    <br>
<p>
Octopus is a neural machine generation toolkit for Arabic Natural Lnagauge Generation (NLG) that described in our ArabiNLP 2023 paper: [ ** **OCTOPUS: A Multitask Model and Toolkit for Arabic Natural Language Generation** ** ](https://arxiv.org/abs/2310.16127v1).

Octopus designed for eight machine generation tasks, encompassing diacritization, grammatical error correction, news headlines generation, paraphrasing, question answering, question generation, and
transliteration. This comprehensive package includes a Python library along with associated command-line scripts.

---


https://github.com/UBC-NLP/octopus

## Install requirments

In [1]:
!pip install -U git+https://github.com/UBC-NLP/octopus.git -q

  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m11.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m106.4/106.4 kB[0m [31m11.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m265.7/265.7 kB[0m [31m26.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m521.2/521.2 kB[0m [31m23.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m15.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for octopus (setup.py) ... [?25l[?25hdone


In [2]:

import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)

## Octopus Tasks
  - **Prefix**: `diacritize` **Task Name**: Diartization
  - **Prefix**: `correct_grammar` **Task Name**: Grammatical Error Correction
  - **Prefix**: `paraphrase` **Task Name**: Paraphrase
  - **Prefix**: `answer_question` **Task Name**: Question Answering
  - **Prefix**: `generate_question` **Task Name**: Question Generation
  - **Prefix**: `summarize` **Task Name**: Summarization
  - **Prefix**: `generate_title` **Task Name**: Title Generation
  - **Prefix**: `translitrate_ar2en` **Task Name**: Translitration Arabic-to-English
  - **Prefix**: `translitrate_en2ar` **Task Name**: Translitration English-to-Arabic

## Octopus Command Line Interface (CLI)
Octopus cli support two types of inputs:
- **-t** or **--text**: Write you input text directly on the command line. The translation will display directly on the terminal.
- **-f** or **--input_file**: import the text from file. The generation's output will saved on the JSON format file.

### (1) Usage and Arguments


In [3]:
!octopus -h

2023-12-05 00:12:32.591548: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-05 00:12:32.591651: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-05 00:12:32.591700: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
usage: octopus [-h] -x PREFIX [-t TEXT] [-f INPUT_FILE] [-m SEARCH_METHOD] [-s SEQ_LENGTH]
               [-o MAX_OUTPUTS] [-b NUM_BEAMS] [-n NO_REPEAT_NGRAM_SIZE] [-k TOP_K] [-p TOP_P]
               [-c CACHE_DIR] [-l LOGGING_FILE] [-bs BATCH_SIZE]

Octopus Command Line Interface (CLI)

options:
  -h, --help            show this help message and exit
  -x PR

## (2) Using beam search (default)
- **Beam search** is the *default* generation method on Turjuman
- Beam search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default value is 300*
  - **-o** or **--max_outputs**: The maximum of the output tanslations (*default value is 1*)
  - **-b** or **--num_beams NUM_BEAMS**: Number of beams (*default value is 1*)
  - **-n** or **--no_repeat_ngram_size**: Number of n-gram that doesn't appears twice (*default value is 2*)

In [4]:
text="""
أكد النجم البرازيلي نيمار مهاجم نادي الهلال أن الدوري السعودي بات أكثر قوة من الدوري الفرنسي مذكراً الجميع بتجربته في الأخير عندما انتقل إلى باريس سان جيرمان صيف 2017.
وأوضح نيمار خلال مؤتمر صحفي مقام في بارا البرازيلية لدى سؤاله عن الدوري السعودي: أؤكد لك أن كرة القدم هي نفسها، الكرة هي نفسها ويسجلون الأهداف وبالنظر إلى الأسماء فإن الدوري السعودي بات أقوى من الدوري الفرنسي. التدريبات هناك شديدة ونتعطش أنا وزملائي للفوز هناك بشكل كبير والتتويج مع الهلال.
وأضاف: الجميع اعتقد أن الدوري السعودي ضعيف والأمر نفسه حدث معي عندما انتقلت إلى الدوري الفرنسي، حينها ظن الناس الأمر نفسه لكني لم أضرب في حياتي من قبل المدافعين أكثر من هناك.
وأبان حول الدوري السعودي: اللاعبون الذين يلعبون هناك يعلمون مدى صعوبة اللعب في الدوري السعودي وأنا متأكد أنه لن يكون أمرا سهلا الفوز بالمسابقة لأن الفرق عززت صفوفها بلاعبين جدد، وستكون بطولة ممتعة وشيقة جدا.
وتلعب البرازيل أمام بوليفيا في بارا البرازيلية يوم السبت قبل أن تواجه بيرو يوم الأربعاء ضمن تصفيات كأس العالم لمنتخبات أميركا الجنوبية.
"""

In [5]:
import regex
text = regex.sub("[\r\n\f]+", " ", text)
print (text)

 أكد النجم البرازيلي نيمار مهاجم نادي الهلال أن الدوري السعودي بات أكثر قوة من الدوري الفرنسي مذكراً الجميع بتجربته في الأخير عندما انتقل إلى باريس سان جيرمان صيف 2017. وأوضح نيمار خلال مؤتمر صحفي مقام في بارا البرازيلية لدى سؤاله عن الدوري السعودي: أؤكد لك أن كرة القدم هي نفسها، الكرة هي نفسها ويسجلون الأهداف وبالنظر إلى الأسماء فإن الدوري السعودي بات أقوى من الدوري الفرنسي. التدريبات هناك شديدة ونتعطش أنا وزملائي للفوز هناك بشكل كبير والتتويج مع الهلال. وأضاف: الجميع اعتقد أن الدوري السعودي ضعيف والأمر نفسه حدث معي عندما انتقلت إلى الدوري الفرنسي، حينها ظن الناس الأمر نفسه لكني لم أضرب في حياتي من قبل المدافعين أكثر من هناك. وأبان حول الدوري السعودي: اللاعبون الذين يلعبون هناك يعلمون مدى صعوبة اللعب في الدوري السعودي وأنا متأكد أنه لن يكون أمرا سهلا الفوز بالمسابقة لأن الفرق عززت صفوفها بلاعبين جدد، وستكون بطولة ممتعة وشيقة جدا. وتلعب البرازيل أمام بوليفيا في بارا البرازيلية يوم السبت قبل أن تواجه بيرو يوم الأربعاء ضمن تصفيات كأس العالم لمنتخبات أميركا الجنوبية. 


In [6]:
 # Beam search is the default generation method on Octopus toolkit
!octopus --prefix "generate_title" --text "{text}" --max_outputs 5

2023-12-05 00:12:43.823877: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-05 00:12:43.823950: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-05 00:12:43.823990: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-05 00:12:46 | INFO | octopus_cli | Octopus Translate Command Line Interface
2023-12-05 00:12:46 | INFO | octopus_cli | Loading model from UBC-NLP/octopus
tokenizer_config.json: 100% 2.40k/2.40k [00:00<00:00, 10.7MB/s]
spiece.model: 100% 2.35M/2.35M [00:00<00:00, 13.4MB/s]
tokenizer.json: 100% 8.40M/8.40M [00:00<00:00, 21.5MB/s]
special_tokens_map.json:

## (3) Using greedy search
- Greedy search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default vlaue is 300*

In [7]:
qa_example=f"[context: {text}] [question: متي انتقل بيمار الي باريس سان جيرمان؟]"
!octopus --prefix "answer_question" --search_method greedy --text "{qa_example}"

2023-12-05 00:13:31.347570: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-05 00:13:31.347640: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-05 00:13:31.347677: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-05 00:13:33 | INFO | octopus_cli | Octopus Translate Command Line Interface
2023-12-05 00:13:33 | INFO | octopus_cli | Loading model from UBC-NLP/octopus
2023-12-05 00:13:40 | INFO | octopus_cli | Run the model with one-GPU 1
2023-12-05 00:13:42 | INFO | octopus_cli | Task: Question Answering Method: Input Text
2023-12-05 00:13:42 | INFO | octopus_cli 

## (4) Using sampling search
- Sampling search default setting:
  - **-s** or **--seq_length**: The maximum sequence length value, *default value is 300*
  - **-o** or **--max_outputs**: The maximum of the output tanslations (*default value is 1*)
  - **-k** or **--top_k**: Sample from top K likely next words instead of all words (*default value is 50*)
  - **-p** or **--top_p**: Sample from the smallest set whose cumulative probability mass exceeds p for next words (*default value is 0.95*)

In [8]:
text="""
بالتزامن مع استنفار ليبيا لاسيما في الشرق جراء الإعصار دانيال الذي ضربها، وصلت العاصفة دانيال أيضا إلى مصر وضربت محافظتين في شمال البلاد، هما مرسى مطروح والإسكندرية فقد غطت العاصفة مناطق الحدود المصرية غرب البلاد، وشملت مدن السلوم وسيوة ومطروح والإسكندرية. وبينت القنوات المختلفة لصور الأقمار الصناعية شكل العاصفة التي طرقت الأبواب المصرية. وأظهرت طبقات من السحب المختلفة والأتربة المصاحبة لها.
"""
!octopus --prefix "paraphrase" --search_method sampling --text "{text}"

2023-12-05 00:13:50.458857: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-05 00:13:50.458921: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-05 00:13:50.458955: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-05 00:13:52 | INFO | octopus_cli | Octopus Translate Command Line Interface
2023-12-05 00:13:52 | INFO | octopus_cli | Loading model from UBC-NLP/octopus
2023-12-05 00:14:00 | INFO | octopus_cli | Run the model with one-GPU 1
2023-12-05 00:14:02 | INFO | octopus_cli | Task: Paraphrase Method: Input Text
2023-12-05 00:14:02 | INFO | octopus_cli | Using 

## (5) Read text from file
- **-f** or **--input_file**: import the text from file. The translation will saved on the JSON format file
- **-bs** or **--batch_size**: The maximum number of source examples utilized in one iteration (default value is 25)

In [9]:
!wget https://raw.githubusercontent.com/UBC-NLP/octopus/main/examples/samples.txt

--2023-12-05 00:14:08--  https://raw.githubusercontent.com/UBC-NLP/octopus/main/examples/samples.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 76 [text/plain]
Saving to: ‘samples.txt’


2023-12-05 00:14:08 (1.45 MB/s) - ‘samples.txt’ saved [76/76]



In [10]:
 # translate sentences that imported from file using default Beam search
!octopus --prefix "translitrate_en2ar" --input_file samples.txt

2023-12-05 00:14:13.629012: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-05 00:14:13.629065: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-05 00:14:13.629101: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-05 00:14:15 | INFO | octopus_cli | Octopus Translate Command Line Interface
2023-12-05 00:14:15 | INFO | octopus_cli | Loading model from UBC-NLP/octopus
2023-12-05 00:14:22 | INFO | octopus_cli | Run the model with one-GPU 1
2023-12-05 00:14:25 | INFO | octopus_cli | Task: Translitration English-to-Arabic Method: Input File samples.txt
2023-12-05 00:1

In [11]:
#read the output file
import pandas as pd
df = pd.read_json("samples_octopus_outputs.json", orient='records', lines=True)
df

Unnamed: 0,source,target,task
0,Mantorov,ماموروف,Translitration English-to-Arabic
1,Meccano,ميتكو,Translitration English-to-Arabic
2,Laslo,لا زالو,Translitration English-to-Arabic
3,Mishari,مشاري,Translitration English-to-Arabic
4,Heiber,هايبر,Translitration English-to-Arabic
5,Korwin,كورينا,Translitration English-to-Arabic
6,Truliner,ترولينر,Translitration English-to-Arabic
7,Kuttner,كاندر,Translitration English-to-Arabic
8,Leumul,ليمو,Translitration English-to-Arabic
9,Dirhael,دهمش,Translitration English-to-Arabic
