# OCTOPUS

<p align="center">
    <br>
    <img src="https://github.com/UBC-NLP/octopus/raw/main/images/octopus.jpg" width="70%" height="70%"/>
    <br>
<p>
Octopus is a neural machine generation toolkit for Arabic Natural Lnagauge Generation (NLG) that described in our ArabiNLP 2023 paper: [**OCTOPUS: A Multitask Model and Toolkit for Arabic Natural Language Generation**](https://arxiv.org/abs/2310.16127v1).

Octopus designed for eight machine generation tasks, encompassing diacritization, grammatical error correction, news headlines generation, paraphrasing, question answering, question generation, and
transliteration. This comprehensive package includes a Python library along with associated command-line scripts.

---


https://github.com/UBC-NLP/octopus

## (1) Install Octopus

In [1]:
!pip install git+https://github.com/UBC-NLP/octopus.git -q

  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m106.4/106.4 kB[0m [31m13.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m265.7/265.7 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m521.2/521.2 kB[0m [31m6.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for octopus (setup.py) ... [?25l[?25hdone


## (2) Initial octopus object

In [5]:
import logging
import os
from octopus import octopus

In [6]:
octopus.octopus

octopus.octopus.octopus

In [7]:
logging.basicConfig(
    format="%(asctime)s | %(levelname)s | %(name)s | %(message)s",
    datefmt="%Y-%m-%d %H:%M:%S",
    level=os.environ.get("LOGLEVEL", "INFO").upper(),
)
logger = logging.getLogger("octopus")
cache_dir="./octopus_cache/"


In [8]:
oct_obj = octopus.octopus(logger, cache_dir)

## Octopus Tasks
  - **Prefix**: `diacritize` **Task Name**: Diartization
  - **Prefix**: `correct_grammar` **Task Name**: Grammatical Error Correction
  - **Prefix**: `paraphrase` **Task Name**: Paraphrase
  - **Prefix**: `answer_question` **Task Name**: Question Answering
  - **Prefix**: `generate_question` **Task Name**: Question Generation
  - **Prefix**: `summarize` **Task Name**: Summarization
  - **Prefix**: `generate_title` **Task Name**: Title Generation
  - **Prefix**: `translitrate_ar2en` **Task Name**: Translitration Arabic-to-English
  - **Prefix**: `translitrate_en2ar` **Task Name**: Translitration English-to-Arabic

## (2) Using beam search (default)

> Indented block


- **Beam search** is the *default* generation method on Turjuman
- Beam search default setting:
  - **seq_length**: The maximum sequence length value, *default value is 300*
  - **max_outputs**: The maximum of the output tanslations (*default value is 1*)
  - **num_beams NUM_BEAMS**: Number of beams (*default value is 1*)
  - **no_repeat_ngram_size**: Number of n-gram that doesn't appears twice (*default value is 2*)

In [11]:
text="""
أكد النجم البرازيلي نيمار مهاجم نادي الهلال أن الدوري السعودي بات أكثر قوة من الدوري الفرنسي مذكراً الجميع بتجربته في الأخير عندما انتقل إلى باريس سان جيرمان صيف 2017.
وأوضح نيمار خلال مؤتمر صحفي مقام في بارا البرازيلية لدى سؤاله عن الدوري السعودي: أؤكد لك أن كرة القدم هي نفسها، الكرة هي نفسها ويسجلون الأهداف وبالنظر إلى الأسماء فإن الدوري السعودي بات أقوى من الدوري الفرنسي. التدريبات هناك شديدة ونتعطش أنا وزملائي للفوز هناك بشكل كبير والتتويج مع الهلال.
وأضاف: الجميع اعتقد أن الدوري السعودي ضعيف والأمر نفسه حدث معي عندما انتقلت إلى الدوري الفرنسي، حينها ظن الناس الأمر نفسه لكني لم أضرب في حياتي من قبل المدافعين أكثر من هناك.
وأبان حول الدوري السعودي: اللاعبون الذين يلعبون هناك يعلمون مدى صعوبة اللعب في الدوري السعودي وأنا متأكد أنه لن يكون أمرا سهلا الفوز بالمسابقة لأن الفرق عززت صفوفها بلاعبين جدد، وستكون بطولة ممتعة وشيقة جدا.
وتلعب البرازيل أمام بوليفيا في بارا البرازيلية يوم السبت قبل أن تواجه بيرو يوم الأربعاء ضمن تصفيات كأس العالم لمنتخبات أميركا الجنوبية.
"""

In [12]:
import regex
text = regex.sub("[\r\n\f]+", " ", text)
print (text)

 أكد النجم البرازيلي نيمار مهاجم نادي الهلال أن الدوري السعودي بات أكثر قوة من الدوري الفرنسي مذكراً الجميع بتجربته في الأخير عندما انتقل إلى باريس سان جيرمان صيف 2017. وأوضح نيمار خلال مؤتمر صحفي مقام في بارا البرازيلية لدى سؤاله عن الدوري السعودي: أؤكد لك أن كرة القدم هي نفسها، الكرة هي نفسها ويسجلون الأهداف وبالنظر إلى الأسماء فإن الدوري السعودي بات أقوى من الدوري الفرنسي. التدريبات هناك شديدة ونتعطش أنا وزملائي للفوز هناك بشكل كبير والتتويج مع الهلال. وأضاف: الجميع اعتقد أن الدوري السعودي ضعيف والأمر نفسه حدث معي عندما انتقلت إلى الدوري الفرنسي، حينها ظن الناس الأمر نفسه لكني لم أضرب في حياتي من قبل المدافعين أكثر من هناك. وأبان حول الدوري السعودي: اللاعبون الذين يلعبون هناك يعلمون مدى صعوبة اللعب في الدوري السعودي وأنا متأكد أنه لن يكون أمرا سهلا الفوز بالمسابقة لأن الفرق عززت صفوفها بلاعبين جدد، وستكون بطولة ممتعة وشيقة جدا. وتلعب البرازيل أمام بوليفيا في بارا البرازيلية يوم السبت قبل أن تواجه بيرو يوم الأربعاء ضمن تصفيات كأس العالم لمنتخبات أميركا الجنوبية. 


In [13]:
prefix = "generate_title"
text_wz_prefix = f"{prefix}: {text}"
gen_options = {"search_method":"beam", "seq_length": 300, "num_beams":5, "no_repeat_ngram_size":2, "max_outputs":1}
outputs = oct_obj.do_generate(text_wz_prefix,**gen_options)
print (outputs)

['نيمار: الدوري السعودي أقوى من الفرنسي']


## (3) Using greedy search
- Greedy search default setting:
  - **seq_length**: The maximum sequence length value, *default vlaue is 300*

In [14]:
prefix = "answer_question"
qa_example=f"{prefix}: [context: {text}] [question: متي انتقل بيمار الي باريس سان جيرمان؟]"
gen_options = {"search_method":"greedy", "seq_length": 300}
outputs = oct_obj.do_generate(qa_example,**gen_options)
print (outputs)

['صيف 2017']


## (4) Using sampling search
- Sampling search default setting:
  - **seq_length**: The maximum sequence length value, *default value is 300*
  - **max_outputs**: The maxmuim of the output tanslations (*default value is 1*)
  - **top_k**: Sample from top K likely next words instead of all words (*default value is 50*)
  - **top_p**: Sample from the smallest set whose cumulative probability mass exceeds p for next words (*default value is 0.95*)

In [15]:

text="""
بالتزامن مع استنفار ليبيا لاسيما في الشرق جراء الإعصار دانيال الذي ضربها، وصلت العاصفة دانيال أيضا إلى مصر وضربت محافظتين في شمال البلاد، هما مرسى مطروح والإسكندرية فقد غطت العاصفة مناطق الحدود المصرية غرب البلاد، وشملت مدن السلوم وسيوة ومطروح والإسكندرية. وبينت القنوات المختلفة لصور الأقمار الصناعية شكل العاصفة التي طرقت الأبواب المصرية. وأظهرت طبقات من السحب المختلفة والأتربة المصاحبة لها.
"""

prefix = "paraphrase"
text_wz_prefix=f"{prefix}: {text}"
gen_options = {"search_method":"sampling", "seq_length": 300, "max_outputs":1, "top_p":0.95, "top_k":50}
outputs = oct_obj.do_generate(text_wz_prefix,**gen_options)
print (outputs)

['وبالنظر إلى العاصفة دانيال التي تقترب من الساحل الشرقي لليبيا، فإنها وصلت أيضا إلى مصر لتغمر محافظتين في شمال البلاد، وهما مرسى مطروح والإسكندرية. وقد بينت صور الأقمار الصناعية المختلفة شكل العاصفة التي تقترب من الحدود المصرية، مع ظهور طبقات مختلفة من السحب والأتربة.']


## (5) Read text from file
- **input_file**: import the text from file. The translation will saved on the JSON format file
- **batch_size**: The maximum number of source examples utilized in one iteration (default value is 25)
- **gen_options**: Generation options

In [1]:
!wget https://raw.githubusercontent.com/UBC-NLP/octopus/main/examples/samples.txt

--2023-12-05 00:20:37--  https://raw.githubusercontent.com/UBC-NLP/octopus/main/examples/samples.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 76 [text/plain]
Saving to: ‘samples.txt’


2023-12-05 00:20:37 (3.74 MB/s) - ‘samples.txt’ saved [76/76]



In [9]:
gen_options = { "search_method":"beam", "seq_length": 300, "num_beams":5, "no_repeat_ngram_size":2, "max_outputs":1}
oct_obj.from_file("translitrate_en2ar", "samples.txt", batch_size=25, **gen_options)

Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating source split: 0 examples [00:00, ? examples/s]

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

translate: 100%|██████████| 1/1 [00:00<00:00,  1.09it/s]


In [10]:
#read the output file
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
df = pd.read_json("samples_octopus_outputs.json", orient='records', lines=True)
df

Unnamed: 0,source,target,task
0,Mantorov,ماموروف,Translitration English-to-Arabic
1,Meccano,ميتكو,Translitration English-to-Arabic
2,Laslo,لا زالو,Translitration English-to-Arabic
3,Mishari,مشاري,Translitration English-to-Arabic
4,Heiber,هايبر,Translitration English-to-Arabic
5,Korwin,كورينا,Translitration English-to-Arabic
6,Truliner,ترولينر,Translitration English-to-Arabic
7,Kuttner,كاندر,Translitration English-to-Arabic
8,Leumul,ليمو,Translitration English-to-Arabic
9,Dirhael,دهمش,Translitration English-to-Arabic
