# OCTOPUS

<p align="center">
    <br>
    <img src="https://github.com/UBC-NLP/octopus/raw/main/images/octopus.jpg" width="70%" height="70%"/>
    <br>
<p>
Octopus is a neural machine generation toolkit for Arabic Natural Lnagauge Generation (NLG) that described in our ArabiNLP 2023 paper: [**OCTOPUS: A Multitask Model and Toolkit for Arabic Natural Language Generation**](https://arxiv.org/abs/2310.16127v1). 

Octopus designed for eight machine generation tasks, encompassing diacritization, grammatical error correction, news headlines generation, paraphrasing, question answering, question generation, and
transliteration. This comprehensive package includes a Python library along with associated command-line scripts.

---


https://github.com/UBC-NLP/octopus

## (1) Install Octopus

In [52]:
!pip install git+https://github.com/UBC-NLP/octopus.git --q

## (2) Initial octopus object

In [1]:
import logging
import os
from octopus import octopus

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
logging.basicConfig(
    format="%(asctime)s | %(levelname)s | %(name)s | %(message)s",
    datefmt="%Y-%m-%d %H:%M:%S",
    level=os.environ.get("LOGLEVEL", "INFO").upper(),
)
logger = logging.getLogger("octopus")
cache_dir="./octopus_cache/"


In [4]:
oct_obj = octopus(logger, cache_dir)

2023-12-04 02:23:44 | INFO | octopus | Loading model from UBC-NLP/octopus
2023-12-04 02:23:49 | INFO | octopus | Run the model with CPU


## Octopus Tasks
  - **Prefix**: `diacritize` **Task Name**: Diartization
  - **Prefix**: `correct_grammar` **Task Name**: Grammatical Error Correction
  - **Prefix**: `paraphrase` **Task Name**: Paraphrase
  - **Prefix**: `answer_question` **Task Name**: Question Answering
  - **Prefix**: `generate_question` **Task Name**: Question Generation
  - **Prefix**: `summarize` **Task Name**: Summarization
  - **Prefix**: `generate_title` **Task Name**: Title Generation
  - **Prefix**: `translitrate_ar2en` **Task Name**: Translitration Arabic-to-English
  - **Prefix**: `translitrate_en2ar` **Task Name**: Translitration English-to-Arabic

## (2) Using beam search (default)

> Indented block


- **Beam search** is the *default* generation method on Turjuman
- Beam search default setting:
  - **seq_length**: The maximum sequence length value, *default value is 300*
  - **max_outputs**: The maximum of the output tanslations (*default value is 1*)
  - **num_beams NUM_BEAMS**: Number of beams (*default value is 1*)
  - **no_repeat_ngram_size**: Number of n-gram that doesn't appears twice (*default value is 2*)

In [19]:
text="""
أكد النجم البرازيلي نيمار مهاجم نادي الهلال أن الدوري السعودي بات أكثر قوة من الدوري الفرنسي مذكراً الجميع بتجربته في الأخير عندما انتقل إلى باريس سان جيرمان صيف 2017.
وأوضح نيمار خلال مؤتمر صحفي مقام في بارا البرازيلية لدى سؤاله عن الدوري السعودي: أؤكد لك أن كرة القدم هي نفسها، الكرة هي نفسها ويسجلون الأهداف وبالنظر إلى الأسماء فإن الدوري السعودي بات أقوى من الدوري الفرنسي. التدريبات هناك شديدة ونتعطش أنا وزملائي للفوز هناك بشكل كبير والتتويج مع الهلال.
وأضاف: الجميع اعتقد أن الدوري السعودي ضعيف والأمر نفسه حدث معي عندما انتقلت إلى الدوري الفرنسي، حينها ظن الناس الأمر نفسه لكني لم أضرب في حياتي من قبل المدافعين أكثر من هناك.
وأبان حول الدوري السعودي: اللاعبون الذين يلعبون هناك يعلمون مدى صعوبة اللعب في الدوري السعودي وأنا متأكد أنه لن يكون أمرا سهلا الفوز بالمسابقة لأن الفرق عززت صفوفها بلاعبين جدد، وستكون بطولة ممتعة وشيقة جدا.
وتلعب البرازيل أمام بوليفيا في بارا البرازيلية يوم السبت قبل أن تواجه بيرو يوم الأربعاء ضمن تصفيات كأس العالم لمنتخبات أميركا الجنوبية.
"""

In [20]:
import regex
text = regex.sub("[\r\n\f]+", " ", text)
print (text)

 أكد النجم البرازيلي نيمار مهاجم نادي الهلال أن الدوري السعودي بات أكثر قوة من الدوري الفرنسي مذكراً الجميع بتجربته في الأخير عندما انتقل إلى باريس سان جيرمان صيف 2017. وأوضح نيمار خلال مؤتمر صحفي مقام في بارا البرازيلية لدى سؤاله عن الدوري السعودي: أؤكد لك أن كرة القدم هي نفسها، الكرة هي نفسها ويسجلون الأهداف وبالنظر إلى الأسماء فإن الدوري السعودي بات أقوى من الدوري الفرنسي. التدريبات هناك شديدة ونتعطش أنا وزملائي للفوز هناك بشكل كبير والتتويج مع الهلال. وأضاف: الجميع اعتقد أن الدوري السعودي ضعيف والأمر نفسه حدث معي عندما انتقلت إلى الدوري الفرنسي، حينها ظن الناس الأمر نفسه لكني لم أضرب في حياتي من قبل المدافعين أكثر من هناك. وأبان حول الدوري السعودي: اللاعبون الذين يلعبون هناك يعلمون مدى صعوبة اللعب في الدوري السعودي وأنا متأكد أنه لن يكون أمرا سهلا الفوز بالمسابقة لأن الفرق عززت صفوفها بلاعبين جدد، وستكون بطولة ممتعة وشيقة جدا. وتلعب البرازيل أمام بوليفيا في بارا البرازيلية يوم السبت قبل أن تواجه بيرو يوم الأربعاء ضمن تصفيات كأس العالم لمنتخبات أميركا الجنوبية. 


In [23]:
prefix = "generate_title"
text_wz_prefix = f"{prefix}: {text}"
gen_options = {"search_method":"beam", "seq_length": 300, "num_beams":5, "no_repeat_ngram_size":2, "max_outputs":1}
outputs = oct_obj.do_generate(text_wz_prefix,**gen_options)
print (outputs)

2023-12-04 02:42:03 | INFO | octopus | Using beam search


['نيمار: الدوري السعودي أقوى من الفرنسي']


## (3) Using greedy search
- Greedy search default setting:
  - **seq_length**: The maximum sequence length value, *default vlaue is 300*

In [25]:
prefix = "answer_question"
qa_example=f"{prefix}: [context: {text}] [question: متي انتقل بيمار الي باريس سان جيرمان؟]"
gen_options = {"search_method":"greedy", "seq_length": 300}
outputs = oct_obj.do_generate(qa_example,**gen_options)
print (outputs)

2023-12-04 02:42:41 | INFO | octopus | Using greedy search


['صيف 2017']


## (4) Using sampling search
- Sampling search default setting:
  - **seq_length**: The maximum sequence length value, *default value is 300*
  - **max_outputs**: The maxmuim of the output tanslations (*default value is 1*)
  - **top_k**: Sample from top K likely next words instead of all words (*default value is 50*)
  - **top_p**: Sample from the smallest set whose cumulative probability mass exceeds p for next words (*default value is 0.95*)

In [27]:

text="""
بالتزامن مع استنفار ليبيا لاسيما في الشرق جراء الإعصار دانيال الذي ضربها، وصلت العاصفة دانيال أيضا إلى مصر وضربت محافظتين في شمال البلاد، هما مرسى مطروح والإسكندرية فقد غطت العاصفة مناطق الحدود المصرية غرب البلاد، وشملت مدن السلوم وسيوة ومطروح والإسكندرية. وبينت القنوات المختلفة لصور الأقمار الصناعية شكل العاصفة التي طرقت الأبواب المصرية. وأظهرت طبقات من السحب المختلفة والأتربة المصاحبة لها.
"""

prefix = "paraphrase"
text_wz_prefix=f"{prefix}: {text}"
gen_options = {"search_method":"sampling", "seq_length": 300, "max_outputs":1, "top_p":0.95, "top_k":50}
outputs = oct_obj.do_generate(text_wz_prefix,**gen_options)
print (outputs)

2023-12-04 02:43:03 | INFO | octopus | Using sampling search


['بالتزامن مع حالة التأهب في شرق ليبيا بسبب إعصار دانيال الذي ضربها، انضمت مصر إلى العاصفة ليشمل أجزاء من غرب البلاد، بما في ذلك مدن سل قمتيها ومطار مطروح والإسكندرية. وأظهرت صور الأقمار الصناعية المختلفة شكل العاصفة التي ضربت الأبواب المصرية.']


## (5) Read text from file
- **input_file**: import the text from file. The translation will saved on the JSON format file
- **batch_size**: The maximum number of source examples utilized in one iteration (default value is 25)
- **gen_options**: Generation options 

In [62]:
!wget https://raw.githubusercontent.com/UBC-NLP/turjuman/main/examples/samples.txt

--2022-05-18 19:10:23--  https://raw.githubusercontent.com/UBC-NLP/turjuman/main/examples/samples.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 732 [text/plain]
Saving to: ‘samples.txt’


2022-05-18 19:10:23 (45.6 MB/s) - ‘samples.txt’ saved [732/732]



In [15]:
gen_options = { "search_method":"beam", "seq_length": 300, "num_beams":5, "no_repeat_ngram_size":2, "max_outputs":1}
oct_obj.from_file("translitrate_en2ar", "samples.txt", batch_size=25, **gen_options)

2023-12-04 02:37:48 | INFO | octopus | Using beam search
2023-12-04 02:37:48 | INFO | octopus | Loading source text from file (samples.txt)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
2023-12-04 02:37:48 | INFO | octopus | Running tokenizer on source text
Map: 100%|██████████| 10/10 [00:00<00:00, 544.84 examples/s]
2023-12-04 02:37:50 | INFO | octopus | >>>>>Working on cpu
translate:   0%|          | 0/1 [00:00<?, ?it/s]2023-12-04 02:37:50 | INFO | octopus | Translating with batch_size 25 and #samples = 1
translate: 100%|██████████| 1/1 [00:00<00:00,  1.49it/s]
2023-12-04 02:37:51 | INFO | octopus | Extract outputs
2023-12-04 02:37:51 | INFO | octopus | The translation are saved on samples_octopus_outputs.json


In [16]:
#read the output file
import pandas as pd
pd.set_option('display.max_columns', None)  
pd.set_option('display.max_colwidth', None)
df = pd.read_json("samples_octopus_outputs.json", orient='records', lines=True)
df

Unnamed: 0,source,target,task
0,Mantorov,ماموروف,Translitration English-to-Arabic
1,Meccano,ميتكو,Translitration English-to-Arabic
2,Laslo,لا زالو,Translitration English-to-Arabic
3,Mishari,مشاري,Translitration English-to-Arabic
4,Heiber,هايبر,Translitration English-to-Arabic
5,Korwin,كورينا,Translitration English-to-Arabic
6,Truliner,ترولينر,Translitration English-to-Arabic
7,Kuttner,كاندر,Translitration English-to-Arabic
8,Leumul,ليمو,Translitration English-to-Arabic
9,Dirhael,دهمش,Translitration English-to-Arabic
