<a href="https://colab.research.google.com/github/acastellanos-ie/natural_language_processing/blob/master/qa_practice_dl/arabic_question_answering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Google Colab Configuration

**Execute this steps to configure the Google Colab environment in order to execute this notebook. It is not required if you are executing it locally and you have properly configured your local environment according to what explained in the Github Repository.**

The first step is to clone the repository to have access to all the data and files.

In [None]:
! git clone https://github.com/acastellanos-ie/natural_language_processing.git

Install the requirements

In [None]:
! pip install -Uqqr natural_language_processing/arabic_requirements.txt --use-deprecated=legacy-resolver

Ensure that you have the GPU runtime activated:

![](https://miro.medium.com/max/3006/1*vOkqNhJNl1204kOhqq59zA.png)

Now you have everything you need to execute the code in Colab

In [None]:
#!pip install transformers==4.2.1
#!pip install pyarabic
!git clone https://github.com/aub-mind/arabert
#!pip install datasets
#!pip install sacrebleu
#!pip install fuzzysearch

Collecting transformers==4.2.1
[?25l  Downloading https://files.pythonhosted.org/packages/cd/40/866cbfac4601e0f74c7303d533a9c5d4a53858bd402e08e3e294dd271f25/transformers-4.2.1-py3-none-any.whl (1.8MB)
[K     |████████████████████████████████| 1.8MB 8.0MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/7d/34/09d19aff26edcc8eb2a01bed8e98f13a1537005d31e95233fd48216eed10/sacremoses-0.0.43.tar.gz (883kB)
[K     |████████████████████████████████| 890kB 37.3MB/s 
Collecting tokenizers==0.9.4
[?25l  Downloading https://files.pythonhosted.org/packages/fb/36/59e4a62254c5fcb43894c6b0e9403ec6f4238cc2422a003ed2e6279a1784/tokenizers-0.9.4-cp37-cp37m-manylinux2010_x86_64.whl (2.9MB)
[K     |████████████████████████████████| 2.9MB 38.4MB/s 
Building wheels for collected packages: sacremoses
  Building wheel for sacremoses (setup.py) ... [?25l[?25hdone
  Created wheel for sacremoses: filename=sacremoses-0.0.43-cp37-none-any.whl size=893262 sha256=6a462fd95e5c

# Imports

In [None]:
#textwrap enables formating of long text
import textwrap

from transformers import pipeline, GPT2TokenizerFast
from arabert.aragpt2.grover.modeling_gpt2 import GPT2LMHeadModel
from arabert.preprocess import ArabertPreprocessor

#you can choose any aragpt2 model since they all have the same preprocessing
arabert_processor = ArabertPreprocessor(model_name="aragpt2-mega")

In [None]:
import torch
device = 0 if torch.cuda.is_available() else -1
print(device)

0


# Get the Model

In [None]:
model_name = "aubmindlab/aragpt2-mega" #the mega model needs a High-Ram colab

grover_gpt2_model = GPT2LMHeadModel.from_pretrained(model_name)
grover_gpt2_model.half()
tokenizer = GPT2TokenizerFast.from_pretrained(model_name)

aragpt2_pipeline = pipeline("text-generation",model=grover_gpt2_model, tokenizer=tokenizer,device=device)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=923.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=5889735421.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1935314.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1497508.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=4519765.0, style=ProgressStyle(descript…




# Zero-Shot question answering 

Start testing some prompts, to see what works

In [None]:
prompt = """
أجب عن السؤال التالي:
"""

In [None]:
text = """
\"من كان رئيس ألمانيا النازية في الحرب العالمية الثانية ؟\"
"""
text_tok = tokenizer.tokenize(arabert_processor.preprocess(text))
text_len = len(text_tok)
print(text_tok)
print(text_len)

['"', 'ĠÙħÙĨ', 'ĠÙĥØ§ÙĨ', 'ĠØ±Ø¦ÙĬØ³', 'ĠØ£ÙĦÙħØ§ÙĨÙĬØ§', 'ĠØ§ÙĦÙĨØ§Ø²ÙĬØ©', 'ĠÙģÙĬ', 'ĠØ§ÙĦØŃØ±Ø¨', 'ĠØ§ÙĦØ¹Ø§ÙĦÙħÙĬØ©', 'ĠØ§ÙĦØ«Ø§ÙĨÙĬØ©', 'ĠØŁ', 'Ġ"']
12


In [None]:
text_prep = arabert_processor.preprocess(prompt + " " + text)
input_len = len(tokenizer.tokenize(text_prep))
print(text_prep)
print(input_len)

أجب عن السؤال التالي : " من كان رئيس ألمانيا النازية في الحرب العالمية الثانية ؟ "
18


In [None]:
print("Input Length: ", input_len + text_len //2)
gen_text = aragpt2_pipeline(text_prep,
            pad_token_id=0, # 0 for AraGPT2
            do_sample = False,
            num_beams=5,
            max_length=input_len + 10,
            top_k=10,
            top_p=0.95,
            repetition_penalty = 3.0,
            no_repeat_ngram_size = 3,
            num_return_sequences = 5)
gen_text

Input Length:  24


[{'generated_text': 'أجب عن السؤال التالي : " من كان رئيس ألمانيا النازية في الحرب العالمية الثانية ؟ " الجواب هو أدولف هتلر ، الذي حكم ألمانيا بين'},
 {'generated_text': 'أجب عن السؤال التالي : " من كان رئيس ألمانيا النازية في الحرب العالمية الثانية ؟ " الجواب هو أدولف هتلر ، الذي حكم ألمانيا لمدة'},
 {'generated_text': 'أجب عن السؤال التالي : " من كان رئيس ألمانيا النازية في الحرب العالمية الثانية ؟ " الجواب هو أدولف هتلر ، الذي ولد في النمسا'},
 {'generated_text': 'أجب عن السؤال التالي : " من كان رئيس ألمانيا النازية في الحرب العالمية الثانية ؟ " الجواب هو أدولف هتلر ، الذي حكم ألمانيا منذ'},
 {'generated_text': 'أجب عن السؤال التالي : " من كان رئيس ألمانيا النازية في الحرب العالمية الثانية ؟ " إن الإجابة على هذا السؤال صعبة جدا ، لأن هتلر'}]

In [None]:
text_prep = arabert_processor.preprocess("أجب عن السؤال التالي : في أي سنة تأسست مدينة العيون ؟ الجواب هو في سنة")
input_len = len(tokenizer.tokenize(text_prep))
print(text_prep)
print(input_len)

أجب عن السؤال التالي : في أي سنة تأسست مدينة العيون ؟ الجواب هو في سنة
17


In [None]:
print("Input Length: ", input_len + text_len //2)
gen_text = aragpt2_pipeline("أجب عن السؤال التالي : في أي سنة تأسست مدينة العيون ؟ الجواب هو في سنة",
            pad_token_id=0, # 0 for AraGPT2
            do_sample = False,
            num_beams=5,
            max_length=input_len + 4,
            top_k=10,
            top_p=0.95,
            repetition_penalty = 3.0,
            no_repeat_ngram_size = 3,
            num_return_sequences = 5)
gen_text

Input Length:  23


[{'generated_text': 'أجب عن السؤال التالي : في أي سنة تأسست مدينة العيون ؟ الجواب هو في سنة 1909 �'},
 {'generated_text': 'أجب عن السؤال التالي : في أي سنة تأسست مدينة العيون ؟ الجواب هو في سنة 1906 �'},
 {'generated_text': 'أجب عن السؤال التالي : في أي سنة تأسست مدينة العيون ؟ الجواب هو في سنة 1902 �'},
 {'generated_text': 'أجب عن السؤال التالي : في أي سنة تأسست مدينة العيون ؟ الجواب هو في سنة 1904 �'},
 {'generated_text': 'أجب عن السؤال التالي : في أي سنة تأسست مدينة العيون ؟ الجواب هو في سنة 1903 �'}]