# Enriching ArabAcquis Dataset files with OpenAI GPT-3.5-turbo Arabic Translations

This Colab notebook demonstrates the process of further augmenting the ArabAcquis parallel corpus file by adding translations generated by OpenAI's GPT-3.5-turbo model. It takes an input JSON file (already containing original English, reference Arabic, and Google API translations), and for each entry, translates the English text into Arabic using the OpenAI API via the openai Python library. The newly generated GPT-3.5-turbo Arabic translation is then added as an additional field (GPT_translated) to each corresponding entry. Finally, the file is saved to a new JSON file. This step will facilitat a comparative analysis of machine translation outputs from multiple systems against a human reference.
* **Input file:** ArabAcquis_translated_withGoogleAPI.json (JSON file containing English sentences, original Arabic references, and Google API translations)
* **Output file:** ArabAcquis_translated_withGoogleAPIandGPT.json (JSON file with an added GPT_translated field containing the OpenAI GPT-3.5-turbo API's Arabic output for each English entry)


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd /content/drive/MyDrive/ColabData/ArabAcquis Dataset

/content/drive/MyDrive/ColabData/ArabAcquis Dataset


In [None]:
pip install openai

Collecting openai
  Downloading openai-1.30.5-py3-none-any.whl (320 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m320.7/320.7 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.27.0-py3-none-any.whl (75 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.6/75.6 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.5-py3-none-any.whl (77 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m77.9/77.9 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: h11, httpcore, httpx, openai
Successfully installed h11-0.14.0 httpcore-1.0.5 ht

In [None]:
import json
from google.colab import userdata

from openai import OpenAI


def load_data(file_path):
    """
    Load the complete data from a JSON file.

    :param file_path: Path to the JSON file.
    :return: Data dictionary loaded from JSON.
    """
    with open(file_path, 'r') as file:
        data = json.load(file)
    return data

def translate_text(key, text, source_language="en", target_language="ar"):
    """
    Translate text from one language to another using OpenAI's GPT-4.

    :param api_key: Your OpenAI API key.
    :param text: Text to translate.
    :param source_language: Source language code (default is English 'en').
    :param target_language: Target language code (default is Arabic 'ar').
    :return: Translated text.
    """
    #openai.api_key = api_key

    client = OpenAI(
        api_key=key
    )

    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "You are a translator."},
            {"role": "user", "content": f"Translate this from {source_language} to {target_language}: {text}"}
        ],
        max_tokens=160,
        temperature=0.3
    )

    return response.choices[0].message.content.strip()

def save_data(data, output_file):
    """
    Save the updated data back to a JSON file.

    :param data: Complete data dictionary with translations.
    :param output_file: Path to the output JSON file.
    """
    with open(output_file, 'w') as file:
        json.dump(data, file, ensure_ascii=False, indent=4)

def main(api_key, input_file, output_file, source_language, target_language):
    data = load_data(input_file)

    for item in range(0,len(data)):
        print(item)
        original_text = data[item]['english']
        translated_text = translate_text(api_key, original_text, source_language, target_language)
        data[item]['GPT_translated'] = translated_text

    save_data(data, output_file)

# Parameters
api_key = userdata.get('GPT_API_KEY')
 # OpenAI API key
input_file = 'ArabAcquis_translated_withGoogleAPI.json'  # Path to original JSON file
output_file = 'ArabAcquis_translated_withGoogleAPIandGPT.json'  # File to save the dataset with translations
source_language = 'en'  # Source language
target_language = 'ar'  # Target language (Arabic)

main(api_key, input_file, output_file, source_language, target_language)


In [None]:
import json

with open('ArabAcquis_translated_withGoogleAPIandGPT.json', 'r') as datafile:
  data = json.load(datafile)

len(data)

data[0:5]


[{'english': 'THE COUNCIL OF THE EUROPEAN ECONOMIC COMMUNITY,',
  'arabic': 'مجلس الجماعة الاقتصادية الأوروبية',
  'googleAPI_translated': 'إن مجلس الجماعة الاقتصادية الأوروبية،',
  'GPT_translated': 'مجلس الاتحاد الاقتصادي الأوروبي'},
 {'english': 'Whereas the adoption of a common transport policy involves inter alia laying down common rules for the international carriage of goods by road to or from the territory of a Member State or passing across the territory of one or more Member States;',
  'arabic': 'حيث أن اعتماد سياسة نقل مشتركة تنطوي من بين أمور أخرى على وضع قواعد مشتركة للنقل الدولي للبضائع عن طريق البر أو من أراضي دولة عضو أو المرور عبر أراضي واحدة من الدول الأعضاء أو أكثر؛',
  'googleAPI_translated': 'ولما كان اعتماد سياسة نقل مشتركة يتضمن، في جملة أمور، وضع قواعد مشتركة للنقل الدولي للبضائع عن طريق البر من وإلى أراضي دولة عضو أو المرور عبر أراضي دولة عضو واحدة أو أكثر؛',
  'GPT_translated': 'بينما ينطوي اعتماد سياسة نقل مشتركة على وضع قواعد مشتركة لنقل البضائع عبر الطرق ا

In [None]:
data[0:20]

[{'english': 'THE COUNCIL OF THE EUROPEAN ECONOMIC COMMUNITY,',
  'arabic': 'مجلس الجماعة الاقتصادية الأوروبية',
  'googleAPI_translated': 'إن مجلس الجماعة الاقتصادية الأوروبية،',
  'GPT_translated': 'مجلس الاتحاد الاقتصادي الأوروبي'},
 {'english': 'Whereas the adoption of a common transport policy involves inter alia laying down common rules for the international carriage of goods by road to or from the territory of a Member State or passing across the territory of one or more Member States;',
  'arabic': 'حيث أن اعتماد سياسة نقل مشتركة تنطوي من بين أمور أخرى على وضع قواعد مشتركة للنقل الدولي للبضائع عن طريق البر أو من أراضي دولة عضو أو المرور عبر أراضي واحدة من الدول الأعضاء أو أكثر؛',
  'googleAPI_translated': 'ولما كان اعتماد سياسة نقل مشتركة يتضمن، في جملة أمور، وضع قواعد مشتركة للنقل الدولي للبضائع عن طريق البر من وإلى أراضي دولة عضو أو المرور عبر أراضي دولة عضو واحدة أو أكثر؛',
  'GPT_translated': 'بينما ينطوي اعتماد سياسة نقل مشتركة على وضع قواعد مشتركة لنقل البضائع عبر الطرق ا