In [7]:
import os
import openai
import json
import pandas as pd
from datasets import load_dataset

from google import genai

client = genai.Client(api_key="")



# Load the FLORES dataset from Hugging Face
dataset = load_dataset("facebook/flores", "all")  # Loads all languages

language_mapping = pd.read_csv('language_mapping.csv')
language_mapping_index = language_mapping.set_index('FLORES-200 code')['Language'].to_dict()
all_languages = list(language_mapping_index.keys())
all_languages.remove('eng_Latn')

prompt_xx_eng = "You are a translation expert. Translate the following {} sentences to English \n{} sentence: {}\nEnglish sentence: . Return only the translated sentence."

import time

def get_translation(prompt, max_retries=3, backoff_factor=2):
    for attempt in range(max_retries):
        try:
            response = client.models.generate_content(
                model="gemini-2.0-flash",
                contents=prompt,
            )
            reply =response.text
            # print(reply)
            reply = ' '.join(reply.split()) #convert it to one line
            return reply
        except Exception as e:
            print(f"Attempt {attempt + 1} failed with error: {e}")
            if attempt < max_retries - 1:
                sleep_time = backoff_factor ** attempt
                print(f"Retrying in {sleep_time} seconds...")
                time.sleep(sleep_time)
            else:
                print("Max retries reached. Returning failure label.")
                return ""   





In [11]:
languages_to_run = all_languages[0:30]

completed = []

In [12]:
from tqdm import tqdm
translations = {}
result_inaccuracies = {}

for language_name in languages_to_run:
    if language_name in completed:
        continue
    print(language_name)
    errors = 0
    translations[language_name]=[]
    for i in tqdm(range(1012)): #length of devtest
        sentence_xx = dataset['devtest'][i]["sentence_{}".format(language_name)]
        prompt = prompt_xx_eng.format(language_mapping_index[language_name],language_mapping_index[language_name],sentence_xx)
        english_translation = get_translation(prompt)
        translations[language_name].append(english_translation)

        if english_translation=="":
            errors+=1
    
    result_inaccuracies[language_name]=errors
    with open("translations_gemini_2_xx_eng2/{}.txt".format(language_name), "w", encoding="utf-8") as f:
        f.writelines(line + "\n" for line in translations[language_name])

ary_Arab


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:26<00:00,  2.00it/s]


arz_Arab


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:46<00:00,  1.92it/s]


asm_Beng


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 939/1012 [08:19<00:34,  2.12it/s]

Attempt 1 failed with error: 'NoneType' object has no attribute 'split'
Retrying in 1 seconds...
Attempt 2 failed with error: 'NoneType' object has no attribute 'split'
Retrying in 2 seconds...


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 940/1012 [08:24<02:08,  1.78s/it]

Attempt 3 failed with error: 'NoneType' object has no attribute 'split'
Max retries reached. Returning failure label.


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [09:00<00:00,  1.87it/s]


ast_Latn


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:06<00:00,  2.08it/s]


awa_Deva


 40%|████████████████████████████████████████████████████████████████▊                                                                                                   | 400/1012 [03:17<05:10,  1.97it/s]

Attempt 1 failed with error: 'NoneType' object has no attribute 'split'
Retrying in 1 seconds...
Attempt 2 failed with error: 'NoneType' object has no attribute 'split'
Retrying in 2 seconds...


 40%|████████████████████████████████████████████████████████████████▉                                                                                                   | 401/1012 [03:22<17:05,  1.68s/it]

Attempt 3 failed with error: 'NoneType' object has no attribute 'split'
Max retries reached. Returning failure label.


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:24<00:00,  2.01it/s]


ayr_Latn


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:58<00:00,  1.88it/s]


azb_Arab


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 952/1012 [08:19<00:40,  1.47it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:54<00:00,  1.89it/s]


azj_Latn


 12%|████████████████████▎                                                                                                                                               | 125/1012 [01:12<07:25,  1.99it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


 13%|█████████████████████▏                                                                                                                                              | 131/1012 [01:15<07:32,  1.94it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


 13%|█████████████████████▉                                                                                                                                              | 135/1012 [01:19<09:55,  1.47it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


 14%|██████████████████████▋                                                                                                                                             | 140/1012 [01:22<08:28,  1.72it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...
Attempt 2 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 2 seconds...


 15%|█████████████████████████▎                                                                                                                                          | 156/1012 [01:34<07:26,  1.92it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


 17%|███████████████████████████                                                                                                                                         | 167/1012 [01:41<07:45,  1.82it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


 17%|████████████████████████████                                                                                                                                        | 173/1012 [01:45<07:16,  1.92it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


 19%|███████████████████████████████▍                                                                                                                                    | 194/1012 [01:58<07:44,  1.76it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


 20%|█████████████████████████████████▏                                                                                                                                  | 205/1012 [02:05<08:51,  1.52it/s]

Attempt 1 failed with error: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The service is currently unavailable.', 'status': 'UNAVAILABLE'}}
Retrying in 1 seconds...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [09:09<00:00,  1.84it/s]


bak_Cyrl


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:32<00:00,  1.97it/s]


bam_Latn


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [09:23<00:00,  1.80it/s]


ban_Latn


  0%|▏                                                                                                                                                                     | 1/1012 [00:00<10:53,  1.55it/s]

Attempt 1 failed with error: 'NoneType' object has no attribute 'split'
Retrying in 1 seconds...
Attempt 2 failed with error: 'NoneType' object has no attribute 'split'
Retrying in 2 seconds...


  0%|▎                                                                                                                                                                     | 2/1012 [00:05<51:06,  3.04s/it]

Attempt 3 failed with error: 'NoneType' object has no attribute 'split'
Max retries reached. Returning failure label.


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:49<00:00,  1.91it/s]


bel_Cyrl


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:41<00:00,  1.94it/s]


bem_Latn


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [09:12<00:00,  1.83it/s]


ben_Beng


 21%|██████████████████████████████████▋                                                                                                                                 | 214/1012 [01:50<07:04,  1.88it/s]

Attempt 1 failed with error: 'NoneType' object has no attribute 'split'
Retrying in 1 seconds...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:42<00:00,  1.94it/s]


bho_Deva


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 939/1012 [08:15<00:40,  1.79it/s]

Attempt 1 failed with error: 'NoneType' object has no attribute 'split'
Retrying in 1 seconds...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:53<00:00,  1.90it/s]


bjn_Arab


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [09:09<00:00,  1.84it/s]


bjn_Latn


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1012/1012 [08:27<00:00,  1.99it/s]


In [14]:
import os

folder_path = 'translations_gemini_2_xx_eng2'  # replace this with your actual folder path

files = [f[:-4] for f in os.listdir(folder_path) if f.endswith('.txt')]



In [13]:
result_inaccuracies

{'ace_Latn': 0,
 'acm_Arab': 0,
 'acq_Arab': 0,
 'aeb_Arab': 1,
 'afr_Latn': 3,
 'ajp_Arab': 0,
 'aka_Latn': 0,
 'amh_Ethi': 1,
 'apc_Arab': 0,
 'arb_Arab': 1,
 'arb_Latn': 0,
 'ars_Arab': 0,
 'ary_Arab': 0,
 'arz_Arab': 0,
 'asm_Beng': 1,
 'ast_Latn': 0,
 'awa_Deva': 1,
 'ayr_Latn': 0,
 'azb_Arab': 0,
 'azj_Latn': 0,
 'bak_Cyrl': 0,
 'bam_Latn': 0,
 'ban_Latn': 1,
 'bel_Cyrl': 0,
 'bem_Latn': 0,
 'ben_Beng': 0,
 'bho_Deva': 0,
 'bjn_Arab': 0,
 'bjn_Latn': 0}

In [None]:
#get scores 

import os
import subprocess
import json

# Define paths
translations_dir = "translations_gemini_2_xx_eng2"
reference_file = "reference_xx_eng/eng_Latn.txt"

# Dictionary to store scores
scores = {}

# Loop over all .txt files in the translations directory
for file in os.listdir(translations_dir):
    if file.endswith(".txt"):  # Process only .txt files
        language_name = file.replace(".txt", "")  # Extract language name
        translation_file = os.path.join(translations_dir, file)  # Full path

        # Run sacrebleu command
        command = f"sacrebleu -m chrf --chrf-word-order 2 {translation_file} < {reference_file}"
        result = subprocess.run(command, shell=True, capture_output=True, text=True)

        # Extract the score from the output
        try:
            output_json = json.loads(result.stdout)  # Parse JSON output
            scores[language_name] = output_json["score"]  # Store score
        except json.JSONDecodeError:
            print(f"Error processing {language_name}: Invalid JSON output")
        except KeyError:
            print(f"Error: 'score' field not found in {language_name} output")

# Print results
print(scores)


In [None]:
#get scores2 for eng to xx

import os
import subprocess
import json

# Define paths
translations_dir = "translations_gemini_2_eng_xx2"
reference_dir = "reference_eng_xx"

# Dictionary to store scores2
scores2 = {}

# Loop over all .txt files in the translations directory
for file in os.listdir(translations_dir):
    if file.endswith(".txt"):  # Process only .txt files
        language_name = file.replace(".txt", "")  # Extract language name
        translation_file = os.path.join(translations_dir, file)  # Full path
        reference_file = os.path.join(reference_dir, file)  # Full path

        # Run sacrebleu command
        command = f"sacrebleu -m chrf --chrf-word-order 2 {translation_file} < {reference_file}"
        result = subprocess.run(command, shell=True, capture_output=True, text=True)

        # Extract the score from the output
        try:
            output_json = json.loads(result.stdout)  # Parse JSON output
            scores2[language_name] = output_json["score"]  # Store score
        except json.JSONDecodeError:
            print(f"Error processing {language_name}: Invalid JSON output")
        except KeyError:
            print(f"Error: 'score' field not found in {language_name} output")

# Print results
print(scores2)


In [None]:
# Convert to DataFrame
all_languages = list(language_mapping_index.keys())
all_languages.remove('eng_Latn')

all_languages2 = list(language_mapping_index.values())
all_languages2.remove('English')

df = pd.DataFrame({
    "Language": all_languages2,
    "FLORES-200 code": all_languages,
    "xx - English": [scores[lang] for lang in all_languages],
    "English - xx": [scores2[lang] for lang in all_languages]
})

# Save to CSV
df.to_csv("flores_gemini2_results_april_2025.csv", index=False)
