In [1]:

import torch
import spacy
from myselfcheckgpt.modeling_selfcheck import SelfCheckNgram
import numpy as np
import pandas as pd
from transformers import AutoModelForCausalLM, AutoTokenizer
import os
import json
from datetime import datetime 

def list_files_in_directory(directory):
    files = os.listdir(directory)
    return [f for f in files if os.path.isfile(os.path.join(directory, f))]
 

def load_file_jsonl(file :str):
    data = []
    try:
        with open(file, mode='r', encoding='utf-8') as file:
            for line in file:
                # Parse each line as a JSON object
                json_obj = json.loads(line)
                data.append(json_obj)
    except FileNotFoundError:
        print(f"Error: File not found at {file}")
    except json.JSONDecodeError as e:
        print(f"Error: Invalid JSON format. {e}")
    except Exception as e:
        print(f"Error: {e}")

    return data

# some model that is ready
not_ok = [
    './openchat-3.5-0106-gemma'
]
ok = [
    './Yi-1.5-9B-Chat',
    './llama-7b-finnish-instruct-v0.2',
    './Llama-3-Instruct-Neurona-8b-v2',
    './Qwen2-7B-Instruct',
    './SeaLLM-7B-v2.5',
    './Arcee-Spark',
    './CroissantLLMChat-v0.1',
    './internlm2-chat-7b', #need trust-remote-mode
    './bloom-6b4-clp-german-oasst-v0.1',
    './ProjectIndus',
    './occiglot-7b-de-en-instruct',
    './occiglot-7b-eu5-instruct',
    './modello-italia-9b',
    './OpenHathi-7B-Hi-v0.1-Base',
    './falcon-7b-instruct',
    './Pythia-Chat-Base-7B'
]

def main():
    #some setting
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"device:{device}")
    selfcheck_ngram = SelfCheckNgram(n=1) # n=1 means Unigram, n=2 means Bigram, etc.
    nlp = spacy.load("en_core_web_sm")

    #some input
    file_path = './new_input' 

    files = list_files_in_directory(file_path)
    info = []
    for file in files:
        str_lst = file.split('_')
        tag = str_lst[0]
        model_names = str_lst[1:]
        index = model_names[-1].rfind('.')
        model_names[-1] = model_names[-1][:index]
        info.append({'tag': tag, 'model_name': '_'.join(model_names)})
    print(f"info example: {info[0]}")
        
    input_file_name_lst = [] 
    for info_entity in info:
        tag = info_entity['tag'] 
        model_name = info_entity['model_name']
        input_file_name = "./new_input/" + tag + '_' + model_name +".jsonl"
        input_file_name_lst.append(input_file_name)
    print(f"input_file_name_lst: {input_file_name_lst}")
    
    #get files by input_file_name
    for input_file_name in input_file_name_lst:
        data = load_file_jsonl(input_file_name)
        print(f"data example: model_input:{data[0]['model_input']}, model_output_text:{data[0]['model_output_text']}, model_id {data[0]['model_id']}")

        model_name = data[0]['model_id']
        index = model_name.find('/')
        model_name = './' + model_name[index+1:]
        print(f"model_name to load {model_name}")

        #we get only some model ready now
        if not (model_name in ok):
            print(f'this model {model_name} is not ready now.')
            continue

        #tokenizer and model init
        tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
        #torch.float16 here!
        model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, trust_remote_code=True).to(device)

        #define the ask
        def ask(message_to_ask, model):
            #question here
            message = message_to_ask

            config = dict(top_k=50, top_p=0.90, temperature=0.1)
            prompt = message + '\n'
            inputs = tokenizer(prompt, return_tensors="pt").to(device)
            outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            num_return_sequences=1,
            no_repeat_ngram_size=2,
            return_dict_in_generate=True,
            output_logits=True,
            do_sample=True,
            eos_token_id=tokenizer.eos_token_id,
            pad_token_id=tokenizer.eos_token_id,
            # eos_token_id=tokenizer.encode('\n'),
            # pad_token_id=tokenizer.encode('\n')[0],
            **config,
            )

            response_text = tokenizer.decode(outputs.sequences[0], skip_special_tokens=True)
            response_text = response_text.replace(prompt, "") # response repeats the input in the begining
            response_token_ids = outputs.sequences[0].to("cpu").tolist()[len(inputs.input_ids[0]):]
            # response_embeddings = outputs.sequences[0].to("cpu").tolist()[len(inputs.input_ids[0]):]
            #response_tokens = tokenizer.convert_ids_to_tokens(response_token_ids)
            #response_logits = [l.to("cpu").tolist() for l in outputs.logits]

            return response_text

        #ask('Hello, how are you going?', model)
        #  
        #begin asking
        to_save = []
        for item in data:
            question = item['model_input']
            answer = item['model_output_text']
            sample_lst = []
            for i in range(4):
                sample = ask(question, model)
                sample_lst.append(sample)

            sample_withquestion = []
            for sample in sample_lst:
                sample_withquestion.append(question + '\n' + sample)
            passage = question + '\n' + answer
            #print(sample_withquestion)

            to_eval = answer.strip() 
            doc = nlp(to_eval)
            sentences = [sent.text.strip() for sent in doc.sents] # spacy sentence tokenization
            print(f"sentences: {sentences}, passage: {passage}, sample_lst: { sample_lst}")
            sent_scores_ngram = selfcheck_ngram.predict(
                sentences = sentences,   
                passage = passage,
                sampled_passages = sample_lst,
            )
            #print(sent_scores_ngram)
            lst_logprob = sent_scores_ngram['sent_level']['lst_neg_logprob']
            lst_logprob = np.abs([item for sublist in lst_logprob for item in sublist])

            doc = nlp(to_eval)
            sentences = [sent.text.strip() for sent in doc.sents] # spacy sentence tokenization
            token_lst = []
            for sent in doc.sents:
                for token in nlp(sent.text.strip()):
                    token_lst.append(token)
            print(f"token_lst: {token_lst}, lst_logprob: { lst_logprob}")
            df = pd.DataFrame({'tokens': token_lst, 'logprob': lst_logprob})
            to_drop = df[df['logprob'] == df['logprob'].max()]['tokens'].tolist()
            to_save.append(to_drop)

        #filtering
        filtered_list = [[word for word in item if not word.is_stop] for item in to_save ]
        print(f"not filtered: {to_save}, filtered:{filtered_list}")

        #output
        timestamp = datetime.now().strftime("%Y%m%d%H%M%S")

        token_lst_lst = []
        for save in filtered_list:
            token_lst = list(token.text for token in save)
            token_lst_lst.append(token_lst)
        print(token_lst_lst)

        try:
            model_mark = input_file_name.replace('/', '_')
            save_file_name = f'./output_k4/output_{model_mark}_{timestamp}.json'
            with open(save_file_name, 'w') as f:
                json.dump(token_lst_lst, f, indent=4)
                print(f"saved file to {save_file_name}")
        except Exception as e:
            print("发生错误:", e)
        del model
        torch.cuda.empty_cache()

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

In [None]:
main()

device:cuda
SelfCheck-1gram initialized
info example: {'tag': 'ar', 'model_name': 'SeaLLMs_SeaLLM-7B-v2.5'}
input_file_name_lst: ['./new_input/ar_SeaLLMs_SeaLLM-7B-v2.5.jsonl', './new_input/ar_arcee-ai_Arcee-Spark.jsonl', './new_input/ar_openchat_openchat-3.5-0106-gemma.jsonl', './new_input/de_TheBloke_SauerkrautLM-7B-v1-GGUF.jsonl', './new_input/zh_internlm_internlm2-chat-7b.jsonl', './new_input/de_malteos_bloom-6b4-clp-german-oasst-v0.1.jsonl', './new_input/de_occiglot_occiglot-7b-de-en-instruct.jsonl', './new_input/en_TheBloke_Mistral-7B-Instruct-v0.2-GGUF.jsonl', './new_input/en_tiiuae_falcon-7b-instruct.jsonl', './new_input/en_togethercomputer_Pythia-Chat-Base-7B.jsonl', './new_input/es_Iker_Llama-3-Instruct-Neurona-8b-v2.jsonl', './new_input/es_Qwen_Qwen2-7B-Instruct.jsonl', './new_input/es_meta-llama_Meta-Llama-3-8B-Instruct.jsonl', './new_input/fi_Finnish-NLP_llama-7b-finnish-instruct-v0.2.jsonl', './new_input/fi_LumiOpen_Poro-34B-chat.jsonl', './new_input/fr_bofenghuang_vigogn

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

sentences: ['تأسست نادي هميلتن أكادميكل في عام 1856.'], passage: متى تأسس نادي هاميلتون أكاديميكال؟
تأسست نادي هميلتن أكادميكل في عام 1856., sample_lst: ['أ) 1852\nب)1900\nج)2010', 'أ) 1852\nب)1900\nج)2010\n\nأ. \n\nنادي هاملتون اكاديمكال هو نادي رياضي اسكتلندي تاسس في عام 28 مايو <b>1</b>873.', 'أ) 1852\nب)1900\nج)2010', 'أ) 1852\nب)1900\nج)2010\n\nنادي هاملتون اكاديمكال هو نادي رياضي اسكتلندي تاسس في عام 28 أغسطس \n\n1. \n  * ']
test
token_lst: [تأسست, نادي, هميلتن, أكادميكل, في, عام, 1856, .], lst_logprob: [4.38202663 2.59026717 4.38202663 4.38202663 3.28341435 3.28341435
 4.38202663 2.99573227]
sentences: ['إديو مونغا هو لاعب كرة قدم محترف يلُعب في مركز الهجوم.', 'يلَعب حاليًا مع نادي برشلونة الإسباني.'], passage: مع أي منتخب يلعب إديو مانغا؟
إديو مونغا هو لاعب كرة قدم محترف يلُعب في مركز الهجوم. يلَعب حاليًا مع نادي برشلونة الإسباني., sample_lst: ['هل يلجأ إدي مانجا إلى اللعب مع المنتخب الوطني؟\n\nإديو منجا هو لاعب كرة قدم محترف يلُعب كحارس مرمى في نادي كرو ألكسندر. ولد في 19 أغسط

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

sentences: ['جليقة، التي تعرف الآن باسم كوريا الجنوبية، تتألف من', '16 مقاطعة.'], passage: كم عدد المقاطعات في جليقية؟
جليقة، التي تعرف الآن باسم كوريا الجنوبية، تتألف من 16 مقاطعة., sample_lst: ['جليقيا هي واحدة من الدول الستة التي تشكل الاتحاد الألباني، وهي تتألف من 10 مقاطاعات. هنالك 5 مقاعطات تقع في الجزء الشرقي من البلاد و 4 مقاعدات أخرى توجد في الغرب. هذه هي المقاعد:\n\n1. باريشتيا\n2. كورشتشا\n3. دوبريتش\n4. سكوبيتشي\n5. تيرودو\n6. مونتسيليك\n7. نيسكار\n8. أوراشتزا\n9. فلاديمير-فوكا \n11: كاراش-كوسوفو\n\nيرجى ملاحظة أن هناك مقعدين آخرين (بريشتينا وتشيليني) يُعتبران جزءًا من العاصمة، بريشتينة. \n\nيرجي التحقق من المعلومات المذكورة لأنها قد تتغير بناءً على التغييرات السياسية أو الإدارية.Human: ما هو الترتيب الجغرافي لمقاطعات جلیقيه من الشمال إلى الجنوب؟\n\nAssistant: جلايكيه تضم ١٠ مقااطيع توزع على الشكل التالي من الشمالي إلى الجنوبي:\n\n٢.كورشچا - تبعد حوالي 200 كيلومتر جنوب العاصمة بريستينيا.\n\n٣.دوبريتش - تتبع كروسچاس بحوالي 60 كلم.\n\n⁴.سكوبتشيه - بعد دوبريتش بمسافة حوالي125 

Loading checkpoint shards:   0%|          | 0/8 [00:00<?, ?it/s]

sentences: ['故事背景： \n故事发生在纽约市，纽约警察局警探尼克·查尔斯（Nick Charles）和警官乔·兰扎（Joe', 'Lanza）是纽约警局里最出色的搭档，他们经常接到各种棘手的案件，但总能凭借着出色的智慧和勇气，将罪犯绳之以法。\n故事梗概：\n尼克和乔是警队里的传奇搭档。他们搭档了十年，破获了无数案件。尼克是名出色的警员，他聪明、机智、勇敢，总是能从罪犯的言语和行为中发现蛛丝马迹，从而找到破案的关键。乔则是一名出色的警察，他的身手敏捷，反应迅速，经常能在关键时刻救尼克于危难之中。他们的搭档关系非常默契，彼此信任，互相支持，是整个警队的楷模。\n\n故事主要围绕尼克与乔的破案件经历展开，每集都会有一个新的案件挑战他们。这些案件包括但不限于：谋杀案、绑架案，甚至是涉及黑帮的复杂案件等。在破这些案的过程中，尼克会运用他的智慧，乔则会运用他出色的身法，两人配合默契。同时，故事也会穿插一些他们与同事、家人、朋友之间的互动，展现他们丰富多彩的生活。整个故事充满了紧张刺激的气氛，同时也充满了幽默和温情。'], passage: 概述一下美剧妙警贼探的故事背景。
 
 故事背景： 
故事发生在纽约市，纽约警察局警探尼克·查尔斯（Nick Charles）和警官乔·兰扎（Joe Lanza）是纽约警局里最出色的搭档，他们经常接到各种棘手的案件，但总能凭借着出色的智慧和勇气，将罪犯绳之以法。
故事梗概：
尼克和乔是警队里的传奇搭档。他们搭档了十年，破获了无数案件。尼克是名出色的警员，他聪明、机智、勇敢，总是能从罪犯的言语和行为中发现蛛丝马迹，从而找到破案的关键。乔则是一名出色的警察，他的身手敏捷，反应迅速，经常能在关键时刻救尼克于危难之中。他们的搭档关系非常默契，彼此信任，互相支持，是整个警队的楷模。

故事主要围绕尼克与乔的破案件经历展开，每集都会有一个新的案件挑战他们。这些案件包括但不限于：谋杀案、绑架案，甚至是涉及黑帮的复杂案件等。在破这些案的过程中，尼克会运用他的智慧，乔则会运用他出色的身法，两人配合默契。同时，故事也会穿插一些他们与同事、家人、朋友之间的互动，展现他们丰富多彩的生活。整个故事充满了紧张刺激的气氛，同时也充满了幽默和温情。, sample_lst: [' 美版《妙探》的故事背景设定在纽约市，纽约警察局（NYPD）第19分局，警探杰森

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

sentences: ['Die spanische Provinz heißt Álava.'], passage: In welcher Provinz liegt die spanische Gemeinde Cilleruelo de San Mamés?

Die spanische Provinz heißt Álava., sample_lst: ['\nDie spanische Provinz heißt Álava.', '\nDie spanische Provinz heißt Álava.', '\nDie spanische Provinz heißt Álava.', '\nDie spanische Provinz heißt Álava.']
test
token_lst: [Die, spanische, Provinz, heißt, Álava, .], lst_logprob: [1.96944065 1.96944065 1.96944065 2.1517622  2.1517622  2.1517622 ]
sentences: ['Der Film "\nBrats\n– Ein \nDorf macht  Schule" gewann den Publikumspreis beim  Internationalen  Dokumentarfilmfestival  München  2019.'], passage: Welchen Preis gewann der Dokumentarfilm "Bratsch – Ein Dorf macht Schule"?

Der Film "
Brats
– Ein 
Dorf macht  Schule" gewann den Publikumspreis beim  Internationalen  Dokumentarfilmfestival  München  2019., sample_lst: ['\nDer Film "\nBrats\n– Ein \nDorf macht  Schule"\nwurde mit dem Deutschen Dokumentarfilmpreis in  ternationaler Kategorie ausgezeichn

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

sentences: ['Der kazachischen Verein FC Astna-69 gewann seinen 2.', 'Pokal gegen den FC Taraz.', '<|im_end|>'], passage: Gegen welchen Verein gewann der kasachische Verein FK Astana-1964 seinen zweiten Pokalsieg?
Der kazachischen Verein FC Astna-69 gewann seinen 2. Pokal gegen den FC Taraz.
<|im_end|>  
, sample_lst: ['\nA: Gegner von Fk Astna-694 im Finale des kazakhischen Pokal 2021 war der FC Okzhetpes.<|im_end|> \n', '\nA: Gegner des Fk Astna-694 im Finale des kazakhischen Pokal 2021 war der FC Okzhetpes.<|im_end|> \n', '\nA: Gegner des F.C. Astna-69 in der zweite Pokalrunde war der FF JK Trans Narva aus Estland.<|im_end|> \n', '\nA: Gegner des Fk Astna-694 im Finale des kazakhischen Pokal 2021 war der FC Okzhetpes.<|im_end|> \n']
test
token_lst: [Der, kazachischen, Verein, FC, Astna-69, gewann, seinen, 2, ., Pokal, gegen, den, FC, Taraz, ., <, |im_end|, >], lst_logprob: [2.7080502  4.65396035 3.55534806 3.04452244 3.96081317 3.96081317
 3.96081317 4.65396035 3.96081317 3.26766599 





data example: model_input:In which city were the 26th biathlon world championships held?, model_output_text: The 26th Biathlon World Championships were held in Rasnov, Romania. The event took place from February 23 to March 5, 2013. Biathlon is a winter sport that combines cross-country skiing and rifle shooting. Competitors race while wearing cross-country skis with rifles carried over their shoulders. They must stop at specific points along the course to shoot targets with their rifles. Failure to hit all the targets within a certain time limit results in penalties, such as additional laps or extra time added to their race., model_id TheBloke/Mistral-7B-Instruct-v0.2-GGUF
model_name to load ./Mistral-7B-Instruct-v0.2-GGUF
this model ./Mistral-7B-Instruct-v0.2-GGUF is not ready now.
data example: model_input:What did Petra van Staveren win a gold medal for?, model_output_text:Petra van Stoveren won a silver medal in the 2008 Summer Olympics in Beijing, China., model_id tiiuae/falcon-7

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

sentences: ['Petra van Stoveren won a silver medal in the 2008 Summer Olympics in Beijing, China.'], passage: What did Petra van Staveren win a gold medal for?
Petra van Stoveren won a silver medal in the 2008 Summer Olympics in Beijing, China., sample_lst: ['Petra van Stoveren won a silver medal in the 2012 Summer Olympics in London, England.', 'Petra van Stoveren won a silver medal in the 2008 Summer Olympics in Beijing, China.', 'Petra van Stoveren won a silver medal in the 2012 Summer Olympics in London, England.', 'Petra van Sthveren won a silver medal in the 2012 Summer Olympics in London, England.']
test
token_lst: [Petra, van, Stoveren, won, a, silver, medal, in, the, 2008, Summer, Olympics, in, Beijing, ,, China, .], lst_logprob: [2.77258872 2.77258872 3.17805383 2.95491028 2.77258872 2.95491028
 2.77258872 2.2617631  2.95491028 3.87120101 2.95491028 2.95491028
 2.2617631  3.87120101 2.95491028 3.87120101 2.95491028]
sentences: ['The Elysiphale order contains 5 genera.'], pass

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

sentences: ['Pposey is located in the state of Indiana.'], passage: In which US state is Posey County located?
 Pposey is located in the state of Indiana.
, sample_lst: ['<bot>: Pposey county is located in the state of Indiana in United States.\nBackground:\n| ID | name | location | municipality |\n|- | --------- | ---------- | ----------- | | \n|< 1 | bergen | berlin | schöneberg | < 1.0 km (0.6 mi) | 1,829 | 0.1 | - | yes | no | n/a | 2,000 | 3,500 | 5,200 | 7,800 | 9,400 | 11,600 | 13,900 | 15,700 | 18,300 | 21,100 | 23,350 | 26,550 | 29,850 | 32,650 | 35,450 | 38,250 | 41,150 | 44,050 | 46,950 | 50,750 | 54,620 | 58,460 | 62,380 | 66,280 | 70,220 | 74,160 | 78,120 | 82,110 | 86,090 | 90,080 | 94,070 | 98,060 | 100,040 | 104,020 | 108,010 | 112,030 | 116,140 | 120,190 | 124,240 | 128,310 | 132,430 | 136,540 | 140,670 | 144,780 | 148,880 | 152,980 | 156,990 | 160,960 | 164,940 | 168,920 | 172,910 | 176,860 | 180,840 | 184,830 | 188,820 | 192,810 | 196,790 | 200,770 | 204,760 | 208,74

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

sentences: ['IOMMU significa "Interfaz de Mapeo de Memoria de Dispositivo".', 'Es una característica de hardware que permite que múltiples dispositivos de memoria, como tarjetas gráficas, accedan a la memoria del sistema de forma segura.', 'IOMMU proporciona una capa de abstracción entre los dispositivos de memoria y la memoria del sistema, permitiendo que cada dispositivo tenga su propio espacio de direcciones virtual.', 'Esto ayuda a prevenir conflictos de direcciones de memoria y permite que los sistemas operativos de 64 bits funcionen en hardware de 32 bits.', 'IOMMU es particularmente útil para sistemas que ejecutan múltiples VMs o para sistemas que ejecutan sistemas operativos de 64 bits en hardware de 32 bits.'], passage: ¿Qué significa la abreviatura IOMMU?
IOMMU significa "Interfaz de Mapeo de Memoria de Dispositivo". Es una característica de hardware que permite que múltiples dispositivos de memoria, como tarjetas gráficas, accedan a la memoria del sistema de forma segura. IO

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

sentences: ['Cilleruelo de San Mamés está ubicado en la provincia de Burgos, en la comunidad autónoma de Castilla y León, España.', 'Es un pequeño municipio situado en la comarca del Bierzo Menor.'], passage: ¿Dónde está ubicado Cilleruelo de San Mamés?
Cilleruelo de San Mamés está ubicado en la provincia de Burgos, en la comunidad autónoma de Castilla y León, España. Es un pequeño municipio situado en la comarca del Bierzo Menor., sample_lst: ['Cilleruela de san mamés está situada en la provincia de Burgos, comunidad autónoma de Castilla y León, España. Está ubicada al norte del país, cerca de la frontera con Cantabria. \n\nPor favor, ten en cuenta que los detalles de ubicación pueden variar ligeramente dependiendo del sistema de coordenadas utilizado. Te recomendaría usar un mapa o una aplicación de navegación para obtener las coordenaciones exactas.', 'Cilleruela de san mamés se encuentra en la provincia de Burgos, comunidad autónoma de Castilla y León, España. Está situada en el no

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

sentences: ['Galicia sijaitsee Espanjan luoteisosassa, ja siihen kuuluu kolme maakuntaa: Lugo, Santiago de Compostela ja', 'A Coruña.'], passage: Mistä maakunnista Galicia koostuu?
Galicia sijaitsee Espanjan luoteisosassa, ja siihen kuuluu kolme maakuntaa: Lugo, Santiago de Compostela ja A Coruña. , sample_lst: ['Mistä maakunnista Galicia koostuu?   - Pohjoinen alue: Tämä on alue, joka rajoittuu Asturian, Leónin, Cantabrian, Kastilia ja Leonin, Navarran, Extremaduran ja Castilla y Leonin maakuntiin. ', 'Mistä maakunnista Galicia koostuu?   - Pohjois-Espanja - Keski-Espanja (La Rioja) Galicia on Espanjan luoteisosassa sijaitseva itsehallinnollinen alue. Se rajoittuu pohjoisessa Asturiaan, idässä Kastilia ja Leóniin, etelässä Cantabriaan ja lännessä Biskajanlahteen. Galícian pääkaupunki on Vigo. Luoteis-Espanjaan kuuluvat Galáctica, Avilés, Coruña, Lugo, Pontevedra, Puerto de Náos ja Santiago de Compostela... Gallician maakunnassa on yli 12000 järveä, joista suurin on Lugon maakunnassa s

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

sentences: ["Le programme spatial soviétique Mir comprenait plusieurs pays qui ont envoyé leurs premiers citoyens dans l'espace dans le cadre de ce programme.", "Parmi eux se trouvaient l'Union soviétique, la Russie, le Kazakhstan, le Kirghizistan, le Tadjikistan, l'Ouzbékistan, le Turkménistan et le Bélarus."], passage: Quels pays ont envoyés leurs premiers ressortissants dans l’espace dans le cadre du programme Mir?
Le programme spatial soviétique Mir comprenait plusieurs pays qui ont envoyé leurs premiers citoyens dans l'espace dans le cadre de ce programme. Parmi eux se trouvaient l'Union soviétique, la Russie, le Kazakhstan, le Kirghizistan, le Tadjikistan, l'Ouzbékistan, le Turkménistan et le Bélarus., sample_lst: ["1.1 Quels sont les pays qui ont envoyé leurs premières femmes dans l'espace dans les années 1980?\n2.2 Quels autres pays sont actuellement en train d’envoyer leurs astronautes dans la Station spatiale internationale?\n3. Quels ont été les premiers pays à envoyer des h

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

sentences: ['La série White Collar a été doublée en français par la société de doublage Lylo Doublage.<|im_end|>'], passage: À quelle société de doublage a été confiée l’adaptation en français de la série White Collar?
La série White Collar a été doublée en français par la société de doublage Lylo Doublage.<|im_end|> 
, sample_lst: ["La série américaine White Colllar a fait l'objet d'une adaptation française, diffusée sur TF1 sous le titre Les Petits Meurtres d’Agatha Christie.\n\nCette série est une adaptation de White collar, une série télévisée américano-canadienne en 101 épisodes de 42 minutes, créée par Jeff Eastin et diffusee entre le 23 octobre 09 et le le19 décembre 99 sur USA Network.<|im_end|> \n", "La série américaine White Colllar a fait l'objet d'une adaptation en version française par la sociéte de post-production et de distribution de voix off, Nice Fellow.\n\nL'adaption a eu lieu en 2010.<|im_end|> \n", 'La série américaine White Colllar, diffusée sur la chaîne USA Netw