# **Preparing Dataset to fine-tune**

In [None]:
from datasets import load_dataset, load_metric

import pandas as pd
import numpy as np

import hazm
from num2fawords import words, ordinal_words
from tqdm import tqdm

from sklearn.model_selection import train_test_split

import os
import string
import six
import re
import glob

In [None]:
common_voice_train = load_dataset("csv", data_files={"train": "/home/sadeghi/train_finall_cleaned.csv"}, delimiter=",")["train"]
common_voice_test = load_dataset("csv", data_files={"test": "/home/sadeghi/test_finall_cleaned.csv"}, delimiter=",")["test"]
print(common_voice_train)
print(common_voice_test)

Using custom data configuration default-9508ea3d788324b5
Reusing dataset csv (/home/sadeghi/.cache/huggingface/datasets/csv/default-9508ea3d788324b5/0.0.0/433e0ccc46f9880962cc2b12065189766fbb2bee57a221866138fb9203c83519)


  0%|          | 0/1 [00:00<?, ?it/s]

Using custom data configuration default-af3283a7adcee033
Reusing dataset csv (/home/sadeghi/.cache/huggingface/datasets/csv/default-af3283a7adcee033/0.0.0/433e0ccc46f9880962cc2b12065189766fbb2bee57a221866138fb9203c83519)


  0%|          | 0/1 [00:00<?, ?it/s]

Dataset({
    features: ['path', 'sentence'],
    num_rows: 913839
})
Dataset({
    features: ['path', 'sentence'],
    num_rows: 9230
})


Extract Persian language characters and make tokenizer and feature extractor and finally processor

In [None]:
def extract_all_chars(batch):
    all_text = " ".join(batch["sentence"])
    vocab = list(set(all_text))
    return {"vocab": [vocab], "all_text": [all_text]}

In [None]:
vocab_train = common_voice_train.map(extract_all_chars, batched=True, batch_size=-1, keep_in_memory=True, remove_columns=common_voice_train.column_names)
vocab_test = common_voice_train.map(extract_all_chars, batched=True, batch_size=-1, keep_in_memory=True, remove_columns=common_voice_test.column_names)

  0%|          | 0/1 [00:00<?, ?ba/s]

  0%|          | 0/1 [00:00<?, ?ba/s]

In [None]:
vocab_list = list(sorted(set(vocab_train["vocab"][0]) ))
vocab_list = [vocab for vocab in vocab_list if vocab not in [" ", "\u0307","<",">"]]
print(len(vocab_list))
print(vocab_list)

35
['آ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ل', 'م', 'ن', 'ه', 'و', 'پ', 'چ', 'ژ', 'ک', 'گ', 'ی', '\u200c']


In [None]:
special_vocab = ["<pad>", "<s>", "</s>", "<unk>", "|"]

In [None]:
vocab_dict = {v: k for k, v in enumerate(special_vocab + vocab_list)}
print(len(vocab_dict))
print(vocab_dict)

40
{'<pad>': 0, '<s>': 1, '</s>': 2, '<unk>': 3, '|': 4, 'آ': 5, 'ئ': 6, 'ا': 7, 'ب': 8, 'ت': 9, 'ث': 10, 'ج': 11, 'ح': 12, 'خ': 13, 'د': 14, 'ذ': 15, 'ر': 16, 'ز': 17, 'س': 18, 'ش': 19, 'ص': 20, 'ض': 21, 'ط': 22, 'ظ': 23, 'ع': 24, 'غ': 25, 'ف': 26, 'ق': 27, 'ل': 28, 'م': 29, 'ن': 30, 'ه': 31, 'و': 32, 'پ': 33, 'چ': 34, 'ژ': 35, 'ک': 36, 'گ': 37, 'ی': 38, '\u200c': 39}


In [None]:
import json
with open('/home/sadeghi/New_training_all_data/vocab.json', 'w') as vocab_file:
    json.dump(vocab_dict, vocab_file)

In this part, the model path and the save path of the final results are determined. We did this locally!! 
here we've chosen [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) (which we have downloaded and used locally!!!)
The reason is the large amount of data used in the training phase of this model and the support of 53 languages, but you can choose your desired model from [here](https://huggingface.co/facebook) and replace it with this model.
[here](https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec#wav2vec-20) is a comparison between models.

Read the [paper](https://arxiv.org/abs/2006.11477) for more information.

 Also You can use [Google colab](https://colab.research.google.com/) just consider that, it cannot use colab with the entire dataset of [Mozilla Commonvoice](https://https://commonvoice.mozilla.org/en/datasets). 

In [None]:
save_dir = "/home/sadeghi/New_training_all_data/"
model_name_or_path = "/mnt/wav2vec2/xslr_model_facebook/"

In [None]:
from transformers.trainer_utils import get_last_checkpoint

last_checkpoint = None
if os.path.exists(save_dir):
    last_checkpoint = get_last_checkpoint(save_dir)

print(last_checkpoint if last_checkpoint else str(None))

None


In [None]:
from transformers import Wav2Vec2CTCTokenizer

#if not os.path.exists(save_dir) and not model_name_or_path:
   # print("Load from scratch")
tokenizer = Wav2Vec2CTCTokenizer(
        "/home/sadeghi/New_training_all_data/vocab.json", 
        bos_token="<s>",
        eos_token="</s>",
        unk_token="<unk>",
        pad_token="<pad>",
        word_delimiter_token="|",
        do_lower_case=False)
#else:
  #  print(f"Load from {model_name_or_path}")
    #tokenizer = Wav2Vec2CTCTokenizer.from_pretrained("m3hrdadfi/wav2vec2-large-xlsr-persian-v3")


In [None]:
text = "از مهمونداری کنار بکشم"
print(" ".join(tokenizer.tokenize(text)))
print(tokenizer.decode(tokenizer.encode(text)))

ا ز | م ه م و ن د ا ر ی | ک ن ا ر | ب ک ش م
از مهمونداری کنار بکشم


In [None]:
from transformers import Wav2Vec2FeatureExtractor

if not os.path.exists(save_dir) and not model_name_or_path:
    print("Load from scratch")
    feature_extractor = Wav2Vec2FeatureExtractor(feature_size=1, sampling_rate=16000, padding_value=0.0, do_normalize=True, return_attention_mask=True)
else:
    print(f"Load from {model_name_or_path}")
    feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name_or_path)

Load from /mnt/wav2vec2/xslr_model_facebook/


In [None]:

from transformers import Wav2Vec2Processor
processor = Wav2Vec2Processor(feature_extractor=feature_extractor, tokenizer=tokenizer)


In [None]:
if len(processor.tokenizer.get_vocab()) == len(processor.tokenizer):
    print(len(processor.tokenizer))

40


## Resample your data!
The sampling rate at which the audio files should be digitalized is 16000 hertz (Hz).
Since the pre-trained [Wav2Vec2](https://huggingface.co/facebook/wav2vec2-large-xlsr-53)  model is trained with 16000 Hz sample rate audio files, we must resample our data accordingly.

In [None]:
import torchaudio
import librosa


target_sampling_rate = 16_000

def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    speech_array = speech_array.squeeze().numpy()
    #speech_array = librosa.resample(np.asarray(speech_array), sampling_rate, target_sampling_rate)
    
    
    batch["speech"] = speech_array
    batch["sampling_rate"] = target_sampling_rate
    batch["duration_in_seconds"] = len(batch["speech"]) / target_sampling_rate
    batch["target_text"] = batch["sentence"]
    return batch

In [None]:
common_voice_train = common_voice_train.map(speech_file_to_array_fn, remove_columns=common_voice_train.column_names, num_proc=24)
common_voice_test = common_voice_test.map(speech_file_to_array_fn, remove_columns=common_voice_test.column_names, num_proc=24)

In [None]:
print(common_voice_train[0]["sampling_rate"])
print(common_voice_test[0]["sampling_rate"])

16000
16000


split data between 5-10 s to achieve best performance!!

In [None]:
min_duration_in_seconds = 5.0
max_duration_in_seconds = 10.0

def filter_by_max_duration(batch):
   return min_duration_in_seconds <= batch["duration_in_seconds"] <= max_duration_in_seconds

In [None]:
print(f"Split sizes [BEFORE]: {len(common_voice_train)} train and {len(common_voice_test)} validation.")

_common_voice_train = common_voice_train.filter(filter_by_max_duration, num_proc=24)
#_common_voice_test = common_voice_test
_common_voice_test = common_voice_test.filter(filter_by_max_duration, num_proc=4)

print(f"Split sizes [AFTER]: {len(_common_voice_train)} train and {len(_common_voice_test)} validation.")

Split sizes [BEFORE]: 913839 train and 9230 validation.
Split sizes [AFTER]: 169710 train and 1725 validation.


In [None]:
import IPython.display as ipd
import numpy as np
import random

sample = common_voice_train
rand_int = random.randint(0, len(sample))

print("Target text:", sample[rand_int]["target_text"])
print("Input array shape:", np.asarray(sample[rand_int]["speech"]).shape)
print("Sampling rate:", sample[rand_int]["sampling_rate"])

ipd.Audio(data=np.asarray(sample[rand_int]["speech"]), autoplay=True, rate=16000)

Target text: شورای عالی برنامه ریزی وزارت علوم تحقیقات و فناوری 
Input array shape: (128448,)
Sampling rate: 16000


In [None]:
def prepare_dataset(batch):
    # check that all files have the correct sampling rate
    assert (
        len(set(batch["sampling_rate"])) == 1
    ), f"Make sure all inputs have the same sampling rate of {processor.feature_extractor.sampling_rate}."

    batch["input_values"] = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0]).input_values
    
    with processor.as_target_processor():
        batch["labels"] = processor(batch["target_text"]).input_ids
    return batch

In [None]:
_common_voice_train = _common_voice_train.map(prepare_dataset, remove_columns=common_voice_train.column_names, batch_size=8, num_proc=24, batched=True)
_common_voice_test = _common_voice_test.map(prepare_dataset, remove_columns=common_voice_test.column_names, batch_size=8, num_proc=24, batched=True)

  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)


  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)


  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)


  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)


  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)
  tensor = as_tensor(value)


In [None]:
import torch

from dataclasses import dataclass, field
from typing import Any, Dict, List, Optional, Union

@dataclass
class DataCollatorCTCWithPadding:
    """
    Data collator that will dynamically pad the inputs received.
    Args:
        processor (:class:`~transformers.Wav2Vec2Processor`)
            The processor used for proccessing the data.
        padding (:obj:`bool`, :obj:`str` or :class:`~transformers.tokenization_utils_base.PaddingStrategy`, `optional`, defaults to :obj:`True`):
            Select a strategy to pad the returned sequences (according to the model's padding side and padding index)
            among:
            * :obj:`True` or :obj:`'longest'`: Pad to the longest sequence in the batch (or no padding if only a single
              sequence if provided).
            * :obj:`'max_length'`: Pad to a maximum length specified with the argument :obj:`max_length` or to the
              maximum acceptable input length for the model if that argument is not provided.
            * :obj:`False` or :obj:`'do_not_pad'` (default): No padding (i.e., can output a batch with sequences of
              different lengths).
        max_length (:obj:`int`, `optional`):
            Maximum length of the ``input_values`` of the returned list and optionally padding length (see above).
        max_length_labels (:obj:`int`, `optional`):
            Maximum length of the ``labels`` returned list and optionally padding length (see above).
        pad_to_multiple_of (:obj:`int`, `optional`):
            If set will pad the sequence to a multiple of the provided value.
            This is especially useful to enable the use of Tensor Cores on NVIDIA hardware with compute capability >=
            7.5 (Volta).
    """

    processor: Wav2Vec2Processor
    padding: Union[bool, str] = True
    max_length: Optional[int] = None
    max_length_labels: Optional[int] = None
    pad_to_multiple_of: Optional[int] = None
    pad_to_multiple_of_labels: Optional[int] = None

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        # split inputs and labels since they have to be of different lenghts and need
        # different padding methods
        input_features = [{"input_values": feature["input_values"]} for feature in features]
        label_features = [{"input_ids": feature["labels"]} for feature in features]

        batch = self.processor.pad(
            input_features,
            padding=self.padding,
            max_length=self.max_length,
            pad_to_multiple_of=self.pad_to_multiple_of,
            return_tensors="pt",
        )
        with self.processor.as_target_processor():
            labels_batch = self.processor.pad(
                label_features,
                padding=self.padding,
                max_length=self.max_length_labels,
                pad_to_multiple_of=self.pad_to_multiple_of_labels,
                return_tensors="pt",
            )

        # replace padding with -100 to ignore loss correctly
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        batch["labels"] = labels

        return batch

In [None]:
data_collator = DataCollatorCTCWithPadding(processor=processor, padding=True)

Use a metric to evaluate your fine-tuning task, here we've chosen WER, also you can use CER!

In [None]:
wer_metric = load_metric("wer")

Using the latest cached version of the module from /home/sadeghi/.cache/huggingface/modules/datasets_modules/metrics/wer/959256dcd2f8f341e108aa768b4433db0dd58f85e23e818e491c2d6d0f84113b (last modified on Sun Oct 23 20:51:26 2022) since it couldn't be found locally at wer, or remotely on the Hugging Face Hub.


In [None]:
import random


def compute_metrics(pred):
    pred_logits = pred.predictions
    pred_ids = np.argmax(pred_logits, axis=-1)

    pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id

    pred_str = processor.batch_decode(pred_ids)
    # we do not want to group tokens when computing the metrics
    label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
    
    if isinstance(label_str, list):
        if isinstance(pred_str, list) and len(pred_str) == len(label_str):
            for index in random.sample(range(len(label_str)), 3):
                print(f'reference: "{label_str[index]}"')
                print(f'predicted: "{pred_str[index]}"')

        else:
            for index in random.sample(range(len(label_str)), 3):
                print(f'reference: "{label_str[index]}"')
                print(f'predicted: "{pred_str}"')

    wer = wer_metric.compute(predictions=pred_str, references=label_str)

    return {"wer": wer}

# **Set your model config**

In [None]:
from transformers import Wav2Vec2ForCTC

model = Wav2Vec2ForCTC.from_pretrained( 
    model_name_or_path,
    attention_dropout=0.05,
    activation_dropout=0.1,
    hidden_dropout=0.1,
    feat_proj_dropout=0.01249,
    final_dropout=0.0,
    mask_time_prob=0.05,
    mask_time_length=10,
    mask_feature_prob=0,
    mask_feature_length=10,
    layerdrop=0.01377,
    gradient_checkpointing=True, 
    ctc_loss_reduction="mean", 
    ctc_zero_infinity=True,
    bos_token_id=processor.tokenizer.bos_token_id,
    eos_token_id=processor.tokenizer.eos_token_id,
    pad_token_id=processor.tokenizer.pad_token_id,
    vocab_size=len(processor.tokenizer.get_vocab())
)

Some weights of the model checkpoint at /mnt/wav2vec2/xslr_model_facebook/ were not used when initializing Wav2Vec2ForCTC: ['quantizer.weight_proj.weight', 'quantizer.codevectors', 'project_hid.weight', 'project_hid.bias', 'project_q.bias', 'quantizer.weight_proj.bias', 'project_q.weight']
- This IS expected if you are initializing Wav2Vec2ForCTC from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing Wav2Vec2ForCTC from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of Wav2Vec2ForCTC were not initialized from the model checkpoint at /mnt/wav2vec2/xslr_model_facebook/ and are newly initialized: ['lm_head.weight', 'lm_head.bias']
You should probably TRAIN this model on a down-stream task to be abl

In [None]:
model.freeze_feature_extractor()



Set the `TrainingArguments`specially` per_device_train_batch_size` & `per_device_eval_batch_size`to achieve best performance.

In [None]:
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir=save_dir,
    group_by_length=True,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    gradient_accumulation_steps=2,
    evaluation_strategy="steps",
    num_train_epochs=30,
    fp16=True,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=10,
    learning_rate=4e-4,
    warmup_steps=500,
    save_total_limit=2,
    dataloader_num_workers=24 
)

# **Train**
Start training
Remember you have to use GPU!

In [None]:
from transformers import Trainer

trainer = Trainer(
    model=model,
    data_collator=data_collator,
    args=training_args,
    compute_metrics=compute_metrics,
    train_dataset=_common_voice_train,
    eval_dataset=_common_voice_test,
    tokenizer=processor.feature_extractor,
)

Using cuda_amp half precision backend


In [None]:
print("step1")
train_result = trainer.train()
print("step2")

metrics = train_result.metrics
print("step3")
max_train_samples = len(_common_voice_train)
metrics["train_samples"] = min(max_train_samples, len(_common_voice_train))
print("step4")
trainer.save_model()
print("model created!")
trainer.log_metrics("train", metrics)
trainer.save_metrics("train", metrics)
trainer.save_state()

step1


***** Running training *****
  Num examples = 169710
  Num Epochs = 30
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 2
  Total optimization steps = 318210
Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"






Step,Training Loss,Validation Loss,Wer
1000,0.6493,0.478888,0.445842
2000,0.5117,0.375099,0.346497
3000,0.467,0.340536,0.323761
4000,0.4151,0.319475,0.29873
5000,0.4084,0.300313,0.273003
6000,0.4888,0.295123,0.274683
7000,0.4728,0.286761,0.283736
8000,0.3751,0.27341,0.254322
9000,0.3647,0.269279,0.253052
10000,0.4349,0.264764,0.252274


***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "و این یک تاثیر منفی واقعی روی همکارانمان شرکت‌هایمان و مجموع ظرفیت نوآوریمان دارد"
predicted: "و این یک تصیر منفیر باقروی همکارانمان شرکت‌هایمان و مجمون ذرفیت نوقآوریمان دارد"
reference: "روابط ایران و عمان روابط دو جانبه بین عمان و جمهوری اسلامی ایران می باشد"
predicted: "روابت ایران و عبان روابت دو جانو به این آمان و جمهوری اسلامه ایران می باشد"
reference: "این موتور در حقیقت می تواند از اجداد انواع موتورسیکلت در جهان به شمار آید"
predicted: "این متور در حقیقت می تواند از اجدد انواع متور سیکلت در جهان به و شمار آید"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-1000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-1000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-1000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-1000/preprocessor_config.json
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "میترسند که با بحران‌های مهم و فوری روبرو شوند"
predicted: "می تهسند که با بحران‌های مهمفوری روبرو شود"
reference: "فرد مبتلا به چنین کسالتی از بستر خود بلند می شود و راه می رود"
predicted: "فهن محتانا به کرین که صلتی اسپستار خود بالای می شود برداخت میرا"
reference: "خلاصه آن سال برایم تمرین عملی دزدی حرفه ای بود"
predicted: "خلاس آن سال برایم تمرین عملی دزی حرفه ای بود"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-2000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-2000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-2000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-2000/preprocessor_config.json
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "از نمایشگاه کتاب اومدم خونه بابام میگه چرا کتاب نخریدی"
predicted: "از نمایشکاه کتاب اومدم خونه با بام میگه چرا کتاب نخریدی"
reference: "فیلم زندگینامه استیون هاوکینگ رو که دیدم تصمیم گرفتم دانشمند بشم"
predicted: "فیلم زندگین امی اسفهاف کیمیو که دیدم تسیر داشت میشو"
reference: "اسلامی برمی انگیزند این‌ها شمشیری"
predicted: "اسلان برمی انگیزد این‌ها شمشیر ‌‌"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-3000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-3000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-3000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-3000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-1000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "شاید بتوان اظهار کرد که این شاخه روان شناسی به ایجاد شرایط آرمانی صنعت توجه می کند"
predicted: "شاید بتوان اصهار کرد که این شاخه روان شناسی به ایجاد شرایطا آرمانی صنعت توجه می کند"
reference: "مرتب مریض می شدم نمی توانستم فکر کنم نمی توانستم اتفاقات را بخاطر بیاورم"
predicted: "مرتب ملیز می شدم می توانستم فکر کنم نمی توانستم اطفقات را به خاطر بیاورم"
reference: "او بر لب استخر می ایستد و به سخنان مربی خود درباره حرکاتی که باید انجام بدهد گوش می دهد"
predicted: "او بر لب اسخل می استد و به سخنان مربی خود درباره حرکاتی که باید انجام بدهد گوش می دهد"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-4000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-4000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-4000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-4000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-2000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "تن‌ها کار تو کمک کردن به دوستت هستش"
predicted: "تن‌ها کارتو کمک ردن به دوستت هسته"
reference: "اگه اینجا رو ترک کنی دیگه نمی تونی به اینجا برگردی"
predicted: "اگه اینجا رو ترک کنی دیگه نمی تونی به اینجا برگردی"
reference: "اگه می شه پیاده بریم تو راه بهتون میگم منم قبول کردم"
predicted: "عگه میشه پیاده بهمی تو رو بهتون میگنی منا قوول کردن"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-5000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-5000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-5000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-5000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-3000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "قلب من با اوست و من که تیرداد پادشاهم تا زنده ام از یادش نخواهم برد"
predicted: "قلب من بااوس و من که تیرداد پادشاهم تا زندهم از یادش نخواهم برد"
reference: "دکتر مهاجرانی در بازدید از مرکز نشر میراث مکتوب اظهار امیدواری کرد این مرکز به نقطه ای برسد که هر هفته یک اثر احیاشده را منتشر کند"
predicted: "دکتر مهاجرانی در بازدید از مرکز نشت میراس مکدوب اثهار امیدوالی کردین مرکز به نقطهی برسد که هر هفت یک ازثر احیا شده را منتشر کند"
reference: "و ما باید تحت هر شرایطی خود را عهده دار این مسئولیت بزرگ بدانیم و در تحقیق آن اگر کوتاهی بنماییم خیانت به اسلام و مسلمین کرده ایم"
predicted: "و ما باید تحت هر شعایتی خود را افتدار این مسئولت وزرگ بدانیم و در تحقیق آن اگر کوتاهی به نمایین خیانتو اسکان و مسیمی کرد د"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-6000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-6000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-6000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-6000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-4000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "این تغییرات پیش شماره‌های بیست و دو بیست و سه بیست و چهار و بیست و نه را شامل نشده است"
predicted: "این تغییرات پیشماره‌های بیست و دو بیست و سه بیست و چهار و بیست و نه را شامل نشده است"
reference: "یعنی یه جورایی حس میکردم به چیزی که می خوام میرسم اون سال یه رتبه خیلی خوب اوردم"
predicted: "یعنی یک جورایی حس میکردم به چیزی که می خوام میرسم اون سال یه رطبه خیلی خوب آوردم"
reference: "تظاهرات هم زمان در هر گوشه و کنار خیابانی در جریان بود"
predicted: "تضاهراتهمند زمان در هر گوشه و کنان خیابانی در جریام بکد دررررند"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-7000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-7000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-7000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-7000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-5000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "فضل که از طرفداران علویان بود یحیی بن عبدالله را به صلح فرا می خواند و خلیفه نیز امان نامه می دهد"
predicted: "فصلی از طرف داران علویان بود یهیبن عبدالله را به صلح فرا می خواند و خلیفه نیز اما نامه می دهد"
reference: "آنچه می دانیم این است که سبک‌های آغازین طراحی از مصر نشات گرفته اند"
predicted: "آنچه می دانیم این است که سبک‌ای آغازین طراحی از مصر نشت گرفته اد"
reference: "چه میشد اگر ما رشدی اقتصادی همچون چین میداشتیم"
predicted: "چه میشاد اگر ما رشد اقتصادی همچون چین میداشتیم"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-8000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-8000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-8000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-8000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-6000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "متخصصان ژاپنی تلاش کرده اند تا در ساختن این ساختمان به گونه ای ظریف طبیعت و فناوری را در کنار یکدیگر قرار دهند"
predicted: "متخصصان ژاپنی تلاش کردند تا در ساختن این ساختمان به گونه ضریف طبیعت و فناوری را در کنار یکدیگر قرار دهند"
reference: "زدو بند داشتن یا اینکه اینا باهم یه زدو بندی داشتن"
predicted: "زد و بن داشته ان یا اینکه اینا با هم یه زد و بنگی داشتن"
reference: "فردوسی شاهنامه را شصت هزار بیت به اتمام رسانید و توسط ایاز به نزد سلطان محمود فرستاد"
predicted: "فردوسی شاهنامه را شصت هزار بیت به اتمام رسانید و توسط عیاز به نزد سلطان محمود فرستاد د"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-9000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-9000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-9000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-9000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-7000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "قرار بود عروس این خونه باشم"
predicted: "قلار بود عروز نین خونه باشم"
reference: "همین فعالیت‌های بدنی سبب رشد جسمانی و هماهنگی آن با حواس کودک قرار می گردد"
predicted: "همین فعالیت‌های بدنی سبب رشد جسمانی و هماهنگی آن با حواز کودک قرار می گردد"
reference: "تن‌ها کار تو کمک کردن به دوستت هستش"
predicted: "تن‌ها کارتو کمک کردن به دوستت هستش"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-10000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-10000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-10000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-10000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-8000] due to args.save_total_limit


***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "چراکه سبک نگارش آن نمونه خوبی از آثار منشیان قرن پنج هجری است"
predicted: "چراکه سبک نگارش آن نمونه خوبی از آثار منشیان قرن پنج حجری است"
reference: "البته اشکالی که وجود دارد این است که بیش‌تر مفاهیم انتزاعی را نمی توان به صورت عینی نشان داد"
predicted: "البته اشکالی که وجود دارد این است که بیش‌تر مفاهیم انتظاعی را نمی توان به صورت عینی نشان داد"
reference: "با توجه به این که حاکم محکوم برنامه‌های خویش است نمی تواند به ملاحظه خواسته‌های نادرست مردم از اصول دست بردارد"
predicted: "با توجه به این که حاکم محکوم برنامه‌های خویش اصتل نمی توان به ملاحظه خاسته‌های دان درست مردم از اصول دست بردارد"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-11000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-11000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-11000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-11000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-9000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "ناتو طرح پرواز ممنوع آسمان لیبی را در دست بررسی دارد"
predicted: "ناتو طرح پرواز ممنوع آسمان لیبی را در دست بردسی دارد"
reference: "از فیلم‌ها یا برنامه‌های تلویزیونی که وی در آن نقش داشته است می توان به طناب اشاره کرد"
predicted: "از فیلم‌ها یا برنامه‌های تلویزیونی که وی در آن نقش داشته است می توان به طنابع اشاره کرد"
reference: "زبان مورد استفاده من را یاد بگیرید تا بتوانید هویتم را توصیف کنید"
predicted: "زمان مورد استفاده من را یاد بگیرید تا بتوانید قوویتم را توصیف کنید"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-12000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-12000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-12000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-12000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-10000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "از صدای خود استفاده کنید و باور داشته باشید که مهم است"
predicted: "از صدای خود استفاده کنید و باور داشته میشید ک مهم است"
reference: "این زمین لرزه در ساعت چهار و چهل و نه دقیقه بامداد دیروز ثبت شده است"
predicted: "این زمین لرظه در ساعت چهار و چهل و نه دقیقه بامداد دیروز ثبت شده است"
reference: "از اندیشمندان نوزده کشور کنگره بین المللی تمدن تعلیم و تربیت و خانواده در تهران برگزار می شود"
predicted: "نزاندیشمندان نوزده کشور کنگره بین المللی تمدن تعلیم و تربیت به خانواده در تهران برگزار می شود"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-13000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-13000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-13000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-13000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-11000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "واقعا داری سعی می کنی مردی که عاشقشم رو بکشی"
predicted: "واقعا داری سعی می خونی مردی که آشقشم رو بکشی"
reference: "باید راه دیگه ای برای گرم شدن پیدا کنیم"
predicted: "باید رای دیگه ای برای گم شدم پیدام کنیم ورای گرم شدم پیدا"
reference: "به مناسبت شب‌های قدر ماه مبارک رمضان چندین هزار زندانی مورد عفو عمومی قرار خواهند گرفت"
predicted: "به مناسبت شرب‌های قدر ماه مبارک رمضان چندین هزار زندانی مورد عفو عمومی قرار خواهند گرفت"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-14000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-14000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-14000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-14000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-12000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "تجمع آدمایی که از شغلشون متنفرن اما بهش مجبور و محکوم"
predicted: "تجمع آدمایی که از شغلشو متنفرا اما بهش مجبور و محکوم"
reference: "از فیلم‌ها یا برنامه‌های تلویزیونی که وی در آن نقش داشته است می توان به طناب اشاره کرد"
predicted: "از فیلم‌ها یا برنامه‌های تلویزیونی که وی در آن نقش داشته است می توان به طناب اشاره کرد"
reference: "کمی پس از پرواز به دلیل نشت روغن در یکی از دو موتور‌ها مجبور به بازگشت و فرود اضطراری شد"
predicted: "کمی پس از پرواز به دلیل نشت روغن در یکی از دموتور‌ها ملبوع بازگشت و فرود ازتراری شد"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-15000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-15000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-15000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-15000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-13000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "فدراسیون فوتبال سوریه در پی این حادثه همچنین سه امتیاز از تیم‌های فوتبال بزرگ سالان"
predicted: "درارسیون فوتبال سوریه در پی این حادثه همچینس امتیاز از تیم‌های فوتتال وا بزرگ به سهرام"
reference: "در حقیقت حتی خطر مواجهه با زمین داغ گلخان‌های را هم در پیش داریم"
predicted: "در حقیقت حتی خطر مواجهه با زمین داغ گلخانه ای را هم در پیش داریم"
reference: "شب‌های پاییزی قشنگ‌ترین زمانیه که ازش آرامش میگیرم"
predicted: "شب‌های پاییزی قشنگ‌ترین زمانیه که ازش آرامش میگیرم"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-16000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-16000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-16000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-16000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-14000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "شاید بتوان اظهار کرد که این شاخه روان شناسی به ایجاد شرایط آرمانی صنعت توجه می کند"
predicted: "شاید بتوان اظهار کرد که این شاخه روانشناسی به ایجاد شرایط آرمانی صنعت توجه می کند"
reference: "می بینید با اینکه دستش رو شده اما باز هم می خواد گولتون بزنه"
predicted: "میبینزید بلطظیخاطیر دارید اما پاسمی فقت گرشن کر دند ی"
reference: "اکنون بیش از شصت هزار تن از اتباع چین به شکل قانونی در ایتالیا سکونت دارند"
predicted: "اکنون بیش از شد هزار تن از اتباع چین به شکل قانونی در ایتالیا سکونت دارند"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-17000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-17000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-17000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-17000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-15000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "وی همچنین در تیم ملی فوتبال یونان بازی کرده است"
predicted: "وی همچنین در تی ملی فوتبالیونان بازی کرده است"
reference: "شیطونه می گه همه چیزت رو جمع کن و برو به روسیه"
predicted: "شیتونه می گه همه چیزت رو جمع کن و برو ب روسیه"
reference: "بهت گفتم از ماشین یه چیزایی سرم می شه"
predicted: "بهت گفتم از ماشین یه چیزایی سرم می شه"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-18000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-18000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-18000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-18000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-16000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "فدراسیون فوتبال آنگولا نهاد اداره کننده مسابقات فوتبال و فوتسال در کشور آنگولا است"
predicted: "فدراسیون فوتبال عنبولا نهاد ده اداره کننده مسابقات فوتبال فوتسال در کشور عمول است ا"
reference: "در این میان و در این میدان کلام مقام معظم رهبری قاطع و فارق است"
predicted: "در این میان و در این میدان کلام مقام معظم رهبری قاطع و فارق است"
reference: "درحالی که هنوز سهم این نوع تجارت در کل تجارت جهانی اندک می باشد"
predicted: "در حالی که هنوز سهم این نع تجارت در کل تجارات جهانی اندک می باشد   ر ر ر ر"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-19000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-19000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-19000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-19000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-17000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "از آن آدم‌هایی نیستم که خیلی حرفه ای شده باشم و باید شخصیتم با یک سریال هماهنگ باشد تا بتوانم"
predicted: "از آن آدم‌هایی نیستم که خیلی حرفه ای شده باشم و باید شخصیتم با یک سریال هماهنگ باشد تا بتوانم"
reference: "بازیکنان دو تیم پس از نود دقیقه تلاش به تساوی بدون گل دست یافتند"
predicted: "بازیکنان دو تین پس از نود دقیق تلاش به تصاویر بدون گل دست یافتند دندندندد"
reference: "همه این‌ها درست است اما کار اصلی طلبه درس خواندن است مثل کسی که کاری دارد کارش را که انجام می دهد برمی گردد"
predicted: "همه این‌ها درست است اما کار اصلی طلبه درس خواندن است مثل کس ک کاری دارد کارش را که انجام می دهد برمی گردد"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-20000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-20000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-20000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-20000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-18000] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8




reference: "وقتی این‌ها را رد کردم احساس کردم به آن شدت که در بعضی‌ها عشق به این رشته وجود دارد در من وجود ندارد"
predicted: "وقتی این‌ها را رد کردم احساس کردم به آن شدت که در بعضی‌ها عشق به این رشته وجود دارد در من وجود ندارد"
reference: "فرماندار نی ریز و دبیر این کنگره هدف از برگزاری آن را معرفی ابعاد شخصیتی فضل ابن حاتم و آثار این اندیشمند ذکر کرد"
predicted: "فرماندار نریز و دبیر این کنگره هدف از برگزاری آن را معرفی ابعاد شخصیتی فضل بن حاتم و آثار این اندیشمن ذکر کرد"
reference: "کودکان را دور خود جمع کرده و آنچه را که می خواهید آن‌ها انجام دهند کاملا شرح دهید"
predicted: "ودکان را دور خود جمع کرده و آنچه را می خواهید آن‌ها انجام دهند کاملا شهر دهید ککی"


Saving model checkpoint to /home/sadeghi/New_training_all_data/checkpoint-21000
Configuration saved in /home/sadeghi/New_training_all_data/checkpoint-21000/config.json
Model weights saved in /home/sadeghi/New_training_all_data/checkpoint-21000/pytorch_model.bin
Feature extractor saved in /home/sadeghi/New_training_all_data/checkpoint-21000/preprocessor_config.json
Deleting older checkpoint [/home/sadeghi/New_training_all_data/checkpoint-19000] due to args.save_total_limit


***** Running Evaluation *****
  Num examples = 1725
  Batch size = 8


find result files on your final path

In [None]:
final_path = "/home/sadeghi/New_training_all_data/"