# Finetuning on Fleurs KO, TE, HE

Check whisper_tinetune_demo notebook for finetuning pipeline

Details of debugging Telugu preprocessing can be found in [this thread](https://discuss.huggingface.co/t/trainer-runtimeerror-the-size-of-tensor-a-462-must-match-the-size-of-tensor-b-448-at-non-singleton-dimension-1/26010/2)

In [None]:
import utils
import os
from datasets import load_dataset, DatasetDict
from transformers import WhisperFeatureExtractor, WhisperTokenizer

2022-11-13 18:46:22.423662: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-11-13 18:46:22.766193: E tensorflow/stream_executor/cuda/cuda_blas.cc:2981] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2022-11-13 18:46:23.548829: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64:/usr/local/nccl2/lib:/usr/local/cuda/extras/CUPTI/lib64
2022-11-13 18:46:23.548953: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'li

## Prepare Data

In [2]:
# set paths for input/output
root = os.getcwd()
datasets_path = os.path.join(root, 'datasets')
predictions_path = os.path.join(root, 'predictions')
#sivan_path = '/home/sivan/datasets/'
# create folders if they do not already exist
if not os.path.exists(datasets_path): os.makedirs(datasets_path)
if not os.path.exists(predictions_path): os.makedirs(predictions_path)

In [3]:
langs = ["te_in", "ko_kr", "he_il"]
codes = {"te_in": 'Telugu', "ko_kr": 'Korean', "he_il": 'Hebrew'}
fleurs = {}

In [4]:
feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-base")

In [5]:
% % time  # only counts preprocessing and not loading, given cached datasets -- even for preprocessing, should add ~5 minutes to total time for loading/processing of telugu

for lang in langs:
    print("Loading and preprocessing dataset...")
    tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-base", language=codes[lang], task="transcribe")
    fleurs[lang] = DatasetDict(load_dataset('google/fleurs', lang))
    fleurs[lang] = fleurs[lang].map(utils.prepare_dataset,
                                    fn_kwargs={"feature_extractor": feature_extractor, "tokenizer": tokenizer},
                                    remove_columns=fleurs[lang].column_names["train"], num_proc=4)
    print("Saving dataset...")
    fleurs[lang].save_to_disk(os.path.join(datasets_path, 'fleurs_' + lang + '_features'))
    #fleurs[lang].save_to_disk(os.path.join(sivan_path, 'fl_' + lang + '_features')) <--- no permissions

Loading and preprocessing dataset...


Found cached dataset fleurs (/home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a)


  0%|          | 0/3 [00:00<?, ?it/s]

     

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-c818ff5160121eec.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-8d0f61e940315fc0.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-99ebe6087268c447.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-dbbc8c71e3041f1c.arrow


     

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-9d79f83762d90db3.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-3ae4014f8d349b30.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-ede513a80a3f2613.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-def57ab2c5d9b2ea.arrow


     

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-a812162401ab3938.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-8acccfdb5de4bea0.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-a52c8602b1413c62.arrow


 

Loading cached processed dataset at /home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a/cache-682da7e22d076104.arrow


Saving dataset...
Loading and preprocessing dataset...


Found cached dataset fleurs (/home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/ko_kr/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a)


  0%|          | 0/3 [00:00<?, ?it/s]

     

#0:   0%|          | 0/577 [00:00<?, ?ex/s]

 

#1:   0%|          | 0/577 [00:00<?, ?ex/s]

 

#2:   0%|          | 0/577 [00:00<?, ?ex/s]

 

#3:   0%|          | 0/576 [00:00<?, ?ex/s]

     

#0:   0%|          | 0/57 [00:00<?, ?ex/s]

 

#1:   0%|          | 0/57 [00:00<?, ?ex/s]

 

#2:   0%|          | 0/56 [00:00<?, ?ex/s]

 

#3:   0%|          | 0/56 [00:00<?, ?ex/s]

     

#0:   0%|          | 0/96 [00:00<?, ?ex/s]

 

#1:   0%|          | 0/96 [00:00<?, ?ex/s]

 

#2:   0%|          | 0/95 [00:00<?, ?ex/s]

 

#3:   0%|          | 0/95 [00:00<?, ?ex/s]

Saving dataset...
Loading and preprocessing dataset...


Found cached dataset fleurs (/home/alexandriaguo/.cache/huggingface/datasets/google___fleurs/he_il/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a)


  0%|          | 0/3 [00:00<?, ?it/s]

     

#0:   0%|          | 0/811 [00:00<?, ?ex/s]

 

#1:   0%|          | 0/811 [00:00<?, ?ex/s]

 

#2:   0%|          | 0/810 [00:00<?, ?ex/s]

 

#3:   0%|          | 0/810 [00:00<?, ?ex/s]

     

#0:   0%|          | 0/82 [00:00<?, ?ex/s]

 

#1:   0%|          | 0/82 [00:00<?, ?ex/s]

 

#2:   0%|          | 0/82 [00:00<?, ?ex/s]

 

#3:   0%|          | 0/82 [00:00<?, ?ex/s]

     

#0:   0%|          | 0/198 [00:00<?, ?ex/s]

 

#1:   0%|          | 0/198 [00:00<?, ?ex/s]

 

#2:   0%|          | 0/198 [00:00<?, ?ex/s]

 

#3:   0%|          | 0/198 [00:00<?, ?ex/s]

Saving dataset...
CPU times: user 1min 16s, sys: 13.4 s, total: 1min 30s
Wall time: 10min 32s


In [7]:
print(fleurs)
print(fleurs['te_in']['test'])

{'te_in': DatasetDict({
    train: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 2302
    })
    validation: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 311
    })
    test: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 472
    })
}), 'ko_kr': DatasetDict({
    train: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 2307
    })
    validation: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 226
    })
    test: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 382
    })
}), 'he_il': DatasetDict({
    train: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 3242
    })
    validation: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 328
    })
    test: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 792
    })
})}
Dataset({
    feature

In [8]:
# removed -n to allow overwrite

!gsutil -m cp -r./ datasets / fleurs_te_in_features gs: // capstone_datasets / fleurs / preprocess / fl_te_features
!gsutil -m cp -r./ datasets / fleurs_ko_kr_features gs: // capstone_datasets / fleurs / preprocess / fl_ko_features
!gsutil -m cp -r./ datasets / fleurs_he_il_features gs: // capstone_datasets / fleurs / preprocess / fl_iw_features

Copying file://./datasets/fleurs_te_in_features/dataset_dict.json [Content-Type=application/json]...
Copying file://./datasets/fleurs_te_in_features/test/state.json [Content-Type=application/json]...
Copying file://./datasets/fleurs_te_in_features/test/dataset_info.json [Content-Type=application/json]...
Copying file://./datasets/fleurs_te_in_features/test/dataset.arrow [Content-Type=application/octet-stream]...
==> NOTE: You are uploading one or more large file(s), which would run          
significantly faster if you enable parallel composite uploads. This
feature can be enabled by editing the
"parallel_composite_upload_threshold" value in your .boto
configuration file. However, note that if you do this large files will
be uploaded as `composite objects
<https://cloud.google.com/storage/docs/composite-objects>`_,which
means that any user who downloads such objects will need to have a
compiled crcmod installed (see "gsutil help crcmod"). This is because
without a compiled crcmod, comp

## Check FP16

In [3]:
from transformers import is_apex_available
import torch
torch_device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

def is_cuda_and_apex_available():
    is_using_cuda = torch.cuda.is_available() and torch_device == "cuda"
    return is_using_cuda and is_apex_available()

use_fp16 = is_cuda_and_apex_available()

print(use_fp16)

False


## Load Preprocessed Data and Whisper

In [2]:
import utils
from transformers import Seq2SeqTrainingArguments
from datasets import load_from_disk
from transformers import Seq2SeqTrainer
from transformers import WhisperProcessor
from transformers import WhisperForConditionalGeneration
from transformers import WhisperTokenizer

In [3]:
langs = ["ko_kr", "he_il", "te_in"] # token for Fleurs dataset
codes = {"te_in":'te', "ko_kr":'ko', "he_il":'iw'} # token for normalizer and processor decoder
languages = {"te_in": 'Telugu', "ko_kr": 'Korean', "he_il": 'Hebrew'} # token for Whisper processor and tokenizer
fleurs = {}
models = {}
collators = {}
processors={}

In [4]:
for lang in langs:
    # load dataset from disk
    fleurs[lang] = load_from_disk(f"/home/alexandriaguo/datasets/fleurs_{lang}_features")
    print(fleurs[lang])

    # load whisper processor
    processors[lang] = WhisperProcessor.from_pretrained("openai/whisper-base", language=languages[lang], task="transcribe")

    # initialize data collator
    collators[lang] = utils.DataCollatorSpeechSeq2SeqWithPadding(processor=processors[lang])


DatasetDict({
    train: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 2307
    })
    validation: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 226
    })
    test: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 382
    })
})
DatasetDict({
    train: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 3242
    })
    validation: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 328
    })
    test: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 792
    })
})
DatasetDict({
    train: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 2302
    })
    validation: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 311
    })
    test: Dataset({
        features: ['input_features', 'labels'],
        num_rows: 472
    })
})


## Training & Validation

In [5]:
# universal training args
training_args = Seq2SeqTrainingArguments(
    output_dir="/home/sivan",
    per_device_train_batch_size=16,  # originally 16
    gradient_accumulation_steps=1,  # originally 1, increase by 2x for every 2x decrease in batch size
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=4000,
    gradient_checkpointing=True,
    fp16=False,  # original True
    group_by_length=False,  # set true if length is specified in dataset
    evaluation_strategy="steps",
    per_device_eval_batch_size=32,
    predict_with_generate=True,
    generation_max_length=225,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    metric_for_best_model="wer",
    greater_is_better=False,
    push_to_hub=False,  # set true to push trained model to HF
    disable_tqdm=False,  # set false to see progress bar
)

In [None]:
%%time
for lang in langs:
    print(f"Training for {lang} starts...")

    # load pretrained model
    model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base").to("cuda")
    model.config.forced_decoder_ids = None
    model.config.suppress_tokens = []
    model.config.use_cache = False
    
    # uncomment for evaluate original whisper base
    # model.config.forced_decoder_ids = processors[lang].get_decoder_prompt_ids(language = codes[lang], task = "transcribe")

    # redefine output path
    training_args.output_dir = f"/home/sivan/whisper_base_fl_{lang}"

    # specify metric for each language
    tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-base", language=languages[lang], task="transcribe")
    compute_metrics = utils.metrics(codes[lang], tokenizer)


    # set trainer
    trainer = Seq2SeqTrainer(
        args=training_args,
        model=model,
        train_dataset=fleurs[lang]["train"],
        eval_dataset=fleurs[lang]["validation"],
        data_collator=collators[lang],
        compute_metrics=compute_metrics,
        tokenizer=processors[lang].feature_extractor,
    )

    trainer.train() # comment to eval original whisper base

    predict_results = trainer.predict(fleurs[lang]["test"], metric_key_prefix="test")
    metrics = predict_results.metrics
    trainer.log_metrics("test", metrics)
    trainer.save_metrics("test", metrics)

Training for ko_kr starts...


max_steps is given, it will override any value given in num_train_epochs
***** Running training *****
  Num examples = 2307
  Num Epochs = 28
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 1
  Total optimization steps = 4000
  Number of trainable parameters = 72593920


Step,Training Loss,Validation Loss,Wer
1000,0.0372,0.420535,28.889558
2000,0.004,0.477162,28.137225
3000,0.0021,0.506354,29.160397


***** Running Evaluation *****
  Num examples = 226
  Batch size = 8


['택배 회사는 물건을 빨리 배달해 주는 대가로 많은 보수를 받습니다 종정 업무서류 긴급수리를 위한 상품이나 예비 부품의 경우에는 시간 매우 중요합니다 ', '과학자들은 충돌로 인한 폭발이 거대했다고 말한다 ', '대부분 학생들이 가장 비판적인 첨중임으로 물로그작가는 비판을 피하기 위해 그 시기를 향상시키려고 노력하기 시작합니다 ', '아실지 모르겠지만 중앙 아메리카에 서운 대부분의 물품은 이 나라의 면세로 들어갔습니다 ', '또한 의회는 주간의 세법과 관세를 무역할 권한이 없었습니다 '] ['택배회사는 물건을 빨리 배달해 주는 대가로 많은 보수를 받습니다 종종 업무 서류 긴급 수리를 위한 상품이나 예비 부품의 경우에는 시간이 매우 중요합니다 ', '과학자들은 충돌로 인한 폭발이 거대했다고 말한다 ', '대부분 학생들이 가장 비판적인 청중이므로 블로그 작가는 비판을 피하기 위해 글쓰기를 향상시키려고 노력하기 시작합니다 ', '아실지 모르겠지만 중앙아메리카에서 온 대부분의 물품은 이 나라에 면세로 들어왔습니다 ', '또한 의회는 주 간의 세법과 관세를 무효화할 권한이 없었습니다 ']


Saving model checkpoint to /home/sivan/whisper_base_fl_ko_kr/checkpoint-1000
Configuration saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-1000/config.json
Model weights saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-1000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-1000/preprocessor_config.json
***** Running Evaluation *****
  Num examples = 226
  Batch size = 8


['택배 회사는 물건을 빨리 배달해 주는 대가로 많은 보수를 받습니다 종정 업무서류 긴급수리를 위한 상품이나 예비 부품의 경우에는 시간 매우 중요합니다 ', '과학자들은 충돌로 인한 폭발이 거대했다고 말한다 ', '대부분 학생들이 가장 비판적인 첨중임으로 물로그작가는 비판을 피하기 위해 그 시기를 향상시키려고 노력하기 시작합니다 ', '아실지 모르겠지만 중앙 아메리카에 서운 대부분의 물품은 이 나라의 면세로 들어갔습니다 ', '또한 의회는 주간의 세법과 관세를 무유할 권한이 없었습니다 '] ['택배회사는 물건을 빨리 배달해 주는 대가로 많은 보수를 받습니다 종종 업무 서류 긴급 수리를 위한 상품이나 예비 부품의 경우에는 시간이 매우 중요합니다 ', '과학자들은 충돌로 인한 폭발이 거대했다고 말한다 ', '대부분 학생들이 가장 비판적인 청중이므로 블로그 작가는 비판을 피하기 위해 글쓰기를 향상시키려고 노력하기 시작합니다 ', '아실지 모르겠지만 중앙아메리카에서 온 대부분의 물품은 이 나라에 면세로 들어왔습니다 ', '또한 의회는 주 간의 세법과 관세를 무효화할 권한이 없었습니다 ']


Saving model checkpoint to /home/sivan/whisper_base_fl_ko_kr/checkpoint-2000
Configuration saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-2000/config.json
Model weights saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-2000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-2000/preprocessor_config.json
***** Running Evaluation *****
  Num examples = 226
  Batch size = 8


['택배 회사는 물건을 빨리 배달해 주는 대가로 많은 보수를 받습니다 종정 업무서류 긴급수리를 위한 상품이나 예비 부품의 경우에는 시간 매우 중요합니다 ', '과학자들은 충돌로 인한 폭발이 거대했다고 말한다 ', '대부분 학생들이 가장 비판적인 첨중임으로 물로 그작가는 비판을 피하기 위해 그 시기를 향상시키려고 노력하기 시작합니다 ', '아실지 모르겠지만 중앙 아메리카에 서운 대부분의 물품은 이 나라의 면세로 들어갔습니다 ', '또한 의회는 주간의 세법과 관세를 무유할 권한이 없었습니다 '] ['택배회사는 물건을 빨리 배달해 주는 대가로 많은 보수를 받습니다 종종 업무 서류 긴급 수리를 위한 상품이나 예비 부품의 경우에는 시간이 매우 중요합니다 ', '과학자들은 충돌로 인한 폭발이 거대했다고 말한다 ', '대부분 학생들이 가장 비판적인 청중이므로 블로그 작가는 비판을 피하기 위해 글쓰기를 향상시키려고 노력하기 시작합니다 ', '아실지 모르겠지만 중앙아메리카에서 온 대부분의 물품은 이 나라에 면세로 들어왔습니다 ', '또한 의회는 주 간의 세법과 관세를 무효화할 권한이 없었습니다 ']


Saving model checkpoint to /home/sivan/whisper_base_fl_ko_kr/checkpoint-3000
Configuration saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-3000/config.json
Model weights saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-3000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-3000/preprocessor_config.json


In [5]:
%%time
# continue training
langs = ["ko_kr", "he_il", "te_in"]
for lang in langs:
    print(f"Training for {lang} starts...")

    # load pretrained model
    model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base").to("cuda")
    model.config.forced_decoder_ids = None
    model.config.suppress_tokens = []
    model.config.use_cache = False
    
    # uncomment for evaluate original whisper base
    # model.config.forced_decoder_ids = processors[lang].get_decoder_prompt_ids(language = codes[lang], task = "transcribe")

    # redefine output path
    training_args.output_dir = f"/home/sivan/whisper_base_fl_{lang}"

    # specify metric for each language
    tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-base", language=languages[lang], task="transcribe")
    compute_metrics = utils.metrics(codes[lang], tokenizer)


    # set trainer
    trainer = Seq2SeqTrainer(
        args=training_args,
        model=model,
        train_dataset=fleurs[lang]["train"],
        eval_dataset=fleurs[lang]["validation"],
        data_collator=collators[lang],
        compute_metrics=compute_metrics,
        tokenizer=processors[lang].feature_extractor,
    )

    trainer.train(resume_from_checkpoint = True) # comment to eval only

    predict_results = trainer.predict(fleurs[lang]["test"], metric_key_prefix="test")
    metrics = predict_results.metrics
    trainer.log_metrics("test", metrics)
    trainer.save_metrics("test", metrics)

Training for ko_kr starts...


max_steps is given, it will override any value given in num_train_epochs
Loading model from /home/sivan/whisper_base_fl_ko_kr/checkpoint-3000.
***** Running training *****
  Num examples = 2307
  Num Epochs = 28
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 1
  Total optimization steps = 4000
  Number of trainable parameters = 72593920
  Continuing training from checkpoint, will skip to saved global_step
  Continuing training from epoch 20
  Continuing training from global step 3000
  Will skip the first 20 epochs then the first 100 batches in the first epoch. If this takes a lot of time, you can add the `--ignore_data_skip` flag to your launch command, but you will resume the training on data already seen by your model.


  0%|          | 0/100 [00:00<?, ?it/s]

Step,Training Loss,Validation Loss,Wer
4000,0.0016,0.518363,28.919651


***** Running Evaluation *****
  Num examples = 226
  Batch size = 32


['택배 회사는 물건을 빨리 배달해 주는 대가로 많은 보수를 받습니다 종정 업무서류 긴급수리를 위한 상품이나 예비 부품의 경우에는 시간 매우 중요합니다 ', '과학자들은 충돌로 인한 폭발이 거대했다고 말한다 ', '대부분 학생들이 가장 비판적인 첨중임으로 물로 그작가는 비판을 피하기 위해 그 시기를 향상시키려고 노력하기 시작합니다 ', '아실지 모르겠지만 중앙 아메리카에 서운 대부분의 물품은 이 나라의 면세로 들어갔습니다 ', '또한 의회는 주간의 세법과 관세를 무유할 권한이 없었습니다 '] ['택배회사는 물건을 빨리 배달해 주는 대가로 많은 보수를 받습니다 종종 업무 서류 긴급 수리를 위한 상품이나 예비 부품의 경우에는 시간이 매우 중요합니다 ', '과학자들은 충돌로 인한 폭발이 거대했다고 말한다 ', '대부분 학생들이 가장 비판적인 청중이므로 블로그 작가는 비판을 피하기 위해 글쓰기를 향상시키려고 노력하기 시작합니다 ', '아실지 모르겠지만 중앙아메리카에서 온 대부분의 물품은 이 나라에 면세로 들어왔습니다 ', '또한 의회는 주 간의 세법과 관세를 무효화할 권한이 없었습니다 ']


Saving model checkpoint to /home/sivan/whisper_base_fl_ko_kr/checkpoint-4000
Configuration saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-4000/config.json
Model weights saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-4000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_ko_kr/checkpoint-4000/preprocessor_config.json


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from /home/sivan/whisper_base_fl_ko_kr/checkpoint-2000 (score: 28.13722539873608).
***** Running Prediction *****
  Num examples = 382
  Batch size = 32


['피라미드 사운드와 광선쇼는 이 지역에서 어린이들의 흥미를 가장 많이 끌어들이는 것들 중 하나입니다 ', ' 더 전통적인 규회는 부활절 주간의 토요일 밤에 부활 처리하자를 열며 여기에서 신도들이 종종 자정의 주의 부활을 축하합니다 ', '산을 둘러싸고 있는 맑고 아름다운 하늘 바뀌는 보이지 않는다 이 동굴안에서는 바깥 세상이 보이지도 들리지도 않는다 ', '장면들이 피라미드들 위에 비쳤고 다른 피라미드들에는 불이 밝혀졌다 ', '뇨의 병리와 행동 사이에 상관관계가 과학자들의 연구를 독부습니다 '] ['피라미드 사운드와 광선 쇼는 이 지역에서 어린이들의 흥미를 가장 많이 끌어들이는 것들 중 하나입니다 ', '더 전통적인 교회는 부활절 주간의 토요일 밤에 부활 철야제를 열며 여기에서 신도들이 종종 자정에 주의 부활을 축하합니다 ', '산을 둘러싸고 있는 맑고 아름다운 하늘밖에는 보이지 않는다 이 동굴 안에서는 바깥세상이 보이지도 들리지도 않는다 ', '장면들이 피라미드들 위에 비쳤고 다른 피라미드들에는 불이 밝혀졌다 ', '뇌 병리와 행동 사이의 상관관계가 과학자들의 연구를 돕습니다 ']
***** test metrics *****
  test_loss               =     0.5271
  test_runtime            = 0:04:06.12
  test_samples_per_second =      1.552
  test_steps_per_second   =      0.049
  test_wer                =    28.3924
Training for he_il starts...


loading configuration file config.json from cache at /home/sivan/.cache/huggingface/hub/models--openai--whisper-base/snapshots/267437e6e7a1d6cb0846340910c19302aa1fd1fb/config.json
Model config WhisperConfig {
  "_name_or_path": "openai/whisper-base",
  "activation_dropout": 0.0,
  "activation_function": "gelu",
  "architectures": [
    "WhisperForConditionalGeneration"
  ],
  "attention_dropout": 0.0,
  "begin_suppress_tokens": [
    220,
    50257
  ],
  "bos_token_id": 50257,
  "d_model": 512,
  "decoder_attention_heads": 8,
  "decoder_ffn_dim": 2048,
  "decoder_layerdrop": 0.0,
  "decoder_layers": 6,
  "decoder_start_token_id": 50258,
  "dropout": 0.0,
  "encoder_attention_heads": 8,
  "encoder_ffn_dim": 2048,
  "encoder_layerdrop": 0.0,
  "encoder_layers": 6,
  "eos_token_id": 50257,
  "forced_decoder_ids": [
    [
      1,
      50259
    ],
    [
      2,
      50359
    ],
    [
      3,
      50363
    ]
  ],
  "init_std": 0.02,
  "is_encoder_decoder": true,
  "max_length": 448

ValueError: No valid checkpoint found in output directory (/home/sivan/whisper_base_fl_he_il)

In [6]:
%%time
# continue training
langs = ["he_il", "te_in"]
for lang in langs:
    print(f"Training for {lang} starts...")

    # load pretrained model
    model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base").to("cuda")
    model.config.forced_decoder_ids = None
    model.config.suppress_tokens = []
    model.config.use_cache = False
    
    # uncomment for evaluate original whisper base
    # model.config.forced_decoder_ids = processors[lang].get_decoder_prompt_ids(language = codes[lang], task = "transcribe")

    # redefine output path
    training_args.output_dir = f"/home/sivan/whisper_base_fl_{lang}"

    # specify metric for each language
    tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-base", language=languages[lang], task="transcribe")
    compute_metrics = utils.metrics(codes[lang], tokenizer)


    # set trainer
    trainer = Seq2SeqTrainer(
        args=training_args,
        model=model,
        train_dataset=fleurs[lang]["train"],
        eval_dataset=fleurs[lang]["validation"],
        data_collator=collators[lang],
        compute_metrics=compute_metrics,
        tokenizer=processors[lang].feature_extractor,
    )

    trainer.train() # comment to eval only

    predict_results = trainer.predict(fleurs[lang]["test"], metric_key_prefix="test")
    metrics = predict_results.metrics
    trainer.log_metrics("test", metrics)
    trainer.save_metrics("test", metrics)

Training for he_il starts...


max_steps is given, it will override any value given in num_train_epochs
***** Running training *****
  Num examples = 3242
  Num Epochs = 20
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 1
  Total optimization steps = 4000
  Number of trainable parameters = 72593920


Step,Training Loss,Validation Loss,Wer,Wer Norm
1000,0.3711,0.882068,62.346019,59.526843
2000,0.0744,1.043117,65.416437,62.274795
3000,0.0132,1.190348,68.284611,64.585987
4000,0.007,1.24036,66.317338,63.166515


***** Running Evaluation *****
  Num examples = 328
  Batch size = 32


['הדת השלטת במולדובה היא נצרות אורטודוגסית.', 'ברגשווצים האזריים עשכי החזרה היא נקשה מהרגיל.', 'מכיר הראשונים של המחלה הברונל הוכיחית דווחו בסוף יהיו לי.', 'חדת השולטת במולדו והאנצרות אורטוגורקסית (אורטוגורקסית).', '"זוהי אינה בירום מורכבת, אך נעימה ומירועננת. הבירה המקומית הנוספת נקראית ""נמברוואן"" הבירה המקומית האיקרית אימנטה."'] ['הדת השלטת במולדובה היא נצרות אורתודוקסית.', 'ברגע שיוצאים מהזרם, השחייה חזרה אינה קשה מהרגיל.', 'מקריה הראשונים של המחלה בעונה הנוכחית דווחו בסוף יולי.', 'הדת השלטת במולדובה היא נצרות אורתודוקסית.', '"הבירה המקומית העיקרית היא \'Number One\', זוהי אינה בירה מורכבת, אך נעימה ומרעננת. הבירה המקומית הנוספת נקראת ""Manta""."']


Saving model checkpoint to /home/sivan/whisper_base_fl_he_il/checkpoint-1000
Configuration saved in /home/sivan/whisper_base_fl_he_il/checkpoint-1000/config.json
Model weights saved in /home/sivan/whisper_base_fl_he_il/checkpoint-1000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_he_il/checkpoint-1000/preprocessor_config.json
***** Running Evaluation *****
  Num examples = 328
  Batch size = 32


['הדת השלטת במונתובה היא נצרות אורטודוגסית.', 'ברגש הוציא מהאזרים עשכי החזרה עינה קשה מהרגיל.', 'מקיון ראשונים של המחלה בעולם הוכיחי דווחו בסוף יולי.', 'חדת השולטת במולדובה הנצרות הוטוגורקסית (אוטוגורקסית).', '"זוהי אינה בירה מורכבת, אך נעימה ומירועננת. הבירה המקומית הנוספת נקרית נ""מ (1) ""הבירה המקומית העיקרית אימנטה""."'] ['הדת השלטת במולדובה היא נצרות אורתודוקסית.', 'ברגע שיוצאים מהזרם, השחייה חזרה אינה קשה מהרגיל.', 'מקריה הראשונים של המחלה בעונה הנוכחית דווחו בסוף יולי.', 'הדת השלטת במולדובה היא נצרות אורתודוקסית.', '"הבירה המקומית העיקרית היא \'Number One\', זוהי אינה בירה מורכבת, אך נעימה ומרעננת. הבירה המקומית הנוספת נקראת ""Manta""."']


Saving model checkpoint to /home/sivan/whisper_base_fl_he_il/checkpoint-2000
Configuration saved in /home/sivan/whisper_base_fl_he_il/checkpoint-2000/config.json
Model weights saved in /home/sivan/whisper_base_fl_he_il/checkpoint-2000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_he_il/checkpoint-2000/preprocessor_config.json
***** Running Evaluation *****
  Num examples = 328
  Batch size = 32


['הדת השלטת במולדובה היא נצרות אורטודוגסית.', 'ברגשווצים האזרים עשכיח עזרה העינה קשה מהרגיל.', 'מקיון ראשונים של המחלה בעונה על הוכיחית, דווחו בסוף יולי.', 'חדת השולטת במולדובה הנצות אותו תוגרק סית, אותו דוקסית.', '"זוהי הן הבירה מורכבת, אך נעימה ומירה עננת. הבירה המקומית הנוספת נקרית "נמברואן"", הבירה המקומית האיקרית אימנטה."'] ['הדת השלטת במולדובה היא נצרות אורתודוקסית.', 'ברגע שיוצאים מהזרם, השחייה חזרה אינה קשה מהרגיל.', 'מקריה הראשונים של המחלה בעונה הנוכחית דווחו בסוף יולי.', 'הדת השלטת במולדובה היא נצרות אורתודוקסית.', '"הבירה המקומית העיקרית היא \'Number One\', זוהי אינה בירה מורכבת, אך נעימה ומרעננת. הבירה המקומית הנוספת נקראת ""Manta""."']


Saving model checkpoint to /home/sivan/whisper_base_fl_he_il/checkpoint-3000
Configuration saved in /home/sivan/whisper_base_fl_he_il/checkpoint-3000/config.json
Model weights saved in /home/sivan/whisper_base_fl_he_il/checkpoint-3000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_he_il/checkpoint-3000/preprocessor_config.json
***** Running Evaluation *****
  Num examples = 328
  Batch size = 32


['הדת השלטת במולדובה היא נצרות אורטודוקסית.', 'ברגשווצים האזרים השחייך אזהה אינה קשה מהרגיל.', 'מקיון השונים של המחלה בעונה על הוכיחי, דוברו בסוף יולי.', 'חדת השולטת במולדובה הנצות אותו תוגרק סית, אותו דוקסית.', '"זוהי הן הבירה מורכבת, אך נעימה ומירה הננת." הבירה המקומית הנוספת נקרית "נמברוואן"", הבירה המקומית האיקרית אימנטה."'] ['הדת השלטת במולדובה היא נצרות אורתודוקסית.', 'ברגע שיוצאים מהזרם, השחייה חזרה אינה קשה מהרגיל.', 'מקריה הראשונים של המחלה בעונה הנוכחית דווחו בסוף יולי.', 'הדת השלטת במולדובה היא נצרות אורתודוקסית.', '"הבירה המקומית העיקרית היא \'Number One\', זוהי אינה בירה מורכבת, אך נעימה ומרעננת. הבירה המקומית הנוספת נקראת ""Manta""."']


Saving model checkpoint to /home/sivan/whisper_base_fl_he_il/checkpoint-4000
Configuration saved in /home/sivan/whisper_base_fl_he_il/checkpoint-4000/config.json
Model weights saved in /home/sivan/whisper_base_fl_he_il/checkpoint-4000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_he_il/checkpoint-4000/preprocessor_config.json


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from /home/sivan/whisper_base_fl_he_il/checkpoint-1000 (score: 62.346019488876635).
***** Running Prediction *****
  Num examples = 792
  Batch size = 32


['בדרך כלל תמיד שום אם את כלות התיירים והמוכרים סיבור הכל והאור הוא מאמוש כמו סיבורים.', 'זודרח השובה להבדית במספר פעדים והצעמים.', 'הגובה המינימה למטחת לגשר הוא 5,000 מטר הבנייה היסטיימה באוגוסט 2001 והוא נפתח לתנוע רק במרץ 2010.', "הזמר רג'ו קנדלואל ליוואטו, צפן בוג בהג'ן כמו כן לקסינג הציג את '.", 'אבל הרבה דברים את סלצי פורים מדעי, נהים כמו דינוזאורי.'] ['בדרך כלל תמיד שומעים את קולות התיירים והמוכרים. סיפור הקול והאור הוא ממש כמו ספר סיפורים.', 'זו דרך חשובה להבדיל בין מספר פעלים ועצמים.', 'הגובה המינימלי מתחת לגשר הוא 15 מטר. הבנייה הסתיימה באוגוסט 2011, והוא נפתח לתנועה רק במרץ 2017.', "כמו כן, לאקה סינג הציג את chhappan bhog bhajan. הזמר ראג'ו קנדלוואל ליווה אותו.", 'אבל הרבה דברים אצל ציפורים עדיין נראים כמו דינוזאורים.']
***** test metrics *****
  test_loss               =     0.8387
  test_runtime            = 0:12:20.80
  test_samples_per_second =      1.069
  test_steps_per_second   =      0.034
  test_wer                =    60.9634
  test_wer_norm           =    57.9269


loading configuration file config.json from cache at /home/sivan/.cache/huggingface/hub/models--openai--whisper-base/snapshots/267437e6e7a1d6cb0846340910c19302aa1fd1fb/config.json
Model config WhisperConfig {
  "_name_or_path": "openai/whisper-base",
  "activation_dropout": 0.0,
  "activation_function": "gelu",
  "architectures": [
    "WhisperForConditionalGeneration"
  ],
  "attention_dropout": 0.0,
  "begin_suppress_tokens": [
    220,
    50257
  ],
  "bos_token_id": 50257,
  "d_model": 512,
  "decoder_attention_heads": 8,
  "decoder_ffn_dim": 2048,
  "decoder_layerdrop": 0.0,
  "decoder_layers": 6,
  "decoder_start_token_id": 50258,
  "dropout": 0.0,
  "encoder_attention_heads": 8,
  "encoder_ffn_dim": 2048,
  "encoder_layerdrop": 0.0,
  "encoder_layers": 6,
  "eos_token_id": 50257,
  "forced_decoder_ids": [
    [
      1,
      50259
    ],
    [
      2,
      50359
    ],
    [
      3,
      50363
    ]
  ],
  "init_std": 0.02,
  "is_encoder_decoder": true,
  "max_length": 448

Step,Training Loss,Validation Loss


RuntimeError: The size of tensor a (462) must match the size of tensor b (448) at non-singleton dimension 1

## Debugging Telugu

### examine raw data and  tokenizer

In [1]:
from datasets import load_dataset, DatasetDict, load_from_disk
from transformers import WhisperFeatureExtractor, WhisperTokenizer

2022-11-15 20:58:10.349806: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-11-15 20:58:10.565137: E tensorflow/stream_executor/cuda/cuda_blas.cc:2981] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2022-11-15 20:58:11.181487: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64:/usr/local/nccl2/lib:/usr/local/cuda/extras/CUPTI/lib64
2022-11-15 20:58:11.181587: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'li

In [2]:
feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-base")
tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-base", language='Telugu', task="transcribe")

In [3]:
fleurs_te= DatasetDict(load_dataset('google/fleurs', 'te_in'))
print(fleurs_te)
print(fleurs_te['train'][0])

Found cached dataset fleurs (/home/sivan/.cache/huggingface/datasets/google___fleurs/te_in/2.0.0/aabb39fb29739c495517ac904e2886819b6e344702f0a5b5283cb178b087c94a)


  0%|          | 0/3 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id'],
        num_rows: 2302
    })
    validation: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id'],
        num_rows: 311
    })
    test: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id'],
        num_rows: 472
    })
})
{'id': 1436, 'num_samples': 275520, 'path': '/home/sivan/.cache/huggingface/datasets/downloads/extracted/638d0abfed4ef9ee8ed070f8b584c3492ed5c8d4ee54a323529c610cca3e6c91/te_in/audio/train/16034248050795652008.wav', 'audio': {'path': '16034248050795652008.wav', 'array': array([ 0.        ,  0.        ,  0.        , ...,  0.01135588,
        0.00194162, -0.00869256]), 'sampling_rate': 1600

In [24]:
print(len(fleurs_te['train'][0]['audio']['array']))

275520


In [7]:
input_str = fleurs_te["train"][0]["raw_transcription"]
labels = tokenizer(input_str).input_ids
decoded_with_special = tokenizer.decode(labels, skip_special_tokens=False)
decoded_str = tokenizer.decode(labels, skip_special_tokens=True)

print(f"Input:                 {input_str}")
print(f"Decoded w/ special:    {decoded_with_special}")
print(f"Decoded w/out special: {decoded_str}")
print(f"Are equal:             {input_str == decoded_str}")

Input:                 కాసినోలు సాధారణంగా అతిధులు ఖర్చు పెట్టిన సమయాన్ని మరియు డబ్బును గరిష్టం చేయడానికి అనేక ప్రయత్నాలు చేస్తాయి. కిటికీలు మరియు గడియారాలు సాధారణంగా లోపముగా ఉంటాయి, మరియు నిష్క్రమణలను కనుగొనడం కష్టం.
Decoded w/ special:    <|startoftranscript|><|te|><|transcribe|><|notimestamps|>కాసినోలు సాధారణంగా అతిధులు ఖర్చు పెట్టిన సమయాన్ని మరియు డబ్బును గరిష్టం చేయడానికి అనేక ప్రయత్నాలు చేస్తాయి. కిటికీలు మరియు గడియారాలు సాధారణంగా లోపముగా ఉంటాయి, మరియు నిష్క్రమణలను కనుగొనడం కష్టం.<|endoftext|>
Decoded w/out special: కాసినోలు సాధారణంగా అతిధులు ఖర్చు పెట్టిన సమయాన్ని మరియు డబ్బును గరిష్టం చేయడానికి అనేక ప్రయత్నాలు చేస్తాయి. కిటికీలు మరియు గడియారాలు సాధారణంగా లోపముగా ఉంటాయి, మరియు నిష్క్రమణలను కనుగొనడం కష్టం.
Are equal:             True


### examine preprocess

In [21]:
MAX_DURATION_IN_SECONDS = 30.0
max_input_length = MAX_DURATION_IN_SECONDS * 16000

def prepare_dataset(batch):
    # load and resample audio data from 48 to 16kHz
    audio = batch["audio"]

    # compute input length
    batch["input_length"] = len(batch["audio"]['array'])

    # compute log-Mel input features from input audio array 
    batch["input_features"] = feature_extractor(audio["array"], 
                                                truncation=True,
                                                max_length=max_input_length
                                                sampling_rate=audio["sampling_rate"]).input_features[0]
    
    batch['feature_length'] = len(batch['input_features'])
    
    # encode target text to label ids 
    batch["labels"] = tokenizer(batch["raw_transcription"], 
                                truncation=True,
                                max_length=448).input_ids
    
    batch['norm'] = batch['transcription']

    # compute labels length
    batch["labels_length"] = len(batch['labels'])
    return batch

def filter_inputs(input_length):
    """Filter inputs with zero input length or longer than 30s"""
    return 0 < input_length < max_input_length

def filter_labels(labels_length):
    """Filter empty label sequences"""
    return 0 < labels_length

In [22]:
%%time
fleurs_te_pre = fleurs_te.map(prepare_dataset,
                          remove_columns=fleurs_te.column_names["train"], 
                          num_proc=4)

        

#0:   0%|          | 0/576 [00:00<?, ?ex/s]

#1:   0%|          | 0/576 [00:00<?, ?ex/s]

#3:   0%|          | 0/575 [00:00<?, ?ex/s]

#2:   0%|          | 0/575 [00:00<?, ?ex/s]

        

#0:   0%|          | 0/78 [00:00<?, ?ex/s]

#2:   0%|          | 0/78 [00:00<?, ?ex/s]

#1:   0%|          | 0/78 [00:00<?, ?ex/s]

#3:   0%|          | 0/77 [00:00<?, ?ex/s]

        

#0:   0%|          | 0/118 [00:00<?, ?ex/s]

#3:   0%|          | 0/118 [00:00<?, ?ex/s]

#1:   0%|          | 0/118 [00:00<?, ?ex/s]

#2:   0%|          | 0/118 [00:00<?, ?ex/s]

CPU times: user 14 s, sys: 1.85 s, total: 15.8 s
Wall time: 3min 2s


In [23]:
fleurs_te_pre.save_to_disk('/home/sivan/datasets/fl_te_features')

In [1]:
# from here

from datasets import load_dataset, DatasetDict, load_from_disk
from transformers import WhisperFeatureExtractor, WhisperTokenizer

2022-11-15 21:09:37.512402: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-11-15 21:09:37.755330: E tensorflow/stream_executor/cuda/cuda_blas.cc:2981] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2022-11-15 21:09:38.959555: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64:/usr/local/nccl2/lib:/usr/local/cuda/extras/CUPTI/lib64
2022-11-15 21:09:38.959685: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'li

In [2]:
fleurs_te_pre = load_from_disk("/home/sivan/datasets/fl_te_features")
print(fleurs_te_pre)

DatasetDict({
    train: Dataset({
        features: ['input_length', 'input_features', 'feature_length', 'labels', 'norm', 'labels_length'],
        num_rows: 2302
    })
    validation: Dataset({
        features: ['input_length', 'input_features', 'feature_length', 'labels', 'norm', 'labels_length'],
        num_rows: 311
    })
    test: Dataset({
        features: ['input_length', 'input_features', 'feature_length', 'labels', 'norm', 'labels_length'],
        num_rows: 472
    })
})


In [None]:
import numpy as np
print(set(fleurs_te_pre['train']['input_length']))
# print(set(fleurs_te_pre['train']['labels_length']))
print(np.array(fleurs_te_pre['train']["input_features"][0]).shape)

In [8]:
%%time
fleurs_te_fil_in = fleurs_te.filter(filter_inputs, input_columns=["input_length"])

Loading cached processed dataset at /home/sivan/datasets/fl_te_features/train/cache-17d7c4e8c928aa5f.arrow
Loading cached processed dataset at /home/sivan/datasets/fl_te_features/validation/cache-81671aa4d2208db4.arrow
Loading cached processed dataset at /home/sivan/datasets/fl_te_features/test/cache-5e169a99e548838a.arrow


CPU times: user 10.8 ms, sys: 4.69 ms, total: 15.5 ms
Wall time: 13.6 ms


In [9]:
fleurs_te_filter = fleurs_te_fil_in.filter(filter_labels, input_columns=["labels_length"])

Loading cached processed dataset at /home/sivan/datasets/fl_te_features/train/cache-d0ead2b2abea5683.arrow
Loading cached processed dataset at /home/sivan/datasets/fl_te_features/validation/cache-bd49341be8d55e4a.arrow
Loading cached processed dataset at /home/sivan/datasets/fl_te_features/test/cache-e3cdb938dcdda490.arrow


In [10]:
print(fleurs_te)
print(fleurs_te_fil_in)
print(fleurs_te_filter)

DatasetDict({
    train: Dataset({
        features: ['input_length', 'input_features', 'labels', 'norm', 'labels_length'],
        num_rows: 2302
    })
    validation: Dataset({
        features: ['input_length', 'input_features', 'labels', 'norm', 'labels_length'],
        num_rows: 311
    })
    test: Dataset({
        features: ['input_length', 'input_features', 'labels', 'norm', 'labels_length'],
        num_rows: 472
    })
})
DatasetDict({
    train: Dataset({
        features: ['input_length', 'input_features', 'labels', 'norm', 'labels_length'],
        num_rows: 2297
    })
    validation: Dataset({
        features: ['input_length', 'input_features', 'labels', 'norm', 'labels_length'],
        num_rows: 310
    })
    test: Dataset({
        features: ['input_length', 'input_features', 'labels', 'norm', 'labels_length'],
        num_rows: 471
    })
})
DatasetDict({
    train: Dataset({
        features: ['input_length', 'input_features', 'labels', 'norm', 'labels_length']

In [None]:
fleurs_te_filter.save_to_disk('/home/sivan/datasets/fl_te_features_filter')

Flattening the indices:   0%|          | 0/3 [00:00<?, ?ba/s]

In [1]:
import utils
from transformers import Seq2SeqTrainingArguments
from datasets import load_from_disk
from transformers import Seq2SeqTrainer
from transformers import WhisperProcessor
from transformers import WhisperForConditionalGeneration
from transformers import WhisperTokenizer

2022-11-15 21:11:58.161544: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-11-15 21:11:58.436485: E tensorflow/stream_executor/cuda/cuda_blas.cc:2981] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2022-11-15 21:11:59.777292: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64:/usr/local/nccl2/lib:/usr/local/cuda/extras/CUPTI/lib64
2022-11-15 21:11:59.777409: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'li

In [2]:
processor = WhisperProcessor.from_pretrained("openai/whisper-base", language='Telugu', task="transcribe")
collator = utils.DataCollatorSpeechSeq2SeqWithPadding(processor=processor)
fleurs_te = load_from_disk("/home/sivan/datasets/fl_te_features")

In [3]:
# universal training args
training_args = Seq2SeqTrainingArguments(
    output_dir="/home/sivan/whisper_base_fl_te_in",
    per_device_train_batch_size=16,  # originally 16
    gradient_accumulation_steps=1,  # originally 1, increase by 2x for every 2x decrease in batch size
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=4000,
    gradient_checkpointing=True,
    fp16=False,  # original True
    group_by_length=False,  # set true if length is specified in dataset
    evaluation_strategy="steps",
    per_device_eval_batch_size=32,
    predict_with_generate=True,
    generation_max_length=225,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    metric_for_best_model="wer",
    greater_is_better=False,
    push_to_hub=False,  # set true to push trained model to HF
    disable_tqdm=False,  # set false to see progress bar
)

In [4]:
%%time

# load pretrained model
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base").to("cuda")
model.config.forced_decoder_ids = None
model.config.suppress_tokens = []
model.config.use_cache = False

# specify metric for each language
tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-base", language="Telugu", task="transcribe")
compute_metrics = utils.metrics("iw", tokenizer)


# set trainer
trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=fleurs_te["train"],
    eval_dataset=fleurs_te["validation"],
    data_collator=collator,
    compute_metrics=compute_metrics,
    tokenizer=processor.feature_extractor,
)

print(f"Training starts...")
trainer.train() # comment to eval original whisper base

predict_results = trainer.predict(fleurs_te["test"], metric_key_prefix="test")
metrics = predict_results.metrics
trainer.log_metrics("test", metrics)
trainer.save_metrics("test", metrics)

max_steps is given, it will override any value given in num_train_epochs
The following columns in the training set don't have a corresponding argument in `WhisperForConditionalGeneration.forward` and have been ignored: feature_length, input_length, labels_length, norm. If feature_length, input_length, labels_length, norm are not expected by `WhisperForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 2302
  Num Epochs = 28
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 1
  Total optimization steps = 4000
  Number of trainable parameters = 72593920


Training starts...


Step,Training Loss,Validation Loss,Wer,Wer Norm
1000,0.1227,0.281029,71.452421,37.76446
2000,0.0138,0.430765,71.869783,38.840349
3000,0.004,0.550151,72.057596,38.797025
4000,0.0018,0.58429,71.994992,38.558741


The following columns in the evaluation set don't have a corresponding argument in `WhisperForConditionalGeneration.forward` and have been ignored: feature_length, input_length, labels_length, norm. If feature_length, input_length, labels_length, norm are not expected by `WhisperForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 311
  Batch size = 32


['వర్చువల్ ఫ్యూయిల్ ట్ర్ప్స్ తో టెక్నాలిచీ పరిష్కారాన్ని అందిస్తుంది, విద్యర్దులు మ్యూజియం కలాకండాలను చూడవచ్చు, ఆక్వేర�', 'ప్లాటింగ్ విస్లేషన ఫలితం పద్రుక్ పబ్లిక్ వెబ్ సైట్ లో పోస్ట్ చేయబడుతుంది.', 'స్థానికదికార్లు లాండ్ చుక్ట్టు ప్రక్కల నివసిత్లను ఇండోర్లో ఉన్నమని ఏర్కన్నీషణర్లను మర్చేయలని మరియు కొలాయిల నిర్ తాగవ', 'చాలా సందర్భాలో విదేశాల్లో ఒక గ్యాబ్ ఏర్కోర్స్ లో చారడం అలనం మొల్నా మీ స్వంత దేశంలో తిరిగి ఉన్నతు విద్యకు వెళ్లే మీ యవకా', 'సంస్థ సుజనాత్మకంగా ఉండటానికి ముందు, నాయకత్తం సుజనాత్మకత యొక్క సంస్కృతిని లగే పంచుకునే గ్ఞాలాన్ని మరియు సంస్థాగత అభ్యస'] ['వర్చువల్ ఫీల్డ్ ట్రిప్స్ తో టెక్నాలజీ పరిష్కారాన్ని అందిస్తుంది. విద్యార్థులు మ్యూజియం కళాఖండాలను చూడవచ్చు, అక్వేరియంను సందర్శించవచ్చు లేదా వాళ్ళ  క్లాసులో కూర్చుని అందమైన కళను ఆరాధించవచ్చు.', 'ప్లాటింగ్ విశ్లేషణ ఫలితం పబ్లిక్ వెబ్\u200cసైట్\u200cలో పోస్ట్ చేయబడుతుంది.', 'స్థానిక అధికారులు ప్లాంట్ చుట్టుప్రక్కల నివాసితులను ఇండోర్ లో ఉండమని, ఎయిర్-కండిషనర్లను ఆఫ్ చేయాలని మరియు కుళాయి నీరు తాగవద్దని హెచ్చరిస్తున్నారు.', 'చాలా సందర్భా

Saving model checkpoint to /home/sivan/whisper_base_fl_te_in/checkpoint-1000
Configuration saved in /home/sivan/whisper_base_fl_te_in/checkpoint-1000/config.json
Model weights saved in /home/sivan/whisper_base_fl_te_in/checkpoint-1000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_te_in/checkpoint-1000/preprocessor_config.json
The following columns in the evaluation set don't have a corresponding argument in `WhisperForConditionalGeneration.forward` and have been ignored: feature_length, input_length, labels_length, norm. If feature_length, input_length, labels_length, norm are not expected by `WhisperForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 311
  Batch size = 32


['వర్చవల్ ఫ్యేల్ ట్ర్ప్ తో టెక్నాలిచీ పరిషకారాన్ని అందిస్తుంది, విద్యర్థుల మ్యూజియం కలాకండాలకం చూడవచ్చు యాక్వేరియంను స�', 'ప్లాటింగ్, విస్లేసన ఫలితం 10 పబ్లిక్ వెబ్ సైట్ లో పోస్ట్రేయబడుతుంది.', 'స్థానిక అధికార్లు లాండ్ చుక్టు ప్రక్కల నివాసత్లను ఇండోర్లో ఉన్నమని ఏర్కన్నిషనర్లను ఓచేయలని మరియు కొలాయలనీర్ తాగవద్ని', 'చాలా సందర్భాలు విదేశాలో ఒక గ్యాబ్ ఏర్కోర్స్ లో చేరడం అల్నము, మీ స్వంత దేశంలో తిరిగి ఉన్నతు విద్యకు వెళ్లే మి యావకాశాలను', 'సంస్థ శుషనాత్మకంగా ఉండటానికి ముందు, నాయకత్తం శుషనాత్మ కత యొక్క సంస్కృతిన లగే పంచుకునే జ్ఞాలాన్ని మరియు సంస్థాగత అభియస�'] ['వర్చువల్ ఫీల్డ్ ట్రిప్స్ తో టెక్నాలజీ పరిష్కారాన్ని అందిస్తుంది. విద్యార్థులు మ్యూజియం కళాఖండాలను చూడవచ్చు, అక్వేరియంను సందర్శించవచ్చు లేదా వాళ్ళ  క్లాసులో కూర్చుని అందమైన కళను ఆరాధించవచ్చు.', 'ప్లాటింగ్ విశ్లేషణ ఫలితం పబ్లిక్ వెబ్\u200cసైట్\u200cలో పోస్ట్ చేయబడుతుంది.', 'స్థానిక అధికారులు ప్లాంట్ చుట్టుప్రక్కల నివాసితులను ఇండోర్ లో ఉండమని, ఎయిర్-కండిషనర్లను ఆఫ్ చేయాలని మరియు కుళాయి నీరు తాగవద్దని హెచ్చరిస్తున్నారు.', 'చాలా సందర్భాల్లో

Saving model checkpoint to /home/sivan/whisper_base_fl_te_in/checkpoint-2000
Configuration saved in /home/sivan/whisper_base_fl_te_in/checkpoint-2000/config.json
Model weights saved in /home/sivan/whisper_base_fl_te_in/checkpoint-2000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_te_in/checkpoint-2000/preprocessor_config.json
The following columns in the evaluation set don't have a corresponding argument in `WhisperForConditionalGeneration.forward` and have been ignored: feature_length, input_length, labels_length, norm. If feature_length, input_length, labels_length, norm are not expected by `WhisperForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 311
  Batch size = 32


['వర్చవల్ ఫ్యయల్ ట్ర్లుట్రీప్ తో టెక్నాలిచీ పరిష్కారాన్ని అందిస్తుంది, విద్యార్థ్\u200cలు మ్యూజియం కలాకండాలను చూడవచ్చు ఆక్వ�', 'ప్లాటింగ్, విస్లేసన ఫలితం 10 పబ్లిక్ వెబ్ సైట్ లో పోస్ట్రేయబడుతుంది.', 'స్థానిక అధికార్లు క్లాండ్ చుట్టు ప్రక్కల నివాసత్లను ఇండోర్లో ఉన్నమని ఏర్కన్నీషనర్లనో మర్చేయలని మరియు కొలాయలనీర్ తాగవ', 'చాలా సందర్భాలులో విదేశాలో ఒక గ్యాబ్ ఏర్కోర్స్ లో చారండం వల్నమీ స్వంత దేశంలో తిరిగి ఉన్నతు విద్యకు వెళ్డే మి యావకాశాలను', 'సంస్థ శ\u0c75జనాత్మగం గా ఉండటానికి ముందు, నాయకత్తం శ\u0c75జనాత్మ కత యొక్క సంస్కృతి ని లగే పంచుకునే జ్ఞాలాన్ని మరియు సంస్థగత అభ్య�'] ['వర్చువల్ ఫీల్డ్ ట్రిప్స్ తో టెక్నాలజీ పరిష్కారాన్ని అందిస్తుంది. విద్యార్థులు మ్యూజియం కళాఖండాలను చూడవచ్చు, అక్వేరియంను సందర్శించవచ్చు లేదా వాళ్ళ  క్లాసులో కూర్చుని అందమైన కళను ఆరాధించవచ్చు.', 'ప్లాటింగ్ విశ్లేషణ ఫలితం పబ్లిక్ వెబ్\u200cసైట్\u200cలో పోస్ట్ చేయబడుతుంది.', 'స్థానిక అధికారులు ప్లాంట్ చుట్టుప్రక్కల నివాసితులను ఇండోర్ లో ఉండమని, ఎయిర్-కండిషనర్లను ఆఫ్ చేయాలని మరియు కుళాయి నీరు తాగవద్దని హెచ్చరిస్తున్నారు.', 'చ

Saving model checkpoint to /home/sivan/whisper_base_fl_te_in/checkpoint-3000
Configuration saved in /home/sivan/whisper_base_fl_te_in/checkpoint-3000/config.json
Model weights saved in /home/sivan/whisper_base_fl_te_in/checkpoint-3000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_te_in/checkpoint-3000/preprocessor_config.json
The following columns in the evaluation set don't have a corresponding argument in `WhisperForConditionalGeneration.forward` and have been ignored: feature_length, input_length, labels_length, norm. If feature_length, input_length, labels_length, norm are not expected by `WhisperForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 311
  Batch size = 32


['వర్చవల్ ఫ్యూల్ ట్ర్ప్ ట్రీప్ తో టెక్నాలిచీ పరిష్కారాన్ని అందిస్తుంది, విద్యార్థులు మ్యూజియం కలాకండాలను చూడవచ్చు ఆక్వ�', 'ప్లాటింగ్, విస్లేసన ఫలితం 10 పబ్లిక్ వెబ్ సైట్ లో పోస్ట్రేయబడుతుంది.', 'స్థానిక అధికార్లు క్లాండ్ చుట్టు ప్రాక్కల నివాసిత్లను ఇండోర్లో ఉన్నమని ఏర్కన్నీషనర్లనో మర్చేయలని మరియు కొలాయలనీర్ తా', 'చాలా సందర్భాలులో విదేశాలో ఒక గ్యాబ్ యేర్కోర్స్ లో చేరడం వల్నామి స్వంత దేశంలో తిరిగి ఉన్నతు విద్యకు వెళ్డే మి యావకాశాలన', 'సంస్థ శువసణాత్మకం గా ఉండటానికి ముందు, నాయికత్తం శువసణాత్మ కత యొక్క సంస్కృతి ని లగే పంచుకునే జ్ఞాలన్ని మరియు సంస్థగత అభ�'] ['వర్చువల్ ఫీల్డ్ ట్రిప్స్ తో టెక్నాలజీ పరిష్కారాన్ని అందిస్తుంది. విద్యార్థులు మ్యూజియం కళాఖండాలను చూడవచ్చు, అక్వేరియంను సందర్శించవచ్చు లేదా వాళ్ళ  క్లాసులో కూర్చుని అందమైన కళను ఆరాధించవచ్చు.', 'ప్లాటింగ్ విశ్లేషణ ఫలితం పబ్లిక్ వెబ్\u200cసైట్\u200cలో పోస్ట్ చేయబడుతుంది.', 'స్థానిక అధికారులు ప్లాంట్ చుట్టుప్రక్కల నివాసితులను ఇండోర్ లో ఉండమని, ఎయిర్-కండిషనర్లను ఆఫ్ చేయాలని మరియు కుళాయి నీరు తాగవద్దని హెచ్చరిస్తున్నారు.', 'చాలా సందర్భాల్లో

Saving model checkpoint to /home/sivan/whisper_base_fl_te_in/checkpoint-4000
Configuration saved in /home/sivan/whisper_base_fl_te_in/checkpoint-4000/config.json
Model weights saved in /home/sivan/whisper_base_fl_te_in/checkpoint-4000/pytorch_model.bin
Feature extractor saved in /home/sivan/whisper_base_fl_te_in/checkpoint-4000/preprocessor_config.json


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from /home/sivan/whisper_base_fl_te_in/checkpoint-1000 (score: 71.45242070116862).
The following columns in the test set don't have a corresponding argument in `WhisperForConditionalGeneration.forward` and have been ignored: feature_length, input_length, labels_length, norm. If feature_length, input_length, labels_length, norm are not expected by `WhisperForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running Prediction *****
  Num examples = 472
  Batch size = 32


['అనెండవ సెట్ లో డెల్ పోట్రాకు ఆధిక్యం లభించిన కూడా ఈ సెట్ లో కూడా ఆరు ఆర్నించి ఆరికీ చేరుకున్న తర్వాత డైబ్రే గణివారియం అ�', 'హాథరైనవారిసంకే ఎంత ఎక్కువంటే సెన్ పీటస్ క్వేడ్ లు జరీ నంత క్రీలన్ చూగడానికి అందరికి సాధ్యపడలేదు.', 'కేవలం కొన్ని స్వల్ప భేదాలు తప్ప కాల్పనిక బృందాలు కూడా సంప్రదాయ బృందాలు వంటి నైకున్యం కలిగి ఉంటాయి.', 'ఏరోస్మిద్వారి పర్యటనలో మిగిలిన సంగీత కచేరీలను రద్దుచేసింది.', 'ఈ ప్రమాదం ఎత్తుగా ఉన్న పర్వత భూభాగంలో జరిగిన్నని ఇంకా శెత్రులు రాజేసిన అగ్ని ఫలితంగా జరిగిన్నని నమ్ముతారు.'] ['రెండవ సెట్\u200cలో Del Potroకు ఆధిక్యం లభించినా కూడా, ఈ సెట్\u200cలో కూడా 6-6కి చేరుకున్న తర్వాత టై బ్రేక్ అనివార్యం అయ్యింది.', "హాజరైన వారి సంఖ్య ఎంత ఎక్కువంటే, St. Peter's స్క్వేర్\u200cలో జరిగిన అంత్యక్రియలను చూడడానికి అందరికీ సాధ్యపడలేదు.", 'కేవలం కొన్ని స్వల్ప బేధాలు తప్ప, కాల్పనిక బృందాలు కూడా సాంప్రదాయ బృందాల వంటి నైపుణ్యం కలిగి ఉంటాయి.', 'ఏరోస్మిత్ వారి పర్యటనలో మిగిలిన సంగీత కచేరీలను రద్దు చేసింది.', 'ఈ ప్రమాదం ఎత్తుగా ఉన్న పర్వత భూభాగంలో జరిగిందని, ఇంకా శత్రువులు రాజేసిన అగ్ని ఫలితం

## Rememeber to save checkpoint models to bucket

In [5]:
# upload checkpoints to bucket too...
# !gsutil -m cp -n -r /home/sivan/whisper_base_fl_cmn_hans_cn gs://capstone_datasets/fleurs/finetune/wshiper_base_fl_cmn_hans_cn
!gsutil -m cp -n -r /home/sivan/whisper_base_fl_ko_kr gs://capstone_datasets/fleurs/finetune/wshiper_base_fl_ko_kr
!gsutil -m cp -n -r /home/sivan/whisper_base_fl_te_in gs://capstone_datasets/fleurs/finetune/wshiper_base_fl_te_in

Copying file:///home/sivan/whisper_base_fl_ko_kr/test_results.json [Content-Type=application/json]...
Copying file:///home/sivan/whisper_base_fl_ko_kr/checkpoint-4000/optimizer.pt [Content-Type=application/octet-stream]...
==> NOTE: You are uploading one or more large file(s), which would run          
significantly faster if you enable parallel composite uploads. This
feature can be enabled by editing the
"parallel_composite_upload_threshold" value in your .boto
configuration file. However, note that if you do this large files will
be uploaded as `composite objects
<https://cloud.google.com/storage/docs/composite-objects>`_,which
means that any user who downloads such objects will need to have a
compiled crcmod installed (see "gsutil help crcmod"). This is because
without a compiled crcmod, computing checksums on composite objects is
so slow that gsutil disables downloads of composite objects.

Copying file:///home/sivan/whisper_base_fl_ko_kr/checkpoint-4000/config.json [Content-Type=

Copying file:///home/sivan/whisper_base_fl_te_in/checkpoint-1000/preprocessor_config.json [Content-Type=application/json]...
Copying file:///home/sivan/whisper_base_fl_te_in/checkpoint-1000/trainer_state.json [Content-Type=application/json]...
Copying file:///home/sivan/whisper_base_fl_te_in/checkpoint-1000/scheduler.pt [Content-Type=application/octet-stream]...
Copying file:///home/sivan/whisper_base_fl_te_in/runs/Nov15_21-12-05_t4/events.out.tfevents.1668546734.t4.2856.0 [Content-Type=application/octet-stream]...
Copying file:///home/sivan/whisper_base_fl_te_in/checkpoint-1000/training_args.bin [Content-Type=application/octet-stream]...
Copying file:///home/sivan/whisper_base_fl_te_in/checkpoint-3000/scheduler.pt [Content-Type=application/octet-stream]...
Copying file:///home/sivan/whisper_base_fl_te_in/runs/Nov15_21-12-05_t4/1668546734.3549745/events.out.tfevents.1668546734.t4.2856.1 [Content-Type=application/octet-stream]...
Copying file:///home/sivan/whisper_base_fl_te_in/runs/Nov

In [7]:
!gsutil -m cp -n -r /home/sivan/whisper_base_fl_he_il gs://capstone_datasets/fleurs/finetune/wshiper_base_fl_he_il

Copying file:///home/sivan/whisper_base_fl_he_il/checkpoint-4000/config.json [Content-Type=application/json]...
Copying file:///home/sivan/whisper_base_fl_he_il/checkpoint-4000/pytorch_model.bin [Content-Type=application/octet-stream]...
==> NOTE: You are uploading one or more large file(s), which would run          
significantly faster if you enable parallel composite uploads. This
feature can be enabled by editing the
"parallel_composite_upload_threshold" value in your .boto
configuration file. However, note that if you do this large files will
be uploaded as `composite objects
<https://cloud.google.com/storage/docs/composite-objects>`_,which
means that any user who downloads such objects will need to have a
compiled crcmod installed (see "gsutil help crcmod"). This is because
without a compiled crcmod, computing checksums on composite objects is
so slow that gsutil disables downloads of composite objects.

Copying file:///home/sivan/whisper_base_fl_he_il/checkpoint-3000/rng_state.p