In [23]:
audio_list

[array([0.        , 0.        , 0.        , ..., 0.00192261, 0.00299072,
        0.00372314], dtype=float32),
 array([ 0.0039978 ,  0.00387573,  0.00332642, ...,  0.00030518,
         0.00027466, -0.00088501], dtype=float32),
 array([-0.00167847, -0.00064087,  0.00088501, ...,  0.00024414,
         0.00018311, -0.00018311], dtype=float32),
 array([-0.00054932, -0.00048828, -0.00018311, ..., -0.00079346,
        -0.00082397, -0.00082397], dtype=float32),
 array([-0.00079346, -0.00082397, -0.00097656, ...,  0.00021362,
         0.00021362,  0.00021362], dtype=float32),
 array([ 0.00021362,  0.00018311,  0.00018311, ..., -0.00024414,
        -0.00018311, -0.00018311], dtype=float32),
 array([-0.00033569, -0.00057983, -0.0007019 , ...,  0.03363037,
         0.03613281,  0.03805542], dtype=float32),
 array([0.03964233, 0.04019165, 0.03930664, ..., 0.02206421, 0.02246094,
        0.0241394 ], dtype=float32),
 array([ 0.02816772,  0.03039551,  0.02612305, ...,  0.01550293,
         0.00732422

In [2]:
import librosa
import numpy as np

def split_audio_to_frames(audio_path, frame_duration, sampling_rate=None):
    """
    Split an audio file into frames of specified duration.

    Args:
        audio_path (str): Path to the audio file.
        frame_duration (int): Frame duration in seconds.
        sampling_rate (int, optional): Sampling rate for loading the audio. 
                                       If None, uses the original rate.
    Returns:
        list: List of NumPy arrays, each representing a frame.
    """
    # Load the audio file
    data, sr = librosa.load(audio_path, sr=sampling_rate)

    # Convert frame duration to samples
    frame_length = frame_duration * sr

    # Split the audio into chunks
    frames = [
        data[i:i + frame_length] 
        for i in range(0, len(data), frame_length)
    ]

    return frames, sr

# Parameters
audio_path = "test1.wav"  # Replace with your audio file path
frame_duration = 10       # Duration of each frame in seconds

# Split the audio
frames, sampling_rate = split_audio_to_frames(audio_path, frame_duration)

# Print details
print(f"Sampling Rate: {sampling_rate} Hz")
print(f"Total Frames: {len(frames)}")
print(f"First Frame Shape: {frames[0].shape}")

# Example: Save frames as individual arrays
frame_arrays = [frame for frame in frames]

# Optional: Save to a list
audio_list = list(frame_arrays)


Sampling Rate: 16000 Hz
Total Frames: 16
First Frame Shape: (160000,)


In [11]:
import torch
from transformers import (
    AutomaticSpeechRecognitionPipeline,
    WhisperForConditionalGeneration,
    WhisperTokenizer,
    WhisperProcessor,
)
from peft import PeftModel, PeftConfig

peft_model_id = "/home/ec2-user/SageMaker/whisper_output_dir_10/checkpoint-520/"
# peft_model_id = "openai/whisper-large-v3-turbo"
# peft_model_id = "reach-vb/whisper-large-v2-hindi-100steps" # Use the same model ID as before.
language = 'Arabic'
task = 'transcribe'
peft_config = PeftConfig.from_pretrained(peft_model_id)
model = WhisperForConditionalGeneration.from_pretrained(
    peft_config.base_model_name_or_path, load_in_8bit=True, device_map="auto"
)

model = PeftModel.from_pretrained(model, peft_model_id)
tokenizer = WhisperTokenizer.from_pretrained(peft_config.base_model_name_or_path, language=language, task=task)
processor = WhisperProcessor.from_pretrained(peft_config.base_model_name_or_path, language=language, task=task)
feature_extractor = processor.feature_extractor
forced_decoder_ids = processor.get_decoder_prompt_ids(language=language, task=task)
pipe = AutomaticSpeechRecognitionPipeline(model=model, tokenizer=tokenizer, feature_extractor=feature_extractor)


def transcribe(audio):
    with torch.cuda.amp.autocast():
        text = pipe(audio, generate_kwargs={"forced_decoder_ids": forced_decoder_ids}, max_new_tokens=255)["text"]
    return text

# transcribe(audio_list[0])

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


In [12]:
# 520
for i in range(len(audio_list)):
    print(transcribe(audio_list[i]))

التفرع بكل بشارع عبدالله غوشي
التوحياته والله حالياً مسكر في دليفري بس من فرع فرع صوفيه في بلج طب غل لو انا بدي اجي اوبرع على ساعة شبه معي
الصريح دي لا والله ما في غار دي بري بش انا بستلم عادي ما بصريح انداج بستلم ساعة سبعه من دي
 لا فما حد بتكثر الكريم بس والله ممنوع ولا حتى لو ما عطى الشريف لازم بس طيب ديليفر انا واقف عالباب بسمع عندك
التوصيل
 احسسس
التوسئئئئٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔ
الجامعه الاجتونيه
الجامعه
التو
السوه فيه فلج نفسها من جوا وين بشو فيه الزمق هلا تقريبا بالمنطقة الجنب سوبرماكز
زاعتر ها د مكان موجود في مول اسمه صوفيه فيلج بالطابق الاردي موجود ام مقابل الشوير مول
بس اي مجب نفس المنطقه يعني المنطقه نفس
هو معروفه الكلمي اي بتسأل اي حد بصوفيه معروفه لصوفيه بلج هي زي مول مباني كلها مطاعم بتكون اي بلج
فيجي وراه البرق الموجه هي اللي منطقه ثاني لا هي صوفيه بلجين بس ما ثواني
تامم مايخدمه ثانيه افر افر افر افر افر افر افر افر افر افر افر افر افر افر افر اف افر اف اف اف


In [10]:
# 500
for i in range(len(audio_list)):
    print(transcribe(audio_list[i]))

التفضل
التواته والله حالياً مسكر في ديليفري بس من فراع فراع صوفيه في بلج طب غال لو انا بدي اجي او برع ساعة ساعة مايس
الصريح جزي لا والله ما في غير ديليفري بس انا بسلم عادي ما بسريح انداجي بسلم ساعة سبعه من دون ديليفري في مجاة
لا فما حضرتك في الكريم بس والله ممنوع ولا حتى لو ما عطى الصريف لازم بس طيب ديليفير انا واقف على الباب بسمع عندك
الفضل عالبه امر بس بدفع حدقتك يعني التوصيل فصوفي بلج يكون التوصيل
 ايه ايه ايه ايه ايه
التوصيد لالاي مناطق عمان دينارين لا للسوفيه دينارين للمكان اللي المطعم فيه تمام لو لجمعه الاردنيه
الجامعه الاردنيه
والا عن جامعة الاميره السميه ولا نادي الخريجين شره ثوانيهين ثوانيهين ثوانيهين
بصدوا عني فين هذا الطلاع على لي تلت دنامير طيب ماشي ويكون هس هس هس هو في وين
السوفيه فيلج نفسها من جوا بين بشوثيه بالزرق هلا تقريبا بالمنطقة الجنب سبرماكز
زاعتر هاد مكان موجود زي مول اسمه صوفيه فيلج بالطابق الارضي موجود ام مقابل الشوير مول
بتزنيه الزعتار اللي هي بتيجي خلنا نتذكر وره البراكمولس اه بس انا بجي بنفس المنطقه يعني المنطقه نفس
هو معروفه الكيميه اي بتسأل اي حد بصوفيه معر

In [8]:
# 370
for i in range(len(audio_list)):
    print(transcribe(audio_list[i]))

التفرع بكل بشارع عبدالله غوش مسكره
والله حاليا مسكر في ديليفري بس من فرع فرع صفية في بلج طب غل لو انا بدي اجي او برع ساعة تبع مايس
الصريح لا والله ما في غير دي بري بس انا بس لهم عادي ما بس ريح انداج بس لهم ساعة سبعة في مجال
لا فامه حد بتكثر الكريم بس والله ممنوع ولا حتى لو ما عطه اصريف لازم بس طيب ديليفري انا واقف عالبق بس سمع انت
التوصيل
 اشتركوا في القناة
توصيل لأي مناطق عمان دينارين لا للصوفيه دينارين للمكان اللي المطعم فيه تمام لو لا الجامع الاردنيه
الجامعه الارتونيه
الجامعه
النزل
شوه فيه فلج نفسها من جوا بين بشوه فيه بالزبط هلا تقريبا بالمنطقة الجنب سبرماكز
زاعتر هاد مكان موجود في مول اسمه صوفيه فيلج بالطابق الارضي موجود ام مقابل اي شوير مول
بتزنيه
هو معروفه الكلمي اي بتسال اي حد بصوفيه معروفه لصوفيه بلش هي زي مول مباني كلها مطاعم بتكون اي اه بل
في جواره البرك الموضي المنطقة ثاني لا هي صوفيه بلجين ما ثواني جمب
 تمام مايخدم ثانيا؟ اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا اذا ا

In [6]:
# 300
for i in range(len(audio_list)):
    print(transcribe(audio_list[i]))

الشبه المعك رأي تفضل عبدك العافيه الله يعافيك عالت فرع بكل بشار عبد الله غوشه مسكره
والله حاليا مسكر في ديليفري بس من فرع فرع صوفيه في بلاج طب غا لو انا بدي اجي اوه برع ساعة ساعة مايس
الصريح دي لا والله ما في غير دي لبري بس انا بستلم معادي ما بصريح ان دي بستلم ساعة سبعة من دون دي لبري في مجرى
لا فما حد بتكثير الكريم بس والله ممنوع ولا حتى لو ما عطيه صريف لازم بس طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب طيب
الفضل عالبه امر بس بدفع حدقتك يعني التوصيل في صوفيه بلج يكون التوصيل
 اشتركوا فيدينا
توصيد لالاي مناطق عمان دينارين لا للصوفيه دينارين للمكان اللي المطعم فيه تمام لو لتجمع الاردنية
الجامع الارتونيه
والا
بصدو عني فين هذا اللعلي تلت دنمير طيب ماشي ويكو هسه محاكم في طرع صوفي وين
شوه فيه فلج نفسه من جوه وين بسوه في الزمق هلأ تقريبا بالمنطقة الجن

In [4]:
# 1000
for i in range(len(audio_list)):
    print(transcribe(audio_list[i]))



التفضل
التواته والله حالياً مسكر في ديليفري بس من فراعه فراعه صوفيه في بلج طب غا لو انا بدي اجي اوبره على الساعة
الصريح جد لا والله ما في غار ديليفري بش انا بسلم عادي ما بسرح انداجي بسلم ساعة سبعه من ديليفري في مجايا
الكريم لا فا ما حد بتكسر الكريم بس والله ممنوع ولا حتى لو ما عطى الصريف لازم بس طيب ديليفري انا واقف على الباب بس سمع
تدفع على البحه امر بس بدفع حدقتك يعني التوصيل فصفي بلج يكون التوصيل
 لس في ديناريه
التوصيد لايمناطق عمان دينارين لا للسوفيه دينارين للمكان اللي المطعم فيه تمام لو للجامعه الاردنيه
الجامعه الاردنيه
ولا عن جامعة الاميره السميه ولا نادي الخريجين شرر ثوانيهين ثوانيهين ثوانيهين ثوانيهين


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


بصدو عني فين هذا الطلاعه للي تلت دنمير طيب و هس هس
الصوصيه فلج نفسها من جوا وين بشوصيه بالزرق هلا تقريبا بالمنطقه الجنب سوبرماكز
زاعتر هده مكان موجود في مول اسمه صوفيه فيلج بالطابق الارضي موجود ام مقابل
بتزنيه الزعتار اللي هي بتيجي خلنا نذكر ورا البركيمولف اه بس انا بجب نفس المنطقه يعني المنطقه نفس
هو معروفه الكيمئي اي بتسال اي حد بصوفئه معروفه لصوفئه هي زي مول مباني كلها مطاعم بتكون ايه بلج
فيجي وراه البرق المول هي اللي منطقه ثاني لا هي صوفيه بلجين ما ثواني
تاما ما يخذ ما ثانيه افر افر افر افر افر افكر بذل خبره اعطيك


In [31]:
#520
for i in range(len(audio_list)):
    print(transcribe(audio_list[i]))

التفرع بكل بشارع عبدالله غوشي
التوحياته والله حالياً مسكر في دليفري بس من فرع فرع صوفيه في بلج طب غل لو انا بدي اجي اوبرع على ساعة شبه معي
الصريح دي لا والله ما في غار دي بري بش انا بستلم عادي ما بصريح انداج بستلم ساعة سبعه من دي
 لا فما حد بتكثر الكريم بس والله ممنوع ولا حتى لو ما عطى الشريف لازم بس طيب ديليفر انا واقف عالباب بسمع عندك
التوصيل
 احسسس
التوسئئئئٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔٔ
الجامعه الاجتونيه
الجامعه
التو
السوه فيه فلج نفسها من جوا وين بشو فيه الزمق هلا تقريبا بالمنطقة الجنب سوبرماكز
زاعتر ها د مكان موجود في مول اسمه صوفيه فيلج بالطابق الاردي موجود ام مقابل الشوير مول
بس اي مجب نفس المنطقه يعني المنطقه نفس
هو معروفه الكلمي اي بتسأل اي حد بصوفيه معروفه لصوفيه بلج هي زي مول مباني كلها مطاعم بتكون اي بلج
فيجي وراه البرق الموجه هي اللي منطقه ثاني لا هي صوفيه بلجين بس ما ثواني
تامم مايخدمه ثانيه افر افر افر افر افر افر افر افر افر افر افر افر افر افر افر اف افر اف اف اف


In [20]:
import soundfile as sf

# Load audio file
data, sampling_rate = sf.read("test1.wav")

# Print details
print(f"Sampling Rate: {sampling_rate} Hz")
print(f"Audio Array: {data}")


Sampling Rate: 16000 Hz
Audio Array: [0.00000000e+00 0.00000000e+00 0.00000000e+00 ... 1.15966797e-03
 6.10351562e-04 3.05175781e-05]


In [17]:
import soundfile as sf

try:
    data, samplerate = sf.read("test1.wav")
    print("File is valid and can be read.")
except Exception as e:
    print(f"Audio file issue: {e}")


File is valid and can be read.


In [18]:
samplerate

16000

In [13]:
import librosa
import soundfile as sf

audio, sr = librosa.load("test.wav", sr=16000)  # Resample to 16kHz if needed
sf.write("test1.wav", audio, sr)

In [9]:
import soundfile as sf

try:
    audio_data, samplerate = sf.read("s3://stt-jordan-dataset/WhatsApp Audio 2024-12-10 at 20.31.24_04c1297c.wav")
    print("File is valid.")
except Exception as e:
    print(f"Error reading: {e}")


Error reading: Error opening 's3://stt-jordan-dataset/WhatsApp Audio 2024-12-10 at 20.31.24_04c1297c.wav': System error.


In [15]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
from datasets import load_from_disk

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id, language='Arabic',task='transcribe')

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)


def official_transcribe(audio):
    result = pipe(audio)
    return result["text"]

official_transcribe("test1.wav")

ffmpeg: error while loading shared libraries: libopenh264.so.5: cannot open shared object file: No such file or directory


ValueError: Soundfile is either not in the correct format or is malformed. Ensure that the soundfile has a valid audio file extension (e.g. wav, flac or mp3) and is not corrupted. If reading from a remote URL, ensure that the URL is the full address to **download** the audio file.