# get in4 x sample from wenetspeech.json

In [3]:
import json
import ijson
from decimal import Decimal

def decimal_default(obj):
    if isinstance(obj, Decimal):
        return float(obj)
    raise TypeError

def read_and_save_to_json(file_path, output_json_path, num_records=10):
    try:
        # Mở và đọc nội dung từ tệp JSON
        with open(file_path, 'r', encoding='utf-8') as file:
            # Sử dụng mô-đun ijson để xử lý từng bản ghi một
            objects = ijson.items(file, 'audios.item')

            # Ghi thông tin vào file .json
            with open(output_json_path, 'w', encoding='utf-8') as output_file:
                # Đọc từng bản ghi và ghi vào file .json
                data_to_write = []
                for i in range(num_records):
                    try:
                        record = next(objects)
                        data_to_write.append(record)
                    except StopIteration:
                        print("Đã đọc hết các bản ghi.")
                        break

                # Sử dụng default để chuyển đổi Decimal thành float
                json.dump(data_to_write, output_file, indent=2, default=decimal_default, ensure_ascii=False)
    except Exception as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến tệp JSON và tên file .json đích của bạn
json_file_path = '/app/WenetSpeech/WenetSpeech/WenetSpeech.json'
output_json_path = '/app/ZH_datapreprocess/WenetSpeech/example.json'
read_and_save_to_json(json_file_path, output_json_path, num_records=1000)


In [1]:
import json
import ijson
from decimal import Decimal

def decimal_default(obj):
    if isinstance(obj, Decimal):
        return float(obj)
    raise TypeError

def read_and_save_to_json(file_path, output_json_path, start_record=0, num_records=10):
    try:
        # Mở và đọc nội dung từ tệp JSON
        with open(file_path, 'r', encoding='utf-8') as file:
            # Sử dụng mô-đun ijson để xử lý từng bản ghi một
            objects = ijson.items(file, 'audios.item')

            # Chỉ đọc num_records bản ghi từ start_record
            for _ in range(start_record):
                next(objects, None)

            # Ghi thông tin vào file .json
            with open(output_json_path, 'w', encoding='utf-8') as output_file:
                # Đọc và ghi num_records bản ghi
                data_to_write = []
                for _ in range(num_records):
                    try:
                        record = next(objects)
                        if record is not None:
                            data_to_write.append(record)
                    except StopIteration:
                        print("Đã đọc hết các bản ghi.")
                        break

                # Sử dụng default để chuyển đổi Decimal thành float
                json.dump(data_to_write, output_file, indent=2, default=decimal_default, ensure_ascii=False)
    except Exception as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến tệp JSON và tên file .json đích của bạn
json_file_path = '/app/WenetSpeech/WenetSpeech/WenetSpeech.json'

# Ghi 1000 bản ghi vào file json1.json từ bản ghi thứ 0
read_and_save_to_json(json_file_path, '/app/ZH_datapreprocess/WenetSpeech/json1.json', start_record=0, num_records=2000)

# Ghi 1000 bản ghi tiếp theo vào file json2.json từ bản ghi thứ 1000
#read_and_save_to_json(json_file_path, '/app/ZH_datapreprocess/WenetSpeech/json2.json', start_record=1000, num_records=1000)


# view in4 all key in json file 

In [2]:
import json

def display_json_fields(file_path):
    try:
        # Mở và đọc nội dung từ tệp JSON
        with open(file_path, 'r', encoding='utf-8') as file:
            data = json.load(file)

            # Hiển thị thông tin về các trường trong JSON
            if isinstance(data, list):
                # Nếu JSON chứa danh sách các đối tượng
                for record in data:
                    print(f"Fields in a record:")
                    for key in record.keys():
                        print(f"- {key}")
                    print("\n" + "-" * 40 + "\n")
            elif isinstance(data, dict):
                # Nếu JSON chứa một đối tượng
                print(f"Fields in the object:")
                for key in data.keys():
                    print(f"- {key}")
            else:
                print("Invalid JSON format.")
    except Exception as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến tệp JSON của bạn
json_file_path = '/app/ZH_datapreprocess/WenetSpeech/example.json'
display_json_fields(json_file_path)


Fields in a record:
- aid
- duration
- md5
- path
- source
- tags
- url
- segments

----------------------------------------

Fields in a record:
- aid
- duration
- md5
- path
- source
- tags
- url
- segments

----------------------------------------

Fields in a record:
- aid
- duration
- md5
- path
- source
- tags
- url
- segments

----------------------------------------

Fields in a record:
- aid
- duration
- md5
- path
- source
- tags
- url
- segments

----------------------------------------

Fields in a record:
- aid
- duration
- md5
- path
- source
- tags
- url
- segments

----------------------------------------

Fields in a record:
- aid
- duration
- md5
- path
- source
- tags
- url
- segments

----------------------------------------

Fields in a record:
- aid
- duration
- md5
- path
- source
- tags
- url
- segments

----------------------------------------

Fields in a record:
- aid
- duration
- md5
- path
- source
- tags
- url
- segments

----------------------------------

In [3]:
import os

def count_files_in_directory(directory):
    try:
        # Sử dụng list comprehension để lọc ra các tệp là file trong thư mục
        files = [f for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
        
        # Đếm số lượng file
        count = len(files)
        
        return count
    except Exception as e:
        print(f"Có lỗi xảy ra: {e}")
        return None

# Thay đổi đường dẫn đến thư mục của bạn
directory_path = '/app/WenetSpeech/Cleaned_data'
file_count = count_files_in_directory(directory_path)

if file_count is not None:
    print(f"Số lượng file trong thư mục {directory_path}: {file_count}")
else:
    print("Không thể đếm số lượng file.")


Số lượng file trong thư mục /app/WenetSpeech/Cleaned_data: 289000


# change type audio file 

In [40]:
import subprocess
import os

def convert_opus_to_wav(input_path, output_path):
    try:
        # Sử dụng FFmpeg để chuyển đổi từ Opus sang WAV
        subprocess.run(['ffmpeg', '-i', input_path, output_path], check=True)
        print(f"Đã chuyển đổi file {input_path} thành {output_path}")
    except subprocess.CalledProcessError as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến file Opus của bạn và đặt đường dẫn đến file WAV đầu ra
input_opus_path = '/app/ZH_datapreprocess/WenetSpeech/Cleaned_data/20.08_24.4.opus'
output_wav_path = '/app/ZH_datapreprocess/WenetSpeech/Cleaned_data/20.08_24.4.wav'

# Lấy tên file (không bao gồm đuôi mở rộng)
file_name = os.path.splitext(os.path.basename(input_opus_path))[0]
# Gắn đuôi mở rộng WAV vào tên file
output_wav_path = os.path.join(os.path.dirname(output_wav_path), f"{file_name}.wav")

# Chuyển đổi file Opus thành WAV
convert_opus_to_wav(input_opus_path, output_wav_path)


Đã chuyển đổi file /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/20.08_24.4.opus thành /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/20.08_24.4.wav


ffmpeg version 5.1.4-0+deb12u1 Copyright (c) 2000-2023 the FFmpeg developers
  built with gcc 12 (Debian 12.2.0-14)
  configuration: --prefix=/usr --extra-version=0+deb12u1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libglslang --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librist --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libsrt --enable-libssh --enable-libsvtav1 --enable-libtheora --enable-libtwolame --enable-libvidstab --enab

# get in4 some key in sub json file 

In [7]:
import json
from pydub import AudioSegment
import os 
import subprocess
# root_path = os.getcwd()
output_path = "/app/ZH_datapreprocess/WenetSpeech/Cleaned_data"
os.makedirs(output_path, exist_ok=True)

def find_opus_files(folder_path):
    opus_files = []

    # Duyệt qua tất cả các thư mục và tệp tin trong thư mục chính
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            # Kiểm tra nếu tệp có đuôi là ".opus"
            if file.endswith(".opus"):
                # Tạo đường dẫn đầy đủ và thêm vào danh sách
                file_path = os.path.join(root, file)
                opus_files.append(file_path)
    return opus_files

def cut_opus_file(input_path, output_path, start_time, end_time):
    try:
        # Đọc file âm thanh Opus
        audio = AudioSegment.from_file(input_path, format="opus")

        # Chuyển đổi thời gian từ giây sang miligiây
        start_time_ms = start_time * 1000
        end_time_ms = end_time * 1000

        # Cắt file âm thanh
        cut_audio = audio[start_time_ms:end_time_ms]

        # Lưu file âm thanh đã cắt
        cut_audio.export(output_path, format="opus")

        print(f"Đã cắt file từ {start_time} giây đến {end_time} giây và lưu thành {output_path}")
    except Exception as e:
        print(f"Có lỗi xảy ra: {e}")
        
def cut_opus_file_ffmpeg(input_path, output_path, start_time, end_time):
    try:
        # Sử dụng FFmpeg để cắt file âm thanh
        subprocess.run([
            'ffmpeg',
            '-i', input_path,
            '-ss', str(start_time),
            '-to', str(end_time),
            '-c', 'copy',
            output_path
        ], check=True)

        print(f"Đã cắt file từ {start_time} giây đến {end_time} giây và lưu thành {output_path}")
    except subprocess.CalledProcessError as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến file Opus của bạn và đặt thời gian cắt
# input_opus_path = '/path/to/your/input.opus'
# output_opus_path = '/path/to/your/output.opus'
# start_time_to_cut = 10  # Thời điểm bắt đầu cắt (giây)
# end_time_to_cut = 20    # Thời điểm kết thúc cắt (giây)

# cut_opus_file(input_opus_path, output_opus_path, start_time_to_cut, end_time_to_cut)
def find_element_containing_a(a, str_list):
    for element in str_list:
        if a in element:
            return element
    return None


def get_duration_from_json(json_path):
    try:
        main_folder = '/app/WenetSpeech/WenetSpeech/audio'
# Lấy tất cả đường dẫn của các tệp .opus trong thư mục con
        opus_file_paths = find_opus_files(main_folder)
        # Mở và đọc nội dung từ tệp JSON
        with open(json_path, 'r', encoding='utf-8') as file:
            # Load dữ liệu JSON
            data = json.load(file)

            # Lặp qua từng bản ghi và lấy thông tin của trường "duration"
            for i,record in enumerate(data):
                print(f"-----------------dang xu ly ban ghi thu {i}")         
                path = record.get("path")
                segments = record.get("segments")
                full_path = find_element_containing_a(path, opus_file_paths)
                for x in segments: 
                    begin_time = x.get('begin_time')
                    end_time = x.get('end_time')
                    output_opus_path = f'{output_path}/{begin_time}_{end_time}.opus'
                    output_txt_path = f'{output_path}/{begin_time}_{end_time}.txt'
                    print(output_opus_path)
                    text = x.get('text')
                    cut_opus_file_ffmpeg(full_path, output_opus_path, begin_time, end_time)
                    with open(output_txt_path, 'w', encoding='utf-8') as f:
                        f.write(text)
                
    except Exception as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến tệp JSON của bạn
example_json_path = '/app/ZH_datapreprocess/WenetSpeech/json1.json'
get_duration_from_json(example_json_path)


In [None]:
import json
import os
import subprocess
import concurrent.futures
from concurrent.futures import ThreadPoolExecutor

output_path = "/app/ZH_datapreprocess/WenetSpeech/Cleaned_data"
os.makedirs(output_path, exist_ok=True)

def find_opus_files(folder_path):
    opus_files = []
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(".opus"):
                file_path = os.path.join(root, file)
                opus_files.append(file_path)
    return opus_files

def cut_opus_file_ffmpeg(input_path, output_path, start_time, end_time):
    try:
        subprocess.run([
            'ffmpeg',
            '-i', input_path,
            '-ss', str(start_time),
            '-to', str(end_time),
            '-c', 'copy',
            output_path
        ], check=True)

        print(f"Đã cắt file từ {start_time} giây đến {end_time} giây và lưu thành {output_path}")
    except subprocess.CalledProcessError as e:
        print(f"Có lỗi xảy ra: {e}")

def find_element_containing_a(a, str_list):
    for element in str_list:
        if a in element:
            return element
    return None

def process_record(record, opus_file_paths):
    path = record.get("path")
    segments = record.get("segments")
    full_path = find_element_containing_a(path, opus_file_paths)
    for x in segments:
        begin_time = x.get('begin_time')
        end_time = x.get('end_time')
        output_opus_path = f'{output_path}/{begin_time}_{end_time}.opus'
        output_txt_path = f'{output_path}/{begin_time}_{end_time}.txt'
        print(output_opus_path)
        text = x.get('text')
        cut_opus_file_ffmpeg(full_path, output_opus_path, begin_time, end_time)
        with open(output_txt_path, 'w', encoding='utf-8') as f:
            f.write(text)

def get_duration_from_json(json_path):
    try:
        main_folder = '/app/WenetSpeech/WenetSpeech/audio'
        opus_file_paths = find_opus_files(main_folder)

        with open(json_path, 'r', encoding='utf-8') as file:
            data = json.load(file)

            with ThreadPoolExecutor() as executor:
                future_to_record = {executor.submit(process_record, record, opus_file_paths): record for record in data}
                
                for future in concurrent.futures.as_completed(future_to_record):
                    record = future_to_record[future]
                    try:
                        future.result()
                    except Exception as e:
                        print(f"Xảy ra lỗi khi xử lý bản ghi: {e}")

    except Exception as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến tệp JSON của bạn
example_json_path = '/app/ZH_datapreprocess/WenetSpeech/json2.json'
get_duration_from_json(example_json_path)

In [1]:
import os

def delete_files_in_directory(directory_path):
    try:
        # Lặp qua tất cả các tệp trong thư mục
        for file_name in os.listdir(directory_path):
            file_path = os.path.join(directory_path, file_name)
            
            # Kiểm tra xem đối tượng có phải là tệp không
            if os.path.isfile(file_path):
                # Xóa tệp
                os.remove(file_path)
                print(f"Đã xóa tệp: {file_path}")

        print("Đã xóa tất cả các tệp trong thư mục thành công.")
    except Exception as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến thư mục của bạn
directory_to_clear = '/app/ZH_datapreprocess/WenetSpeech/Cleaned_data'

# Gọi hàm để xóa tất cả các tệp trong thư mục
delete_files_in_directory(directory_to_clear)


Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/240.2_241.52_RQprM.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/672.12_673.4_FFohV.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/264.03_270.61_jWbEW.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/645.52_646.44_cQolZ.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/901.83_908.21_qfZTo.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/679.12_680.6_a8IMJ.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/729.48_730.56_LzUP0.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/160.91_168.29_9QA5h.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/925.71_932.81_QDd2c.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/147.28_152.64_m1icd.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/168.93_170.45_sEX6O.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/1112.95_1119.25_ZR1

Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/832.32_834.2_Wy3io.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/264.36_269.96_X2Yxt.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/322.47_329.45_kOjEZ.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/478.32_482.52_VBLxt.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/570.76_573.37_mObML.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/1032.04_1033.12_Tfq1d.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/496.84_504.56_AEXTi.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/527.2_528.8_JZhjS.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/993.79_1000.85_oMg3Q.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/371.43_378.93_0Sjwl.txt
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/618.68_620.2_rku7n.wav
Đã xóa tệp: /app/ZH_datapreprocess/WenetSpeech/Cleaned_data/187.08_189.64_6hv

In [3]:


# Sử dụng hàm để tạo chuỗi ngẫu nhiên
random_string = generate_random_string()
print(random_string)


JcPsm


# đếm số file opus trong thư mục 

In [28]:
import os

def find_opus_files(folder_path):
    opus_files = []

    # Duyệt qua tất cả các thư mục và tệp tin trong thư mục chính
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            # Kiểm tra nếu tệp có đuôi là ".opus"
            if file.endswith(".opus"):
                # Tạo đường dẫn đầy đủ và thêm vào danh sách
                file_path = os.path.join(root, file)
                opus_files.append(file_path)

    return opus_files

# Thư mục chính bạn muốn tìm kiếm
main_folder = '/app/WenetSpeech/WenetSpeech/audio'

# Lấy tất cả đường dẫn của các tệp .opus trong thư mục con
opus_file_paths = find_opus_files(main_folder)
# print(len)
# for opus_file_path in opus_file_paths:
#     print(opus_file_path)

a = 'audio/train/youtube/B00000/Y0000000000_--5llN02F84.opus'
def find_element_containing_a(a, str_list):
    for element in str_list:
        if a in element:
            return element
    return None



result = find_element_containing_a(a, opus_file_paths)

if result:
    print(f"Phần tử chứa '{a}': {result}")
else:
    print(f"Không tìm thấy phần tử chứa '{a}' trong danh sách.")




Phần tử chứa 'audio/train/youtube/B00000/Y0000000000_--5llN02F84.opus': /app/WenetSpeech/WenetSpeech/audio/train/youtube/B00000/Y0000000000_--5llN02F84.opus


In [38]:
import subprocess

def cut_opus_file_ffmpeg(input_path, output_path, start_time, end_time):
    try:
        # Sử dụng FFmpeg để cắt file âm thanh
        subprocess.run([
            'ffmpeg',
            '-i', input_path,
            '-ss', str(start_time),
            '-to', str(end_time),
            '-c', 'copy',
            output_path
        ], check=True)

        print(f"Đã cắt file từ {start_time} giây đến {end_time} giây và lưu thành {output_path}")
    except subprocess.CalledProcessError as e:
        print(f"Có lỗi xảy ra: {e}")

# Thay đổi đường dẫn đến file Opus của bạn và đặt thời gian cắt
input_opus_path = '/app/WenetSpeech/WenetSpeech/audio/dev/third_party/B00000/DEV_T0000000000.opus'
output_opus_path = '/app/WenetSpeech/WenetSpeech/audio/dev/third_party/B00000/aaa.opus'
start_time_to_cut = 10  # Thời điểm bắt đầu cắt (giây)
end_time_to_cut = 20    # Thời điểm kết thúc cắt (giây)

cut_opus_file_ffmpeg(input_opus_path, output_opus_path, start_time_to_cut, end_time_to_cut)


Đã cắt file từ 10 giây đến 20 giây và lưu thành /app/WenetSpeech/WenetSpeech/audio/dev/third_party/B00000/aaa.opus


ffmpeg version 5.1.4-0+deb12u1 Copyright (c) 2000-2023 the FFmpeg developers
  built with gcc 12 (Debian 12.2.0-14)
  configuration: --prefix=/usr --extra-version=0+deb12u1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libglslang --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librist --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libsrt --enable-libssh --enable-libsvtav1 --enable-libtheora --enable-libtwolame --enable-libvidstab --enab