In [13]:
import os
import json
import subprocess
from pydub import AudioSegment

# 获取文件夹中所有音频文件的路径，并按文件名排序
def get_audio_files(directory):
    audio_files = [f for f in os.listdir(directory) if f.endswith('.mp3') or f.endswith('.wav')]
    
    # 按文件名中的数字排序，假设文件名遵循 output_1, output_2 的格式
    audio_files.sort(key=lambda x: int(x.split('_')[1].split('.')[0]))  # 提取数字进行排序
    print(audio_files)
    return audio_files

# 获取音频时长的函数
def get_audio_duration(file_path):
    try:
        # 使用ffprobe获取音频的时长
        result = subprocess.run(
            ['ffprobe', '-v', 'error', '-show_entries', 'format=duration', '-of', 'default=noprint_wrappers=1:nokey=1', file_path],
            stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True
        )
        # 返回时长（四舍五入为整数）
        return round(float(result.stdout.strip()))
    except Exception as e:
        print(f"无法获取音频文件 {file_path} 的时长: {e}")
        return 0

# 读取output.json文件（包含句子和角色信息）
with open('./output.json', 'r', encoding='utf-8') as f:
    sentences = json.load(f)

# 获取音频文件并计算时间戳
audio_files = get_audio_files('./charpter1')  

# 构建最终的结果
final_output = []

start_time = 0  # 初始时间戳
combined_audio = AudioSegment.empty()  # 创建一个空音频文件，用于拼接

for idx, sentence_info in enumerate(sentences):
    # 获取每个音频文件的时长
    if idx < len(audio_files):
        audio_file_path = os.path.join('./charpter1', audio_files[idx]) 
        duration = get_audio_duration(audio_file_path)
        
        # 四舍五入后设置end时间
        end_time = start_time + duration
        
        # 填充每个句子的详细信息和时间戳
        final_output.append({
            "start": start_time,
            "end": end_time,
            "text": sentence_info['sentence'],
            "speaker": {
                "speaker_name": sentence_info['character name'],
                "speaker_color": sentence_info['color']
            }
        })
        
        # 使用pydub加载音频文件，并拼接到combined_audio
        audio = AudioSegment.from_file(audio_file_path)
        combined_audio += audio
        
        # 更新start_time为下一个句子的开始时间
        start_time = end_time

# 输出最终的JSON文件
with open('filled_audio_data.json', 'w', encoding='utf-8') as f:
    json.dump(final_output, f, ensure_ascii=False, indent=4)

# 导出合并后的音频文件
combined_audio.export("combined_audio.mp3", format="mp3")

print("文件已成功生成 'filled_audio_data.json' 和 'combined_audio.mp3'")


['output_19.mp3', 'output_25.mp3', 'output_31.mp3', 'output_30.mp3', 'output_24.mp3', 'output_18.mp3', 'output_32.mp3', 'output_26.mp3', 'output_27.mp3', 'output_33.mp3', 'output_37.mp3', 'output_23.mp3', 'output_22.mp3', 'output_36.mp3', 'output_20.mp3', 'output_34.mp3', 'output_35.mp3', 'output_21.mp3', 'output_46.mp3', 'output_52.mp3', 'output_4.mp3', 'output_5.mp3', 'output_53.mp3', 'output_47.mp3', 'output_51.mp3', 'output_45.mp3', 'output_7.mp3', 'output_6.mp3', 'output_44.mp3', 'output_50.mp3', 'output_54.mp3', 'output_40.mp3', 'output_2.mp3', 'output_3.mp3', 'output_41.mp3', 'output_55.mp3', 'output_43.mp3', 'output_57.mp3', 'output_1.mp3', 'output_56.mp3', 'output_42.mp3', 'output_49.mp3', 'output_48.mp3', 'output_8.mp3', 'output_9.mp3', 'output_38.mp3', 'output_10.mp3', 'output_11.mp3', 'output_39.mp3', 'output_13.mp3', 'output_12.mp3', 'output_16.mp3', 'output_17.mp3', 'output_15.mp3', 'output_29.mp3', 'output_28.mp3', 'output_14.mp3']
文件已成功生成 'filled_audio_data.json' 和 'com