In [24]:
import librosa
import soundfile as sf
import os

def cut_and_save_audio(input_path, output_path, duration_minutes=30):
    """
    音声を読み込み、指定した時間（分）で切り取って別ファイルに保存する
    
    Args:
        input_path (str): 入力する音声ファイルのパス
        output_path (str): 保存する音声ファイルのパス
        duration_minutes (int): 切り取る時間（分）
    """
    
    # 分を秒に変換
    duration_seconds = duration_minutes * 60
    
    print(f"'{input_path}' を読み込んでいます...")
    
    try:
        # sr=None で元のサンプリングレートを維持し、durationで読み込む長さを指定
        # これが最も効率的な方法です
        y, sr = librosa.load(
            input_path, 
            sr=None,  # 元のサンプリングレートを維持
            duration=duration_seconds  # 先頭から指定秒数だけ読み込む
        )
        
        print(f"読み込み完了。サンプリングレート: {sr} Hz, 長さ: {len(y)/sr:.2f} 秒")

        # soundfile を使って保存
        print(f"'{output_path}' に保存しています...")
        sf.write(output_path, y, sr)
        
        print(f"保存が完了しました。")

    except Exception as e:
        print(f"エラーが発生しました: {e}")



# 1. 入力ファイルと出力ファイルを指定してください
# (例: "long_meeting_audio.wav")
INPUT_FILE = "/nfs1/s1f102201582/projects/amitaro/2023-09-12_ChantsofSennaar_01.wav" 
OUTPUT_FILE = "out.wav" 

# ファイルが存在するかチェック
if not os.path.exists(INPUT_FILE):
    print(f"エラー: 入力ファイル '{INPUT_FILE}' が見つかりません。")
    print("INPUT_FILE のパスを正しく設定してください。")
else:
    # 関数を実行
    cut_and_save_audio(INPUT_FILE, OUTPUT_FILE, duration_minutes=3)

'/nfs1/s1f102201582/projects/amitaro/2023-09-12_ChantsofSennaar_01.wav' を読み込んでいます...
読み込み完了。サンプリングレート: 44100 Hz, 長さ: 180.00 秒
'out.wav' に保存しています...
保存が完了しました。


In [26]:
!python /users/s1f102201582/projects/fish-speech/fish_speech/models/dac/inference.py \
    -i "out.wav" \
    --checkpoint-path "/nfs1/s1f102201582/projects/fish-speech/checkpoints/openaudio-s1-mini/codec.pth"

  WeightNorm.apply(module, name, dim)
[32m2025-11-10 23:27:10.991[0m | [1mINFO    [0m | [36m__main__[0m:[36mload_model[0m:[36m46[0m - [1mLoaded model: <All keys matched successfully>[0m
[32m2025-11-10 23:27:10.991[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m75[0m - [1mProcessing in-place reconstruction of out.wav[0m
[32m2025-11-10 23:27:11.178[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m84[0m - [1mLoaded audio with 180.00 seconds[0m
[32m2025-11-10 23:27:12.878[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m95[0m - [1mGenerated indices of shape torch.Size([10, 3876])[0m
[32m2025-11-10 23:27:13.738[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m112[0m - [1mGenerated audio of shape torch.Size([1, 1, 7938048]), equivalent to 180.00 seconds from 3876 features, features/second: 21.53[0m
[32m2025-11-10 23:27:13.888[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m119[0m - [1mSaved aud

In [27]:
!python /nfs1/s1f102201582/projects/fish-speech/fish_speech/models/text2semantic/inference.py \
    --text "やったー！今日のランチはカレーライスだ！いっぱい食べるぞー！" \
    --prompt-text "元気に" \
    --prompt-tokens "fake.npy"  \
    --compile \
    --checkpoint-path "/nfs1/s1f102201582/projects/fish-speech/checkpoints/openaudio-s1-mini/"

[32m2025-11-10 23:27:23.761[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m644[0m - [1mLoading model ...[0m
[32m2025-11-10 23:27:23.987[0m | [1mINFO    [0m | [36mfish_speech.models.text2semantic.llama[0m:[36mfrom_pretrained[0m:[36m432[0m - [1mLoading model from /nfs1/s1f102201582/projects/fish-speech/checkpoints/openaudio-s1-mini, config: DualARModelArgs(model_type='dual_ar', vocab_size=155776, n_layer=28, n_head=16, dim=1024, intermediate_size=3072, n_local_heads=8, head_dim=128, rope_base=1000000, norm_eps=1e-06, max_seq_len=8192, dropout=0.0, tie_word_embeddings=False, attention_qkv_bias=False, attention_o_bias=False, attention_qk_norm=True, codebook_size=4096, num_codebooks=10, use_gradient_checkpointing=True, initializer_range=0.03125, is_reward_model=False, scale_codebook_embeddings=True, n_fast_layer=4, fast_dim=1024, fast_n_head=16, fast_n_local_heads=8, fast_head_dim=64, fast_intermediate_size=3072, fast_attention_qkv_bias=False, fast_attention_qk

In [28]:
!python /nfs1/s1f102201582/projects/fish-speech/fish_speech/models/dac/inference.py \
    -i "temp/codes_0.npy" \
    --checkpoint-path "/nfs1/s1f102201582/projects/fish-speech/checkpoints/openaudio-s1-mini/codec.pth"

  WeightNorm.apply(module, name, dim)
[32m2025-11-10 23:28:50.402[0m | [1mINFO    [0m | [36m__main__[0m:[36mload_model[0m:[36m46[0m - [1mLoaded model: <All keys matched successfully>[0m
[32m2025-11-10 23:28:50.402[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m100[0m - [1mProcessing precomputed indices from temp/codes_0.npy[0m
[32m2025-11-10 23:28:51.124[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m112[0m - [1mGenerated audio of shape torch.Size([1, 1, 253952]), equivalent to 5.76 seconds from 124 features, features/second: 21.53[0m
[32m2025-11-10 23:28:51.183[0m | [1mINFO    [0m | [36m__main__[0m:[36mmain[0m:[36m119[0m - [1mSaved audio to fake.wav[0m
