In [None]:
import os

# 1. 추가하려는 경로를 정의합니다.
# Windows 경로를 다룰 때는 raw string(r"...")을 사용하는 것이 좋습니다.
ffmpeg_path = r"D:\Study\GPT_AGENT_2025_BOOK\ffmpeg-7.1.1-full_build-shared\bin"

# 2. 현재 PATH 환경 변수를 가져옵니다.
# os.pathsep은 운영체제에 맞는 경로 구분자(';' 또는 ':')를 자동으로 사용해줍니다.
path_list = os.environ.get('PATH', '').split(os.pathsep)

# 3. 추가하려는 경로가 이미 PATH에 있는지 확인합니다.
if ffmpeg_path not in path_list:
    # 4. PATH에 없는 경우에만 맨 앞에 추가합니다.
    os.environ['PATH'] = ffmpeg_path + os.pathsep + os.environ.get('PATH', '')
    print(f"'{ffmpeg_path}' 경로를 PATH에 추가했습니다.")
else:
    print(f"'{ffmpeg_path}' 경로는 이미 PATH에 존재합니다.")

# (선택 사항) 변경된 PATH 확인
print("\n--- 현재 PATH ---")
print(os.environ['PATH'])


In [None]:
import os
import sys
import winreg
import ctypes

# ==============================================================================
# 중요: 1. 아래 FFMPEG_BIN_PATH에 본인의 FFmpeg bin 폴더 경로를 정확히 입력하세요.
#         예: "C:\\ffmpeg\\bin" (백슬래시를 두 번 사용하거나 슬래시를 사용하세요)
#       2. 이 셀을 실행하려면 Jupyter/VSCode를 "관리자 권한으로 실행"해야 할 수 있습니다.
# ==============================================================================
FFMPEG_BIN_PATH = r"D:\Study\GPT_AGENT_2025_BOOK\ffmpeg-7.1.1-full_build-shared\bin" # <--- ‼️ 본인의 FFmpeg bin 폴더 경로로 수정하세요.

def add_path_to_system_environment(path_to_add):
    """
    Windows 시스템 환경 변수 PATH에 새로운 경로를 영구적으로 추가합니다.
    관리자 권한이 필요하며, 변경 사항을 적용하려면 재시작이 필요합니다.
    """
    if not os.path.isdir(path_to_add):
        print(f"오류: '{path_to_add}'는 유효한 디렉터리가 아닙니다. 경로를 확인해주세요.")
        return

    try:
        # 시스템 환경 변수에 접근하기 위해 레지스트리 키를 엽니다.
        # HKEY_LOCAL_MACHINE은 시스템 전체에, HKEY_CURRENT_USER는 현재 사용자에게만 적용됩니다.
        # 시스템 전체에 적용하려면 관리자 권한이 필요합니다.
        key = winreg.OpenKey(winreg.HKEY_LOCAL_MACHINE, 
                             r'SYSTEM\CurrentControlSet\Control\Session Manager\Environment', 
                             0, 
                             winreg.KEY_READ | winreg.KEY_WRITE)

        # 현재 PATH 값을 읽어옵니다.
        current_path_value, reg_type = winreg.QueryValueEx(key, 'Path')

        # 경로들을 세미콜론(;)으로 분리합니다.
        paths = current_path_value.split(';')

        # 추가하려는 경로가 이미 포함되어 있는지 확인합니다.
        if path_to_add in paths or path_to_add + '\\' in paths:
            print(f"'{path_to_add}' 경로는 이미 시스템 PATH에 존재합니다.")
        else:
            # 새로운 경로를 추가합니다.
            new_path_value = current_path_value + ';' + path_to_add
            winreg.SetValueEx(key, 'Path', 0, reg_type, new_path_value)
            print(f"'{path_to_add}' 경로를 시스템 PATH에 성공적으로 추가했습니다.")
            
            # 모든 프로그램에 변경 사항을 알립니다.
            HWND_BROADCAST = 0xFFFF
            WM_SETTINGCHANGE = 0x1A
            ctypes.windll.user32.SendMessageW(HWND_BROADCAST, WM_SETTINGCHANGE, 0, "Environment")
            print("모든 프로그램에 환경 변수 변경을 알렸습니다.")

        winreg.CloseKey(key)

    except PermissionError:
        print("\n[오류] 권한이 거부되었습니다.")
        print("이 스크립트를 시스템 PATH에 쓰려면 관리자 권한이 필요합니다.")
        print("Jupyter Notebook 또는 VS Code를 '관리자 권한으로 실행'한 후 다시 시도해주세요.")
    except Exception as e:
        print(f"예상치 못한 오류가 발생했습니다: {e}")

# 함수 실행
add_path_to_system_environment(FFMPEG_BIN_PATH)

print("\n======================================================================")
print("‼️ 중요: 변경 사항을 적용하려면 반드시 커널을 재시작하거나")
print("   VS Code/터미널을 완전히 종료 후 다시 실행해주세요!")
print("======================================================================")



In [None]:
# instantiate the pipeline with safer token handling and diagnostics
from pyannote.audio import Pipeline
from dotenv import load_dotenv
import os, traceback
import torch
import soundfile as sf
import numpy as np

print("cwd:", os.getcwd())
# load .env (if present). load_dotenv returns True if a file was found
ok = load_dotenv()
print("load_dotenv returned:", ok)

# Prefer explicit token passing. Do NOT print the token value here for security.
token = os.getenv("HF_TOKEN")
if token:
    print("HF token found in environment (value not shown).")
else:
    print("No HF_TOKEN in environment. If the model is gated, you must set HF_TOKEN with a token that has Read permission.")

# Try to instantiate the pyannote pipeline. If it fails, capture and print guidance.
try:
    if token:
        pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1", use_auth_token=token)
    else:
        pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")
    print("Pipeline loaded successfully.")
except Exception as e:
    print("Failed to load Pipeline.from_pretrained()")
    traceback.print_exc()
    print("If the model is gated: create an HF token with Read permission and either set it as HF_TOKEN in your environment or pass it with token=token.")
    print("You can also accept the model terms on the Hugging Face model page if required.")
    raise

# GPU: try to move pipeline to GPU but handle failures gracefully
try:
    if torch.cuda.is_available():
        try:
            pipeline.to(torch.device("cuda:0"))
            print("CUDA available — pipeline moved to GPU.")
        except Exception as e:
            print("Could not move pipeline to GPU (possibly OOM). Continuing on CPU.")
            traceback.print_exc()
    else:
        print("CUDA is not available — using CPU.")
except NameError:
    # pipeline variable might not exist if instantiation failed
    print("Pipeline not available to move to GPU. Skipping GPU move.")


In [None]:
# ==============================================================================
# [Workaround] torchcodec/torchaudio compatibility fix
# ==============================================================================
# Since torchcodec is incompatible with the current PyTorch version, we use
# soundfile to load audio and pass the waveform directly to the pipeline.

def load_audio(file_path):
    """
    Load audio file using soundfile and convert to PyTorch tensor.
    Returns a dictionary suitable for pyannote.audio pipeline.
    """
    if not os.path.exists(file_path):
        raise FileNotFoundError(f"Audio file not found: {file_path}")
        
    # Load audio using soundfile (returns numpy array)
    # data shape: (time, channels) or (time,)
    data, sr = sf.read(file_path)
    
    # Convert to PyTorch tensor
    waveform = torch.from_numpy(data).float()
    
    # Ensure shape is (channels, time)
    if waveform.ndim == 1:
        waveform = waveform.unsqueeze(0)
    else:
        waveform = waveform.t()
        
    return {"waveform": waveform, "sample_rate": sr}

print("Workaround function 'load_audio' defined. Use this to load audio files.")

# Example Usage:
# audio_file = "path/to/your/audio.wav"
# io = load_audio(audio_file)
# diarization = pipeline(io)


In [None]:
# io = load_audio("../audio/싼기타_비싼기타.mp3")
# diarization = pipeline(io)
diarization = pipeline("../audio/싼기타_비싼기타.mp3")

with open("../audio/싼기타_비싼기타.rttm", "w", encoding="utf-8") as rttm:
    # diarization.speaker_diarization.write_rttm(rttm)
    diarization.write_rttm(rttm)

#print(diarization)

In [None]:
import pandas as pd
rttm_path = "../audio/싼기타_비싼기타.rttm"
df_rttm = pd.read_csv(
    rttm_path,
    sep =" ",
    header=None,
    names=["type", "file", "chnl", "start", "duration", "C1", "C2", "speaker_id", "C3", "C4"]
    )
print(df_rttm)

In [None]:
# start + duration을 end로 변환
df_rttm['end'] = df_rttm['start'] + df_rttm['duration']
display(df_rttm)

In [None]:
df_rttm['number'] = None
df_rttm.at[0, 'number'] = 0

display(df_rttm)


In [None]:
for i in range(1, len(df_rttm)):
    if df_rttm.at[i, 'speaker_id'] != df_rttm.at[i-1, 'speaker_id']:
        df_rttm.at[i, 'number'] = df_rttm.at[i-1, 'number'] + 1
    else:
        df_rttm.at[i, 'number'] = df_rttm.at[i-1, 'number']

display(df_rttm.head(10))


In [None]:
df_rttm_grouped = df_rttm.groupby("number").agg(
    start=pd.NamedAgg(column="start", aggfunc="min"),
    end=pd.NamedAgg(column="end", aggfunc="max"),
    speaker_id=pd.NamedAgg(column="speaker_id", aggfunc="first")
)

display(df_rttm_grouped)

In [None]:
df_rttm_grouped["duration"] = df_rttm_grouped["end"] - df_rttm_grouped["start"]
df_rttm_grouped = df_rttm_grouped.reset_index(drop=True)
display(df_rttm_grouped)

In [11]:
df_rttm_grouped.to_csv("../audio/싼기타_비싼기타.csv",
  sep=',', 
  index=False)