In [3]:
import numpy as np
import librosa
import soundfile as sf
import math

def compute_c50(y, sr):
    """
    y: 오디오 신호 (1차원 numpy array)
    sr: 샘플레이트
    """
    # 50ms에 해당하는 샘플 수
    cutoff_sample = int(0.05 * sr)

    # Early & Late Energy
    early_energy = np.sum(y[:cutoff_sample] ** 2)
    late_energy = np.sum(y[cutoff_sample:] ** 2)

    if late_energy == 0:
        return float('inf')  # 울림 없음 (완벽)

    return 10 * math.log10(early_energy / late_energy)

y, sr = librosa.load("example.wav", sr=None)

c50_value = compute_c50(y, sr)
print(f"C50: {c50_value:.2f} dB")

C50: -64.90 dB


- 음성이 지나치게 인위적이거나 정적일 때 흔히 나오는 현상으로 볼 수 있음
- 그리고 1초 이하로 해야됌. T50은 50ms기준으로 나뉘기 때문.

$$\textbf{C50} = 10 \cdot \log_{10} \left( \frac{E_{\text{early}}}{E_{\text{late}}} \right)$$

$$E_{\text{early}} = \sum_{t=0}^{T_{50}} x[t]^2$$
$$E_{\text{late}} = \sum_{t=T_{50}+1}^{T} x[t]^2$$

$$T_{50} = 0.05 \cdot f_s$$
	•	f_s: 샘플링 주파수 (Hz): 1(1000ms)초에 몇 번 측정을 50ms에 몇번 측정하는 것인가로 바뀜

샘플링 주파수 f_s = 16000 Hz 라면,
$T_{50} = 0.05 \cdot 16000 = 800 \text{ samples}$

→ 이것은 “0~800번째 샘플까지가 50ms에 해당한다”는 뜻

$E_{\text{early}}$

→ 음성이 시작된 뒤 0~50ms 구간에서 나오는 에너지의 총합

$E_{\text{late}}$

→ 50ms 이후~끝까지의 에너지 총합