# Обзор датасета и создание нового

In [None]:
%pip install pystoi

In [None]:
import os
import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
from scipy.signal import hilbert, find_peaks, medfilt

In [None]:
path_to_wav_folder = '/home/danya/datasets/speech_thesisis/'

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile

# Чтение WAV файла
sample_rate, audio_data = wavfile.read(path_to_wav_folder + 'Рина_8-1м.wav')

# Выбор сегмента данных
segment = audio_data[140000:200000]

# Если аудио стерео, берем только один канал
if len(segment.shape) > 1:
    segment = segment[:, 0]

# Вычисление БПФ
fft_result = np.fft.fft(segment)
fft_magnitude = np.abs(fft_result)

# Создание массива частот
n = len(segment)
freqs = np.fft.fftfreq(n, 1/sample_rate)

# Берем только положительные частоты (первую половину)
positive_freq_idx = freqs > 0
freqs_positive = freqs[positive_freq_idx]
fft_positive = fft_magnitude[positive_freq_idx]

# Находим частоту с максимальной амплитудой (основная частота)
max_amp_idx = np.argmax(fft_positive)
dominant_frequency = freqs_positive[max_amp_idx]

print(f"Основная частота сигнала: {dominant_frequency:.2f} Hz")

# Визуализация
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.plot(segment)
plt.title('Временная область')
plt.xlabel('Отсчеты')
plt.ylabel('Амплитуда')

plt.subplot(1, 2, 2)
plt.plot(freqs_positive, fft_positive)
plt.axvline(x=dominant_frequency, color='r', linestyle='--', label=f'Основная частота: {dominant_frequency:.2f} Hz')
plt.title('Частотная область (БПФ)')
plt.xlabel('Частота (Hz)')
plt.ylabel('Амплитуда')
plt.legend()
plt.xlim(0, 5000)  # Ограничиваем диапазон для лучшей видимости

plt.tight_layout()
plt.show()

In [None]:
def plot_waveform_with_envelope(waveform, sample_rate, title):
    # Нормализация сигнала
    waveform = waveform / np.max(np.abs(waveform))
    
    # Параметры для оконной функции
    window_size = int(0.02 * sample_rate)  # 20 мс окно
    hop_size = int(window_size / 4)  # 25% перекрытие
    
    # Метод 1: Огибающая через скользящее максимальное окно (как на картинке)
    amplitude_envelope_windowed = np.zeros_like(waveform)
    
    for i in range(0, len(waveform) - window_size, hop_size):
        window = waveform[i:i + window_size]
        max_val = np.max(np.abs(window))
        amplitude_envelope_windowed[i:i + hop_size] = max_val
    
    # Заполняем оставшиеся samples
    if len(waveform) % hop_size != 0:
        remaining = len(waveform) - (len(waveform) // hop_size) * hop_size
        amplitude_envelope_windowed[-remaining:] = amplitude_envelope_windowed[-(remaining + hop_size)]
    
    # Сглаживаем медианным фильтром
    amplitude_envelope_windowed = medfilt(amplitude_envelope_windowed, kernel_size=window_size//10)
    
    # Метод 2: Классическая огибающая Гильберта для сравнения
    analytic_signal = hilbert(waveform)
    amplitude_envelope_hilbert = np.abs(analytic_signal)
    
    # Создание временной оси в секундах
    time = np.arange(len(waveform)) / sample_rate
    
    # Построение графика
    plt.figure(figsize=(12, 8))
    
    # Осциллограмма
    plt.plot(time, waveform, label='Осциллограмма', alpha=0.7, color='blue', linewidth=0.8)
    
    # Огибающая через оконную функцию (как на картинке)
    plt.plot(time, amplitude_envelope_windowed, label='Огибающая (оконная)', color='red', linewidth=2)
    
    # Классическая огибающая Гильберта (для сравнения)
    plt.plot(time, amplitude_envelope_hilbert, label='Огибающая (Гильберт)', color='orange', linewidth=1.5, alpha=0.7)
    
    plt.title(title)
    plt.xlabel('Время (с)')
    plt.ylabel('Амплитуда')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.tight_layout()

def plot_waveform_with_envelope_simple(waveform, sample_rate, title):
    """Упрощенная версия только с оконной огибающей как на картинке"""
    # Нормализация сигнала
    waveform = waveform / np.max(np.abs(waveform))
    
    # Параметры оконной функции
    window_size = int(0.01 * sample_rate)  # 10 мс окно для более точного отслеживания
    hop_size = max(1, window_size // 8)    # Маленький шаг для плавности
    
    # Создаем огибающую через оконное максимальное значение
    envelope = np.zeros(len(waveform))
    
    for i in range(0, len(waveform), hop_size):
        end_idx = min(i + window_size, len(waveform))
        window = waveform[i:end_idx]
        if len(window) > 0:
            max_val = np.max(np.abs(window))
            # Заполняем текущий сегмент максимальным значением
            fill_end = min(i + hop_size, len(waveform))
            envelope[i:fill_end] = max_val
    
    # Сглаживание огибающей
    smooth_window = max(1, window_size // 4)
    if smooth_window > 1:
        envelope = np.convolve(envelope, np.ones(smooth_window)/smooth_window, mode='same')
    
    # Создание временной оси в секундах
    time = np.arange(len(waveform)) / sample_rate
    
    # Построение графика
    plt.figure(figsize=(12, 6))
    plt.plot(time, waveform, label='Осциллограмма', alpha=0.5, color='blue', linewidth=1)
    plt.plot(time, envelope, label='Огибающая', color='red', linewidth=2)
    
    plt.title(title)
    plt.xlabel('Время (с)')
    plt.ylabel('Амплитуда')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.tight_layout()

def process_wav_files(folder_path, method='simple'):
    # Получаем список всех WAV-файлов в директории
    wav_files = [f for f in os.listdir(folder_path) if f.lower().endswith('.wav')]
    
    if not wav_files:
        print("В указанной директории не найдено WAV-файлов.")
        return
    
    for wav_file in wav_files:
        file_path = os.path.join(folder_path, wav_file)
        
        try:
            # Загружаем WAV-файл
            sample_rate, audio_data = wavfile.read(file_path)
            
            # Если аудио стерео, берем только один канал
            if len(audio_data.shape) > 1:
                audio_data = audio_data[:, 0]
            
            len_data = len(audio_data) // 10
            
            print(f"Обработка файла: {wav_file}")
            print(f"Частота дискретизации: {sample_rate} Гц")
            print(f"Длительность: {len(audio_data)/sample_rate:.2f} секунд")
            
            # Строим график в зависимости от выбранного метода
            if method == 'simple':
                plot_waveform_with_envelope_simple(audio_data[:len_data], sample_rate, f'Осциллограмма и огибающая\n{wav_file}')
            else:
                plot_waveform_with_envelope(audio_data[:len_data], sample_rate, f'Осциллограмма и огибающая\n{wav_file}')
            
        except Exception as e:
            print(f"Ошибка при обработке файла {wav_file}: {str(e)}")
    
    plt.show()


In [None]:
process_wav_files(path_to_wav_folder, method='simple')


In [None]:
import os
import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
import IPython.display as ipd
from pystoi import stoi
from scipy.signal import spectrogram, find_peaks, butter, filtfilt
import sys

# Добавляем путь к модулю с VAD функциями
# sys.path.append('/path/to/your/module')  # раскомментируйте и укажите правильный путь
from exercises_blank import energy_gmm_vad

def gauss_pdf(x, mu, sigma):
    """Функция плотности вероятности гауссовского распределения"""
    return (1.0 / (sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((x - mu) / sigma) ** 2)

def bandpass_filter(signal, sample_rate, lowcut=750, highcut=850, order=4):
    """Бандассный фильтр для выделения тона 800 Гц"""
    nyquist = 0.5 * sample_rate
    low = lowcut / nyquist
    high = highcut / nyquist
    b, a = butter(order, [low, high], btype='band')
    return filtfilt(b, a, signal)

def detect_800hz_tone(signal, sample_rate, tone_freq=800, threshold=0.3, min_duration=0.5):
    """
    Обнаруживает тон 800 Гц в сигнале и возвращает индекс ОКОНЧАНИЯ тона
    """
    # Применяем bandpass фильтр вокруг 800 Гц
    filtered_signal = bandpass_filter(signal, sample_rate, tone_freq-50, tone_freq+50)
    
    # Вычисляем огибающую отфильтрованного сигнала
    envelope = np.abs(filtered_signal)
    
    # Сглаживаем огибающую
    smooth_window = int(0.02 * sample_rate)  # 20 мс
    if smooth_window > 1:
        envelope_smooth = np.convolve(envelope, np.ones(smooth_window)/smooth_window, mode='same')
    else:
        envelope_smooth = envelope
    
    # Нормализуем огибающую
    envelope_norm = envelope_smooth / np.max(envelope_smooth)
    
    # Находим участки где огибающая превышает порог
    tone_mask = envelope_norm > threshold
    
    # Находим непрерывные сегменты тона
    tone_segments = []
    in_tone = False
    start_idx = 0
    
    for i in range(len(tone_mask)):
        if tone_mask[i] and not in_tone:
            # Начало тона
            in_tone = True
            start_idx = i
        elif not tone_mask[i] and in_tone:
            # Конец тона
            in_tone = False
            end_idx = i
            duration = (end_idx - start_idx) / sample_rate
            if duration >= min_duration:
                tone_segments.append((start_idx, end_idx, duration))
    
    # Если тон продолжается до конца файла
    if in_tone:
        duration = (len(tone_mask) - start_idx) / sample_rate
        if duration >= min_duration:
            tone_segments.append((start_idx, len(tone_mask), duration))
    
    if tone_segments:
        # Сортируем сегменты по энергии (самый сильный тон)
        tone_segments.sort(key=lambda x: np.mean(envelope_norm[x[0]:x[1]]), reverse=True)
        
        # Берем самый сильный тон
        best_tone_start, best_tone_end, best_duration = tone_segments[0]
        
        # Возвращаем КОНЕЦ тона + небольшой запас
        tone_end_sample = min(best_tone_end + int(0.1 * sample_rate), len(signal))
        
        print(f"Обнаружен тон {tone_freq} Гц:")
        print(f"  - Начало: {best_tone_start/sample_rate:.2f} сек")
        print(f"  - Окончание: {best_tone_end/sample_rate:.2f} сек") 
        print(f"  - Длительность: {best_duration:.2f} сек")
        print(f"  - Анализ начнется с: {tone_end_sample/sample_rate:.2f} сек")
        
        return tone_end_sample
    else:
        print(f"Тон {tone_freq} Гц не обнаружен, используем весь сигнал")
        return 0

def extract_speech_segments(signal, vad_markup, sample_rate, min_silence_duration=0.1):
    """
    Извлекает речевые сегменты и соединяет их в один непрерывный сигнал
    """
    # Находим границы речевых сегментов
    speech_segments = []
    in_speech = False
    start_idx = 0
    
    # Добавляем небольшой буфер для плавности
    silence_samples = int(min_silence_duration * sample_rate)
    
    for i in range(len(vad_markup)):
        if vad_markup[i] == 1 and not in_speech:
            # Начало речевого сегмента
            in_speech = True
            start_idx = max(0, i - silence_samples // 4)
        elif vad_markup[i] == 0 and in_speech:
            # Проверяем, достаточно ли длинная пауза
            if i + silence_samples < len(vad_markup):
                if np.all(vad_markup[i:i+silence_samples] == 0):
                    in_speech = False
                    end_idx = min(len(signal), i + silence_samples // 4)
                    speech_segments.append(signal[start_idx:end_idx])
            else:
                # Конец файла
                in_speech = False
                speech_segments.append(signal[start_idx:i])
    
    # Если последний сегмент продолжается до конца файла
    if in_speech:
        speech_segments.append(signal[start_idx:])
    
    # Объединяем все сегменты в один сигнал
    if speech_segments:
        continuous_speech = np.concatenate(speech_segments)
        
        # Добавляем короткие паузы между сегментами для естественности
        pause_duration = int(0.05 * sample_rate)
        pause = np.zeros(pause_duration)
        
        final_speech = speech_segments[0]
        for segment in speech_segments[1:]:
            final_speech = np.concatenate([final_speech, pause, segment])
        
        return final_speech, speech_segments
    else:
        return np.array([]), []

def apply_vad_filter(signal, vad_markup):
    """Применяет VAD разметку к сигналу - обнуляет неречевые участки"""
    signal_filtered = signal.copy()
    signal_filtered[vad_markup == 0] = 0
    return signal_filtered

def extract_audio_after_tone(signal, sample_rate, tone_end_sample, duration_sec=10):
    """Извлекает первые 10 секунд аудио сигнала ПОСЛЕ окончания тона 800 Гц"""
    start_sample = tone_end_sample
    end_sample = min(len(signal), start_sample + duration_sec * sample_rate)
    
    if end_sample > start_sample:
        return signal[start_sample:end_sample], start_sample, end_sample
    else:
        return np.array([]), start_sample, start_sample

def load_audio_file(file_path):
    """Загружает аудио файл"""
    try:
        sample_rate, audio_data = wavfile.read(file_path)
        
        if len(audio_data.shape) > 1:
            audio_data = audio_data[:, 0]
        
        audio_data = audio_data.astype('float32')
        audio_data = audio_data / np.max(np.abs(audio_data))
        
        # Для всех файлов берем достаточно данных для анализа 10 секунд после тона
        # Для Рина_8-1м.wav тона может быть позже, поэтому берем больше данных
        if '8-1м' in file_path:
            max_duration = 25  # 25 секунд для файла с поздним тоном
        else:
            max_duration = 15  # 15 секунд для остальных файлов
            
        max_samples = min(len(audio_data), max_duration * sample_rate)
        audio_segment = audio_data[:max_samples]
        
        print(f"  - Загружено: {len(audio_segment)/sample_rate:.2f} сек")
        
        return audio_segment, sample_rate
        
    except Exception as e:
        print(f"Ошибка при загрузке файла {file_path}: {str(e)}")
        return None, None

def process_file_with_vad_after_tone(file_path):
    """Обработка файла с обнаружением ОКОНЧАНИЯ тона 800 Гц и применением VAD только к речи после тона"""
    try:
        sample_rate, audio_data = wavfile.read(file_path)
        
        if len(audio_data.shape) > 1:
            audio_data = audio_data[:, 0]
        
        audio_data = audio_data.astype('float32')
        audio_data = audio_data / np.max(np.abs(audio_data))
        
        # Для всех файлов берем достаточно данных для анализа 10 секунд после тона
        if '8-1м' in file_path:
            max_duration = 25  # 25 секунд для файла с поздним тоном
        else:
            max_duration = 15  # 15 секунд для остальных файлов
            
        max_samples = min(len(audio_data), max_duration * sample_rate)
        audio_segment = audio_data[:max_samples]
        
        print(f"  - Длительность загруженного сигнала: {len(audio_segment)/sample_rate:.2f} сек")
        
        # Обнаруживаем ОКОНЧАНИЕ тона 800 Гц
        tone_end_sample = detect_800hz_tone(audio_segment, sample_rate)
        
        # Берем только часть сигнала после ОКОНЧАНИЯ тона
        speech_start_sample = tone_end_sample
        speech_signal = audio_segment[speech_start_sample:]
        
        if len(speech_signal) == 0:
            print("❌ Нет сигнала после тона 800 Гц")
            return None, sample_rate, 0, audio_segment, None, speech_start_sample
        
        print(f"  - Длительность сигнала после тона: {len(speech_signal)/sample_rate:.2f} сек")
        
        # Получаем VAD разметку для сигнала после тона
        vad_markup_speech = energy_gmm_vad(
            signal=speech_signal,
            window=320,
            shift=160,
            gauss_pdf=gauss_pdf,
            n_realignment=10,
            vad_thr=0.5,
            mask_size_morph_filt=5
        )
        
        # Создаем полную VAD разметку для всего сигнала (для визуализации)
        full_vad_markup = np.zeros_like(audio_segment)
        full_vad_markup[speech_start_sample:speech_start_sample + len(vad_markup_speech)] = vad_markup_speech
        
        # Извлекаем непрерывную речь из части после тона
        continuous_speech, speech_segments = extract_speech_segments(speech_signal, vad_markup_speech, sample_rate)
        
        return continuous_speech, sample_rate, len(speech_segments), audio_segment, full_vad_markup, speech_start_sample
        
    except Exception as e:
        print(f"Ошибка при обработке файла {file_path}: {str(e)}")
        import traceback
        traceback.print_exc()
        return None, None, 0, None, None, 0

def calculate_stoi_after_tone(reference_file, processed_files_folder, results):
    """Вычисление STOI для первых 10 секунд ПОСЛЕ ОКОНЧАНИЯ тона 800 Гц"""
    print(f"\n{'='*70}")
    print("ВЫЧИСЛЕНИЕ STOI МЕТРИКИ (первые 10 секунд ПОСЛЕ ОКОНЧАНИЯ тона 800 Гц)")
    print(f"{'='*70}")
    
    stoi_results = {}
    
    # Загружаем и обрабатываем эталонный файл
    print(f"Обработка эталонного файла: {os.path.basename(reference_file)}")
    ref_audio, ref_sample_rate = load_audio_file(reference_file)
    
    if ref_audio is None:
        print(f"❌ Не удалось загрузить эталонный файл")
        return stoi_results
    
    # Обнаруживаем ОКОНЧАНИЕ тона 800 Гц в эталонном файле
    ref_tone_end = detect_800hz_tone(ref_audio, ref_sample_rate)
    ref_audio_after_tone, ref_start, ref_end = extract_audio_after_tone(ref_audio, ref_sample_rate, ref_tone_end, duration_sec=10)
    
    if len(ref_audio_after_tone) == 0:
        print(f"❌ В эталонном файле нет сигнала после тона 800 Гц")
        return stoi_results
    
    print(f"Эталонный файл: {os.path.basename(reference_file)}")
    print(f"Частота дискретизации эталона: {ref_sample_rate} Гц")
    print(f"Начало анализа: {ref_start/ref_sample_rate:.2f} сек")
    print(f"Длительность эталона для сравнения: {len(ref_audio_after_tone)/ref_sample_rate:.2f} сек")
    
    # Вычисляем STOI для каждого файла (первые 10 секунд после ОКОНЧАНИЯ тона)
    for filename, result_data in results.items():
        if result_data['original_audio'] is not None and len(result_data['original_audio']) > 0:
            try:
                # Получаем оригинальный аудио
                original_audio = result_data['original_audio']
                original_sample_rate = result_data['sample_rate']
                speech_start_sample = result_data['speech_start_sample']
                
                # Извлекаем первые 10 секунд после ОКОНЧАНИЯ тона
                test_audio_after_tone, test_start, test_end = extract_audio_after_tone(
                    original_audio, original_sample_rate, speech_start_sample, duration_sec=10
                )
                
                if len(test_audio_after_tone) == 0:
                    print(f"{filename}: нет сигнала после тона 800 Гц")
                    stoi_results[filename] = None
                    continue
                
                print(f"  - Длительность тестового сигнала: {len(test_audio_after_tone)/original_sample_rate:.2f} сек")
                
                # Приводим к той же частоте дискретизации, что и эталон
                if original_sample_rate != ref_sample_rate:
                    from scipy import signal
                    num_samples = int(len(test_audio_after_tone) * ref_sample_rate / original_sample_rate)
                    test_audio_resampled = signal.resample(test_audio_after_tone, num_samples)
                else:
                    test_audio_resampled = test_audio_after_tone
                
                # Обрезаем до минимальной длины (для STOI нужны одинаковой длины)
                min_len = min(len(ref_audio_after_tone), len(test_audio_resampled))
                ref_segment = ref_audio_after_tone[:min_len]
                test_segment = test_audio_resampled[:min_len]
                
                # Проверяем, что есть достаточная длительность для сравнения
                if min_len < ref_sample_rate * 5:  # минимум 5 секунд для более надежного сравнения
                    print(f"{filename}: недостаточная длительность для сравнения ({min_len/ref_sample_rate:.2f} сек)")
                    stoi_results[filename] = None
                    continue
                
                # Вычисляем STOI между сигналами после ОКОНЧАНИЯ тона
                stoi_score = stoi(ref_segment, test_segment, ref_sample_rate, extended=False)
                stoi_results[filename] = stoi_score
                
                print(f"{filename}: STOI = {stoi_score:.4f} (длительность сравнения: {min_len/ref_sample_rate:.2f} сек, начало анализа: {speech_start_sample/original_sample_rate:.2f} сек)")
                
            except Exception as e:
                print(f"Ошибка вычисления STOI для {filename}: {e}")
                stoi_results[filename] = None
        else:
            print(f"{filename}: нет оригинального аудио для вычисления STOI")
            stoi_results[filename] = None
    
    return stoi_results

def plot_waveform_with_tone_detection(waveform, vad_markup, sample_rate, tone_position, title):
    """Визуализация осциллограммы с VAD разметкой и отметкой ОКОНЧАНИЯ тона 800 Гц"""
    waveform = waveform / np.max(np.abs(waveform))
    time = np.arange(len(waveform)) / sample_rate
    tone_time = tone_position / sample_rate
    
    fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(14, 8), sharex=True)
    
    # Верхний график: осциллограмма
    ax1.plot(time, waveform, label='Осциллограмма', alpha=0.7, color='blue', linewidth=1)
    ax1.axvline(x=tone_time, color='red', linestyle='--', alpha=0.8, linewidth=2, label='Окончание тона 800 Гц')
    
    # Показываем область для анализа (первые 10 секунд после тона)
    analysis_end = min(tone_time + 10, time[-1])
    ax1.axvspan(tone_time, analysis_end, alpha=0.2, color='green', label='Область для STOI анализа')
    
    ax1.set_ylabel('Амплитуда')
    ax1.set_title(f'{title}')
    ax1.legend()
    ax1.grid(True, alpha=0.3)
    
    # Нижний график: VAD разметка
    ax2.fill_between(time, 0, vad_markup, alpha=0.7, color='green', label='VAD разметка')
    ax2.plot(time, vad_markup, color='darkgreen', linewidth=1)
    ax2.axvline(x=tone_time, color='red', linestyle='--', alpha=0.8, linewidth=2, label='Окончание тона 800 Гц')
    ax2.set_ylabel('VAD (0/1)')
    ax2.set_xlabel('Время (с)')
    ax2.set_ylim(-0.1, 1.1)
    ax2.set_yticks([0, 1])
    ax2.legend()
    ax2.grid(True, alpha=0.3)
    
    plt.tight_layout()
    return fig

def process_all_files_with_stoi_after_tone(folder_path, reference_filename="Рина_1-1м.wav"):
    """Обработка всех файлов и вычисление STOI по первым 10 секундам ПОСЛЕ ОКОНЧАНИЯ тона 800 Гц"""
    wav_files = [f for f in os.listdir(folder_path) if f.lower().endswith('.wav')]
    
    if not wav_files:
        print("В указанной директории не найдено WAV-файлов.")
        return
    
    results = {}
    reference_file = os.path.join(folder_path, reference_filename)
    
    # Проверяем наличие эталонного файла
    if not os.path.exists(reference_file):
        print(f"Эталонный файл {reference_filename} не найден в папке!")
        return
    
    print(f"ОБРАБОТКА ФАЙЛОВ С ОБНАРУЖЕНИЕМ ОКОНЧАНИЯ ТОНА 800 ГЦ")
    print(f"{'='*70}")
    
    # Обрабатываем все файлы
    for wav_file in wav_files:
        file_path = os.path.join(folder_path, wav_file)
        print(f"\nОбработка: {wav_file}")
        
        # Получаем обработанный сигнал с обнаружением ОКОНЧАНИЯ тона
        continuous_speech, sample_rate, num_segments, original_audio, vad_markup, speech_start = process_file_with_vad_after_tone(file_path)
        
        results[wav_file] = {
            'continuous_speech': continuous_speech,
            'original_audio': original_audio,
            'sample_rate': sample_rate,
            'num_segments': num_segments,
            'vad_markup': vad_markup,
            'speech_start_sample': speech_start
        }
        
        if original_audio is not None:
            print(f"  - Начало анализа после тона: {speech_start/sample_rate:.2f} сек")
            print(f"  - Речевых сегментов после VAD: {num_segments}")
            
            # Показываем график с обнаружением ОКОНЧАНИЯ тона
            fig = plot_waveform_with_tone_detection(
                original_audio, vad_markup, sample_rate, speech_start,
                f'{wav_file} - Обнаружение окончания тона 800 Гц и VAD\n(первые 10 секунд после тона для STOI)'
            )
            plt.show()
        else:
            print(f"  - ❌ Не удалось обработать файл")
    
    # Вычисляем STOI для первых 10 секунд после ОКОНЧАНИЯ тона
    stoi_results = calculate_stoi_after_tone(reference_file, folder_path, results)
    
    # Выводим итоговую таблицу результатов
    print(f"\n{'='*70}")
    print("ИТОГОВЫЕ РЕЗУЛЬТАТЫ STOI (первые 10 секунд ПОСЛЕ ОКОНЧАНИЯ тона 800 Гц)")
    print(f"{'='*70}")
    
    valid_results = {k: v for k, v in stoi_results.items() if v is not None}
    
    for filename, score in stoi_results.items():
        if score is not None:
            print(f"{filename}: STOI = {score:.4f}")
        else:
            print(f"{filename}: STOI = N/A")
    
    if valid_results:
        avg_stoi = np.mean(list(valid_results.values()))
        print(f"\nСредний STOI: {avg_stoi:.4f}")
        
        # Находим лучший и худший результаты
        best_file = max(valid_results.items(), key=lambda x: x[1])
        worst_file = min(valid_results.items(), key=lambda x: x[1])
        print(f"Лучший результат: {best_file[0]} - STOI = {best_file[1]:.4f}")
        print(f"Худший результат: {worst_file[0]} - STOI = {worst_file[1]:.4f}")
    
    # Строим график результатов STOI
    if valid_results:
        plot_stoi_results(valid_results)
    
    return results, stoi_results

def plot_stoi_results(stoi_results):
    """Визуализация результатов STOI"""
    valid_results = {k: v for k, v in stoi_results.items() if v is not None}
    
    if not valid_results:
        print("Нет данных для построения графика STOI")
        return
    
    plt.figure(figsize=(12, 6))
    files = list(valid_results.keys())
    scores = list(valid_results.values())
    
    # Используем разные цвета для эталонного файла
    colors = ['lightblue' if 'Рина_1-1м' not in file else 'gold' for file in files]
    
    bars = plt.bar(files, scores, color=colors, alpha=0.7)
    plt.axhline(y=0.5, color='red', linestyle='--', alpha=0.7, label='Порог 0.5')
    plt.axhline(y=0.75, color='orange', linestyle='--', alpha=0.7, label='Порог 0.75')
    
    avg_score = np.mean(scores)
    plt.axhline(y=avg_score, color='green', linestyle='-', alpha=0.7, label=f'Среднее: {avg_score:.3f}')
    
    plt.ylabel('STOI Score')
    plt.title('Сравнение STOI метрики (первые 10 секунд ПОСЛЕ ОКОНЧАНИЯ тона 800 Гц)')
    plt.xticks(rotation=45, ha='right')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    
    # Добавляем значения на столбцы
    for bar, score in zip(bars, scores):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01, 
                f'{score:.3f}', ha='center', va='bottom')
    
    plt.show()

# Использование:
path_to_wav_folder = '/home/danya/datasets/speech_thesisis/'

# Обработать все файлы и вычислить STOI по первым 10 секундам ПОСЛЕ ОКОНЧАНИЯ тона 800 Гц
results, stoi_results = process_all_files_with_stoi_after_tone(path_to_wav_folder)