In [32]:
import time
import uuid
from pathlib import Path
from log_utils import setup_logger
from core.audio_to_text.audio_to_text_processor import audio_to_text_processor
import os
import pandas as pd
from sqlalchemy import create_engine
from psycopg2 import sql

from core.post_processors.client_detector import detect_manager
from core.post_processors.llm_processing.objections_resolver import resolve_objections

In [7]:

folder_path = f"{Path.home()}/Documents/Аудио Бринекс/Brinex_in_2025_04/"
audio_files = list(Path(folder_path).glob("*"))

audio_files = [f for f in Path(folder_path).iterdir() if f.is_file()]

In [5]:
audio_files

[PosixPath('/Users/igorlapin/Documents/Аудио Бринекс/Brinex_in_2025_04/in-07010101-89196298789-20250411-174723-1744382843.21909797.mp3'),
 PosixPath('/Users/igorlapin/Documents/Аудио Бринекс/Brinex_in_2025_04/in-07010101-89179802318-20250416-133444-1744799684.22349925.mp3'),
 PosixPath('/Users/igorlapin/Documents/Аудио Бринекс/Brinex_in_2025_04/in-07010101-83412570493-20250408-090718-1744092438.21536377.mp3'),
 PosixPath('/Users/igorlapin/Documents/Аудио Бринекс/Brinex_in_2025_04/in-07010101-89090000723-20250430-202033-1746033633.23720425.mp3'),
 PosixPath('/Users/igorlapin/Documents/Аудио Бринекс/Brinex_in_2025_04/in-07010101-89123168160-20250417-102927-1744874967.22420772.mp3'),
 PosixPath('/Users/igorlapin/Documents/Аудио Бринекс/Brinex_in_2025_04/in-07010101-89271122023-20250411-090402-1744351442.21836776.mp3'),
 PosixPath('/Users/igorlapin/Documents/Аудио Бринекс/Brinex_in_2025_04/in-07010101-89056633338-20250420-085521-1745128521.22673222.mp3'),
 PosixPath('/Users/igorlapin/Docum

In [14]:
DB_CONFIG = {
    'dbname': 'neiro-insight',
    'user': 'postgres',
    'password': '1510261105',
    'host': 'localhost',
    'port': '5432'
}
engine = create_engine(
    f"postgresql+psycopg2://{DB_CONFIG['user']}:{DB_CONFIG['password']}@"
    f"{DB_CONFIG['host']}:{DB_CONFIG['port']}/{DB_CONFIG['dbname']}"
)

In [29]:
from datetime import datetime


def run_pipeline(audio_file: Path):
    os.environ["OMP_NUM_THREADS"] = "1"
    os.environ["MKL_NUM_THREADS"] = "1"

    start_time = time.time()
    data = []
    row_data = []
    file_uuid = uuid.uuid4()
    data.append({
        'id': file_uuid,
        'file_name': audio_file.name,
        'status': "NOT_PROCESSED",
        'created_at': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    })

    pd.DataFrame(data).to_sql(
        name='audio_dialog',
        con=engine,
        if_exists='append',
        index=False
    )

    result = audio_to_text_processor(audio_file)
    detect_manager(result)

    # resolve_objections(result)
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"Время выполнения: {execution_time:.4f} секунд")

    for r in result.items:
        row_data.append({
            'id': uuid.uuid4(),
            'audio_dialog_fk_id': file_uuid,
            'row_num': r.phrase_id,
            'row_text': r.text,
            'speaker_id': r.speaker_id,
            'start': r.start_time,
            'end': r.end_time,
            'has_swear_word': False,
            'has_greeting': False
        })
        if r.is_copy_line:
            continue
        print(f"{r.phrase_id} [{r.start_time:.2f} - {r.end_time:.2f}]: {r.speaker_id} : {r.text}")
    pd.DataFrame(row_data).to_sql(
        name='dialog_rows',
        con=engine,
        if_exists='append',
        index=False
    )

    for prop in result.objection_prop:
        print(f"Строка с возражением: {result.items[prop.objection_str - 1].text}")
        print(f"Строка с Обработкой возражения: {result.items[prop.manager_offer_str - 1].text}")
        print(f"Решилась ли проблема: {prop.was_resolved}")

In [30]:
audio_file = audio_files[0]
run_pipeline(audio_file)

[32m2025-06-22 23:11:26 - core.audio_to_text.diarizer - INFO     - Diarizing in-07010101-89196298789-20250411-174723-1744382843.21909797.mp3[0m
[32m2025-06-22 23:11:34 - core.audio_to_text.diarizer - INFO     - Diarization complete. Segments: 152, Speakers: 2[0m
[32m2025-06-22 23:11:36 - core.audio_to_text.transcriber - INFO     - Loading MLX Whisper model: mlx-community/whisper-large-v3-turbo[0m
[32m2025-06-22 23:11:36 - core.audio_to_text.transcriber - INFO     - Loading MLX Whisper model: mlx-community/whisper-large-v3-turbo[0m
[32m2025-06-22 23:11:36 - core.audio_to_text.transcriber - INFO     - Loading MLX Whisper model: mlx-community/whisper-large-v3-turbo[0m


Fetching 4 files: 100%|██████████| 4/4 [00:00<00:00, 67923.95it/s]
Fetching 4 files: 100%|██████████| 4/4 [00:00<00:00, 75573.05it/s]
Fetching 4 files: 100%|██████████| 4/4 [00:00<00:00, 85163.53it/s]


Время выполнения: 127.3257 секунд
1 [0.00 - 4.80]: SALES : Добрый день, меня зовут Елена. Как могу к вам обращаться? 
2 [4.80 - 7.50]: CLIENT : Добрый день, меня зовут Ельнар. 
3 [7.50 - 10.60]: SALES : Могу помочь? 
4 [10.60 - 19.10]: CLIENT : Девушка, вопрос следующий. Сейчас были колеса даром по городу Казани.  lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg

ProgrammingError: (psycopg2.errors.UndefinedColumn) column "has_greeting_word" of relation "dialog_rows" does not exist
LINE 1: ...w_text, speaker_id, start, "end", has_swear_word, has_greeti...
                                                             ^

[SQL: INSERT INTO dialog_rows (id, audio_dialog_fk_id, row_num, row_text, speaker_id, start, "end", has_swear_word, has_greeting_word) VALUES (%(id__0)s, %(audio_dialog_fk_id__0)s, %(row_num__0)s, %(row_text__0)s, %(speaker_id__0)s, %(start__0)s, %(end__0) ... 16766 characters truncated ... , %(speaker_id__96)s, %(start__96)s, %(end__96)s, %(has_swear_word__96)s, %(has_greeting_word__96)s)]
[parameters: {'has_swear_word__0': False, 'row_num__0': 1, 'id__0': UUID('e82eaf3a-2588-4706-ab60-a275a315ef97'), 'has_greeting_word__0': False, 'audio_dialog_fk_id__0': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__0': 4.8, 'start__0': 0.0, 'row_text__0': 'Добрый день, меня зовут Елена. Как могу к вам обращаться? ', 'speaker_id__0': 'SALES', 'has_swear_word__1': False, 'row_num__1': 2, 'id__1': UUID('eb1e2fc8-d084-46a2-a7dd-ca32f544dfcc'), 'has_greeting_word__1': False, 'audio_dialog_fk_id__1': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__1': 7.5, 'start__1': 4.8, 'row_text__1': 'Добрый день, меня зовут Ельнар. ', 'speaker_id__1': 'CLIENT', 'has_swear_word__2': False, 'row_num__2': 3, 'id__2': UUID('bcf32360-2ba4-43f9-a9a6-2b7a84b5f763'), 'has_greeting_word__2': False, 'audio_dialog_fk_id__2': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__2': 10.6, 'start__2': 7.5, 'row_text__2': 'Могу помочь? ', 'speaker_id__2': 'SALES', 'has_swear_word__3': False, 'row_num__3': 4, 'id__3': UUID('68645a64-4a12-4212-b00b-cdbc4dfdb8db'), 'has_greeting_word__3': False, 'audio_dialog_fk_id__3': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__3': 19.1, 'start__3': 10.6, 'row_text__3': 'Девушка, вопрос следующий. Сейчас были колеса даром по городу Казани.  lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lle ... (888 characters truncated) ... leg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg lleg ', 'speaker_id__3': 'CLIENT', 'has_swear_word__4': False, 'row_num__4': 5, 'id__4': UUID('cb8d6f52-709e-4da8-9b6a-82e6843e14c3'), 'has_greeting_word__4': False, 'audio_dialog_fk_id__4': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__4': 23.0, 'start__4': 21.0, 'row_text__4': 'Да. ', 'speaker_id__4': 'SALES', 'has_swear_word__5': False, 'row_num__5': 6, 'id__5': UUID('ef8cd9a7-2cb4-42dc-bd5d-62554eb9dce2'), 'has_greeting_word__5': False, 'audio_dialog_fk_id__5': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962') ... 773 parameters truncated ... 'audio_dialog_fk_id__91': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__91': 622.9, 'start__91': 616.9, 'row_text__91': 'Ну, сейчас опять ехать как бы, в другую специалистку ждать, чтобы нормально с нами пообщался и так.  Можно было бы сказать, что штампованных вообще нет под ваш автомобиль. Вы говорите, что есть. ', 'speaker_id__91': 'CLIENT', 'has_swear_word__92': False, 'row_num__92': 93, 'id__92': UUID('5e5a0430-8426-4eea-b20b-874cbdf3dae7'), 'has_greeting_word__92': False, 'audio_dialog_fk_id__92': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__92': 630.3, 'start__92': 628.2, 'row_text__92': 'Като. Като. Като. Като. Като. Като. Като. Като. ', 'speaker_id__92': 'CLIENT', 'has_swear_word__93': False, 'row_num__93': 94, 'id__93': UUID('ea382719-4a7f-424f-8f12-ebcd2b6373b7'), 'has_greeting_word__93': False, 'audio_dialog_fk_id__93': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__93': 637.5, 'start__93': 630.3, 'row_text__93': 'Нет, стампованные есть отдельно. Ну а по отдельности, да, там это... ', 'speaker_id__93': 'SALES', 'has_swear_word__94': False, 'row_num__94': 95, 'id__94': UUID('8561569c-ba3b-4827-a09a-6b49539afb21'), 'has_greeting_word__94': False, 'audio_dialog_fk_id__94': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__94': 642.3, 'start__94': 637.5, 'row_text__94': 'Нет, а он нам только под заказ, в принципе, понятно, да.  Понятно. Ладно, девушка, спасибо. Если что, субтитры сделал DimaTorzok ', 'speaker_id__94': 'CLIENT', 'has_swear_word__95': False, 'row_num__95': 96, 'id__95': UUID('acea0810-aabd-46e9-9ece-7bff2f0a00b8'), 'has_greeting_word__95': False, 'audio_dialog_fk_id__95': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__95': 648.8, 'start__95': 645.6, 'row_text__95': 'К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. ... (37 characters truncated) ... К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К. К ', 'speaker_id__95': 'SALES', 'has_swear_word__96': False, 'row_num__96': 97, 'id__96': UUID('9daef3ed-2be9-4af5-ac0c-c1eddad382d5'), 'has_greeting_word__96': False, 'audio_dialog_fk_id__96': UUID('cab832db-0d35-48e8-bbc3-63846a1b1962'), 'end__96': 651.3, 'start__96': 648.8, 'row_text__96': 'Спасибо. До свидания. ', 'speaker_id__96': 'CLIENT'}]
(Background on this error at: https://sqlalche.me/e/20/f405)