make sure both processes get same audio


-choose file
- process via diarizer

In [1]:
import pandas as pd
import numpy as np
import json
from datetime import timedelta
from app.settings import settings
from app.database_redis.connection import get_redis_client
from app.services.audio.redis import Diarisation,Transcript
from app.services.audio.redis import Connection, Diarizer, Meeting, Transcriber


class DataPreparation:
    @staticmethod
    def prep_transcripts(transcriptions):
        dfs = []
        for n, (t, seek, connection_id) in enumerate(transcriptions):
            df = pd.DataFrame(t)[[2, 3, 4]]
            df.columns = ['start', 'end', 'speech']
            df['start'] = pd.to_timedelta(df['start'], unit='s') + pd.Timestamp(seek)
            df['end'] = pd.to_timedelta(df['end'], unit='s') + pd.Timestamp(seek)
            df['chunk'] = n
            dfs.append(df)
        return pd.concat(dfs).reset_index(drop=True)

    @staticmethod
    def prep_diarizations(diarizations):
        dfs = []
        for d, seek, connection_id in diarizations:
            df = pd.DataFrame(d)
            df['start'] = pd.to_timedelta(df['start'], unit='s') + pd.Timestamp(seek)
            df['end'] = pd.to_timedelta(df['end'], unit='s') + pd.Timestamp(seek)
            dfs.append(df)
        return pd.concat(dfs).reset_index(drop=True)

class DiarizationProcessor:
    @staticmethod
    def apply_diarization(trans_df, diar_df):
        segments = trans_df.to_dict('records')
        for seg in segments:
            diar_df['intersection'] = np.minimum(diar_df['end'], seg['end']) - np.maximum(diar_df['start'], seg['start'])
            speaker_ = diar_df[(diar_df['intersection'] == diar_df['intersection'].max()) & (diar_df['intersection'] > pd.Timedelta(0))]['speaker']
            if len(speaker_) > 0:
                seg['speaker'] = speaker_.iloc[0]
        return pd.DataFrame(segments)

class RedisManager:
    def __init__(self, redis_host, redis_port, redis_password):
        self.redis_client = None
        self.diarization = None
        self.transcript = None
        self.meeting = None
        self.redis_host = redis_host
        self.redis_port = redis_port
        self.redis_password = redis_password
        self.diarizations = [] 
        self.transcriptions = []

    async def initialize(self, meeting_id):
        self.meeting_id=meeting_id
        self.redis_client = await get_redis_client(self.redis_host, self.redis_port, self.redis_password)
        self.diarization = Diarisation(meeting_id, redis_client=self.redis_client)
        self.transcript = Transcript(meeting_id, redis_client=self.redis_client)
        self.meeting = Meeting(self.redis_client, meeting_id)


    #=========This supposed to be replaced with corresponding audio service endpoints (AKA await self.__audio_service_api.get_transcriber_segments()) ======
    async def fetch_diarizations(self):
        await self.load_diarizations()
        while True:
            d = await self.diarization.rpop()
            if not d:
                break
            self.diarizations.append(json.loads(d))
        
        await self.store_diarizations()
        return self.diarizations

    async def fetch_transcriptions(self):
        await self.load_transcriptions()
        
        while True:
            d = await self.transcript.rpop()
            if not d:
                break
            self.transcriptions.append(json.loads(d))
            
        await self.store_transcriptions()
        return self.transcriptions
    
    #=============================above=================
    
    
    async def store_diarizations(self):
        for d in self.diarizations:
            await self.redis_client.lpush(f"{self.meeting_id}:diarizations", json.dumps(d))
    
    async def store_transcriptions(self):
        for t in self.transcriptions:
            await self.redis_client.lpush(f"{self.meeting_id}:transcriptions", json.dumps(t))
    
    async def load_diarizations(self):
        self.diarizations = []
        while True:
            d = await self.redis_client.rpop(f"{self.meeting_id}:diarizations")
            if not d:
                break
            self.diarizations.append(json.loads(d))
        return self.diarizations
    
    async def load_transcriptions(self):
        self.transcriptions = []
        while True:
            t = await self.redis_client.rpop(f"{self.meeting_id}:transcriptions")
            if not t:
                break
            self.transcriptions.append(json.loads(t))
        return self.transcriptions
    
    async def delete(self):
        return await self.redis_client.delete(f"{self.meeting_id}:transcriptions") and await self.redis_client.delete(f"{self.meeting_id}:diarizations")


check_and_process_connections_interval_sec: 1.0


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
pd.set_option('display.max_colwidth', None)

In [3]:

redis_manager = RedisManager(settings.redis_host, settings.redis_port, settings.redis_password)
await redis_manager.initialize('xng-juvg-nyv')

In [4]:
#await redis_manager.delete()

In [17]:

diarizations = await redis_manager.fetch_diarizations()
transcriptions = await redis_manager.fetch_transcriptions()

trans_df = pd.DataFrame()
diar_df = pd.DataFrame(columns = ['start','end','speaker'])

if transcriptions:
    trans_df = DataPreparation.prep_transcripts(transcriptions)

if diarizations:
    diar_df = DataPreparation.prep_diarizations(diarizations)

if not trans_df.empty:
    df = DiarizationProcessor.apply_diarization(trans_df, diar_df)


if not df.empty:
    if 'speaker' in  df.columns: df['speaker'] = df['speaker'].fillna('TBD')   #to be determined
    # rename_dict = {s: n for n, s in enumerate(df['speaker'].dropna().unique().tolist())}
    # df = df.replace(rename_dict).sort_values('start')
    df = df.drop_duplicates('start')
    df['change'] = df['speaker'] != df['speaker'].shift()
    df['change'] = df['change'].cumsum()
    df = df.groupby('change').agg({'speech': 'sum', 'speaker': 'first', 'start': 'first', 'end': 'last'}).reset_index(drop=True)
    
df

Unnamed: 0,speech,speaker,start,end
0,"что-то выдает риэлтайм запущу я запущу я тестовый тестовое видео ваш бренд совсем годоваленький малыш или уже в какой-то юности он находится разное распределение бюджета. Ну, вот этот сплит между Эвернесом и перформансом, он все время будет разный. Соответственно, когда мы совсем малыши, что нам Нам нужно делать, нам нужно генерить прибыль для того, чтобы у нас хоть что-то оставалось, да, мы же не можем все время откуда-то эти деньги брать и уходить в минус и говорить, когда-нибудь, когда... нас все узнают, мы будем прибыльными, а пока давайте вот тут еще немножко сожжем денег. Нет, так не бывает. Поэтому в первое время я бы рекомендовала 70 на 3 То есть вкладывать 70% бюджета, 70% усилий в те инструменты, которые приводят вам новых клиентов, новые продажи. То, что генерирует деньги здесь и сейчас. Нельзя совсем, я бы не рекомендовала совсем уходить и 100% в это вкладывать, потому что получится, как в 2022 году, когда все фаундеры приходили и говорили, слушайте, Слушайте, а мы вкладывали вот в контекстную рекламу запрещенной соцсети с картинками, и у нас нормально продавало, в таргет, в таргет они все вкладывали, и у нас нормально продавало. Мы запускали вот эти вот рекламы в рекламном кабинете, они приводили нам каких-то людей. Мы совершенно не думали над тем, как мы будем выглядеть, чем мы будем отличаться, почему мы такие, а не другие, какое у нас будущее. почему мы такие, а не другие, какой у нас продукт. А вот сейчас это все отключили, а что нам делать? Мы там особо на привлечение пользователей, на привлечение людей в комьюнити не работали. Просто, ну вот, на... Экшен был «положи в корзину, купи, где-то там заберешь».",4eb6fa20-eeee-46bd-ac04-8fb6c0a5d78d,2024-05-25 18:49:15.336605+00:00,2024-05-25 18:51:20.024605+00:00
1,"Они складывали все яйца в одну корзину, условно. Да, это другая история. Как вы делите яйца? В какие корзины сложить? Когда АМР?",1b38a6f5-3e26-453b-b06a-27feff21cbb2,2024-05-25 18:51:20.024605+00:00,2024-05-25 18:51:27.104605+00:00
2,"ТБД – это когда у нас еще не пошли данные из диарайзера. Это to be determined. Это вот этот кусочек. Вот он сейчас. Сейчас придет, вот, это видишь, он еще меня здесь вычленил. Вот. Ну, соответственно, если я перезагружаю ноутбук, то у меня вся эта история хранится в рейтинге. здесь я инициализирую и вся эта красота у меня здесь я продолжаю у меня все",2ccd45d5-c5af-4eca-9a24-3a60c5224344,2024-05-25 18:51:28.642605+00:00,2024-05-25 18:52:12.844605+00:00
3,"работает когда необходим контекст Вот CRM-маркетинг нужно делать всегда. Что такое CRM? CRM – это когда мы собираем базу клиентскую, и потом с ней что-то делаем. Активируем ее, реактивируем. Это все не с воронки. С CRM вы начинаете... Если вы начинаете заниматься, тогда вы научились привлекать трафик.",4eb6fa20-eeee-46bd-ac04-8fb6c0a5d78d,2024-05-25 18:52:12.844605+00:00,2024-05-25 18:52:32.484605+00:00
4,"У Лома есть ограничения по времени поэтому я по 5 минут записываем но значит что вот пишем сразу это все делаю еще будет еще значит у нас все Все это группируется по спикерам, вот, обновляется близко и чем это отличается от того, что мы с тобой обсуждали? Нет имьютабл, да, я просто все это сделал, что оно все вроде сохранится и имьютабл. Как бы это, думаю, мы как-нибудь потом с этим справимся или ты потом это будешь по какому-нибудь, по прошествии. Какого-то времени, по какому-то тайм-ауту, условно говоря, это все записывали в базу. Смысл в том, что это все в Redis по-прежнему. Но зато теперь все практически реалтайном обновляется. Еще раз повторяю, TBD это когда спикер мы еще не выяснили, кто говорит, потому что у нас запаздывает диарайзер за... Вот, а здесь уже все он вытащил, да? Вот, соответственно, спич, спикер. Вот, вот это я закомментил просто для того, чтобы... их заменять на на вот такие вот штучки чтобы было понятно но это так чисто для Посмотри, у меня там маленький раскачался. Вот, так что все работает, все это красивенько показывается. Классом разложено. Единственное, что тебе надо будет здесь реализовать, это поменять, подставить. Это заменить. способ получения данных из редиса на api вот ну а здесь сами значит Вот эти вот сырые штуки я собираю в Redis, но это будет, соответственно, будет складываться на Redis уже. в редис уже на engine и на лету все время это матчу вот алгоритм матчинга от Все очень просто, как оказалось. Вот, так что, мне кажется, это для MVP. вполне себе будет хорошо, вот. Так что, какие вопросы будут, пиши. И будем дальше это дело пилить. Вот такие дела. Я с собой доволен. Еще раз показываю, значит, рестарт, заново запускаем ноутбук, все, мы здесь и все поднимаем.",2ccd45d5-c5af-4eca-9a24-3a60c5224344,2024-05-25 18:53:38.894605+00:00,2024-05-25 18:57:46.032605+00:00
