In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import sys
sys.path.append('/app')

In [3]:

# %%
from qdrant_client import QdrantClient
from datetime import datetime, timedelta
import pandas as pd

In [4]:

pd.set_option('display.max_colwidth', None)

# %% [markdown]
# ## Connect to Qdrant

# %%
def get_qdrant_client():
    """Get Qdrant client with default settings"""
    return QdrantClient(
        host="qdrant",  # Update if running in different environment
        port=6333
    )

# %% [markdown]
# ## Query Recent Chunks

# %%
def get_recent_chunks(collection_name="meeting_chunks", limit=100, hours_ago=24*30):
    """
    Retrieve the most recent chunks from Qdrant.
    
    Args:
        collection_name (str): Name of the Qdrant collection
        limit (int): Maximum number of chunks to retrieve
        hours_ago (int): Look back period in hours
    
    Returns:
        pd.DataFrame: DataFrame containing chunk data
    """
    client = get_qdrant_client()
    
    # Calculate timestamp threshold
    time_threshold = (datetime.utcnow() - timedelta(hours=hours_ago)).isoformat()
    
    # Search with filtering by timestamp
    search_result = client.scroll(
        collection_name=collection_name,
        scroll_filter={"must": [
            {"key": "timestamp", "range": {"gte": time_threshold}}
        ]},
        limit=limit,
        with_payload=True,
        with_vectors=True
    )[0]  # scroll returns (points, next_page_offset)
    
    # Extract relevant fields from payload
    chunks_data = []
    for point in search_result:
        payload = point.payload
        chunks_data.append({
            'id': point.id,
            'timestamp': payload.get('timestamp'),
            'meeting_id': payload.get('meeting_id'),
            'content': payload.get('content'),
            'contextualized_content': payload.get('contextualized_content'),
            'chunk_index': payload.get('chunk_index'),
            'topic': payload.get('topic'),
            'speaker': payload.get('speaker'),
            'speakers': payload.get('speakers'),
            'vector_dim': len(point.vector) if point.vector else None
        })
    
    # Convert to DataFrame
    df = pd.DataFrame(chunks_data)
    
    return df

In [5]:
get_recent_chunks().sort_values('timestamp', ascending=False)

Unnamed: 0,id,timestamp,meeting_id,content,contextualized_content,chunk_index,topic,speaker,speakers,vector_dim
83,0f24c46c-b697-40c4-95bf-50648921d31f,2024-12-27T16:13:36.933204,71a99bf5-2ea9-4e51-815d-acd0e56ded50,"Subject: Partnership Opportunity with NimbusCore Solutions\n\nDear Mr. Thompson,\n\nI hope this email finds you well. I am reaching out on behalf of NimbusCore Solutions, a leading provider of cloud-based productivity software headquartered in Nova Vista, California.\n\nAt NimbusCore, we specialize in delivering customized SaaS solutions to streamline workflows and improve collaboration for businesses across diverse sectors. Our flagship product, FlowSync, has helped over 2,000 companies globally reduce operational inefficiencies by 35% on average.\n\nWe recently came across your company, PeakStream Ventures, and were impressed by your innovative approach to enterprise resource planning. We believe there is significant potential for collaboration between our two firms to bring greater value to your clients.\n\nI would love the opportunity to discuss this in more detail. Could we schedule a 30-minute call next week? Please let me know your availability.\n\nLooking forward to your reply.",Test context,0,Note,ef7c085b-fdb5-4c94-b7b6-a61a3d04c210,[ef7c085b-fdb5-4c94-b7b6-a61a3d04c210],1024
80,0eecc3d0-4987-485b-a678-9677f257f8a1,2024-12-26T20:44:32.201285,0d77eb5b-6fa1-453e-ad6a-c7fa65f2f278,abacumba is ritumba,Test context,0,Note,ef7c085b-fdb5-4c94-b7b6-a61a3d04c210,[ef7c085b-fdb5-4c94-b7b6-a61a3d04c210],1024
77,0ec8273c-0539-4377-abe9-238607cbe759,2024-12-20T18:01:44.440000+00:00,f3eb1b39-c725-4ecf-8c4d-bd78eac81273,"Windy Hell: Ну, я бы попробовал разные тематики. Я почав без професійних блогерів. Павловским нишам, все потом айтишников, дизайнеров, такие нишевые облаки. дизайнеров слушай ну давай так я не знаю тебе какой-то по ресерчить надо или или что Если предварительно окей, давай. Что тебе от меня нужно? Тебе надо подумать, что ты будешь делать, или тебе надо собрать от меня... ...информацию сейчас. Что тебе от меня надо, чтобы начать?","This chunk occurs during a conversation between Dmitriy Grankin and Windy Hell, where they discuss potential collaboration on influencer marketing strategies. Windy suggests exploring various niches and themes for engaging with bloggers, indicating a focus on targeting specific audiences such as IT professionals and designers. The dialogue reflects their brainstorming process and the need for further information to initiate their partnership.",9,Targeting Different Niches,Windy Hell,"[Dmitriy Grankin, Windy Hell]",1024
82,0f1f3858-c6af-4ce8-a576-af7362b34d93,2024-12-20T13:25:46.510000+00:00,794b68e5-0dc5-4cb4-b221-c42e338b6743,"Dmitriy Grankin: Да, но иногда лучше спонтанно.","The chunk is part of a conversation between Dmitriy Grankin and Anton Saburov discussing marketing strategies, influencer collaborations, and product promotion, where Dmitriy emphasizes the value of spontaneity in decision-making.",0,Spontaneity,Dmitriy Grankin,"[Anton Saburov, Dmitriy Grankin]",1024
20,03c13257-988b-4898-8360-3c933cd8b5de,2024-12-20T13:25:46.510000+00:00,794b68e5-0dc5-4cb4-b221-c42e338b6743,"Dmitriy Grankin: понятно ну как бы ты на моем месте начал бы наверное генерировать контента сейчас 2020 пятом трендах в трендах потому что кажется что наверно это фейсбэк огромное количество контента вам заваливаешь автоматически там что-то начинается такое интересное у меня у меня 10 фейсбук каналов на американском Я не смогу гипотезу подтвердить, она у меня не полетела. Но вообще там новые медиа, с каждым годом все сложнее запускаться. Поэтому, знаешь, твоя стратегия может выглядеть следующим образом. Это много пробовать с размещениями, и те, кто будет перформить, с ними договариваться форматом босса.",This chunk is part of a conversation between Dmitriy Grankin and Anton Saburov discussing strategies for content generation and influencer marketing. Dmitriy suggests exploring new media trends and experimenting with content placements to identify effective partnerships for better performance in marketing efforts.,25,Content Generation Strategies,Dmitriy Grankin,"[Anton Saburov, Dmitriy Grankin]",1024
...,...,...,...,...,...,...,...,...,...,...
25,04f8181c-d77c-4628-bc8f-3172cc181dff,2024-12-02T15:30:37.920000+00:00,b2df54b2-e91e-4d41-bd4a-48c8fc99e5fb,"Igor Lyubimov: они меня начнут нормально чарли ну да ну там за такой толку готов ее больше платить 20 30 40 баксов без проблем вот если она делает самаре транскрипцию и автоматически определяет язык, на котором я говорю. Вот за это я готов уже 30 платить, 40, 50. Ну, типа, ну, Да даже и больше готов был бы платить. В 12 это вообще как бы не деньги, очевидно. Ну, 30, 40, 50 для продажных звонков. Ну, тоже как бы... Угу. Окей, давай я тебе покажу, что у меня есть. Давай. Это, в общем, похоже, как мне кажется, на то, что ты... Рассказываешь, но сейчас будет экран в экране. Ну, окей, да-да-да. Я помню, там у тебя, видимо, да.","The chunk is part of a conversation between Igor Lyubimov and Dmitriy Grankin discussing the features and pricing of a transcription tool that automatically identifies languages during calls. Igor expresses his willingness to pay more for enhanced functionalities, leading into a demonstration of the tool by Dmitriy.",12,Pricing and Value Perception,Igor Lyubimov,"[Dmitriy Grankin, Igor Lyubimov]",1024
9,023a0f91-f520-4e14-a871-723a78d8cd6d,2024-12-02T15:30:37.920000+00:00,b2df54b2-e91e-4d41-bd4a-48c8fc99e5fb,"Igor Lyubimov: Основная проблема, что невозможно, вот сейчас мы говорим по-русски, а следующий звонок у меня будет на английском. Я забуду переключиться и херам попасть. пошли все мои записи. У меня никакой записи нет. А еще у меня испанский бывает. Соответственно, я забываю переключаться. Что-то переключаться неудобно, Удобно нажимаешь, но что-то как-то зависает. Ну, короче, какой-то объем звонков у меня просирается. Я Firefly подключал, та же самая проблема, только еще... бот в чат долбится, мне это не нравится, не очень красиво. Вот, поэтому, ну, тактик, типа, нормально. Ну, в самаре, ну, не все. Всегда, конечно, он попадает. Он самаре автоматически какой-то публикует, да? Он нет, он кнопку нужно нажать, по-моему.","The chunk is part of a conversation between Igor Lyubimov and Dmitriy Grankin discussing challenges with language switching during calls, issues with recording and transcription tools, and the functionality of a tool called ""тактик"" (Tactic) that they use for managing call notes and recordings.",8,Language Switching Challenges,Igor Lyubimov,"[Dmitriy Grankin, Igor Lyubimov]",1024
55,09361439-5c49-4309-a4ea-9696b28fe4fe,2024-12-02T12:10:23.270000+00:00,1579143f-3d96-4346-9220-febb329ca5ce,"Tatiana Sukhova: ну да то есть это все надо ковать пока горячо вот ты такой поговорил с человеком у тебя там все сохранилось причем ты должен доверять потому что ну ты пока помнишь что я вижу что тут как бы пока копирую хожу вексу вопросы вот эти вот и задаю я вижу что он приплетает просто вообще процентов 80 понимаешь вот у него структура выдать 5 пунктов вот он тебе выдаст 5 пунктов понимаешь было там вообще не было какие-то вопросы я пропускаю потому что я чувствую что они очень релевантно вообще с этим конкретно человеком вот посмотрим кое-что какой ты режим используешь насколько ты понимаешь как чат работает А что тут разные режимы, где тут режимы? Ну вот этот вот, вот эта плашка, да, которая сингл митинг, она понятна, что она хочет сказать или не понятна? Нет, я вообще говорю, вот зачем эта плашка? Она тут только место занимает. Я уже ее тыкаю вообще во все стороны. Не понимаю, зачем она тут. Непонятно, да, что она делает. Ничего не кликается. Да, здесь просто... У чата есть как минимум два режима. Один, который работает по выборке, по отфильтрованным встречам. всем сразу вообще по всем своим встречам что спрашивает а есть сингл митинг сингл митинг он на вход получает транскрипт а А Multi, он получает на вход другие структуры, и там сложная система подачи. ...контекста. Вот, соответственно, непонятно, да, то есть просто какая-то плашка, которая мешает, не более того. Вижу, да, вижу. И в этом смысле... Абсолютно непонятно. Абсолютно непонятно. Ну, слушай, это все можно порешать, это все как бы UI, UX детали. Пока она съедает вертикально. И то, что переключать между этими режимами, ну как бы это все надо делать где-то гораздо более компактно, в горизонтали, нежели вертикально съедать. Вот. Значит, все, я тебе рассказала, табличку показала. Я просто, мне так обидно, потому что я время потратила. Я не могу никак на следующий этап перейти в этом, блин, акселераторе. мне надо сдать это задание я не знаю когда я найду еще время и я уже забываю вот эти вообще первые все интервью еще немножко помню про третье короче самое пока полезное для У меня было это перечитать транскрипт самой, чтобы вспомнить прямо, как разговор у нас шел, и тут копировать отсюда, так сказать, уже действительно моменты, которые я как человек, Вижу, отвечают моим целям построения нового продукта. Вопросы для вас. А когда обидно тебе, а что тебе именно обидно? Обидно, что я потратила время на эти интервью, ты же людей нашел, ты с ними списался, потом они забукали, не забукали, наконец забукали. потом ты это время выделил, когда ты full-time занят, и когда у тебя вообще куча каких-то проектов несется параллельно, это прямо инвестиция хорошая. Потом ты с ними поговорил, энергию свою потратил, потом ты это все начинаешь решать. перерабатывать вручную я выходные сидела понимаешь я уже не в том возрасте чтобы выходные прям сидеть мне надо отдыхать выходные вот и вот меня становится обидно что я несмотря на все эти потраченные усилия я так и не довела до конца цель не достигла а давай попробуем взять какой-нибудь вопрос какую-нибудь встречу и Ну вот все, что ты здесь видишь заполнено, это все так и было сделано. Вот последний третий уже я лучше всего. То есть я уже тут какие-то мысли попробовала покопировать из транскрипта и структурировано вот вопрос копировала и копировала ответы. как у тебя флоу выглядел, если ты с чатом пытаешься что-то сделать? – Ну вот, Берона привезли вопрос. Сначала я все это с русского на английский перевела на русском русском русские ребята запилили этот акселератор но я на русском вообще не воспринимали я не могу вообще на русском все не работает мозг вот здесь я отправляю у меня тут вот эта фигня какая-то блокирует меня вообще ну вот вот так вот я смотрела тут всю воду все что как-то релевантно я вот так вот копировала и вставляла смотри видишь у тебя вот этот режим он здесь вообще совсем не к месту потому что одна встреча выдачи но он все равно мульти ну как бы ну а почему ну ну просто потому что это дополнительная разработка и все просто все упирается в ресурсы вот попробую вы вы открыть его этот чат Не чат, а встречу. Видишь, сменилась тема. И, например, лучше открой другую, новую, new conversation. как попробуй сюда дропнуть лучше будет или нет свой запас это как бы но уже за Уже поняв, проблемы все ясны, мы их вычленили, теперь уже могу тебе подсказать. Ну, это все равно гораздо больше, чем то, что она мне сообщила, я тебе так скажу. То есть вообще, я заметила, недостаточно сложно вытягивать информацию, то есть она мне, допустим, сказала от силы 2,5 вообще каких-то frustrations или что-то там, challenges, вот, а он тут, конечно, поднапридумывал вообще согласно темы. Согласно тем, что он сам об этом думает. А ты можешь попробовать его допромкнуть так, чтобы оно сработало? Это, ну, для чего? Для того, чтобы, например, я мог потом... У тебя, например, получится сейчас докрутить, а я потом возьму твой промт и... И его в системный превращу, и мы попробуем...","This chunk is part of a conversation between Tatiana Sukhova and Dmitriy Grankin, where they discuss user experience (UX) improvements, challenges in utilizing a chat tool for interviews, and the frustrations of managing time and tasks within an accelerator program. Tatiana expresses her feelings about the inefficiencies she faces and the importance of structuring information effectively for product development.",7,Идеи для автоматизации и упрощения работы,Tatiana Sukhova,"[Dmitriy Grankin, Tatiana Sukhova]",1024
35,063698cf-7950-4cd0-b768-6a6d87c5190f,2024-11-28T13:12:07.530000+00:00,16705c46-ba51-4f1b-83d2-08e0bfc5eae5,Dmitriy Grankin: Don't.,"The chunk occurs during a conversation where Dmitriy Grankin expresses frustration and confusion about a situation involving a new database, indicating a tense and chaotic atmosphere.",5,Rejection,Dmitriy Grankin,[Dmitriy Grankin],1024
