In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import sys
sys.path.append('/app')

In [3]:

# %%
from qdrant_client import QdrantClient
from datetime import datetime, timedelta
import pandas as pd

In [6]:

pd.set_option('display.max_colwidth', None)

# %% [markdown]
# ## Connect to Qdrant

# %%
def get_qdrant_client():
    """Get Qdrant client with default settings"""
    return QdrantClient(
        host="qdrant",  # Update if running in different environment
        port=6333
    )

# %% [markdown]
# ## Query Recent Chunks

# %%
def get_recent_chunks(collection_name="meeting_chunks", limit=100, hours_ago=24000*30):
    """
    Retrieve the most recent chunks from Qdrant.
    
    Args:
        collection_name (str): Name of the Qdrant collection
        limit (int): Maximum number of chunks to retrieve
        hours_ago (int): Look back period in hours
    
    Returns:
        pd.DataFrame: DataFrame containing chunk data
    """
    client = get_qdrant_client()
    
    # Calculate timestamp threshold
    time_threshold = (datetime.utcnow() - timedelta(hours=hours_ago)).isoformat()
    
    # Search with filtering by timestamp
    search_result = client.scroll(
        collection_name=collection_name,
        scroll_filter={"must": [
            {"key": "timestamp", "range": {"gte": time_threshold}}
        ]},
        limit=limit,
        with_payload=True,
        with_vectors=True
    )[0]  # scroll returns (points, next_page_offset)
    
    # Extract relevant fields from payload
    chunks_data = []
    for point in search_result:
        payload = point.payload
        chunks_data.append({
            'id': point.id,
            'timestamp': pd.to_datetime(payload.get('timestamp')),  # Convert to datetime
            'content_id': payload.get('content_id'),
            'content_type': payload.get('content_type'),
            'content': payload.get('content'),
            'contextualized_content': payload.get('contextualized_content'),
            'chunk_index': payload.get('chunk_index'),
            'topic': payload.get('topic'),
            'speaker': payload.get('speaker'),
            'speakers': payload.get('speakers'),
            'vector_dim': len(point.vector) if point.vector else None
        })
    
    # Convert to DataFrame
    df = pd.DataFrame(chunks_data)
    

    return df

In [7]:
get_recent_chunks()

Unnamed: 0,id,timestamp,content_id,content_type,content,contextualized_content,chunk_index,topic,speaker,speakers,vector_dim
0,04985fba-0412-4b0e-8a8d-1d69ae484286,2025-01-23 09:40:30.720000+00:00,580bb613-00de-4c4a-b048-2c2576fcdef0,meeting,": Я думаю, да, сможешь. Ладно, ребят, я должен закончить сейчас. Пора кушать, да. У меня пришел человек. Хорошо. Пока-пока.","The chunk occurs towards the end of a conversation between Artem Puzik and Dmitry Grankin, where they discuss project details and technical aspects. Dmitry indicates he needs to leave for a meal, signaling the conclusion of their discussion.",16,Meeting Conclusion,,"[Artem Puzik, Sergey Ryabenko, Dmitry Grankin]",1024
1,05cdbf79-f791-489a-bdbf-40084402e8f9,2025-01-15 14:07:51.364000+00:00,fb996504-0475-4ee9-a85e-dda4e9f15a4b,meeting,"Alex Shevliakov: тогда можно вот здесь сделать переключение между чат ноут и ноут редактор сам текста будет заменять сам чат то есть каждый Это раз, когда ты сохраняешь ноут и переходишь в режим ноута, он будет менять вот этот интерфейс на текстовый редактор. Но это зависит скорее от... мне кажется что лучше иметь возможность параллельно видеть чай чат ноут мне кажется что логично когда если но вот это тоже просто там у нас транскрипт, а здесь у нас редактируемый транскрипт. Та же самая история. Еще мысли по поводу того ноут это отдельная колонка или внутри вместе с звонками а если у нас будет множество разных Если у нас будут звонки, может быть, YouTube-видео, может быть, документы, заметки, букмарки. Всякие, да. Понял. То есть необязательно, что это... Необязательно называть вкладку Calls.","The chunk is part of a discussion between Alex Shevliakov and Dmitriy Grankin about the user interface design for a chat and note-taking application. They are exploring the functionality of switching between a chat interface and a note editor, considering how to organize various content types such as calls, YouTube videos, documents, and bookmarks within the application.",27,Note Editing,Alex Shevliakov,"[Alex Shevliakov, Dmitriy Grankin]",1024
2,06798dd2-0563-46b0-9256-08092fe30c06,2025-01-21 15:02:50.184000+00:00,a0c3f703-2a5e-4ed0-9561-807121516984,meeting,"Dmitry Grankin: Am I right saying that Lisbon Unicorn Factory is established with the help of Lisbon City Council, right? Yes, you are right. so that you've got facilities which you basically want to contribute to the development of AI startups.","The chunk occurs during a conversation between Mariana Montenegro and Dmitry Grankin, where they discuss the establishment and purpose of the Lisbon Unicorn Factory, specifically focusing on its role in supporting AI startups and its collaboration with the Lisbon City Council.",4,Support from Lisbon City Council,Dmitry Grankin,"[Mariana Montenegro, Dmitry Grankin, Pedro Teixeira]",1024
3,15cec577-9b5f-4ca4-9bfb-21667b7f5a10,2025-01-15 14:07:51.364000+00:00,fb996504-0475-4ee9-a85e-dda4e9f15a4b,meeting,"Alex Shevliakov: general search и этот фильтр суши выглядит так что как будто бы юзер когда приходит у него самое главное это интерфейс чата и фильтр которые на самом деле плоские, то есть я бы выделил просто в одну область эти все фильтры и сделал между ними разграничение, что ты можешь выбрать такой, такой и или такой фильтр. А звонки? Звонки также. То есть, например, давай визуально переключимся. Я бы, наверное, сделал, что возьмем старый фрейм. Без контента берем вот это. Вообще, уберем вот это пока как не нужно. Это будет в центре. И уберем, наверное, даже вот так пока. Это был интерфейс чата. Вот он. То есть совсем грубо говоря... Ой, не сюда попал. Mm-hmm. Здесь, например, были бы «speakers», нет, не так, «calls». Curse и Text, можно еще какие-то потом пока добавить.","This chunk is part of a discussion between Alex Shevliakov and Dmitriy Grankin about the user interface design for a chat application. Alex is suggesting improvements to the layout, specifically focusing on how filters and calls should be organized within the chat interface to enhance user experience.",19,User Interface Design,Alex Shevliakov,"[Alex Shevliakov, Dmitriy Grankin]",1024
4,16421ac6-fc80-4d72-8d90-8fe0fd462463,2025-01-21 15:36:56.606000+00:00,6a7287fb-b6ae-46cf-8b99-1ce1bcc81403,meeting,"Dmitriy Grankin: чуть попозже сделаем вот в чем здесь ну как бы первый юзер флоу до начнем под давайте по user flow пойдем первый это Я хочу что-нибудь посмотреть по встрече, которая только прошла или какая-нибудь другая. Я нажимаю на карт, на митинг-карт, у меня открывается... Правая панель, в которой у меня есть транскрипция. И чат работает сейчас в контексте этой встречи. Контекст, да, это то, что мы подаем. скажем так до чата да то есть контекст имеет разным образом определяется самый простой флоу от когда мы выбрали встречу, и он определяется по этой встрече, соответственно, по этой встрече. Можем что-нибудь спросить про эту встречу, можем выбрать Quick Action. Quick Action – это такой промпт, который исполняется автоматически при наступлении.","The chunk is part of a discussion among Dmitriy Grankin, Artem Puzik, and Sergey Ryabenko about the user flow and functionality of an application that includes chat and meeting features. In this specific segment, Dmitriy outlines the first user flow related to accessing and interacting with meeting information, including the use of a meeting card and context for chat interactions.",3,User Flow Discussion,Dmitriy Grankin,"[Artem Puzik, Dmitriy Grankin, Sergey Ryabenko]",1024
...,...,...,...,...,...,...,...,...,...,...,...
87,f5547a7f-1433-4d23-a129-407895957cb8,2025-01-21 15:36:56.606000+00:00,6a7287fb-b6ae-46cf-8b99-1ce1bcc81403,meeting,"Dmitriy Grankin: который который дизайн делал кодить ему некогда вот я ему попрошу чтобы он поделился всеми этими тузами, которые он пользуется для того, чтобы делать вещи быстро. Ну, там, библиотеки, там, все вот это. Ну, хорошо, как бы... Что-то, что надо использовать. Супер. Вот, потому что он мне упоминал, можно, конечно, у Векса спросить, что он там говорил. Попробовать, кстати. Давайте попробуем. Так, последнее. Like list, the tools mentioned. Вот как раз, вот какие тузы для... Тот самый вопрос. Чего ты врешь, собака? Да, он подбирает иногда, надо его держать. Нет, это вот версия того, что сейчас на бэке, это безобразие просто. То есть тот продукт, который у меня на бэке сейчас в разработке, это вообще совершенно другой продукт, то, что мы сейчас делаем. Так, а ты, Артем, удар? айпер плексиде что хайбер плексити что он говорил про хайпер плексиде что это такое из 70 бейки Key component or tool discussed related to user interface and how users interact with various elements like call, speaker, syntax, hyperplexity. Окей, да, что-то он такое говорил. Окей, надо пресечь вот такую штуку, она рекомендовала. Note, chat, summary, transcription. Note, да, окей. Ладно, давайте я тогда вам дам знать. И надо, в общем, надо продумать, ребят, надо продумать, как делать.","This chunk is part of a discussion among team members, primarily Dmitriy Grankin, about design tools and libraries that can enhance their development process. They are exploring resources and recommendations for improving their product's user interface and functionality, while also addressing the differences between their current and previous projects.",14,Tool Recommendations,Dmitriy Grankin,"[Artem Puzik, Dmitriy Grankin, Sergey Ryabenko]",1024
88,f61910b2-f7b4-46c5-a132-0fc6fdb55aea,2025-01-21 15:02:50.184000+00:00,a0c3f703-2a5e-4ed0-9561-807121516984,meeting,"Dmitry Grankin: okay and I can share it with you so you have an idea what I've been doing so this thing is doing real-time transcription and not only that, but actually highlighting important things and pretty fine the context. So it's like more... you know bookish and readable so i can do things like uh i just can you know click uh for the AI hub, for example, and we'll get, hopefully, we'll get a helpful response, which is the AI hub is a part of the Unicorn Factory. In Lisbon, purpose is community space for building AI solutions, occupancy 27 offices with 12 occupancies, collaborate with Google, Microsoft. soft and c interface it's center for responsible ai oh okay okay so that that is a miss mistake now again and host various events that's right It looks pretty. The rest is perfect. Yeah.","This chunk occurs during a conversation between Dmitry Grankin and Mariana Montenegro, where Dmitry introduces his AI product, VEXA, which provides real-time transcription and contextual highlighting. He explains its functionalities while discussing the AI Hub's role within the Unicorn Factory in Lisbon, emphasizing its purpose and collaborations.",8,VEXA Product Overview,Dmitry Grankin,"[Mariana Montenegro, Dmitry Grankin, Pedro Teixeira]",1024
89,fa6e10ad-535f-4bf1-b046-8a245bd78876,2025-01-21 15:02:50.184000+00:00,a0c3f703-2a5e-4ed0-9561-807121516984,meeting,"Mariana Montenegro: And are you already like, clients and investment and everything okay yes we've got uh we've been financed with angel investment and that investor basically the full proceed around. And yeah, and we've got some traction, we've got, I can share with you the statistics I have. so it's a pretty open project because I actually I want to go open source with that okay and I have like I think I have an idea about the business strategy about going open source. Open source, okay.","This chunk occurs during a conversation between Mariana Montenegro and Dmitry Grankin, where they discuss the status of Dmitry's project, VEXA, including its funding through angel investment, traction, and plans to transition to an open-source model.",10,Funding and Investment,Mariana Montenegro,"[Mariana Montenegro, Dmitry Grankin, Pedro Teixeira]",1024
90,fadae6fb-0305-448d-b4ce-7cfde8b973dc,2025-01-21 15:36:56.606000+00:00,6a7287fb-b6ae-46cf-8b99-1ce1bcc81403,meeting,"Dmitriy Grankin: соответствовало, общей design systemy соответствowało, bo tutaj mamy design system, Артем, знаешь такую приблуду? Модная штука, которая... На немецком там. ADCN – это такая либо библиотека, которую сейчас все используют по дефолту практически на фронтовой арене. разработки вот среди всех сумасшедших. А можешь протайпить?","The chunk occurs during a discussion among Dmitriy Grankin, Sergey Ryabenko, and Artem Puzik about the design system and components being used in their project, specifically referencing ADCN as a popular library in front-end development.",10,Design System Discussion,Dmitriy Grankin,"[Artem Puzik, Dmitriy Grankin, Sergey Ryabenko]",1024
