In [2]:
import pandas as pd
import os

def read_transcription_data(channel_name, month, base_path='./temp'):
    """
    Reads transcription data from a specific channel and month.

    Parameters:
    - channel_name: str, name of the channel (e.g., 'belarusone')
    - month: str, the month in 'YYYY-MM' format (e.g., '2024-06')
    - base_path: str, the base directory where Parquet files are stored

    Returns:
    - df: pandas DataFrame with the requested data
    """
    # Construct the path to the Parquet file
    parquet_file_path = os.path.join(base_path, channel_name, f"{month}.parquet")
    
    # Check if the file exists
    if not os.path.exists(parquet_file_path):
        print(f"Parquet file for {channel_name} in {month} not found.")
        return None
    
    # Read the Parquet file into a DataFrame
    df = pd.read_parquet(parquet_file_path)
    
    return df

In [5]:
# Example usage:
channel_name = 'belarusone'
month = '2023-11'

# Read the data and display it
df = read_transcription_data(channel_name, month)
if df is not None:
    display(df)

Unnamed: 0,date,time,channel,transcription
0,2023-11-12,21-46-31,belarusone,Публиковал фото с мэром Варшавы Рафалом Шаско...
1,2023-11-12,21-55-48,belarusone,Модель машины и её расход к выбору в пользу Э...
2,2023-11-12,22-05-37,belarusone,"Эта поддержка, она нам действительно помогает..."
3,2023-11-12,22-15-26,belarusone,"Люди добрее. Наши люди очень красивые, особен..."
4,2023-11-12,22-25-46,belarusone,Снабдение Беларуси стало пятым достоянием нац...
5,2023-11-12,23-59-43,belarusone,Мы обесценились почти в 30 раз. Это спровоцир...
6,2023-11-13,01-30-36,belarusone,Он будет заботиться обо мне и о ребёнке. Он о...
7,2023-11-13,01-39-22,belarusone,Какой диагноз? Параноидальная навязчивая идея...
8,2023-11-13,01-49-42,belarusone,ТЕЛЕФОННЫЙ ЗВОНОК А вот это уже не ваше дело....
9,2023-11-13,01-59-31,belarusone,"Дружба народов, сила народов, Наш заповедный ..."
