In [37]:
import json
from datetime import datetime
import pandas as pd
from pathlib import Path
import os


In [38]:
pd.options.display.max_colwidth = None

In [39]:

print(f"Current working directory: {os.getcwd()}")

def load_telegram_export(json_file_path):
    """
    Загружает данные из JSON-файла экспорта Telegram в pandas DataFrame.

    Args:
        json_file_path (str or Path): Путь к файлу result.json.

    Returns:
        pandas.DataFrame: DataFrame с данными сообщений.  Или None, если произошла ошибка.
    """
    try:
        # Вариант с Path
        json_file_path = Path(json_file_path)
        with open(json_file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)

    except FileNotFoundError:
        print(f"Error: File not found: {json_file_path}")
        return None
    except json.JSONDecodeError:
        print(f"Error: Invalid JSON format in file: {json_file_path}")
        return None
    except Exception as e:
        print(f"An unexpected error occurred: {e}")
        return None

    # Создаем DataFrame из списка сообщений
    df = pd.DataFrame(data['messages'])

    # Оставляем только нужные колонки (можно добавить/удалить по необходимости)
    df = df[['id', 'type', 'date', 'from', 'from_id', 'text', 'media_type', 'file', 'width', 'height', 'duration_seconds']]
    return df

# Пример использования (вариант с Path - РЕКОМЕНДУЕТСЯ)
file_path = Path('/mnt/c/Users/airve/Downloads/Telegram Desktop/ChatExport_2025-03-15 (1)/result.json')
print(f"File path: {file_path}")
print(f"File exists: {os.path.exists(file_path)}")
print(f"Is file: {os.path.isfile(file_path)}")


# # Пример использования (вариант со строкой и ПРЯМЫМИ слешами)
# file_path = '/mnt/c/Users/airve/Downloads/Telegram Desktop/ChatExport_2025-03-15 (1)/result.json'
# print(f"File path: {file_path}")
# print(f"File exists: {os.path.exists(file_path)}")
# print(f"Is file: {os.path.isfile(file_path)}")


df = load_telegram_export(file_path)

if df is not None:
    print(df.head())
    print(df.info())


Current working directory: /home/airvetra/projects/telegram-gpt-assistant
File path: /mnt/c/Users/airve/Downloads/Telegram Desktop/ChatExport_2025-03-15 (1)/result.json
File exists: True
Is file: True
          id     type                 date               from         from_id  \
0 -999868590  service  2024-10-22T12:50:43                NaN             NaN   
1 -999868589  service  2024-10-22T12:51:16                NaN             NaN   
2 -999868587  message  2024-10-22T12:52:43  Alexey Goloviznin   user100514479   
3 -999868586  message  2024-10-22T12:53:37    Сергей Курдюков  user1473373557   
4 -999868585  message  2024-10-22T12:57:55  Alexey Goloviznin   user100514479   

                                                                                             text  \
0                                                                                                   
1                                                                                                   
2  Кристя

In [40]:
df.columns


Index(['id', 'type', 'date', 'from', 'from_id', 'text', 'media_type', 'file',
       'width', 'height', 'duration_seconds'],
      dtype='object')

In [41]:
df[ ['date', 'from',  'text']].head()

Unnamed: 0,date,from,text
0,2024-10-22T12:50:43,,
1,2024-10-22T12:51:16,,
2,2024-10-22T12:52:43,Alexey Goloviznin,"Кристя, Сережа, хочу нас замотивировать и уже более детально обсуждать тут с записью истории:)"
3,2024-10-22T12:53:37,Сергей Курдюков,Горизонт надо выпрямить)
4,2024-10-22T12:57:55,Alexey Goloviznin,"Да, лучше другую фото - под рукой нет"


In [42]:
df['date'] = pd.to_datetime(df['date'])


In [None]:
df['text'] = df['text'].astype(str)


In [45]:
df['text'].isnull().sum()


np.int64(0)

In [43]:
df[df['date'] == "2024-10-22 12:52:43"]['text']

2    Кристя, Сережа, хочу нас замотивировать и уже более детально обсуждать тут с записью истории:)
Name: text, dtype: object