In [1]:
# имортируем необходимые библиотеки
import pandas as pd
import json
import os

# библиотека для работы со эмоджи в тексте
!pip install emoji -q
import emoji

### Функции загрузки и парсинга файлов

In [2]:
# Функция загрузки json
def load_json(file):
    pth1 = f'data\example\{file}' # Укажи путь к папке в которой лежат файлы
    pth2 = f'{file}' # Если json в текущей папке cо скриптом
    if os.path.exists(pth1):
        with open(pth1, 'r', encoding='utf-8') as json_file:
            data = json.load(json_file)
    elif os.path.exists(pth2):
        with open(pth2, 'r', encoding='utf-8') as json_file:
            data = json.load(json_file)
    else:
        data = None
        print('Что-то пошло не так. Проверьте путь к файлу')
    
    return data

In [3]:
# Функция очистки текста
def clean_text(text):
    text = emoji.replace_emoji(text, '') # Убираем эмоджи
    text = text.replace('\n', ' ') # Убираем символы переноса строки и заменяем на пробел
    text = " ".join(text.split()) # Убираем множественные пробелы
    return text

In [4]:
# Функция сборки датафрейма из загруженного json
def parse_json(data):
    messages = data.get("messages", []) # Получаем список сообщений

    # Делаем датафрейм из полученных данных
    df = pd.DataFrame([
        {'date': message.get('date', []), # Получаем дату сообщения
         'chat_name': data.get('name', []), # Получаем название чата
         'chat_id': data.get('id', []), # Получаем id чата
         'sender_id': message.get('from_id', []), # Получаем ID отправителя сообщения
         'username': message.get('from', []), # Получаем имя отправителя
         # Если t словарь, то возьмем текстовый блок, а если просто строка, то берем без изменений. И объединяем строки в общий текст через join.
         # И пропускаем через нашу функцию очистки текста
         'text': clean_text(''.join([t['text'] if isinstance(t, dict) else t for t in message.get('text', [])]) )
        } for message in messages])

    return df

### Проверка загрузки и парсинга

In [5]:
data = load_json('result.json')

In [6]:
df = parse_json(data)

In [7]:
df.head()

Unnamed: 0,date,chat_name,chat_id,sender_id,username,text
0,2025-02-01T14:06:16,MANAGEMENT ALUMNI PRACTICUM,1586396652,channel1586396652,MANAGEMENT ALUMNI PRACTICUM,"января Пока мы вспоминали, как работать и выхо..."
1,2025-02-02T14:07:55,MANAGEMENT ALUMNI PRACTICUM,1586396652,channel1586396652,MANAGEMENT ALUMNI PRACTICUM,Переговорный клуб → 6 февраля в 20:00 МСК → Сс...
2,2025-02-03T14:04:43,MANAGEMENT ALUMNI PRACTICUM,1586396652,channel1586396652,MANAGEMENT ALUMNI PRACTICUM,У Практикума новый знак у выпускников новый ст...
3,2025-02-04T19:02:42,MANAGEMENT ALUMNI PRACTICUM,1586396652,channel1586396652,MANAGEMENT ALUMNI PRACTICUM,Прямой эфир с Олей Ладошкиной «Лидерство в 202...
4,2025-02-07T14:07:55,MANAGEMENT ALUMNI PRACTICUM,1586396652,channel1586396652,MANAGEMENT ALUMNI PRACTICUM,"Питчинг: как презентовать идею, чтобы её услыш..."


In [8]:
df['text'][2]

'У Практикума новый знак у выпускников новый стикерпак Сделали пачку стикеров для ситуаций, когда нужных слов не подобрать. В главной роли — рабочие и учебные будни, а ещё — наш новый логотип. Планируем отправлять их коллегам в неограниченных количествах — присоединяйтесь! Сохраняйте стикеры → по ссылке'

In [9]:
df.shape

(13, 6)

In [10]:
df = parse_json(load_json('data.json'))

In [11]:
df.head()

Unnamed: 0,date,chat_name,chat_id,sender_id,username,text
0,2025-02-01T22:40:19,💬 Data Practicum Chat,1379846874,[],[],
1,2025-02-02T21:59:34,💬 Data Practicum Chat,1379846874,[],[],
2,2025-02-03T11:28:38,💬 Data Practicum Chat,1379846874,user312724902,Olga Varavina,Всем большой привет! Приглашаю на свой уютный ...
3,2025-02-03T11:52:20,💬 Data Practicum Chat,1379846874,user1349934990,Илья,А у тебя когда будет свой канал про аналитику?
4,2025-02-03T11:52:37,💬 Data Practicum Chat,1379846874,user1349934990,Илья,Будешь туда голосовухи пятиминутные постить


In [12]:
df.sample(5)

Unnamed: 0,date,chat_name,chat_id,sender_id,username,text
495,2025-02-14T13:48:48,💬 Data Practicum Chat,1379846874,user317277992,Ksenia,спасибо!
577,2025-02-19T15:41:51,💬 Data Practicum Chat,1379846874,user592714812,Аркадий,"ему репутацию подняли, подкуп был"
876,2025-02-24T16:19:53,💬 Data Practicum Chat,1379846874,user295904416,Andrey Novikov,"конечно, еще скажи что в генг-бенге не участво..."
372,2025-02-08T17:39:36,💬 Data Practicum Chat,1379846874,user100092469,Irina,
167,2025-02-04T16:25:34,💬 Data Practicum Chat,1379846874,user100092469,Irina,


In [13]:
df.shape

(1007, 6)

In [14]:
df[df['text'] == '']['text'].count()

149

In [15]:
df[df['text'] == ''].head(5)

Unnamed: 0,date,chat_name,chat_id,sender_id,username,text
0,2025-02-01T22:40:19,💬 Data Practicum Chat,1379846874,[],[],
1,2025-02-02T21:59:34,💬 Data Practicum Chat,1379846874,[],[],
30,2025-02-03T12:16:13,💬 Data Practicum Chat,1379846874,user168336377,Мариян Умагалова,
33,2025-02-03T12:18:10,💬 Data Practicum Chat,1379846874,user1349934990,Илья,
37,2025-02-03T12:20:39,💬 Data Practicum Chat,1379846874,user168336377,Мариян Умагалова,


In [16]:
df = parse_json(load_json('marketing.json'))

In [17]:
df.head()

Unnamed: 0,date,chat_name,chat_id,sender_id,username,text
0,2025-02-01T07:35:54,💬 Marketing Practicum Chat,1782474569,user1272493086,Pasha Sannikov,"Доброе утро, люди! Это ОК, в РСЯ алгоритмы выб..."
1,2025-02-01T07:40:03,💬 Marketing Practicum Chat,1782474569,user1272493086,Pasha Sannikov,"А вот регионы, в которых живут ITшники с интер..."
2,2025-02-01T07:48:53,💬 Marketing Practicum Chat,1782474569,user1272493086,Pasha Sannikov,"Если смотреть по интересам, то кажется, что ау..."
3,2025-02-01T07:50:31,💬 Marketing Practicum Chat,1782474569,user1272493086,Pasha Sannikov,А путь пользователя почему-то выглядит так. Ко...
4,2025-02-01T08:12:42,💬 Marketing Practicum Chat,1782474569,user1164775873,Данилов | Маркетолог,Опять он


In [18]:
df.shape

(3680, 6)

In [19]:
df[df['text'] == '']['text'].count()

176

In [22]:
parse_json(load_json('data.json')).to_csv('data\example\data.csv', sep=',', index=False, encoding='utf-8')

### Вывод о проделанной работе
 - Загрузку и парсинг файла вывел в функции, чтобы было удобно использовать в общем итоговом модуле и для удобства их правки.
 - При парсинге файла, очищаю текст сообщения от различных смайликов, символов переноса текста, а также множественных пробелов. Так как эти данные в тексте не пригодятся нам для итоговой суммаризации.
 - Данные собираются в датафрейм со всех предоставленных заказчиком файлов.
 - Отмечу что есть пустые сообщения - часть из них это служебные, а часть содержащие, например, только эмоджи. Например, в файле 'data.json' таких 149 из 1007 строк, а файле 'marketing.json' 176 из 3680. Считаю, что их не надо включать в итоговый датафрейм.

**Вопросы**:
- Возможно, стоит указывать ID сообщения, а также, что сообщение является ответом на сообщение, с указанием ID сообщения на который был дан ответ?
- Как определять тип пользователя (user, admin, channel)? Брать из 'from_id', но тогда те кто по факту являются админами или ответственными за группу тоже могут попасть в тип 'user'?