# Парсинг json файла

## Библиотеки

In [18]:
import json
import pandas as pd
import numpy as np
import os

## Чтение файла

In [19]:
def load_and_process_json(file_path):
    # Чтение JSON файла
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    
    # Преобразование данных в DataFrame
    df = pd.DataFrame(data)
    
    # Переименование колонки 'id' в 'id_first'
    df.rename(columns={'id': 'id_first'}, inplace=True)
    
    # Нормализация вложенных данных (колонка 'messages')
    messages_df = pd.json_normalize(df['messages'])
    
    # Объединение данных
    result_df = pd.concat([df.drop(columns=['messages']), messages_df], axis=1)
    
    return result_df

In [21]:
# Загрузка и обработка первого JSON файла
result_df = load_and_process_json('../data/example/result.json')

# Загрузка и обработка второго JSON файла
result_df_1 = load_and_process_json('../def_Klyusnik_A/input/data_2 iteration/result.json')


In [22]:
print(result_df.index.is_unique)  # Должно быть True
print(result_df_1.index.is_unique)

True
True


In [23]:
print('Названия колонок:', result_df.columns)
print('Размер датасета:', result_df.shape)
result_df.head(4)

Названия колонок: Index(['name', 'type', 'id_first', 'id', 'type', 'date', 'date_unixtime',
       'edited', 'edited_unixtime', 'from', 'from_id', 'text', 'text_entities',
       'reactions', 'photo', 'photo_file_size', 'width', 'height'],
      dtype='object')
Размер датасета: (13, 18)


Unnamed: 0,name,type,id_first,id,type.1,date,date_unixtime,edited,edited_unixtime,from,from_id,text,text_entities,reactions,photo,photo_file_size,width,height
0,MANAGEMENT ALUMNI PRACTICUM,private_channel,1586396652,856,message,2025-02-01T14:06:16,1738407976,2025-02-01T14:07:41,1738408061,MANAGEMENT ALUMNI PRACTICUM,channel1586396652,"[{'type': 'bold', 'text': '💥'}, {'type': 'bold...","[{'type': 'bold', 'text': '💥'}, {'type': 'bold...","[{'type': 'emoji', 'count': 6, 'emoji': '👍'}, ...",,,,
1,MANAGEMENT ALUMNI PRACTICUM,private_channel,1586396652,857,message,2025-02-02T14:07:55,1738494475,2025-02-03T13:05:36,1738577136,MANAGEMENT ALUMNI PRACTICUM,channel1586396652,"[{'type': 'bold', 'text': '💭 Переговорный клуб...","[{'type': 'bold', 'text': '💭 Переговорный клуб...","[{'type': 'emoji', 'count': 8, 'emoji': '🔥'}, ...",photos/photo_368@02-02-2025_14-07-55.jpg,130046.0,1280.0,1280.0
2,MANAGEMENT ALUMNI PRACTICUM,private_channel,1586396652,858,message,2025-02-03T14:04:43,1738580683,2025-02-03T14:10:35,1738581035,MANAGEMENT ALUMNI PRACTICUM,channel1586396652,"[{'type': 'bold', 'text': 'У Практикума новый ...","[{'type': 'bold', 'text': 'У Практикума новый ...","[{'type': 'emoji', 'count': 11, 'emoji': '🔥'},...",,,,
3,MANAGEMENT ALUMNI PRACTICUM,private_channel,1586396652,859,message,2025-02-04T19:02:42,1738684962,2025-02-04T19:08:41,1738685321,MANAGEMENT ALUMNI PRACTICUM,channel1586396652,"[{'type': 'bold', 'text': 'Прямой эфир с Олей ...","[{'type': 'bold', 'text': 'Прямой эфир с Олей ...","[{'type': 'emoji', 'count': 8, 'emoji': '👍'}, ...",photos/photo_369@04-02-2025_19-02-42.jpg,108894.0,1280.0,1280.0


In [24]:
print('Названия колонок:', result_df_1.columns)
print('Размер датасета:', result_df_1.shape)
result_df_1.head(4)

Названия колонок: Index(['name', 'type', 'id_first', 'id', 'type', 'date', 'date_unixtime',
       'actor', 'actor_id', 'action', 'inviter', 'text', 'text_entities',
       'from', 'from_id', 'reply_to_message_id', 'edited', 'edited_unixtime',
       'reactions', 'file', 'file_name', 'file_size', 'thumbnail',
       'thumbnail_file_size', 'media_type', 'sticker_emoji', 'mime_type',
       'duration_seconds', 'width', 'height', 'forwarded_from', 'saved_from',
       'photo', 'photo_file_size', 'via_bot', 'members'],
      dtype='object')
Размер датасета: (1007, 36)


Unnamed: 0,name,type,id_first,id,type.1,date,date_unixtime,actor,actor_id,action,...,mime_type,duration_seconds,width,height,forwarded_from,saved_from,photo,photo_file_size,via_bot,members
0,💬 Data Practicum Chat,private_supergroup,1379846874,266690,service,2025-02-01T22:40:19,1738438819,Елизавета,user200103497,join_group_by_link,...,,,,,,,,,,
1,💬 Data Practicum Chat,private_supergroup,1379846874,266691,service,2025-02-02T21:59:34,1738522774,Agamet Agametov,user217302209,join_group_by_link,...,,,,,,,,,,
2,💬 Data Practicum Chat,private_supergroup,1379846874,266693,message,2025-02-03T11:28:38,1738571318,,,,...,,,,,,,,,,
3,💬 Data Practicum Chat,private_supergroup,1379846874,266694,message,2025-02-03T11:52:20,1738572740,,,,...,,,,,,,,,,


In [25]:
output_dir = '../def_Klyusnik_A/output'
output_file_name = 'processed_messages.csv'
output_path = os.path.join(output_dir, output_file_name)

# Сохранение в CSV файл
result_df.to_csv(output_path, index=False, encoding='utf-8')
print(f"\nДанные сохранены в файл: {output_path}")


Данные сохранены в файл: ../def_Klyusnik_A/output\processed_messages.csv


In [26]:
output_dir = '../def_Klyusnik_A/output'
output_file_name = 'processed_messages_1.csv'
output_path = os.path.join(output_dir, output_file_name)

# Сохранение в CSV файл
result_df_1.to_csv(output_path, index=False, encoding='utf-8')
print(f"\nДанные сохранены в файл: {output_path}")


Данные сохранены в файл: ../def_Klyusnik_A/output\processed_messages_1.csv
