In [5]:
import json
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Чтение данных из JSON файла
file_path = 'pm_vk_wall.json'  # путь к файлу
with open(file_path, 'r', encoding='utf-8') as f:
    vk_data = json.load(f)

# Создание списка для признаков
posts = []
for post in vk_data:
    # Извлечение нужных полей из постов
    posts.append({
        'likes_count': post.get('likes', {}).get('count', 0),
        'comments_count': post.get('comments', {}).get('count', 0),
        'reposts_count': post.get('reposts', {}).get('count', 0),
        'views_count': post.get('views', {}).get('count', 0),
        'attachments_count': len(post.get('attachments', [])),
        'text_length': len(post.get('text', '')),
        'has_attachments': 1 if post.get('attachments') else 0,
        'platform': post.get('post_source', {}).get('platform', 'unknown'),
        'is_donut': 1 if post.get('donut', {}).get('is_donut', False) else 0,
        'post_date': post.get('date', 0),
    })

# Преобразование данных в DataFrame
df = pd.DataFrame(posts)

# Нормализация числовых признаков (кроме категориальных, таких как платформа)
scaler = StandardScaler()
numerical_features = ['likes_count', 'comments_count', 'reposts_count', 'views_count', 'attachments_count', 'text_length', 'post_date']
df[numerical_features] = scaler.fit_transform(df[numerical_features])

# Отображение первых строк DataFrame
df.head()


likes_count           True
comments_count        True
reposts_count         True
views_count           True
attachments_count     True
text_length           True
has_attachments      False
platform              True
is_donut             False
post_date             True
dtype: bool