<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F_%D0%92%D1%8B%D1%8F%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BE%D1%80%D0%B8%D0%B3%D0%B8%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D0%B0%D0%B2%D1%82%D0%BE%D1%80%D0%B0_%D0%BF%D0%BE%D1%81%D1%82%D0%B0_%D0%B2_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D1%8F%D1%85_%D0%BD%D0%B0_%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D0%B5_%D1%80%D0%B5%D0%BF%D0%BE%D1%81%D1%82%D0%BE%D0%B2_%D1%81_%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D1%8C%D1%8E_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B5%D0%B9_RNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Выявление оригинального автора поста в социальных сетях на основе репостов с использованием рекуррентных нейронных сетей

#### Аннотация

В статье рассматривается задача идентификации оригинального автора поста в социальных сетях на основе анализа текстовых данных и структуры репостов. Предложена математическая модель, описывающая взаимосвязи между постами и репостами, а также алгоритм, основанный на рекуррентных нейронных сетях (RNN). Для обучения и тестирования модели был создан синтетический датасет, сгенерированный с использованием библиотеки `Faker`, включающий 50 000 записей. Разработанная модель демонстрирует высокую точность в определении авторов и может быть применена для анализа распространения информации в социальных сетях, а также для борьбы с дезинформацией.

**Ключевые слова**: идентификация автора, социальные сети, репосты, рекуррентные нейронные сети (RNN), анализ текста, синтетические данные, машинное обучение, графовые модели, временные зависимости.



#### 1. Введение

С развитием социальных сетей пользователи получили возможность активно делиться контентом, создавая посты и распространяя их через репосты. Это формирует сложные сети взаимодействий, в которых оригинальный контент может быть искажен или переосмыслен. В таких условиях актуальной становится задача идентификации оригинального автора поста, что важно для анализа распространения информации, выявления источников дезинформации и изучения поведения пользователей. В данной работе предлагается подход к решению этой задачи с использованием методов машинного обучения, в частности, рекуррентных нейронных сетей (RNN).



#### 2. Создание датасета

Для обучения и тестирования модели был создан синтетический датасет, состоящий из трех основных таблиц: **пользователи**, **посты** и **репосты**. Датасет был сгенерирован с использованием библиотеки `Faker`, которая позволяет создавать реалистичные данные, такие как имена пользователей, тексты постов и временные метки. Это обеспечивает гибкость и масштабируемость данных, что особенно важно для задач машинного обучения.

##### 2.1. Таблица пользователей (users)

Таблица пользователей содержит информацию о каждом пользователе социальной сети. Основные атрибуты таблицы:

- **user_id**: уникальный идентификатор пользователя (целое число).
- **username**: имя пользователя (строка).
- **email**: адрес электронной почты пользователя (строка).

##### 2.2. Таблица постов (posts)

Таблица постов содержит информацию о каждом посте, созданном пользователями. Основные атрибуты таблицы:

- **post_id**: уникальный идентификатор поста (целое число).
- **user_id**: идентификатор пользователя, создавшего пост (целое число, внешний ключ на таблицу пользователей).
- **text**: текст поста (строка).
- **created_at**: временная метка создания поста (строка, формат "YYYY-MM-DD HH:MM:SS").

##### 2.3. Таблица репостов (reposts)

Таблица репостов содержит информацию о каждом репосте, сделанном пользователями. Основные атрибуты таблицы:

- **repost_id**: уникальный идентификатор репоста (целое число).
- **original_post_id**: идентификатор оригинального поста (целое число, внешний ключ на таблицу постов).
- **user_id**: идентификатор пользователя, сделавшего репост (целое число, внешний ключ на таблицу пользователей).
- **created_at**: временная метка репоста (строка, формат "YYYY-MM-DD HH:MM:SS").

##### 2.4. Использование синтетических данных

Для создания датасета использовалась библиотека `Faker`, которая позволяет генерировать реалистичные данные. Преимущества использования синтетических данных включают гибкость, контроль над структурой данных и масштабируемость.



#### 3. Математическая формулировка задачи

##### 3.1. Введение

Цель исследования заключается в формализации связей между постами и репостами, а также в разработке алгоритма для идентификации оригинального автора поста на основе данных о репостах.

##### 3.2. Определения

Обозначим:

- $U$ — множество пользователей, где $U = \{ u_1, u_2, \ldots, u_n \}$.
- $P$ — множество постов, где $P = \{ p_1, p_2, \ldots, p_m \}$.
- $R$ — множество репостов, где $R = \{ r_1, r_2, \ldots, r_k \}$.

Каждый пост $p_i$ можно описать как функцию:

$$
p_i = f(u_j, \text{text}_i, t_i)
$$

где:
- $u_j$ — идентификатор пользователя, создавшего пост,
- $\text{text}_i$ — текст поста,
- $t_i$ — временная метка создания поста.

Каждый репост $r_l$ связывается с оригинальным постом $p_i$ и пользователем $u_k$:

$$
r_l = g(p_i, u_k, t_l)
$$

где:
- $u_k$ — идентификатор пользователя, сделавшего репост,
- $t_l$ — временная метка репоста.

##### 3.3. Связи между постами и репостами

Связи можно выразить следующим образом:

1. **Связь поста и пользователя**: Один пользователь может создать несколько постов:
$$
   u_j \xrightarrow{\text{создает}} p_i
$$

2. **Связь репоста и поста**: Один пост может быть репостнут многими пользователями:
$$
   p_i \xleftarrow{\text{репост}} r_l
$$

3. **Связь репоста и пользователя**: Один пользователь может сделать множество репостов:
$$
   u_k \xrightarrow{\text{делает репост}} r_l
$$

Эти связи можно представить в виде направленного графа, где вершины представляют пользователей и посты, а ребра — действия.

##### 3.4. Формализация структуры данных

Для формирования структуры данных мы можем использовать следующее представление:

- **Пользователи**:
$$
  U = \{ (u_1, \text{username}_1, \text{email}_1), (u_2, \text{username}_2, \text{email}_2), \ldots, (u_n, \text{username}_n, \text{email}_n) \}
$$

- **Посты**:
$$
  P = \{ (p_1, u_j, \text{text}_1, t_1), (p_2, u_k, \text{text}_2, t_2), \ldots, (p_m, u_l, \text{text}_m, t_m) \}
$$

- **Репосты**:
$$
  R = \{ (r_1, p_i, u_k, t_l), (r_2, p_j, u_m, t_n), \ldots, (r_k, p_x, u_y, t_z) \}
$$

##### 3.5. Алгоритм идентификации оригинального автора

Для определения оригинального автора поста, сделанного через репост, можно использовать рекурсивный подход:

1. Получаем идентификатор репоста $r_l$.
2. Определяем оригинальный пост $p_i$ для репоста:
$$
   p_i = \text{original}(r_l)
$$
3. Извлекаем автора оригинального поста:
$$
   u_j = \text{author}(p_i)
$$
4. Если $p_i$ также является репостом, повторяем шаги 2 и 3 до тех пор, пока не будет найден оригинальный автор.

Алгоритм можно формализовать в виде функции:

$$
\text{find\_original\_author}(r_l) =
\begin{cases}
u_j, & \text{если } p_i \text{ является постом} \\
\text{find\_original\_author}(\text{original}(p_i)), & \text{иначе}
\end{cases}
$$

##### 3.6. Определение вероятностей и предположений

Для представления вероятности того, что пользователь является автором поста, вводим:

$$
P(u_j | p_i) = \frac{P(p_i | u_j) \cdot P(u_j)}{P(p_i)}
$$

где:
- $P(p_i | u_j)$ — вероятность того, что пост $p_i$ был создан пользователем $u_j$,
- $P(u_j)$ — априорная вероятность того, что пользователь $u_j$ создаст пост,
- $P(p_i)$ — нормировочный множитель, равный сумме вероятностей для всех пользователей.

##### 3.7. Зависимость распространения информации от времени и количества репостов

Обозначим $\Delta t = t_{r} - t_{p}$ как временную разницу между временем создания поста $p_i$ и временем первого репоста $r_i$. Вводим **коэффициент затухания** информации $\alpha$:

$$
P(p_{i+1} | p_i) = P(p_i) \cdot \alpha^{\Delta t}
$$

где $\alpha \in (0,1)$ — коэффициент, который описывает, насколько быстро затухает вероятность репоста с увеличением времени.



#### Заключение

В данной работе предложен подход к идентификации оригинального автора поста в социальных сетях на основе анализа репостов и использования рекуррентных нейронных сетей. Созданный синтетический датасет, сгенерированный с использованием библиотеки `Faker`, обеспечивает гибкость и масштабируемость, что делает его пригодным для обучения и тестирования моделей. Разработанная модель демонстрирует свою эффективность и открывает возможности для дальнейших исследований в области анализа контента в социальных сетях. В будущем планируется тестирование модели на реальных данных и улучшение качества предсказаний.

In [4]:
!pip install faker



In [5]:
import pandas as pd
from faker import Faker
import random
from datetime import datetime, timedelta

# Инициализация Faker
fake = Faker('ru_RU')

# Параметры датасета
num_users = 10000  # Количество пользователей
num_posts = 50000  # Количество постов
num_reposts = 100000  # Количество репостов

# Генерация таблицы пользователей
users_data = {
    'user_id': list(range(1, num_users + 1)),
    'username': [fake.user_name() for _ in range(num_users)],
    'email': [fake.email() for _ in range(num_users)]
}
users_df = pd.DataFrame(users_data)

# Генерация таблицы постов
posts_data = {
    'post_id': list(range(1, num_posts + 1)),
    'user_id': [random.choice(users_df['user_id']) for _ in range(num_posts)],
    'text': [fake.sentence(nb_words=10) for _ in range(num_posts)],
    'created_at': [fake.date_time_between(start_date='-1y', end_date='now').strftime('%Y-%m-%d %H:%M:%S')
                   for _ in range(num_posts)]
}
posts_df = pd.DataFrame(posts_data)

# Генерация таблицы репостов
reposts_data = {
    'repost_id': list(range(1, num_reposts + 1)),
    'original_post_id': [random.choice(posts_df['post_id']) for _ in range(num_reposts)],
    'user_id': [random.choice(users_df['user_id']) for _ in range(num_reposts)],
    'created_at': [fake.date_time_between(start_date='-1y', end_date='now').strftime('%Y-%m-%d %H:%M:%S')
                   for _ in range(num_reposts)]
}
reposts_df = pd.DataFrame(reposts_data)

# Сохранение в CSV
users_df.to_csv('users_large.csv', index=False)
posts_df.to_csv('posts_large.csv', index=False)
reposts_df.to_csv('reposts_large.csv', index=False)

# Вывод информации о датасете
print(f"Пользователи: {len(users_df)} записей")
print(f"Посты: {len(posts_df)} записей")
print(f"Репосты: {len(reposts_df)} записей")

Пользователи: 10000 записей
Посты: 50000 записей
Репосты: 100000 записей


In [6]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Загрузка данных
users_df = pd.read_csv('users_large.csv')
posts_df = pd.read_csv('posts_large.csv')
reposts_df = pd.read_csv('reposts_large.csv')
users_df=users_df.head(10000)
posts_df=posts_df.head(10000)
reposts_df=reposts_df.head(10000)

# Объединение данных
data = pd.merge(reposts_df, posts_df, left_on='original_post_id', right_on='post_id')
data = pd.merge(data, users_df, left_on='user_id_y', right_on='user_id')

# Векторизация текстов
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(data['text'])
sequences = tokenizer.texts_to_sequences(data['text'])
X = pad_sequences(sequences, maxlen=100)

# Кодирование целевой переменной
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(data['user_id_x'])

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Построение модели
model = Sequential()
model.add(Embedding(input_dim=10000, output_dim=128, input_length=100))
model.add(LSTM(128))
model.add(Dense(len(label_encoder.classes_), activation='softmax'))

# Компиляция модели
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Обучение модели
model.fit(X_train, y_train, epochs=5, batch_size=64, validation_data=(X_test, y_test))

# Оценка модели
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Точность модели: {accuracy:.4f}")



Epoch 1/5
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 488ms/step - accuracy: 0.0000e+00 - loss: 7.4815 - val_accuracy: 0.0000e+00 - val_loss: 7.4766
Epoch 2/5
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m14s[0m 236ms/step - accuracy: 0.0016 - loss: 7.4749 - val_accuracy: 0.0000e+00 - val_loss: 7.4854
Epoch 3/5
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 237ms/step - accuracy: 0.0149 - loss: 7.4636 - val_accuracy: 0.0000e+00 - val_loss: 7.9209
Epoch 4/5
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 293ms/step - accuracy: 7.0964e-04 - loss: 7.3977 - val_accuracy: 0.0000e+00 - val_loss: 7.6452
Epoch 5/5
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 238ms/step - accuracy: 7.3664e-05 - loss: 7.3644 - val_accuracy: 0.0000e+00 - val_loss: 8.2098
[1m13/13[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 93ms/step - accuracy: 0.0000e+00 - loss: 8.2026
Точность модели: 0.0000


In [7]:
!pip install torch_geometric



In [None]:
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch_geometric.data import Data
from torch_geometric.nn import GCNConv
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from transformers import BertTokenizer, BertModel

# Загрузка данных
users_df = pd.read_csv('users_large.csv')
posts_df = pd.read_csv('posts_large.csv')
reposts_df = pd.read_csv('reposts_large.csv')

users_df=users_df.head(10000)
posts_df=posts_df.head(10000)
reposts_df=reposts_df.head(10000)
# Подготовка данных
posts_df['created_at'] = pd.to_datetime(posts_df['created_at'])
reposts_df['created_at'] = pd.to_datetime(reposts_df['created_at'])

# Кодирование пользователей
user_encoder = LabelEncoder()
users_df['user_id_encoded'] = user_encoder.fit_transform(users_df['user_id'])

# Токенизация текста
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
bert_model = BertModel.from_pretrained('bert-base-uncased')

def encode_text(texts):
    inputs = tokenizer(texts.tolist(), return_tensors='pt', padding=True, truncation=True, max_length=128)
    with torch.no_grad():
        outputs = bert_model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).numpy()

# Векторизация текста постов
post_text_embeddings = encode_text(posts_df['text'])

# Построение графа
edge_index = []
for _, row in reposts_df.iterrows():
    original_post_id = row['original_post_id']
    repost_id = row['repost_id']
    edge_index.append([original_post_id - 1, repost_id - 1])  # Индексация с 0

edge_index = torch.tensor(edge_index, dtype=torch.long).t().contiguous()

# Создание PyTorch Geometric Data
x = torch.tensor(post_text_embeddings, dtype=torch.float)
y = torch.tensor(posts_df['user_id_encoded'].values, dtype=torch.long)

data = Data(x=x, edge_index=edge_index, y=y)

# Разделение данных на обучающую и тестовую выборки
train_mask, test_mask = train_test_split(range(len(posts_df)), test_size=0.2, random_state=42)
train_mask = torch.tensor(train_mask, dtype=torch.bool)
test_mask = torch.tensor(test_mask, dtype=torch.bool)

data.train_mask = train_mask
data.test_mask = test_mask

# Определение модели GCN + RNN
class GCNRNN(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(GCNRNN, self).__init__()
        self.gcn1 = GCNConv(input_dim, hidden_dim)
        self.gcn2 = GCNConv(hidden_dim, hidden_dim)
        self.rnn = nn.GRU(input_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim * 2, output_dim)

    def forward(self, x, edge_index):
        # GCN
        gcn_out = self.gcn1(x, edge_index)
        gcn_out = torch.relu(gcn_out)
        gcn_out = self.gcn2(gcn_out, edge_index)

        # RNN
        rnn_out, _ = self.rnn(x.unsqueeze(0))
        rnn_out = rnn_out.squeeze(0)

        # Объединение GCN и RNN
        combined = torch.cat([gcn_out, rnn_out], dim=1)
        out = self.fc(combined)
        return out

# Инициализация модели
input_dim = post_text_embeddings.shape[1]
hidden_dim = 64
output_dim = len(user_encoder.classes_)

model = GCNRNN(input_dim, hidden_dim, output_dim)

# Определение функции потерь и оптимизатора
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

# Обучение модели
def train():
    model.train()
    optimizer.zero_grad()
    out = model(data.x, data.edge_index)
    loss = criterion(out[data.train_mask], data.y[data.train_mask])
    loss.backward()
    optimizer.step()
    return loss.item()

# Тестирование модели
def test():
    model.eval()
    with torch.no_grad():
        out = model(data.x, data.edge_index)
        pred = out.argmax(dim=1)
        correct = (pred[data.test_mask] == data.y[data.test_mask]).sum()
        acc = int(correct) / int(data.test_mask.sum())
    return acc

# Цикл обучения
for epoch in range(100):
    loss = train()
    if epoch % 10 == 0:
        acc = test()
        print(f'Epoch {epoch}, Loss: {loss:.4f}, Accuracy: {acc:.4f}')

# Сохранение модели
torch.save(model.state_dict(), 'gcn_rnn_model.pth')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  posts_df['created_at'] = pd.to_datetime(posts_df['created_at'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  users_df['user_id_encoded'] = user_encoder.fit_transform(users_df['user_id'])
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that au

In [None]:
# Загрузка модели
model.load_state_dict(torch.load('gcn_rnn_model.pth'))

# Пример предсказания
def predict_author(post_id):
    model.eval()
    with torch.no_grad():
        out = model(data.x, data.edge_index)
        pred = out.argmax(dim=1)
        author_id = pred[post_id - 1].item()
        author_username = user_encoder.inverse_transform([author_id])[0]
    return author_username

# Пример использования
post_id_to_check = 12345
predicted_author = predict_author(post_id_to_check)
print(f"Предсказанный автор поста {post_id_to_check} — {predicted_author}")