In [1]:
%load_ext autoreload
%autoreload 2

In [3]:
# !pip install OpenAI
import json
import pandas as pd
import numpy as np
from ParserDB import ParserDB

from openai import OpenAI
import os
with open("./data/data_json/openai_token.txt", "r") as f:
    os.environ["OPENAI_API_KEY"] = f.read()

In [78]:
# openai structuded output
request_format = {
    "format": {
        "type": "json_schema",
        "name": "user_stances_batch",
        "strict": True,
        "schema": {
            "type": "object",
            "properties": {
                "threads": {
                    "type": "array",
                    "items": {
                        "type": "object",
                        "properties": {
                            "threadId": {"type": "string"},
                            "users": {
                                "type": "array",
                                "items": {
                                    "type": "object",
                                    "properties": {
                                        "user": {"type": "string"},
                                        "stance": {
                                            "type": "string",
                                            "enum": ["поддерживает", "не поддерживает", "невозможно сказать"]
                                        }
                                    },
                                    "required": ["user", "stance"],
                                    "additionalProperties": False
                                }
                            }
                        },
                        "required": ["threadId", "users"],
                        "additionalProperties": False
                    }
                }
            },
            "required": ["threads"],
            "additionalProperties": False
        }
    }
}

# prompts for GPT-model
request_text_chemtrails =\
"""Тебе дано 10 тредов комментариев на ютубе. \
Пользователи под видеороликами спорят о конспирологической теории химтрейлов, \
то есть о распылении химикатов самолётами. Противники теории считают, что это инверсионный след, а не химикаты. \
Ты должен для каждого пользователя каждого треда определить, поддерживает он теорию о химтрейлах, не поддерживает, \
или невозможно определить. Формат данных: @пользователь: текст комментария. Если в тексте комментария есть @@username, \
значит автор комментария отвечает какому-то юзеру. Для каждого пользователя каждого треда определи, \
поддерживает он теорию о химтрейлах, не поддерживает, или невозможно определить.\
В ответе имена пользователей начинай записывать с @, так же, как в тексте треда. \
Для каждого треда определяй независимо."""

request_text_newchron =\
"""Тебе дано 10 тредов комментариев на ютубе. \
Пользователи под видеороликами спорят о конспирологической теории "Новой хронологии" Фоменко. \
Это такая псевдонаучная программа пересмотра истории, оппонирующая "официальной истории". \
Ты должен для каждого пользователя каждого треда определить, поддерживает он новую хронологию, не поддерживает, \
или невозможно определить. Формат данных: @пользователь: текст комментария. Если в тексте комментария есть @@username, \
значит автор комментария отвечает какому-то юзеру. Для каждого пользователя каждого треда определи, \
поддерживает он новую хронологию, не поддерживает, или невозможно определить. \
В ответе имена пользователей начинай записывать с @, так же, как в тексте треда. \
Для каждого треда определяй независимо."""

request_text_flatearth =\
"""Тебе дано 10 тредов комментариев на ютубе. \
Пользователи под видеороликами спорят о конспирологической теории плоской Земли. \
Сторонники теории считают, что планета Земля является плоской/вогнутой/какой-то ещё, а не шарообразной, и спорят с "официальной наукой". \
Ты должен для каждого пользователя каждого треда определить, поддерживает он теорию плоской земли, не поддерживает, \
или невозможно определить. Формат данных: @пользователь: текст комментария. Если в тексте комментария есть @@username, \
значит автор комментария отвечает какому-то юзеру. Для каждого пользователя каждого треда определи, \
поддерживает он теорию плоской земли, не поддерживает, или невозможно определить. \
В ответе имена пользователей начинай записывать с @, так же, как в тексте треда. \
Для каждого треда определяй независимо."""

In [13]:
p = ParserDB(api_key_file="./data/data_json/api_token.txt", database="./data/data.db")
# p.comments_to_csv("химтрейлы", "./data/comments_chemtrail.csv")
# p.comments_to_csv("новая хронология", "./data/comments_newchron.csv")
# p.comments_to_csv("теория плоской земли", "./data/comments_flatearth.csv")

In [118]:
def create_batches(comments_file, output_folder, prefix, request_text, request_format):
    REQUEST_SIZE = 10 # threads in request
    BATCH_SIZE = 7500 # requests in batch
    
    df = pd.read_csv(comments_file)
    df = df[df['text'].notna()].sort_values(by=['topLevelComment', 'publishedAt'])
    threads = df.groupby(['topLevelComment'])[["authorDisplayName", "text"]].apply(
        lambda g: '\n'.join(f"{row['authorDisplayName']}: {row['text']}" for _, row in g.iterrows())).reset_index(name='thread')
    batches = [threads[i:i+BATCH_SIZE] for i in range(0, len(threads), BATCH_SIZE)]
    for i, b in enumerate(batches):
        with open(f"{output_folder}/{prefix}_{i+1}.jsonl", "w", encoding="utf-8") as f:
            for request_index in range(0, len(b), REQUEST_SIZE):
                chunk = b.iloc[request_index:request_index + REQUEST_SIZE]
                combined_text = "\n\n".join(
                    f"Тред {row['topLevelComment']}:\n{row['thread']}" for _, row in chunk.iterrows()
                )
                request_id = f"{(BATCH_SIZE // REQUEST_SIZE) * i + request_index // REQUEST_SIZE + 1}"
                
                obj = {
                    "custom_id": request_id,
                    "method": "POST",
                    "url": "/v1/responses",
                    "body": {
                        "model": "gpt-4.1-mini",
                        "input": [
                            {"role": "system", "content": request_text},
                            {"role": "user", "content": combined_text}
                        ],
                        "text": request_format
                    }
                }
                f.write(json.dumps(obj, ensure_ascii=False) + "\n")

In [3]:
client = OpenAI()

def batch_to_api(input_file):
    batch_input_file = client.files.create(
        file=open(input_file, "rb"),
        purpose="batch"
    )
    batch_input_file_id = batch_input_file.id
    client.batches.create(
        input_file_id=batch_input_file_id,
        endpoint="/v1/responses",
        completion_window="24h",
        metadata={}
    )

In [79]:
create_batches("./data/comments_chemtrail.csv", "./data/openai_batches", "batch_chemtrails", request_text_chemtrails, request_format)

In [80]:
create_batches("./data/comments_newchron.csv", "./data/openai_batches", "batch_newchron", request_text_newchron, request_format)

In [119]:
create_batches("./data/comments_flatearth.csv", "./data/openai_batches", "batch_flatearth", request_text_flatearth, request_format)

In [85]:
batch_to_api("./data/openai_batches/batch_newchron_1.jsonl")

In [8]:
batch_to_api("./data/openai_batches/batch_flatearth_6.jsonl")

In [11]:
with open("./data/openai_responses/flatearth_output.jsonl", "w") as output:
    for i in range(1, 7):
        with open(f"./data/openai_responses/batch_flatearth_{i}_output.jsonl", "r") as inp:
            output.write(inp.read())

In [3]:
def stances_by_thread(data):
    user_stances = {} # {user: {supports: 3, ...}}
    
    with open(data, "r") as f:
        for l in f.readlines():
            try:
                response_text = json.loads(json.loads(l)["response"]["body"]["output"][0]["content"][0]["text"])
            except:
                with open("./data/openai_responses/errors.txt", "a") as err:
                    err.write(l + "\n")
                    continue
            for thread in response_text["threads"]:
                for user in thread["users"]:
                    username = user["user"]
                    userstance = user["stance"]
                    cur_user_stance = user_stances.get(username, {})
                    cur_user_stance[userstance] = cur_user_stance.get(userstance, 0) + 1
                    user_stances[username] = cur_user_stance
    return user_stances

def define_user_stance(stance_counts):
    if stance_counts.get("поддерживает", 0) == stance_counts.get("не поддерживает", 0):
        return "невозможно определить"
    return "поддерживает" if stance_counts.get("поддерживает", 0) > stance_counts.get("не поддерживает", 0) else "не поддерживает"

def make_graph(threads_by_videos, user_stances, folder_to_save):
    nodes = set()
    edges = set()
    
    reply_count = 0
    problem_count = 0
    for videoId, videoThreads, query in threads_by_videos:
        videoThreads = json.loads(videoThreads)
        users = set()
        thread_authors = dict() # {topLevelComment: author}
        nodes.add((videoId, "video", query))
        for thread in videoThreads:
            thread = json.loads(thread)
            for comment in thread:
                users.add(comment["authorDisplayName"])
                nodes.add((comment["authorDisplayName"], "user", "USER"))
                if comment["topLevelComment"] == comment["commentId"]:
                    thread_authors[comment["topLevelComment"]] = comment["authorDisplayName"]
                
        for thread in videoThreads:
            thread = json.loads(thread)
            thread_author = thread_authors[thread[0]["topLevelComment"]]
            for comment in thread:
                if comment["authorDisplayName"] == thread_author:
                    edges.add((comment["authorDisplayName"], videoId))
                elif "@" not in comment["text"]:
                    edges.add((comment["authorDisplayName"], thread_author))
                else:
                    reply_to = None
                    for user in users:
                        if user in comment["text"]:
                            reply_to = user
                            break
                    if reply_to is not None:
                        edges.add((comment["authorDisplayName"], reply_to))
                    else:
                        problem_count += 1

    nodes = [dict(id=n[0], label=n[0], nodeType=n[1], query=n[2], stance=define_user_stance(user_stances.get(n[0], {}))) for n in nodes]
    edges = [dict(source=e[0], target=e[1]) for e in edges]
    
    nodes_df = pd.DataFrame(nodes)
    nodes_df["size"] = np.where(nodes_df["nodeType"] == "video", 20, 1)
    nodes_df.to_csv(f"{folder_to_save}/nodes.csv", index=False, encoding="utf-8")
    pd.DataFrame(edges).to_csv(f"{folder_to_save}/edges.csv", index=False, encoding="utf-8")

In [13]:
# EI-index: (E - I) / (E + I)
# E - external connections (responses to opponents); I - internal connections (responses to group-members)
def calculate_ei(nodes, edges):
    merged = pd.merge(
        edges,
        nodes.rename(columns={"label": "source", "stance": "source_stance"}),
        on="source"
    )[["target", "source", "source_stance"]]
    merged = pd.merge(
        merged,
        nodes.rename(columns={"label": "target", "stance": "target_stance"}),
        on="target"
    )[["target", "source", "source_stance", "target_stance"]]
    merged = merged[(merged["source_stance"] != "невозможно определить") & (merged["target_stance"] != "невозможно определить")]
    
    reply_counts = merged.groupby(by=["source_stance", "target_stance"]).size()
    
    I_support = reply_counts.loc["поддерживает"]["поддерживает"]
    I_oppose = reply_counts.loc["не поддерживает"]["не поддерживает"]
    E_support = reply_counts.loc["поддерживает"]["не поддерживает"]
    E_oppose = reply_counts.loc["не поддерживает"]["поддерживает"]

    print(I_support, I_oppose, E_support, E_oppose)
    
    EI_support = (E_support - I_support) / (E_support + I_support)
    EI_oppose = (E_oppose - I_oppose) / (E_oppose + I_oppose)
    return EI_support, EI_oppose

In [7]:
chemtrails_threads = p.get_threads("химтрейлы")
chemtrails_stances = stances_by_thread("./data/openai_responses/batch_chemtrails_output.jsonl")

In [102]:
make_graph(chemtrails_threads, chemtrails_stances, "data/gephi_chem_stances")

In [103]:
chemtrails_nodes = pd.read_csv("./data/gephi_chem_stances/nodes.csv")
chemtrails_edges = pd.read_csv("./data/gephi_chem_stances/edges.csv")

In [8]:
newchron_threads = p.get_threads("новая хронология")
newchron_stances = stances_by_thread("./data/openai_responses/batch_newchron_1_output.jsonl")
make_graph(newchron_threads, newchron_stances, "data/gephi_newchron_stances")

In [6]:
newchron_nodes = pd.read_csv("./data/gephi_newchron_stances/nodes.csv")
newchron_edges = pd.read_csv("./data/gephi_newchron_stances/edges.csv")

In [9]:
flatearth_threads = p.get_threads("теория плоской земли")
flatearth_stances = stances_by_thread("./data/openai_responses/flatearth_output.jsonl")
make_graph(flatearth_threads, flatearth_stances, "data/gephi_flatearth_stances")

In [24]:
flatearth_nodes = pd.read_csv("./data/gephi_flatearth_stances/nodes.csv")
flatearth_edges = pd.read_csv("./data/gephi_flatearth_stances/edges.csv")

In [106]:
calculate_ei(chemtrails_nodes, chemtrails_edges)

4909 1030 1236 2450


(-0.5977217249796583, 0.40804597701149425)

In [107]:
calculate_ei(newchron_nodes, newchron_edges)

986 964 728 1306


(-0.15052508751458576, 0.15066079295154186)

In [25]:
calculate_ei(flatearth_nodes, flatearth_edges)

4131 9262 5685 14163


(0.15831295843520782, 0.20922091782283886)

In [10]:
defined_stances = {
    user: define_user_stance(stance_counts) for user, stance_counts in flatearth_stances.items()
}

defined_stances = pd.DataFrame.from_dict(data=defined_stances, orient="index", columns=["stance"])

In [36]:
pd.DataFrame \
    .from_dict(data=defined_stances, orient="index", columns=["stance"]) \
    .reset_index(names="user") \
    .sample(300) \
    .to_csv("./data/human_labels/flatearth.csv")

In [96]:
pd.read_csv("./data/human_labels/flatearth.csv")[["user"]].to_csv("./data/human_labels/flatearth_human.csv", encoding="utf-16")

In [15]:
threads = p.get_threads("теория плоской земли")

In [31]:
def user_threads(user, threads):
    """
    threads returned by ParserDB.get_threads()
    """
    filtered_threads = []

    videos = [t[1] for t in threads if user in t[1]]
    for video_threads in videos:
        for thread in json.loads(video_threads):
            if user in thread:
                filtered_threads.append(thread)

    return filtered_threads

def edge_threads(source, target, threads):
    print(f"{source} THREADS")
    for thread in user_threads(source, threads):
        print("START_OF_THREAD\n")
        for comment in json.loads(thread):
            print(f"{comment["authorDisplayName"]}: {comment["text"]}")
        print("\nEND_OF_THREAD\n\n")

    print(f"{target} THREADS")
    for thread in user_threads(target, threads):
        print("START_OF_THREAD\n")
        for comment in json.loads(thread):
            print(f"{comment["authorDisplayName"]}: {comment["text"]}")
        print("\nEND_OF_THREAD\n\n")

In [110]:
human = pd.read_csv("./data/human_labels/flatearth_human.csv", encoding="utf-8", sep=";")[["user", "stance"]].rename({"stance": "human_stance"}, axis="columns")
gpt = pd.read_csv("./data/human_labels/flatearth.csv", encoding="utf-8", sep=",")[["user", "stance"]]

In [120]:
m = pd.merge(gpt, human, on="user")
m["match"] = m.stance == m.human_stance
m

Unnamed: 0,user,stance,human_stance,match
0,@Kalinet-music,невозможно определить,невозможно определить,True
1,@zamanium7517,не поддерживает,невозможно определить,False
2,@Dark_Straylight,невозможно определить,невозможно определить,True
3,@Infanta_,невозможно определить,невозможно определить,True
4,@Gijs-t7p,невозможно определить,невозможно определить,True
...,...,...,...,...
195,@darionmogrein6763,невозможно определить,поддерживает,False
196,@KneeNinja1,не поддерживает,невозможно определить,False
197,@ГалинаБуза,поддерживает,поддерживает,True
198,@MarinaMamaladze-s8k,не поддерживает,не поддерживает,True


In [122]:
m.match.sum() / len(m)

0.745

In [124]:
# accuracy
m.groupby("human_stance")["match"].sum() / m.groupby("human_stance")["match"].size()

human_stance
не поддерживает          0.680851
невозможно определить    0.743363
поддерживает             0.825000
Name: match, dtype: float64

In [130]:
classes = ["поддерживает", "не поддерживает", "невозможно определить"]

def calculate_metrics(df, true_col, pred_col, target_class):
    TP = ((df[true_col] == target_class) & (df[pred_col] == target_class)).sum()
    FP = ((df[pred_col] == target_class) & (df[true_col] != target_class)).sum()
    TN = ((df[true_col] != target_class) & (df[pred_col] != target_class)).sum()
    FN = ((df[true_col] == target_class) & (df[pred_col] != target_class)).sum()
    return TP, FP, TN, FN

for class_name in classes:
    TP, FP, TN, FN = calculate_metrics(m, "human_stance", "stance", class_name)
    print(f"Класс: {class_name}")
    print(f"TP: {TP}, FP: {FP}, TN: {TN}, FN: {FN}")
    print(f"Precision: {TP / (TP + FP):.2f}, Recall: {TP / (TP + FN):.2f}\n")

Класс: поддерживает
TP: 33, FP: 17, TN: 143, FN: 7
Precision: 0.66, Recall: 0.82

Класс: не поддерживает
TP: 32, FP: 22, TN: 131, FN: 15
Precision: 0.59, Recall: 0.68

Класс: невозможно определить
TP: 84, FP: 12, TN: 75, FN: 29
Precision: 0.88, Recall: 0.74



In [36]:
def sample_edges(theory_name):
    edges_sample = pd.read_csv(f"./data/gephi_{theory_name}_stances/edges.csv")
    nodes = pd.read_csv(f"./data/gephi_{theory_name}_stances/nodes.csv")
    
    edges_sample = pd.merge(
        edges_sample,
        nodes,
        left_on="source", right_on="label"
    ).rename({"stance": "source_stance"}, axis="columns")[["source", "target", "source_stance"]]
    edges_sample = pd.merge(
        edges_sample,
        nodes,
        left_on="target", right_on="label"
    ).rename({"stance": "target_stance"}, axis="columns")[["source", "target", "source_stance", "target_stance"]]
    
    edges_sample = edges_sample[(edges_sample["source_stance"] != "невозможно определить") & (edges_sample["target_stance"] != "невозможно определить")]
    edges_sample = edges_sample.sample(300)
    edges_sample.to_csv(f"./data/human_labels/{theory_name}_edges.csv", encoding="utf-16", sep=",")
    edges_sample[["source", "target"]].to_csv(f"./data/human_labels/{theory_name}_edges_human.csv", encoding="utf-16", sep=",")
    return edges_sample

In [37]:
edges_chem = sample_edges("chem")
edges_newchron = sample_edges("newchron")

In [19]:
threads_chem = p.get_threads("химтрейлы")
threads_newchron = p.get_threads("новая хронология")

In [None]:
for i, row in enumerate(edges_chem.iterrows()):
    if i not in range(0, 10): continue
    try:
        edge_threads(row[1].source, row[1].target, threads_chem)
    except:
        print(row)

In [None]:
for thread in user_threads("@ВячеславПодгорнов-о4и", threads_newchron):
        print("START_OF_THREAD\n")
        for comment in json.loads(thread):
            print(f"{comment["authorDisplayName"]}: {comment["text"]}")
        print("\nEND_OF_THREAD\n\n")

In [166]:
edges_human_flat = pd.read_csv("./data/human_labels/flatearth_edges_human.csv", sep=";", encoding="cp1251")
edges_gpt_flat = pd.read_csv("./data/human_labels/flatearth_edges.csv", sep=",", encoding="utf-16")

edges_merged_flat = pd.merge(
    edges_gpt_flat,
    edges_human_flat.rename({"source_stance": "source_stance_human", "target_stance": "target_stance_human"}, axis="columns"),
    on=["source", "target"]
)[["source", "target", "source_stance", "source_stance_human", "target_stance", "target_stance_human"]].dropna()

((edges_merged_flat["source_stance"] == edges_merged_flat["source_stance_human"]) & (edges_merged_flat["target_stance"] == edges_merged_flat["target_stance_human"])).sum()

72

In [170]:
edges_human_chem = pd.read_csv("./data/human_labels/chem_edges_human.csv", sep=";", encoding="cp1251")
edges_gpt_chem = pd.read_csv("./data/human_labels/chem_edges.csv", sep=",", encoding="utf-16")

edges_merged_chem = pd.merge(
    edges_gpt_chem,
    edges_human_chem.rename({"source_stance": "source_stance_human", "target_stance": "target_stance_human"}, axis="columns"),
    on=["source", "target"]
)[["source", "target", "source_stance", "source_stance_human", "target_stance", "target_stance_human"]].dropna()

((edges_merged_chem["source_stance"] == edges_merged_chem["source_stance_human"]) & (edges_merged_chem["target_stance"] == edges_merged_chem["target_stance_human"])).sum()

80

In [229]:
edges_human_newchron = pd.read_csv("./data/human_labels/newchron_edges_human.csv", sep=";", encoding="cp1251")
edges_gpt_newchron = pd.read_csv("./data/human_labels/newchron_edges.csv", sep=",", encoding="utf-16")

edges_merged_newchron = pd.merge(
    edges_gpt_newchron,
    edges_human_newchron.rename({"source_stance": "source_stance_human", "target_stance": "target_stance_human"}, axis="columns"),
    on=["source", "target"]
)[["source", "target", "source_stance", "source_stance_human", "target_stance", "target_stance_human"]].dropna()

((edges_merged_newchron["source_stance"] == edges_merged_newchron["source_stance_human"]) & (edges_merged_newchron["target_stance"] == edges_merged_newchron["target_stance_human"])).sum() * 2

64