In [10]:
import google.generativeai as genai
import pandas as pd
import random
import uuid
import json
import numpy as np
from collections import defaultdict

import sys
from pathlib import Path
sys.path.append(str(Path().resolve().parent))
from src.definitions import RAW_DATA_FOLDER, PROJECT_ROOT_DIR, EXTERNAL_DATA_FOLDER

In [11]:
df = pd.read_parquet(RAW_DATA_FOLDER / "techniques-classification.parquet")

# Завантажити описи технік
with open(PROJECT_ROOT_DIR / "src/data/technique_descriptions.json", encoding='utf-8') as f:
    TECHNIQUE_DESCRIPTIONS = json.load(f)

In [None]:
genai.configure(api_key="AIzaSyBAgWYwuCYOkfiM2txUtWBvbHQAio8jqAI")
model = genai.GenerativeModel("gemini-1.5-flash")


def generate_with_multiple_techniques(lang: str, techniques: list, examples: list):
    techniques_desc = "\n".join([f"- {tech}: {TECHNIQUE_DESCRIPTIONS[tech]}" for tech in techniques])
    examples_text = "\n".join([f"Приклад {i+1}:\n{ex}" for i, ex in enumerate(examples)])

    prompt = f"""
    Створи новий маніпулятивний текст {lang} мовою, який використовує техніки: {', '.join(techniques)}.
    Текст повинен бути природнім і містити тригерні слова.

    Техніки:
    {techniques_desc}

    Приклади:
    {examples_text}

    Формат відповіді: {{
        "content": "текст...",
        "techniques": {json.dumps(techniques)},
        "trigger_words": ["список", "слів"]
    }}
    """

    try:
        response = model.generate_content(prompt)
        cleaned = response.text.replace("```json", "").replace("```", "").strip()
        return json.loads(cleaned)
    except Exception as e:
        print(f"Помилка: {str(e)}")
        return None

df['techniques'] = df['techniques'].apply(lambda x: x.tolist() if isinstance(x, np.ndarray) else x)
df['techniques'] = df['techniques'].apply(lambda x: x if x else [])

# Аналіз розподілу кількості технік у вихідному датасеті
technique_count_dist = defaultdict(int)
for _, row in df.iterrows():
    if row['techniques']:
        technique_count_dist[len(row['techniques'])] += 1

# Перетворюємо у відсотковий розподіл
total = sum(technique_count_dist.values())
technique_count_pct = {k: v/total for k, v in technique_count_dist.items()}

# Функція для вибору кількості технік згідно з розподілом
def sample_technique_count(pct_dict):
    counts = list(pct_dict.keys())
    weights = [pct_dict[count] for count in counts]
    return random.choices(counts, weights=weights, k=1)[0]

# Створюємо пул технік на основі частоти використання
technique_freq = defaultdict(int)
for _, row in df.iterrows():
    for tech in row['techniques']:
        technique_freq[tech] += 1

# Функція для вибору N технік на основі їх частоти
def sample_techniques(technique_freq, n, lang=None):
    techniques = list(technique_freq.keys())
    weights = [technique_freq[tech] for tech in techniques]
    
    if lang:
        # Якщо потрібно, можна додати фільтрацію за мовою
        lang_techniques = []
        lang_weights = []
        for tech, weight in zip(techniques, weights):
            tech_rows = df[df['techniques'].apply(lambda x: tech in x)]
            if lang in tech_rows['lang'].unique():
                lang_techniques.append(tech)
                lang_weights.append(weight)
        
        if lang_techniques:
            return random.choices(lang_techniques, weights=lang_weights, k=n)
    
    return random.choices(techniques, weights=weights, k=n)

# Генерація нових даних з різною кількістю технік
new_data = []
languages = df['lang'].unique()

# Кількість нових записів, які потрібно згенерувати
num_generations = 10000

for i in range(num_generations):
    if i % 100 == 0:
        print(f"Згенеровано {i} прикладів")
    # Вибір мови
    lang = random.choice(languages)
    
    # Визначення кількості технік для цього прикладу
    num_techniques = sample_technique_count(technique_count_pct)
    
    # Вибір технік
    selected_techniques = sample_techniques(technique_freq, num_techniques, lang)
    # Видалення дублікатів, якщо вони є
    selected_techniques = list(set(selected_techniques))
    
    # Якщо після видалення дублікатів список порожній, продовжуємо
    if not selected_techniques:
        continue
    
    # Пошук існуючих прикладів
    filtered = df[
        (df['lang'] == lang) &
        (df['techniques'].apply(lambda x: all(t in x for t in selected_techniques)))
    ]
    
    # Адаптивна вибірка
    sample_size = min(3, len(filtered))
    if sample_size == 0:
        # Якщо немає точних прикладів, спробуємо знайти приклади з хоча б однією з обраних технік
        filtered = df[
            (df['lang'] == lang) &
            (df['techniques'].apply(lambda x: any(t in x for t in selected_techniques)))
        ]
        sample_size = min(3, len(filtered))
        
    if sample_size == 0:
        print(f"⚠️ Немає прикладів для {selected_techniques} ({lang})")
        continue
    
    examples = filtered.sample(sample_size, replace=(sample_size > len(filtered)))['content'].tolist()
    
    # Генерація нового прикладу
    result = generate_with_multiple_techniques(lang, selected_techniques, examples)
    if result:
        new_data.append({
            'id': str(uuid.uuid4()),
            'content': result['content'],
            'lang': lang,
            'manipulative': True,
            'techniques': np.array(result['techniques']),
            'trigger_words': np.array(result.get('trigger_words', []))
        })
        # print(f"✅ Згенеровано приклад з {len(selected_techniques)} техніками: {selected_techniques}")

%%time

Згенеровано 0 прикладів
Згенеровано 100 прикладів
Помилка: Expecting ',' delimiter: line 2 column 428 (char 429)
Згенеровано 200 прикладів
Помилка: Expecting ',' delimiter: line 2 column 43 (char 44)
Помилка: Expecting ',' delimiter: line 2 column 50 (char 51)
Помилка: Expecting ',' delimiter: line 2 column 41 (char 42)
Помилка: Expecting ',' delimiter: line 2 column 34 (char 35)
Помилка: Expecting ',' delimiter: line 2 column 47 (char 48)
Помилка: Expecting ',' delimiter: line 2 column 151 (char 152)
Згенеровано 300 прикладів
Помилка: Expecting ',' delimiter: line 2 column 209 (char 210)
Помилка: Expecting ',' delimiter: line 2 column 395 (char 396)
Помилка: Expecting ',' delimiter: line 2 column 35 (char 36)
Згенеровано 400 прикладів
Згенеровано 500 прикладів
Помилка: Expecting ',' delimiter: line 2 column 280 (char 281)
Згенеровано 600 прикладів
Помилка: Expecting ',' delimiter: line 2 column 138 (char 139)
Помилка: Expecting ',' delimiter: line 2 column 48 (char 49)
Помилка: Expect

KeyboardInterrupt: 

In [None]:
EXTERNAL_DATA_FOLDER.mkdir(parents=True, exist_ok=True)

new_data = pd.DataFrame(new_data)

new_data.to_csv(EXTERNAL_DATA_FOLDER / "10000gemini-generated-data-v2.csv", index=False)

# Генерація даних з однаковою кількістю для кожного класу

In [9]:
genai.configure(api_key="AIzaSyBAgWYwuCYOkfiM2txUtWBvbHQAio8jqAI")
model = genai.GenerativeModel("gemini-1.5-flash")

def generate_with_multiple_techniques(lang: str, techniques: list, examples: list):
    techniques_desc = "\n".join([f"- {tech}: {TECHNIQUE_DESCRIPTIONS[tech]}" for tech in techniques])
    examples_text = "\n".join([f"Приклад {i+1}:\n{ex}" for i, ex in enumerate(examples)])

    prompt = f"""
    Створи новий маніпулятивний текст {lang} мовою, який використовує техніки: {', '.join(techniques)}.
    Текст повинен бути природнім і містити тригерні слова.

    Техніки:
    {techniques_desc}

    Приклади:
    {examples_text}

    Формат відповіді: {{
        "content": "текст...",
        "techniques": {json.dumps(techniques)},
        "trigger_words": ["список", "слів"]
    }}
    """

    try:
        response = model.generate_content(prompt)
        cleaned = response.text.replace("```json", "").replace("```", "").strip()
        return json.loads(cleaned)
    except Exception as e:
        print(f"Помилка: {str(e)}")
        return None

# Перетворення списку технік
df['techniques'] = df['techniques'].apply(lambda x: x.tolist() if isinstance(x, np.ndarray) else x)
df['techniques'] = df['techniques'].apply(lambda x: x if x else [])

# Отримання всіх унікальних технік з датасету
all_techniques = set()
for _, row in df.iterrows():
    all_techniques.update(row['techniques'])
all_techniques = list(all_techniques)

print(f"Знайдено {len(all_techniques)} унікальних технік")

# Функція для вибору прикладів з певною технікою
def get_examples_for_technique(technique, lang, num_examples=3):
    filtered = df[
        (df['lang'] == lang) &
        (df['techniques'].apply(lambda x: technique in x))
    ]
    
    sample_size = min(num_examples, len(filtered))
    if sample_size == 0:
        # Якщо немає прикладів з цією технікою в цій мові, спробуємо знайти в іншій мові
        filtered = df[df['techniques'].apply(lambda x: technique in x)]
        sample_size = min(num_examples, len(filtered))
        
    if sample_size == 0:
        return []
    
    return filtered.sample(sample_size, replace=(sample_size > len(filtered)))['content'].tolist()

# Генерація нових даних з рівномірним розподілом технік
new_data = []
languages = df['lang'].unique()

# Кількість записів для кожної техніки
examples_per_technique = 1000  # Наприклад, 100 прикладів для кожної техніки
total_examples = examples_per_technique * len(all_techniques)

# Лічильник для кожної техніки
technique_counters = {tech: 0 for tech in all_techniques}

# Генерація
while sum(technique_counters.values()) < total_examples:
    # Вибираємо техніку з найменшою кількістю прикладів
    technique = min(technique_counters.items(), key=lambda x: x[1])[0]
    
    # Вибір мови
    lang = random.choice(languages)
    
    # Додаємо ще 1-2 техніки випадково, щоб зробити приклади більш різноманітними
    # але зберігаємо основну техніку
    num_additional = random.choice([0, 1, 2])
    all_other_techniques = [t for t in all_techniques if t != technique]
    additional_techniques = random.sample(all_other_techniques, min(num_additional, len(all_other_techniques)))
    
    selected_techniques = [technique] + additional_techniques
    
    # Пошук існуючих прикладів
    examples = get_examples_for_technique(technique, lang)
    
    if not examples:
        print(f"⚠️ Немає прикладів для техніки {technique} ({lang})")
        continue
    
    # Генерація нового прикладу
    result = generate_with_multiple_techniques(lang, selected_techniques, examples)
    if result:
        new_data.append({
            'id': str(uuid.uuid4()),
            'content': result['content'],
            'lang': lang,
            'manipulative': True,
            'techniques': np.array(selected_techniques),
            'trigger_words': np.array(result.get('trigger_words', []))
        })
        
        # Збільшуємо лічильник для основної техніки
        technique_counters[technique] += 1
        
        if sum(technique_counters.values()) % 100 == 0:
            print(f"Згенеровано {sum(technique_counters.values())} прикладів")
            # Показуємо поточний розподіл
            print(f"Поточний розподіл: {technique_counters}")

# Перевірка рівномірності розподілу
print("\nФінальний розподіл технік:")
for tech, count in technique_counters.items():
    print(f"{tech}: {count} прикладів")

# Збереження у вихідний файл
new_df = pd.DataFrame(new_data)
new_df.to_csv("balanced_manipulative_dataset.csv", index=False)
print(f"Збережено {len(new_data)} прикладів з рівномірним розподілом технік")

Знайдено 10 унікальних технік
Помилка: Expecting ',' delimiter: line 2 column 122 (char 123)
Помилка: Expecting ',' delimiter: line 2 column 113 (char 114)
Згенеровано 100 прикладів
Поточний розподіл: {'appeal_to_fear': 10, 'glittering_generalities': 10, 'bandwagon': 10, 'fud': 10, 'cherry_picking': 10, 'loaded_language': 10, 'euphoria': 10, 'straw_man': 10, 'cliche': 10, 'whataboutism': 10}
Помилка: Expecting ',' delimiter: line 2 column 1081 (char 1082)
Помилка: Expecting ',' delimiter: line 2 column 53 (char 54)
Помилка: Expecting ',' delimiter: line 2 column 59 (char 60)
Помилка: Expecting ',' delimiter: line 2 column 436 (char 437)
Помилка: Expecting ',' delimiter: line 2 column 32 (char 33)
Згенеровано 200 прикладів
Поточний розподіл: {'appeal_to_fear': 20, 'glittering_generalities': 20, 'bandwagon': 20, 'fud': 20, 'cherry_picking': 20, 'loaded_language': 20, 'euphoria': 20, 'straw_man': 20, 'cliche': 20, 'whataboutism': 20}
Згенеровано 300 прикладів
Поточний розподіл: {'appeal_t

# Генерація неманіпулятивних технік

In [None]:


# Конфігурація моделі
genai.configure(api_key="AIzaSyBAgWYwuCYOkfiM2txUtWBvbHQAio8jqAI")
model = genai.GenerativeModel("gemini-1.5-flash")

def generate_similar_non_manipulative_text(lang: str, examples: list):
    """
    Генерує новий текст на основі 4 випадкових прикладів
    """
    examples_text = "\n".join([f"📌 Приклад {i+1}:\n{ex}" for i, ex in enumerate(examples)])
    
    prompt = f"""
    Створи оригінальний текст {lang} мовою, який імітує стиль та структуру наведених прикладів.
    Текст має бути натуральним і не містити маніпулятивних елементів.
    
    Приклади для наслідування:
    {examples_text}
    
    Формат відповіді (обов'язково JSON):
    {{
        "content": "твій текст..."
    }}
    """

    try:
        response = model.generate_content(prompt)
        text = response.text
        
        # Спроба знайти JSON у відповіді
        try:
            json_str = text[text.find('{'):text.rfind('}')+1]
            return json.loads(json_str)
        except:
            print(f"Помилка парсингу JSON: {text}")
            return None
            
    except Exception as e:
        print(f"Помилка генерації: {str(e)}")
        return None

# Фільтрація датасету
non_manipulative_df = df[df['manipulative'] == False]

if non_manipulative_df.empty:
    print("❗ Використовую весь датасет для генерації")
    non_manipulative_df = df

new_data = []
TEXTS_PER_LANG = 1000

for lang in non_manipulative_df['lang'].unique():
    lang_examples = non_manipulative_df[non_manipulative_df['lang'] == lang]
    
    if lang_examples.empty:
        print(f"⏩ Пропускаємо {lang} - немає прикладів")
        continue
        
    total_examples = len(lang_examples)
    print(f"\n🌍 Мова: {lang} | Прикладів: {total_examples}")
    
    for i in range(TEXTS_PER_LANG):
        # Вибір 4 унікальних прикладів з можливістю повтору
        samples = lang_examples.sample(
            n=4, 
            replace=total_examples < 4
        )['content'].tolist()
        
        result = generate_similar_non_manipulative_text(lang, samples)
        
        if result and 'content' in result:
            new_data.append({
                'id': uuid.uuid4().hex,
                'content': result['content'],
                'lang': lang,
                'manipulative': False,
                'techniques': None,
                'trigger_words': None
            })
            
        print(f"✅ Згенеровано {i+1}/{TEXTS_PER_LANG}", end='\r')

# Збереження результатів
pd.DataFrame(new_data).to_csv("nonmanipulative_generated_texts.csv", index=False)
print(f"\n🎉 Успішно згенеровано {len(new_data)} текстів!")


🌍 Мова: uk | Прикладів: 812
Помилка парсингу JSON: ```json
{
  "content": "📢  Сьогодні вранці на Львівщині зафіксовано незвичне явище: зграя диких качок, що складалась приблизно з 500 особин, вибудувала унікальний геометричний візерунок на замерзлому озері.  Орнітологи з Національного університету "Львівська політехніка" виїхали на місце для дослідження цього феномену.\n\nДетальніше:\nbirds.lviv.ua/geometricducks (посилання - гіпотетичне)"
}
```

Помилка парсингу JSON: ```json
{
  "content": "🍂\n\nУ Карпатах розпочався сезон "золотий осінь".\n\nПо всій території Карпатського регіону спостерігається яскраве забарвлення листя. Температура повітря вдень сягає +10...+15°С, вночі +5...+10°С. Очікується сонячна погода з невеликою хмарністю. Туристичні маршрути відкриті, але рекомендується взяти з собою теплий одяг та зручне взуття.\n\nДля більш детальної інформації звертайтеся до місцевих туристичних інформаційних центрів.\n\n👉\n\nКарпатські новини\nСтікери\n|\nНадіслати новину"
}
```

Поми

In [27]:
t = pd.DataFrame(new_data)
t

Unnamed: 0,id,content,lang,manipulative,techniques,trigger_words
0,beddc0f7d9ee4760832468aff2467a09,🏘️\nУ Львові відкрили перший в Україні музей в...,uk,False,,
1,4701e4e55752424dab2d79d5119b98ad,❗ Повідомлення з Харкова: Сильна хуртовина ус...,uk,False,,
2,e505bf9cdf0a485b853b09c5087de2a3,Засідання уряду: обговорення нових програм під...,uk,False,,
3,03c57eac457c4ee4b59c5aaa433e7d91,Центр досліджень української мови та культури ...,uk,False,,
4,3b69c5936abe463e8693fb5ce311b302,📌 Приклад: Оновлення системи електронного док...,uk,False,,
...,...,...,...,...,...,...
1981,5ffc46ed5cc04ea49541c7db692509b7,Итоги рабочей поездки в село Верхние Дубровцы:...,ru,False,,
1982,d4ffecd7a36443749d1f27e892a9d774,⚡️\nРосстат опубликовал данные о средней зарпл...,ru,False,,
1983,36f2e24298cf4c3692cb7ac12968e90d,Власти Новосибирской области планируют вложить...,ru,False,,
1984,8f1d7c6084ff4a0eb38c0df0ee603a4f,"Слушайте, сегодня утром читал, что в Бразилии...",ru,False,,
