In [13]:
import google.generativeai as genai
import pandas as pd
import uuid
import json
import numpy as np
from itertools import combinations
from collections import defaultdict
import sys
from pathlib import Path
sys.path.append(str(Path().resolve().parent))
from src.definitions import RAW_DATA_FOLDER, PROJECT_ROOT_DIR, EXTERNAL_DATA_FOLDER

In [11]:
df = pd.read_parquet(RAW_DATA_FOLDER / "techniques-classification.parquet")


# Завантажити описи технік
with open(PROJECT_ROOT_DIR / "src/data/technique_descriptions.json", encoding='utf-8') as f:
    TECHNIQUE_DESCRIPTIONS = json.load(f)

In [12]:
genai.configure(api_key="AIzaSyBAgWYwuCYOkfiM2txUtWBvbHQAio8jqAI")
model = genai.GenerativeModel("gemini-1.5-flash")


def generate_with_multiple_techniques(lang: str, techniques: list, examples: list):
    techniques_desc = "\n".join([f"- {tech}: {TECHNIQUE_DESCRIPTIONS[tech]}" for tech in techniques])
    examples_text = "\n".join([f"Приклад {i+1}:\n{ex}" for i, ex in enumerate(examples)])

    prompt = f"""
    Створи новий маніпулятивний текст {lang} мовою, який використовує техніки: {', '.join(techniques)}.
    Текст повинен бути природнім і містити тригерні слова.

    Техніки:
    {techniques_desc}

    Приклади:
    {examples_text}

    Формат відповіді: {{
        "content": "текст...",
        "techniques": {json.dumps(techniques)},
        "trigger_words": ["список", "слів"]
    }}
    """

    try:
        response = model.generate_content(prompt)
        cleaned = response.text.replace("```json", "").replace("```", "").strip()
        return json.loads(cleaned)
    except Exception as e:
        print(f"Помилка: {str(e)}")
        return None

df['techniques'] = df['techniques'].apply(lambda x: x.tolist() if isinstance(x, np.ndarray) else x)
df['techniques'] = df['techniques'].apply(lambda x: x if x else [])

# Аналіз існуючих комбінацій
tech_combinations = defaultdict(int)
for _, row in df.iterrows():
    if len(row['techniques']) >= 2:
        for combo in combinations(sorted(row['techniques']), 2):
            tech_combinations[(row['lang'], combo)] += 1

# Вибір популярних комбінацій
common_combos = [k for k, v in tech_combinations.items() if v >= 2]

# Генерація нових даних
new_data = []
for (lang, techs) in common_combos:
    techs = list(techs)

    # Пошук існуючих прикладів
    filtered = df[
        (df['lang'] == lang) &
        (df['techniques'].apply(lambda x: all(t in x for t in techs)))
    ]

    # Адаптивна вибірка
    sample_size = min(3, len(filtered))
    if sample_size == 0:
        print(f"⚠️ Немає прикладів для {techs} ({lang})")
        continue

    examples = filtered.sample(sample_size, replace=(sample_size > len(filtered)))['content'].tolist()

    # Генерація 2 нових прикладів
    for _ in range(2):
        result = generate_with_multiple_techniques(lang, techs, examples)
        if result:
            new_data.append({
                'id': str(uuid.uuid4()),
                'content': result['content'],
                'lang': lang,
                'manipulative': True,
                'techniques': np.array(result['techniques']),
                'trigger_words': np.array(result.get('trigger_words', []))
            })

Помилка: Expecting ',' delimiter: line 2 column 29 (char 30)
Помилка: Expecting ',' delimiter: line 2 column 362 (char 363)
Помилка: Expecting ',' delimiter: line 2 column 120 (char 121)
Помилка: Expecting ',' delimiter: line 2 column 222 (char 223)
Помилка: Expecting ',' delimiter: line 2 column 35 (char 36)
Помилка: Expecting ',' delimiter: line 2 column 35 (char 36)


In [15]:
EXTERNAL_DATA_FOLDER.mkdir(parents=True, exist_ok=True)

new_data = pd.DataFrame(new_data)

new_data.to_csv(EXTERNAL_DATA_FOLDER / "gemini-generated-data.csv", index=False)

In [18]:
import random
genai.configure(api_key="AIzaSyBAgWYwuCYOkfiM2txUtWBvbHQAio8jqAI")
model = genai.GenerativeModel("gemini-1.5-flash")


def generate_with_multiple_techniques(lang: str, techniques: list, examples: list):
    techniques_desc = "\n".join([f"- {tech}: {TECHNIQUE_DESCRIPTIONS[tech]}" for tech in techniques])
    examples_text = "\n".join([f"Приклад {i+1}:\n{ex}" for i, ex in enumerate(examples)])

    prompt = f"""
    Створи новий маніпулятивний текст {lang} мовою, який використовує техніки: {', '.join(techniques)}.
    Текст повинен бути природнім і містити тригерні слова.

    Техніки:
    {techniques_desc}

    Приклади:
    {examples_text}

    Формат відповіді: {{
        "content": "текст...",
        "techniques": {json.dumps(techniques)},
        "trigger_words": ["список", "слів"]
    }}
    """

    try:
        response = model.generate_content(prompt)
        cleaned = response.text.replace("```json", "").replace("```", "").strip()
        return json.loads(cleaned)
    except Exception as e:
        print(f"Помилка: {str(e)}")
        return None

df['techniques'] = df['techniques'].apply(lambda x: x.tolist() if isinstance(x, np.ndarray) else x)
df['techniques'] = df['techniques'].apply(lambda x: x if x else [])

# Аналіз розподілу кількості технік у вихідному датасеті
technique_count_dist = defaultdict(int)
for _, row in df.iterrows():
    if row['techniques']:
        technique_count_dist[len(row['techniques'])] += 1

# Перетворюємо у відсотковий розподіл
total = sum(technique_count_dist.values())
technique_count_pct = {k: v/total for k, v in technique_count_dist.items()}

# Функція для вибору кількості технік згідно з розподілом
def sample_technique_count(pct_dict):
    counts = list(pct_dict.keys())
    weights = [pct_dict[count] for count in counts]
    return random.choices(counts, weights=weights, k=1)[0]

# Створюємо пул технік на основі частоти використання
technique_freq = defaultdict(int)
for _, row in df.iterrows():
    for tech in row['techniques']:
        technique_freq[tech] += 1

# Функція для вибору N технік на основі їх частоти
def sample_techniques(technique_freq, n, lang=None):
    techniques = list(technique_freq.keys())
    weights = [technique_freq[tech] for tech in techniques]
    
    if lang:
        # Якщо потрібно, можна додати фільтрацію за мовою
        lang_techniques = []
        lang_weights = []
        for tech, weight in zip(techniques, weights):
            tech_rows = df[df['techniques'].apply(lambda x: tech in x)]
            if lang in tech_rows['lang'].unique():
                lang_techniques.append(tech)
                lang_weights.append(weight)
        
        if lang_techniques:
            return random.choices(lang_techniques, weights=lang_weights, k=n)
    
    return random.choices(techniques, weights=weights, k=n)

# Генерація нових даних з різною кількістю технік
new_data = []
languages = df['lang'].unique()

# Кількість нових записів, які потрібно згенерувати
num_generations = 20  # Можна змінити на потрібну кількість

for i in range(num_generations):
    # Вибір мови
    lang = random.choice(languages)
    
    # Визначення кількості технік для цього прикладу
    num_techniques = sample_technique_count(technique_count_pct)
    
    # Вибір технік
    selected_techniques = sample_techniques(technique_freq, num_techniques, lang)
    # Видалення дублікатів, якщо вони є
    selected_techniques = list(set(selected_techniques))
    
    # Якщо після видалення дублікатів список порожній, продовжуємо
    if not selected_techniques:
        continue
    
    # Пошук існуючих прикладів
    filtered = df[
        (df['lang'] == lang) &
        (df['techniques'].apply(lambda x: all(t in x for t in selected_techniques)))
    ]
    
    # Адаптивна вибірка
    sample_size = min(3, len(filtered))
    if sample_size == 0:
        # Якщо немає точних прикладів, спробуємо знайти приклади з хоча б однією з обраних технік
        filtered = df[
            (df['lang'] == lang) &
            (df['techniques'].apply(lambda x: any(t in x for t in selected_techniques)))
        ]
        sample_size = min(3, len(filtered))
        
    if sample_size == 0:
        print(f"⚠️ Немає прикладів для {selected_techniques} ({lang})")
        continue
    
    examples = filtered.sample(sample_size, replace=(sample_size > len(filtered)))['content'].tolist()
    
    # Генерація нового прикладу
    result = generate_with_multiple_techniques(lang, selected_techniques, examples)
    if result:
        new_data.append({
            'id': str(uuid.uuid4()),
            'content': result['content'],
            'lang': lang,
            'manipulative': True,
            'techniques': np.array(result['techniques']),
            'trigger_words': np.array(result.get('trigger_words', []))
        })
        print(f"✅ Згенеровано приклад з {len(selected_techniques)} техніками: {selected_techniques}")

✅ Згенеровано приклад з 1 техніками: ['glittering_generalities']
✅ Згенеровано приклад з 1 техніками: ['fud']
✅ Згенеровано приклад з 2 техніками: ['loaded_language', 'glittering_generalities']
✅ Згенеровано приклад з 1 техніками: ['loaded_language']
✅ Згенеровано приклад з 1 техніками: ['euphoria']
✅ Згенеровано приклад з 3 техніками: ['cherry_picking', 'loaded_language', 'glittering_generalities']
✅ Згенеровано приклад з 1 техніками: ['cherry_picking']
✅ Згенеровано приклад з 1 техніками: ['glittering_generalities']
✅ Згенеровано приклад з 4 техніками: ['whataboutism', 'cliche', 'fud', 'loaded_language']
✅ Згенеровано приклад з 1 техніками: ['loaded_language']
✅ Згенеровано приклад з 2 техніками: ['straw_man', 'loaded_language']
✅ Згенеровано приклад з 2 техніками: ['cliche', 'loaded_language']
✅ Згенеровано приклад з 2 техніками: ['euphoria', 'cliche']
✅ Згенеровано приклад з 2 техніками: ['cliche', 'fud']
✅ Згенеровано приклад з 2 техніками: ['bandwagon', 'glittering_generalities']

In [19]:
EXTERNAL_DATA_FOLDER.mkdir(parents=True, exist_ok=True)

new_data = pd.DataFrame(new_data)

new_data.to_csv(EXTERNAL_DATA_FOLDER / "2gemini-generated-data.csv", index=False)