In [2]:
!pip install -U -q google-generativeai


[0m

In [1]:
from glob import glob

audios = glob("./results/**/recorded_audio/*.wav")

# Gemini

In [1]:
import google.generativeai as genai
genai.configure(api_key='AIzaSyBydKXqTdLxAk1l4UtXLyhWF_uZDPjhL4c')

In [10]:
import google.generativeai as genai
import os
import time


MODEL_NAME = "gemini-1.5-flash"
PROMPT_TEXT = "Пожалуйста, расшифруй этот аудио файл и предоставь полный текст. И убери обрыв мысли или текста в конце если он есть"

def upload_audio_file(path):
    """Загружает файл и возвращает объект файла API."""
    print(f"Загрузка файла: {path}...")
    try:
        audio_file = genai.upload_file(path=path)
        print(f"Файл '{audio_file.display_name}' успешно загружен (ID: {audio_file.name}).")
        # Небольшая пауза, чтобы убедиться, что файл обработан сервером
        time.sleep(1) # Можно настроить или убрать, если нет проблем
        return audio_file
    except Exception as e:
        print(f"Ошибка при загрузке файла {path}: {e}")
        return None

def transcribe_audio(audio_file_object, prompt):
    """Отправляет запрос на транскрипцию в Gemini."""
    if not audio_file_object:
        return "Ошибка: Не удалось загрузить аудио файл."

    print(f"Отправка запроса на транскрипцию для файла {audio_file_object.name}...")
    try:
        model = genai.GenerativeModel(MODEL_NAME)
        request_content = [prompt, audio_file_object]
        response = model.generate_content(request_content, request_options={"timeout": 600}) # Увеличим таймаут для длинных аудио
        if response.parts:
             return response.text
        else:
             print("Предупреждение: Модель не вернула текстовую часть. Возможные причины:")
             print("- Аудио пустое или содержит только тишину.")
             print("- Сработали фильтры безопасности (проверьте response.prompt_feedback).")
             print("- Временная ошибка API.")
             print("Полный ответ:", response)
             if response.prompt_feedback and response.prompt_feedback.block_reason:
                 return f"Ошибка: Запрос заблокирован. Причина: {response.prompt_feedback.block_reason}"
             return "Ошибка: Модель не вернула текст."

    except Exception as e:
        print(f"Ошибка при вызове API Gemini: {e}")
        if hasattr(e, 'message'):
             print(f"   Детали: {e.message}")
        return f"Ошибка API: {e}"

def delete_uploaded_file(file_object):
    """Удаляет загруженный файл с серверов Google."""
    if file_object:
        print(f"Удаление файла {file_object.name}...")
        try:
            genai.delete_file(file_object.name)
            print(f"Файл {file_object.name} успешно удален.")
        except Exception as e:
            print(f"Ошибка при удалении файла {file_object.name}: {e}")

async def process_wav(wav_file):
    output = ''
    if not os.path.exists(wav_file):
        print(f"Ошибка: Файл не найден по пути: {wav_file}")
        return output

    uploaded_file = None
    try:
        uploaded_file = upload_audio_file(wav_file)
        if uploaded_file:
            transcription = transcribe_audio(uploaded_file, PROMPT_TEXT)
            print("\n--- Результат транскрипции ---")
            print(transcription)
            print("-----------------------------\n")
            output = transcription
            
    finally:
        if uploaded_file:
            delete_uploaded_file(uploaded_file)
    return output


In [None]:
import asyncio
from asyncio import Semaphore
from tqdm.asyncio import tqdm_asyncio  # версия tqdm, поддерживающая async
# или: from tqdm import tqdm_asyncio — если обычный tqdm уже установлен

semaphore = Semaphore(4)

async def limited_process(wav_file):
    async with semaphore:
        return await process_wav(wav_file)

async def processor(audios):
    tasks = [limited_process(wav) for wav in audios]
    results = await tqdm_asyncio.gather(*tasks, desc="🔊 Распознавание аудио")
    return results

results = await processor(audios)

🔊 Распознавание аудио:   0%|                                                                                                                   | 0/874 [00:00<?, ?it/s]

Загрузка файла: ./results/120225_2/recorded_audio/composition_6.jpg.wav...
Файл 'composition_6.jpg.wav' успешно загружен (ID: files/zeg0mtwdqzjh).
Отправка запроса на транскрипцию для файла files/zeg0mtwdqzjh...

--- Результат транскрипции ---
На диване стоит столик, мини-столик для еды. Тут чайный сервиз, виноград, орехи какие-то, цветок.

-----------------------------

Удаление файла files/zeg0mtwdqzjh...
Файл files/zeg0mtwdqzjh успешно удален.
Загрузка файла: ./results/240125/recorded_audio/social_2.jpg.wav...
Файл 'social_2.jpg.wav' успешно загружен (ID: files/6numxr1kbynq).
Отправка запроса на транскрипцию для файла files/6numxr1kbynq...

--- Результат транскрипции ---
Это люди гребут на лодке. Вряд ли они при этом расположены, но это какое-то соревнование, видимо. Не знаю, какие игры...

-----------------------------

Удаление файла files/6numxr1kbynq...
Файл files/6numxr1kbynq успешно удален.
Загрузка файла: ./results/121124/recorded_audio/social_4.jpg.wav...
Файл 'social_4.jpg.

# GPT

In [3]:
import os
import aiohttp
import asyncio
from asyncio import Semaphore
from tqdm.asyncio import tqdm_asyncio

from dotenv import load_dotenv


load_dotenv()

# Конфигурация
API_KEY = os.environ.get("load_dotenv") # Замените на свой API-ключ OpenAI
API_URL = 'https://api.openai.com/v1/audio/transcriptions'
MODEL_NAME = 'gpt-4o-transcribe'
PROMPT_TEXT = (
    "Пожалуйста, расшифруй этот аудио файл и предоставь полный текст. "
    "И убери обрыв мысли или текста в конце если он есть"
)

In [4]:
MAX_CONCURRENT = 15  # Максимальное число одновременно обрабатываемых файлов

semaphore = Semaphore(MAX_CONCURRENT)

async def transcribe_audio(file_path: str) -> str:
    """
    Асинхронно транскрибирует аудиофайл с использованием модели gpt-4o-transcribe.
    Передаёт промпт PROMPT_TEXT для улучшения качества результата.
    """
    if not os.path.exists(file_path):
        return f"[!] Файл не найден: {file_path}"
    
    headers = {
        "Authorization": f"Bearer {API_KEY}"
    }
    
    # Формируем форму для отправки данных
    data = aiohttp.FormData()
    data.add_field("model", MODEL_NAME)
    data.add_field("prompt", PROMPT_TEXT)
    data.add_field("language", "ru")
    
    # Добавление аудиофайла (предполагается формат wav)
    with open(file_path, "rb") as f:
        data.add_field(
            "file",
            f,
            filename=os.path.basename(file_path),
            content_type="audio/wav"
        )
        
        # Ограничиваем число параллельных запросов
        async with semaphore:
            async with aiohttp.ClientSession() as session:
                async with session.post(API_URL, headers=headers, data=data) as response:
                    if response.status == 200:
                        result = await response.json()
                        return result.get("text", "")
                    else:
                        error_text = await response.text()
                        raise Exception(f"Ошибка при транскрипции {file_path}: {error_text}")

async def transcribe_batch(audio_files):
    """
    Асинхронно транскрибирует группу аудиофайлов, отображая прогресс с помощью tqdm.
    """
    tasks = [transcribe_audio(file) for file in audio_files]
    results = await tqdm_asyncio.gather(*tasks, desc="🔊 Распознавание аудио")
    return results

In [5]:
results = await transcribe_batch(audios)

🔊 Распознавание аудио: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 874/874 [01:20<00:00, 10.82it/s]


In [None]:
asc_files = glob("./images_asc/*asc")


In [36]:
proposes = set(asc_files)
dict_dataset = {}

for audio, transcribation in zip(audios, results):
    image_name, human_id = audio.split("/")[-1][:-4], audio.split("/")[-3]
    
    proposed_id = "undefined"
    for asc_file in proposes:
        if asc_file.split("/")[-1][:-4] == human_id:
            proposed_id = asc_file
            # proposes.remove(asc_file)
            break

    if human_id not in dict_dataset:
        dict_dataset[human_id] = {}
    dict_dataset[human_id][image_name] = {
            "asc_file": proposed_id,
            'transcribation': transcribation,
            'audio_file': audio
        }
    



In [25]:
proposes = set(asc_files)

print(len(proposes))
proposes.remove('./images_asc/AntonK.asc')
len(proposes)

29


28

In [15]:
asc_files = glob("./images_asc/*asc")
asc_files[0].split("/")[-1][:-4]

'250225_3'

In [39]:
!pip install mne

Collecting mne
  Downloading mne-1.9.0-py3-none-any.whl (7.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.4/7.4 MB[0m [31m70.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting lazy-loader>=0.3
  Downloading lazy_loader-0.4-py3-none-any.whl (12 kB)
Collecting pooch>=1.5
  Downloading pooch-1.8.2-py3-none-any.whl (64 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m64.6/64.6 KB[0m [31m22.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: lazy-loader, pooch, mne
Successfully installed lazy-loader-0.4 mne-1.9.0 pooch-1.8.2
[0m

In [86]:
import os
import re
from PIL import Image, ImageChops
from io import BytesIO
import matplotlib.pyplot as plt

import mne
from mne.viz.eyetracking import plot_gaze


def crop_whitespace(im, threshold=10):
    """
    Обрезает белые (или почти белые) края изображения.
    threshold – порог, выше которого пиксель считается белым (по умолчанию 10).
    """
    # Создаем изображение того же размера с белым фоном
    bg = Image.new(im.mode, im.size, 255)
    # Разница между изображением и белым фоном
    diff = ImageChops.difference(im, bg)
    # Иногда полезно усилить контраст, чтобы мелкие отклонения не мешали:
    diff = diff.point(lambda x: 0 if x < threshold else x)
    bbox = diff.getbbox()
    if bbox:
        return im.crop(bbox)
    return im

def clean_figure(fig):
    # Список всех осей на рисунке
    axes = fig.get_axes()

    # Предположим, что 0-я ось — основная тепловая карта, а 1-я (и далее) — легенды / цветбары
    main_ax = axes[0]

    # Удаляем все оси, кроме главной
    for ax in axes[1:]:
        fig.delaxes(ax)

    # Полностью убираем рамку, метки и пр.
    main_ax.set_xticks([])
    main_ax.set_yticks([])
    main_ax.set_xlabel("")
    main_ax.set_ylabel("")
    main_ax.set_title("")
    main_ax.set_frame_on(False)

    # Также подчищаем отступы
    plt.subplots_adjust(top=1, bottom=0, right=1, left=0, hspace=0, wspace=0)
    plt.margins(0, 0)
    # Можно ещё поджать, если нужно
    fig.tight_layout(pad=0)

    return fig

def render_heatmap_pil(epoch, px_width=1920, px_height=1080):
    """
    Рисует хитмапу по данным эпохи и возвращает её как PIL.Image (grayscale).
    """
    fig = plot_gaze(
        epoch,
        width=px_width,
        height=px_height,
        cmap='gray',
        vlim=(0.000003, None),
        sigma=25.0,
        show=False
    )
    # Чистим всё лишнее, в том числе colorbar
    fig = clean_figure(fig)

    # Сохраняем в буфер
    buf = BytesIO()
    fig.savefig(buf, format='png', bbox_inches='tight', pad_inches=0, transparent=True)
    plt.close(fig)
    buf.seek(0)
    raw_image = Image.open(buf).convert("L")  # Грейскейл изображение

    # Обрезка белых краёв
    return crop_whitespace(raw_image)


async def async_render_heatmap_pil(epoch, px_width=1920, px_height=1080):
    """
    Асинхронный обёртка для render_heatmap_pil с использованием asyncio.to_thread.
    """
    return await asyncio.to_thread(render_heatmap_pil, epoch, px_width, px_height)

async def process_asc_async(et_fpath):
    """
    Асинхронно обрабатывает файл .asc:
     - читает данные айтрекера,
     - получает список названий файлов,
     - для 60 испытаний параллельно рендерит хитмапы.
     
    Возвращает список словарей с ключами:
      "image": имя файла (из .asc),
      "suffix": тип испытания (freeview или description),
      "heatmap": PIL.Image с хитмапой.
    """
    # Чтение данных айтрекера и генерация эпох
    raw_et = mne.io.read_raw_eyelink(et_fpath, create_annotations=["messages"], apply_offsets=True)
    raw_et.annotations.rename({'BAD_ACQ_SKIP': 'FUCK'})
    events, event_dict = mne.events_from_annotations(raw_et)
    epochs = mne.Epochs(
        raw_et, events=events, event_id=event_dict,
        tmin=0, tmax=20, baseline=None, event_repeated='merge', reject_by_annotation=True
    )
    
    # Получение списка названий файлов из .asc (предполагается, что строки содержат нужный паттерн)
    with open(et_fpath, 'r', encoding='utf-8') as f:
        file_names = []
        for line in f:
            match = re.search(r'!V TRIAL_VAR file_name\s+(\S+)', line)
            if match:
                file_names.append(match.group(1))
    
    # Асинхронное создание хитмап
    metadata = []
    tasks = []
    for i in range(60):
        try:
            epoch = epochs["FUCK"][i]
        except IndexError:
            print(f"[!] Нет данных для индекса {i}")
            continue
        
        trial_file = file_names[i]
        trial = os.path.splitext(trial_file)[0]
        suffix = "freeview" if i % 2 == 0 else "description"
        
        # Сохраняем метаданные для последующей сборки итогового списка
        metadata.append({
            "image": trial_file,
            "suffix": suffix
        })
        # Создаем задачу для асинхронного рендеринга хитмапы
        tasks.append(asyncio.create_task(async_render_heatmap_pil(epoch)))
    
    # Параллельно ждём завершения всех задач
    heatmaps = await asyncio.gather(*tasks)
    
    # Формируем итоговый список примеров
    examples = []
    for meta, heatmap in zip(metadata, heatmaps):
        examples.append({
            "image": meta["image"],
            "suffix": meta["suffix"],
            "heatmap": heatmap
        })
    return examples

examples = await process_asc_async("images_asc/11124.asc")

Loading /workspace/images_asc/11124.asc
Pixel coordinate data detected.Pass `scalings=dict(eyegaze=1e3)` when using plot method to make traces more legible.
Pupil-size area detected.
There are 60 recording blocks in this file. Times between blocks will be annotated with BAD_ACQ_SKIP.
Used Annotations descriptions: ['FUCK', 'SYNCTIME', 'TRACKER_TIME 10 2747946.704', 'TRACKER_TIME 11 2815533.546', 'TRACKER_TIME 12 2882486.810', 'TRACKER_TIME 3 2271440.372', 'TRACKER_TIME 4 2338543.433', 'TRACKER_TIME 5 2408180.356', 'TRACKER_TIME 6 2475783.643', 'TRACKER_TIME 7 2544153.428', 'TRACKER_TIME 8 2612006.973', 'TRACKER_TIME 9 2679060.012', 'timeout']
Multiple event values for single event times found. Creating new event value to reflect simultaneous events.
Not setting metadata
209 matching events found
No baseline correction applied
0 projection items activated
[!] Нет данных для индекса 59
Using data from preloaded Raw for 1 events and 20001 original time points ...
Using data from preloaded

  plt.subplots_adjust(top=1, bottom=0, right=1, left=0, hspace=0, wspace=0)
  fig.tight_layout(pad=0)


Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data from preloaded Raw for 1 events and 20001 original time points ...
0 bad epochs dropped
Using data

You might need to alter reject/flat-criteria or drop bad channels to avoid this. You can use Epochs.plot_drop_log() to see which channels are responsible for the dropping of epochs.
  fig = plot_gaze(


In [110]:
from IPython.display import clear_output
from tqdm import tqdm


for human_id in tqdm(dict_dataset):
    if f"./images_asc/{human_id}.asc" in proposes:
        heatmaps = await process_asc_async(f"./images_asc/{human_id}.asc")
        clear_output()
        for heat in heatmaps:
            if heat["image"] in dict_dataset[human_id]:
                dict_dataset[human_id][heat["image"]][heat['suffix']] = heat['heatmap']


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30/30 [09:33<00:00, 19.11s/it]


In [111]:
dict_dataset["1411241"]['abstraction_1.jpg']

{'human_id': '1411241',
 'asc_file': './images_asc/1411241.asc',
 'transcribation': 'Сначала я подумала, что это какие-то резинки для волос, мне кажется, это какое-то искусство, это какая-то картина с зелёно-жёлтым мотивом.',
 'audio_file': './results/1411241/recorded_audio/abstraction_1.jpg.wav',
 'suffix': 'description',
 'heatmap': <PIL.Image.Image image mode=L size=640x360>,
 'freeview': <PIL.Image.Image image mode=L size=640x360>,
 'description': <PIL.Image.Image image mode=L size=640x360>}

In [113]:
dict_dataset[human_id][image]

{'human_id': '270225_1',
 'asc_file': './images_asc/270225_1.asc',
 'transcribation': 'Мужчина лет тридцати с кольцами на пальцах, кричащий от злости или от грусти.',
 'audio_file': './results/270225_1/recorded_audio/social_4.jpg.wav',
 'suffix': 'freeview',
 'heatmap': <PIL.Image.Image image mode=L size=640x360>,
 'freeview': <PIL.Image.Image image mode=L size=640x360>}

In [114]:
from datasets import Dataset


examples = []

for human_id in dict_dataset:
    for image in dict_dataset[human_id]:
        if "heatmap" in dict_dataset[human_id][image]:
            dummy_dict = dict_dataset[human_id][image].copy()
            del dummy_dict["heatmap"]

            ones = []
            if 'freeview' in dummy_dict:
                ones.append({
                'human_id': human_id,
                'image': image,
                'suffix': dummy_dict['suffix'],
                'heatmap': dummy_dict['freeview'],
                'transcribation': dummy_dict['transcribation'],
                'audio_file': dummy_dict['audio_file'],
                "asc_file": dummy_dict['asc_file'],
            })
            if 'description' in dummy_dict:
                ones.append({
                'human_id': human_id,
                'image': image,
                'suffix': dummy_dict['suffix'],
                'heatmap': dummy_dict['description'],
                'transcribation': dummy_dict['transcribation'],
                'audio_file': dummy_dict['audio_file'],
                "asc_file": dummy_dict['asc_file'],
            })
            examples.extend(ones)

dataset = Dataset.from_list(examples)
dataset.save_to_disk("eyetracking_hf_dataset")
print(f"[✓] HF dataset сохранён: eyetracking_hf_dataset")

Saving the dataset (0/1 shards):   0%|          | 0/1711 [00:00<?, ? examples/s]

[✓] HF dataset сохранён: eyetracking_hf_dataset


In [124]:
desired_text = "На картине три мужчины среднего возраста по центру и сзади еще один стоит, они на кухне в какой-то квартире."

filtered_dataset = dataset.filter(lambda example: example["transcribation"] == desired_text)


Filter:   0%|          | 0/1711 [00:00<?, ? examples/s]

In [None]:
dataset = Dataset.from_list(examples)
dataset.save_to_disk("eyetracking_hf_dataset")
print(f"[✓] HF dataset сохранён: eyetracking_hf_dataset")

In [131]:
dataset

Dataset({
    features: ['human_id', 'image', 'suffix', 'heatmap', 'transcribation', 'audio_file', 'asc_file'],
    num_rows: 1711
})

In [148]:
import asyncio
import json
import re
from openai import AsyncOpenAI
import re
import json


def extract_json_variations(response_text: str) -> list:
    """
    Извлекает JSON-массив из markdown-формата типа ```json [ ... ] ``` и возвращает как list[str]
    """
    # Удаляем markdown-блоки
    match = re.search(r"```(?:json)?\s*(\[.*?\])\s*```", response_text, re.DOTALL)
    if not match:
        return []

    json_str = match.group(1)

    try:
        return json.loads(json_str)
    except json.JSONDecodeError:
        return []

# Инициализация клиента (новый способ)
client = AsyncOpenAI(api_key=API_KEY)

# Ограничение параллельности
semaphore = asyncio.Semaphore(200)

async def generate_variations(text: str) -> list:
    prompt = (
        "Generate 10 diverse and natural-sounding English paraphrases for the following text. "
        "Return the result strictly as a JSON array of 10 strings.\n\n"
        f"Text: {text}"
    )

    async with semaphore:
        response = await client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "You are a helpful assistant that generates English paraphrases."},
                {"role": "user", "content": prompt},
            ],
            temperature=0.1,
        )

    return extract_json_variations(response.choices[0].message.content)


In [149]:
from tqdm.asyncio import tqdm_asyncio  # нужен tqdm>=4.66
from tqdm import tqdm

async def main(unique_transcriptions):
    all_variations = {}

    tasks = []
    for text in unique_transcriptions:
        task = asyncio.create_task(generate_variations(text))
        tasks.append((text, task))

    # Создаём прогрессбар
    pbar = tqdm(total=len(tasks), desc="Generating paraphrases")

    for original, task in tasks:
        result = await task
        all_variations[original] = result
        pbar.update(1)

    pbar.close()
    return all_variations


In [150]:
unique_transes = set(dataset["transcribation"])

In [151]:
all_variations = await main(unique_transes)

Generating paraphrases: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 870/870 [00:41<00:00, 21.18it/s]


In [153]:
from datasets import Dataset
from copy import deepcopy

def expand_dataset(original_dataset: Dataset, variations_map: dict) -> Dataset:
    """
    Увеличивает датасет, заменяя поле 'transcribation' на 10 вариаций для каждой строки.
    
    :param original_dataset: исходный HuggingFace Dataset
    :param variations_map: словарь {оригинальная транскрибация: [вариации]}
    :return: новый Dataset, расширенный x10
    """
    new_data = []

    for example in tqdm(original_dataset):
        orig_trans = example["transcribation"]
        if orig_trans not in variations_map:
            continue  # скипаем, если не нашли вариации

        for new_trans in variations_map[orig_trans]:
            new_example = deepcopy(example)
            new_example["transcribation"] = new_trans
            new_data.append(new_example)

    return Dataset.from_list(new_data)


set_dataset_off = expand_dataset(dataset, all_variations)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1711/1711 [00:04<00:00, 391.73it/s]


In [155]:
set_dataset_off.save_to_disk("set_eye_dataset_off")

Saving the dataset (0/1 shards):   0%|          | 0/16380 [00:00<?, ? examples/s]

In [156]:
set_dataset_off

Dataset({
    features: ['human_id', 'image', 'suffix', 'heatmap', 'transcribation', 'audio_file', 'asc_file'],
    num_rows: 16380
})