# Эксперименты с Gemini: Извлечение атрибутов товаров

Данный ноутбук предназначен для тестирования моделей Gemini (2.0/2.5) для автоматической разметки каталога товаров. Мы используем **Structured Outputs** для получения валидного JSON.

## 0) Установка и подключение

In [1]:
!pip -q install -U google-genai pydantic requests pillow tqdm

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
aiogram 3.22.0 requires pydantic<2.12,>=2.4.1, but you have pydantic 2.12.5 which is incompatible.[0m[31m
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49m/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip[0m


In [7]:
import os
os.environ["GEMINI_API_KEY"] = "AIzaSyDo7e7S_DPOeGIRFNIi3Dp9XKXqTwZmFUM"

In [8]:
import os
from google import genai
from google.genai import types

# Ключ должен быть в переменной окружения GEMINI_API_KEY
# В Colab можно добавить через Secrets
api_key = os.getenv("GEMINI_API_KEY")
if not api_key:
    raise ValueError("Не найден GEMINI_API_KEY в окружении.")

client = genai.Client(api_key=api_key)
print("Клиент Gemini успешно инициализирован.")

Клиент Gemini успешно инициализирован.


## 1) Список моделей

In [9]:
models = list(client.models.list())
print("Доступные модели:")
for m in models[:10]:
    print(f"- {m.name}")

ClientError: 400 FAILED_PRECONDITION. {'error': {'code': 400, 'message': 'User location is not supported for the API use.', 'status': 'FAILED_PRECONDITION'}}

## 2) Схема атрибутов (Pydantic)

In [None]:
from pydantic import BaseModel, Field
from typing import List

class ProductAttrs(BaseModel):
    id: str = Field(description="SKU / Артикул товара как строка.")
    item_type_ru: str = Field(description="Короткий тип предмета на русском, 1-3 слова (например: 'пропитка', 'подвеска', 'кофемолка').")
    themes_ru: List[str] = Field(default_factory=list, description="0-5 коротких тематических тегов на русском (например: ['баня','сауна','антисептик']).")
    vibes_ru: List[str] = Field(default_factory=list, description="0-3 субъективных тега-настроения на русском (например: ['практичный','подарок_для_дома']). Можно пусто.")

## 3) Логика работы с API

In [None]:
import requests

def fetch_image_bytes(url: str, timeout=15) -> tuple[bytes, str]:
    r = requests.get(url, timeout=timeout)
    r.raise_for_status()
    mime = r.headers.get("Content-Type", "image/jpeg").split(";")[0]
    if not mime.startswith("image/"):
        mime = "image/jpeg"
    return r.content, mime

def build_prompt(id_: str, title: str | None, category: str | None, mode: str) -> str:
    base = f"""
Ты — функция извлечения атрибутов товара для рекомендаций подарков.
Верни данные строго по схеме.

Правила:
- item_type_ru: 1–3 слова, НЕ общий \"товар/предмет\", НЕ вся строка title.
- themes_ru: короткие теги (существительные/словосочетания), не копируй category дословно.
- Если не уверен — item_type_ru=\"unknown\", списки могут быть пустыми.
- Пиши по-русски.
ID: {id_}
"""
    if mode in ("text_only", "image_and_text"):
        base += f'\nText: title="{title or ""}", category="{category or ""}"\n'
    if mode == "image_only":
        base += "\n(Текста нет — опирайся только на изображение.)\n"
    return base.strip()

def gemini_extract_one(
    *,
    model: str,
    id_: str,
    title: str | None,
    category: str | None,
    image_url: str | None,
    mode: str,
) -> ProductAttrs:
    contents = []
    if mode in ("image_only", "image_and_text"):
        assert image_url, "mode требует image_url"
        img_bytes, mime = fetch_image_bytes(image_url)
        contents.append(types.Part.from_bytes(data=img_bytes, mime_type=mime))
    
    contents.append(build_prompt(id_, title, category, mode))

    resp = client.models.generate_content(
        model=model,
        contents=contents,
        config={
            "temperature": 0,
            "response_mime_type": "application/json",
            "response_json_schema": ProductAttrs.model_json_schema(),
        },
    )
    return ProductAttrs.model_validate_json(resp.text)

## 4) Пробный запуск

In [None]:
# Пример тестовых данных
test_rows = [
    {
        "Артикул": "777",
        "Название товара": "Кофе в зернах Бразилия Сантос 1кг",
        " Категория товара": "Продукты питания",
        "Изображение": "https://ae04.alicdn.com/kf/S26fef23b8136439ea0449bbaef64c343b.jpg_480x480.jpg"
    }
]

MODEL = "gemini-2.0-flash-exp" # или gemini-1.5-pro

for r in test_rows:
    sku = str(r["Артикул"])
    title = r["Название товара"]
    category = r[" Категория товара"]
    image_url = r["Изображение"]

    print(f"\nОбработка SKU: {sku}")
    try:
        res = gemini_extract_one(
            model=MODEL, 
            id_=sku, 
            title=title, 
            category=category, 
            image_url=image_url, 
            mode="text_only"
        )
        print("Результат (text_only):", res.model_dump())
    except Exception as e:
        print(f"Ошибка: {e}")