<a href="https://colab.research.google.com/github/lehorhe/-/blob/main/korektor_ai.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# @title 1. Instalacja i Konfiguracja ≈örodowiska
# Instalujemy najnowsze SDK Google Gen AI oraz python-docx
!pip install -q -U google-genai python-docx

import os
import sys
import time
import difflib
import datetime
from google.colab import files
from google.colab import userdata

# Nowe SDK (v1.0+) - zastƒôpuje google.generativeai
from google import genai
from google.genai import types

# Biblioteki do obs≈Çugi Word (OpenXML)
from docx import Document
from docx.oxml import OxmlElement
from docx.oxml.ns import qn
from docx.shared import Pt

print("≈örodowisko skonfigurowane pomy≈õlnie.")

≈örodowisko skonfigurowane pomy≈õlnie.


In [3]:
# @title 2. Inicjalizacja Klienta Gemini
# Pobranie klucza z sekret√≥w. U≈ºytkownik musi dodaƒá klucz o nazwie 'GEMINI_API_KEY'
try:
    API_KEY = userdata.get('GEMINI_API_KEY')
except Exception as e:
    print("‚ùå B≈ÅƒÑD: Nie znaleziono klucza API w sekretach.")
    print("Instrukcja: Kliknij ikonƒô klucza (po lewej), dodaj nowy sekret 'GEMINI_API_KEY' i wklej sw√≥j klucz z AI Studio.")
    raise e

# Inicjalizacja klienta
client = genai.Client(api_key=API_KEY)

# Definicja dostƒôpnych modeli
# Gemini 3.0 Flash (Preview) - wysoka szybko≈õƒá, niski koszt
MODEL_FLASH = "gemini-2.0-flash"
# Alternatywnie: "gemini-3.0-flash-preview" je≈õli dostƒôpne w danym regionie/projekcie.
# Zalecamy 2.0 Flash jako bezpieczny fallback, dop√≥ki 3.0 nie wyjdzie z fazy ≈õcis≈Çego preview.

# Gemini 1.5 Pro - wysoka jako≈õƒá, d≈Çugi kontekst [3]
MODEL_PRO = "gemini-2.5-pro"

print(f"‚úÖ Klient zainicjalizowany. Dostƒôpne konfiguracje:")
print(f"   - Szybka korekta: {MODEL_FLASH}")
print(f"   - G≈Çƒôboka redakcja: {MODEL_PRO}")

‚úÖ Klient zainicjalizowany. Dostƒôpne konfiguracje:
   - Szybka korekta: gemini-2.0-flash
   - G≈Çƒôboka redakcja: gemini-2.5-pro


In [4]:
# @title 3. Definicja Silnika Track Changes (Core Logic)

def create_element(name):
    """Pomocnicza funkcja do tworzenia element√≥w OXML"""
    return OxmlElement(name)

def create_attribute(element, name, value):
    """Pomocnicza funkcja do dodawania atrybut√≥w"""
    element.set(qn(name), value)

def add_tracked_change(paragraph, text, change_type, author="AI_Redaktor"):
    """
    Dodaje run do paragrafu z odpowiednim znacznikiem XML (w:ins lub w:del).
    """
    # Pobranie aktualnej daty w formacie wymaganym przez Word (ISO 8601)
    date_str = datetime.datetime.now().strftime("%Y-%m-%dT%H:%M:%SZ")

    # Przypadek 1: Tekst bez zmian
    if change_type == 'equal':
        run = paragraph.add_run(text)
        return

    # Przypadek 2: Wstawienie tekstu (Insertion)
    elif change_type == 'insert':
        # Tworzymy kontener <w:ins>
        ins = create_element('w:ins')
        create_attribute(ins, 'w:id', '0') # ID powinno byƒá unikalne, tu uproszczone
        create_attribute(ins, 'w:author', author)
        create_attribute(ins, 'w:date', date_str)

        # WewnƒÖtrz <w:ins> musi byƒá normalny <w:r> z <w:t>
        run = create_element('w:r')
        t = create_element('w:t')
        # Wa≈ºne: obs≈Çuga spacji w XML (xml:space="preserve")
        if text.strip() == '':
            create_attribute(t, 'xml:space', 'preserve')
        t.text = text

        run.append(t)
        ins.append(run)
        paragraph._p.append(ins)

    # Przypadek 3: Usuniƒôcie tekstu (Deletion)
    elif change_type == 'delete':
        # Tworzymy kontener <w:del>
        del_tag = create_element('w:del')
        create_attribute(del_tag, 'w:id', '0')
        create_attribute(del_tag, 'w:author', author)
        create_attribute(del_tag, 'w:date', date_str)

        # WewnƒÖtrz <w:del> tekst musi byƒá w <w:delText>, a nie <w:t>!
        run = create_element('w:r')
        del_text = create_element('w:delText')
        if text.strip() == '':
            create_attribute(del_text, 'xml:space', 'preserve')
        del_text.text = text

        run.append(del_text)
        del_tag.append(run)
        paragraph._p.append(del_tag)

def apply_diff_to_paragraph(paragraph, original_text, new_text):
    """
    Kluczowa funkcja: czy≈õci paragraf i odbudowuje go z historiƒÖ zmian.
    """
    # 1. Oblicz r√≥≈ºnice algorytmem SequenceMatcher
    matcher = difflib.SequenceMatcher(None, original_text, new_text)

    # 2. Wyczy≈õƒá zawarto≈õƒá paragrafu (zachowujƒÖc jego w≈Ça≈õciwo≈õci stylu/pPr)
    # Uwaga: paragraph.clear() usuwa runy, ale zostawia pPr (w≈Ça≈õciwo≈õci paragrafu)
    paragraph.clear()

    # 3. Iteruj po r√≥≈ºnicach i buduj XML
    for tag, i1, i2, j1, j2 in matcher.get_opcodes():
        if tag == 'equal':
            add_tracked_change(paragraph, original_text[i1:i2], 'equal')
        elif tag == 'delete':
            add_tracked_change(paragraph, original_text[i1:i2], 'delete')
        elif tag == 'insert':
            add_tracked_change(paragraph, new_text[j1:j2], 'insert')
        elif tag == 'replace':
            # Replace w Wordzie to zazwyczaj usuniƒôcie starego i wstawienie nowego obok
            add_tracked_change(paragraph, original_text[i1:i2], 'delete')
            add_tracked_change(paragraph, new_text[j1:j2], 'insert')

In [11]:
# @title 4. Funkcje Przetwarzania AI

def get_ai_correction(text_block, model_name):
    """Przetwarza blok tekstu, dostosowujƒÖc rygor redakcji do klasy modelu."""

    # 1. Definicja zada≈Ñ specyficznych dla klasy modelu
    if "pro" in model_name.lower():
        # Zadania dla modelu PRO: G≈Çƒôboka redakcja i sp√≥jno≈õƒá [cite: 21, 269]
        model_tasks = """- Skup siƒô na p≈Çynno≈õci tekstu i sp√≥jno≈õci logicznej ca≈Çego wywiadu.
- Koryguj b≈Çƒôdy merytoryczne i mowƒô zale≈ºnƒÖ (np. dopasuj p≈Çcie rozm√≥wc√≥w do kontekstu).
- Mo≈ºesz subtelnie poprawiƒá szyk zda≈Ñ, by nadaƒá im bardziej literacki charakter."""
        temp = 0.2  # Lekka elastyczno≈õƒá dla lepszego stylu [cite: 316]
    else:
        # Zadania dla modelu FLASH: Szybka korekta techniczna [cite: 21, 269]
        model_tasks = """- Skup siƒô wy≈ÇƒÖcznie na b≈Çƒôdach ortograficznych, interpunkcyjnych i oczywistych pomy≈Çkach zapisu.
- Nie zmieniaj struktury zda≈Ñ ani stylu autora.
- Priorytetem jest wierno≈õƒá orygina≈Çowi przy zachowaniu poprawno≈õci jƒôzykowej."""
        temp = 0.0  # Maksymalna stabilno≈õƒá dla korekty technicznej

    # 2. G≈Ç√≥wna instrukcja systemowa (Core Engine)
    system_instruction = f"""Jeste≈õ profesjonalnym, bezosobowym silnikiem redakcyjnym w wydawnictwie[cite: 205].
TWOJE ZADANIE:
{model_tasks}

ZASADY KRYTYCZNE:
1. NIE dodawaj komentarzy, powita≈Ñ ani wyja≈õnie≈Ñ (np. "Oto poprawiony tekst")[cite: 212].
2. Zwracaj DOK≈ÅADNIE takƒÖ samƒÖ liczbƒô akapit√≥w, jakƒÖ otrzyma≈Çe≈õ.
3. Zachowaj tagi [PAR] ‚Äì s≈Çu≈ºƒÖ one jako jedyne separatory akapit√≥w.
4. Je≈õli fragment jest poprawny lub niejasny, zwr√≥ƒá go bez zmian[cite: 211].
5. Zachowaj idiolekt i styl m√≥wiony rozm√≥wcy (nie zmieniaj go w tekst pisany)[cite: 19, 210]."""

    try:
        response = client.models.generate_content(
            model=model_name,
            contents=text_block,
            config=types.GenerateContentConfig(
                system_instruction=system_instruction,
                temperature=temp
            )
        )
        corrected = response.text.strip()

        # Zabezpieczenie przed "gadatliwo≈õciƒÖ" asystenta
        if any(bad in corrected.lower() for bad in ["przepraszam", "nie rozumiem", "proszƒô podaƒá"]):
            return text_block

        return corrected
    except Exception as e:
        print(f"! B≈ÇƒÖd API ({model_name}): {e}. Zwracam orygina≈Ç[cite: 224, 225].")
        return text_block # Fallback: brak zmian

def process_docx(input_path, output_path, model_name):
    print(f"üìÇ Otwieranie pliku: {input_path}")
    doc = Document(input_path)

    paragraphs = [p for p in doc.paragraphs if len(p.text.strip()) > 2] # Ignoruj puste
    total = len(paragraphs)
    print(f"üìù Znaleziono {total} akapit√≥w do analizy.")

    for i, para in enumerate(paragraphs):
        original = para.text

        # Logowanie co 5 akapit√≥w
        if i % 5 == 0:
            print(f"   Przetwarzanie: {i}/{total} ({(i/total)*100:.1f}%)")

        # Wywo≈Çanie AI
        corrected = get_ai_correction(original, model_name)

        # Aplikacja zmian tylko je≈õli sƒÖ r√≥≈ºnice
        if corrected!= original:
            apply_diff_to_paragraph(para, original, corrected)

        # Rate Limiting (wa≈ºne dla darmowego API)
        time.sleep(1.5)

    print(f"üíæ Zapisywanie pliku: {output_path}")
    doc.save(output_path)
    print("‚úÖ Gotowe!")

In [17]:
# @title 5. URUCHOM PROCES
# Wybierz model z listy rozwijanej
MODEL = "gemini-2.5-pro" # @param ["gemini-2.5-pro", "gemini-2.0-flash"]

print("‚¨ÜÔ∏è Prze≈õlij plik.docx do redakcji:")
uploaded = files.upload()

if uploaded:
    input_file = next(iter(uploaded))
    output_file = f"redakcja_{input_file}"

    process_docx(input_file, output_file, MODEL)

    print("‚¨áÔ∏è Pobieranie wyniku...")
    files.download(output_file)
else:
    print("Nie przes≈Çano pliku.")

‚¨ÜÔ∏è Prze≈õlij plik.docx do redakcji:


Saving redakcja_redakcja_0.ZOOM0004p_pierwsze nagranie (6) (1).docx to redakcja_redakcja_0.ZOOM0004p_pierwsze nagranie (6) (1) (1).docx
üìÇ Otwieranie pliku: redakcja_redakcja_0.ZOOM0004p_pierwsze nagranie (6) (1) (1).docx
üìù Znaleziono 181 akapit√≥w do analizy.
   Przetwarzanie: 0/181 (0.0%)
   Przetwarzanie: 5/181 (2.8%)
   Przetwarzanie: 10/181 (5.5%)
   Przetwarzanie: 15/181 (8.3%)
   Przetwarzanie: 20/181 (11.0%)
   Przetwarzanie: 25/181 (13.8%)
   Przetwarzanie: 30/181 (16.6%)
   Przetwarzanie: 35/181 (19.3%)
   Przetwarzanie: 40/181 (22.1%)
   Przetwarzanie: 45/181 (24.9%)
   Przetwarzanie: 50/181 (27.6%)
   Przetwarzanie: 55/181 (30.4%)
   Przetwarzanie: 60/181 (33.1%)
   Przetwarzanie: 65/181 (35.9%)
   Przetwarzanie: 70/181 (38.7%)
   Przetwarzanie: 75/181 (41.4%)
   Przetwarzanie: 80/181 (44.2%)
   Przetwarzanie: 85/181 (47.0%)
   Przetwarzanie: 90/181 (49.7%)
   Przetwarzanie: 95/181 (52.5%)
   Przetwarzanie: 100/181 (55.2%)
   Przetwarzanie: 105/181 (58.0%)
   Przetwarz

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>