Dokument namenjen sestavljanju popravljenih imen

In [1]:
import json
from collections import defaultdict
from pathlib import Path
from collections import Counter

In [2]:
with open('../combined_finish.json', 'r', encoding='utf-8') as f:
    clanki = json.load(f)

In [3]:
def nalozi_popravke(pot="imenski_popravki.json"):
    if Path(pot).exists():
        with open(pot, "r", encoding="utf-8") as f:
            return json.load(f)
    return {}

In [4]:
def shrani_popravke(popravki, pot="imenski_popravki.json"):
    with open(pot, "w", encoding="utf-8") as f:
        json.dump(popravki, f, ensure_ascii=False, indent=2)


In [5]:
def ustvari_popravke_interaktivno(clanki, pot_do_popravkov="imenski_popravki.json", batch_size=100):
    popravki = nalozi_popravke(pot_do_popravkov)
    ze_obdelani_kljuci = set(popravki.keys())
    ze_obdelane_vrednosti = set(popravki.values())

    kandidati = {}

    for clanek in clanki:
        for ime in clanek.get("persons", {}):
            if ime in ze_obdelani_kljuci:
                continue
            if ime in ze_obdelane_vrednosti:
                continue
            if ime in kandidati:
                continue
            kandidati[ime] = None
            if len(kandidati) >= batch_size:
                break
        if len(kandidati) >= batch_size:
            break

    if kandidati:
        print("\n🧠 Najdenih novih imen za popravke:", len(kandidati))
        print("Spodaj je seznam:")
        print(json.dumps({ime: "" for ime in kandidati}, indent=2, ensure_ascii=False))
        print("\n🔧 Prosim, vnesi popravke v JSON obliki (npr. {\"Bidn\": \"Joe Biden\"})")
        popravek_vnos = input("👉 Tvoj vnos: ")
        try:
            novi_popravki = json.loads(popravek_vnos)
            popravki.update(novi_popravki)
            shrani_popravke(popravki, pot_do_popravkov)
            print("✅ Popravki shranjeni.")
        except json.JSONDecodeError as e:
            print("❌ Napaka pri branju JSON: ", e)
    else:
        print("🎉 Ni novih imen za obdelavo.")

In [6]:
def ustvari_popravke_sortirano_po_pomembnosti(clanki, pot_do_popravkov="imenski_popravki.json", batch_size=100):
    popravki = nalozi_popravke(pot_do_popravkov)
    ze_obdelani_kljuci = set(popravki.keys())
    ze_obdelane_vrednosti = set(popravki.values())

    # Preštej pojavitve vseh imen v clankih
    counter = Counter()
    for clanek in clanki:
        for ime in clanek.get("persons", {}):
            # šteje ime, če ni že obdelano ali v vrednostih popravkov
            if ime not in ze_obdelani_kljuci and ime not in ze_obdelane_vrednosti:
                counter[ime] += 1

    # Izberi batch_size imen z največ pojavitvami
    kandidati = dict(counter.most_common(batch_size))

    if kandidati:
        print("\n🧠 Najdenih novih imen za popravke:", len(kandidati))
        print("Spodaj je seznam po pojavitvah:")
        print(json.dumps({ime: "" for ime in kandidati}, indent=2, ensure_ascii=False))
        print("\n🔧 Prosim, vnesi popravke v JSON obliki (npr. {\"Bidn\": \"Joe Biden\"})")
        popravek_vnos = input("👉 Tvoj vnos: ")
        try:
            novi_popravki = json.loads(popravek_vnos)
            popravki.update(novi_popravki)
            shrani_popravke(popravki, pot_do_popravkov)
            print("✅ Popravki shranjeni.")
        except json.JSONDecodeError as e:
            print("❌ Napaka pri branju JSON: ", e)
    else:
        print("🎉 Ni novih imen za obdelavo.")

In [None]:
ustvari_popravke_sortirano_po_pomembnosti(clanki, batch_size=100)


🧠 Najdenih novih imen za popravke: 100
Spodaj je seznam po pojavitvah:
{
  "Slovenec": "",
  "Janez Janša": "",
  "Američan": "",
  "Borut Pahor": "",
  "Janša": "",
  "Pahor": "",
  "Donald Trump": "",
  "Celzij": "",
  "Vladimir Putin": "",
  "Trump": "",
  "George Bush": "",
  "Palestinec": "",
  "Srb": "",
  "Levica": "",
  "Hrvat": "",
  "Nemec": "",
  "Barack Obama": "",
  "Italijan": "",
  "Robert Golob": "",
  "Rus": "",
  "Zoran Janković": "",
  "Putin": "",
  "Janez Drnovšek": "",
  "Britanec": "",
  "Miro Cerar": "",
  "Bush": "",
  "Karl Erjavec": "",
  "Požar": "",
  "Albanec": "",
  "Francoz": "",
  "Erjavec": "",
  "Alenka Bratušek": "",
  "Milan Kučan": "",
  "Dimitrij Rupel": "",
  "Danilo Türk": "",
  "Angela Merkel": "",
  "Izraelec": "",
  "Janković": "",
  "Bill Clinton": "",
  "Slobodan Milošević": "",
  "Drnovšek": "",
  "Obama": "",
  "Hamas": "",
  "Golob": "",
  "Avstrijec": "",
  "Slovenka": "",
  "Sadam Husein": "",
  "Cerar": "",
  "Joe Biden": "",
  "Tanj