* [#17](https://github.com/salgo60/ifkdb/issues/17) "Vandra igenom alla Kategorier och skapa koppling wdt:P54"


In [1]:
from datetime import datetime
start_time  = datetime.now()
print("Last run: ", start_time) 


Last run:  2026-02-26 08:02:29.601381


In [None]:
get_team_qid_from_category

In [50]:
import requests
import time
import pandas as pd

# ---------------------------------------------------
# Session setup
# ---------------------------------------------------
S = requests.Session()
S.headers.update({
    "User-Agent": "Soccer wiki/1.0 (https://github.com/salgo60/ifkdb; contact: salgo60@msn.com)"
})

WIKI_API = "https://sv.wikipedia.org/w/api.php"
SPARQL_ENDPOINT = "https://query.wikidata.org/sparql"


# ---------------------------------------------------
# 1. Hämta underkategorier (klubbar)
# ---------------------------------------------------
def get_subcategories(category_title):
    members = []
    cmcontinue = None

    while True:
        params = {
            "action": "query",
            "list": "categorymembers",
            "cmtitle": category_title,
            "cmtype": "subcat",
            "cmlimit": "500",
            "format": "json",
            "formatversion": "2"
        }

        if cmcontinue:
            params["cmcontinue"] = cmcontinue

        r = S.get(WIKI_API, params=params)
        r.raise_for_status()
        data = r.json()

        members.extend(data["query"]["categorymembers"])

        if "continue" in data:
            cmcontinue = data["continue"]["cmcontinue"]
            time.sleep(0.5)
        else:
            break

    return [m["title"] for m in members]


# ---------------------------------------------------
# 2. Hämta spelare + QID från en klubbkategori
# ---------------------------------------------------
def get_category_players(category_title):
    members = []
    gcmcontinue = None

    while True:
        params = {
            "action": "query",
            "generator": "categorymembers",
            "gcmtitle": category_title,
            "gcmlimit": "max",
            "gcmnamespace": 0,
            "prop": "pageprops",
            "format": "json",
            "formatversion": "2"
        }

        if gcmcontinue:
            params["gcmcontinue"] = gcmcontinue

        r = S.get(WIKI_API, params=params)
        r.raise_for_status()
        data = r.json()

        if "query" in data:
            for page in data["query"]["pages"]:
                qid = page.get("pageprops", {}).get("wikibase_item")
                if qid:
                    members.append(qid)

        if "continue" in data:
            gcmcontinue = data["continue"]["gcmcontinue"]
            time.sleep(0.5)
        else:
            break

    return set(members)


# ---------------------------------------------------
# 3. Hämta klubbens QID
# ---------------------------------------------------

def get_team_qid_from_category(category_title):
    """
    Hittar rätt klubb-QID från en kategori som t.ex.
    'Kategori:Fotbollsspelare i AIK'
    
    Logik:
    1) Hämta kategori-QID
    2) Läs P971 (category combines topics)
    3) Filtrera fram football club (P31=Q476028)
    4) Fallback till P301 (main topic)
    """

    # ---------------------------------------------------
    # 1. Hämta kategori-QID
    # ---------------------------------------------------
    params = {
        "action": "query",
        "titles": category_title,
        "prop": "pageprops",
        "format": "json",
        "formatversion": "2"
    }

    r = S.get(WIKI_API, params=params)
    r.raise_for_status()
    data = r.json()

    pages = data.get("query", {}).get("pages", [])
    if not pages or "pageprops" not in pages[0]:
        return None

    category_qid = pages[0]["pageprops"].get("wikibase_item")
    if not category_qid:
        return None

    headers = {
        "User-Agent": S.headers["User-Agent"],
        "Accept": "application/sparql-results+json"
    }

    # ---------------------------------------------------
    # 2. Försök med P971
    # ---------------------------------------------------
    query_p971 = f"""
    SELECT ?topic WHERE {{
      wd:{category_qid} wdt:P971 ?topic.
    }}
    """

    r = requests.get(SPARQL_ENDPOINT, params={"query": query_p971}, headers=headers)
    r.raise_for_status()
    data = r.json()

    topics = [
        row["topic"]["value"].split("/")[-1]
        for row in data["results"]["bindings"]
    ]

    if topics:

        values = " ".join(f"wd:{qid}" for qid in topics)

        query_filter = f"""
        SELECT ?club WHERE {{
          VALUES ?club {{ {values} }}
          ?club wdt:P31/wdt:P279* wd:Q476028.
        }}
        """

        r2 = requests.get(SPARQL_ENDPOINT, params={"query": query_filter}, headers=headers)
        r2.raise_for_status()
        data2 = r2.json()

        results = data2["results"]["bindings"]
        if results:
            return results[0]["club"]["value"].split("/")[-1]

    # ---------------------------------------------------
    # 3. Fallback: P301 (main topic)
    # ---------------------------------------------------
    query_p301 = f"""
    SELECT ?club WHERE {{
      wd:{category_qid} wdt:P301 ?club.
      ?club wdt:P31/wdt:P279* wd:Q476028.
    }}
    """

    r3 = requests.get(SPARQL_ENDPOINT, params={"query": query_p301}, headers=headers)
    r3.raise_for_status()
    data3 = r3.json()

    results = data3["results"]["bindings"]
    if results:
        return results[0]["club"]["value"].split("/")[-1]

    return None
    
def get_category_qid(category_title):
    params = {
        "action": "query",
        "titles": category_title,
        "prop": "pageprops",
        "format": "json",
        "formatversion": "2"
    }

    r = S.get(WIKI_API, params=params)
    r.raise_for_status()
    data = r.json()

    pages = data.get("query", {}).get("pages", [])
    if pages and "pageprops" in pages[0]:
        return pages[0]["pageprops"].get("wikibase_item")

    return None


# ---------------------------------------------------
# 4. SPARQL: spelare via P54
# ---------------------------------------------------
def get_players_via_p54(team_qid):

    query = f"""
    SELECT ?player WHERE {{
      ?player wdt:P54 wd:{team_qid}.
    }}
    """

    headers = {
        "User-Agent": "Soccer wiki/1.0 (https://github.com/salgo60/ifkdb; contact: salgo60@msn.com)",
        "Accept": "application/sparql-results+json"
    }

    r = requests.get(SPARQL_ENDPOINT, params={"query": query}, headers=headers)
    r.raise_for_status()
    data = r.json()

    players = {
        row["player"]["value"].split("/")[-1]
        for row in data["results"]["bindings"]
    }

    return players


# ---------------------------------------------------
# 5. Huvudflöde
# ---------------------------------------------------
def compare_all_clubs(main_category):

    clubs = get_subcategories(main_category)
    print("Antal klubbar:", len(clubs))

    results = []

    for club_cat in clubs:
        print("Analyserar:", club_cat)

        wiki_players = get_category_players(club_cat)
        team_qid = get_team_qid_from_category(club_cat)

        if not team_qid:
            continue

        wd_players = get_players_via_p54(team_qid)

        only_in_wiki = wiki_players - wd_players
        only_in_wd = wd_players - wiki_players

        results.append({
            "club_category": club_cat,
            "club_qid": team_qid,
            "wiki_count": len(wiki_players),
            "wikidata_count": len(wd_players),
            "only_in_wiki": len(only_in_wiki),
            "only_in_wikidata": len(only_in_wd)
        })

        time.sleep(0.5)

    return pd.DataFrame(results)


# ---------------------------------------------------
# 6. Kör analysen
# ---------------------------------------------------
category = "Kategori:Fotbollsspelare_i_klubblag_i_Sverige"

df_diff = compare_all_clubs(category)

df_diff.sort_values("only_in_wiki", ascending=False).head()

Antal klubbar: 346
Analyserar: Kategori:Fotbollsspelare i AFC Eskilstuna
Analyserar: Kategori:Fotbollsspelare i AFC United
Analyserar: Kategori:Fotbollsspelare i Ahlafors IF
Analyserar: Kategori:Fotbollsspelare i AIK
Analyserar: Kategori:Fotbollsspelare i AIK:s damlag
Analyserar: Kategori:Fotbollsspelare i Akropolis IF
Analyserar: Kategori:Fotbollsspelare i Alingsås IF
Analyserar: Kategori:Fotbollsspelare i Alnö IF
Analyserar: Kategori:Fotbollsspelare i Alvesta GIF
Analyserar: Kategori:Fotbollsspelare i Angered MBIK
Analyserar: Kategori:Fotbollsspelare i Annebergs IF
Analyserar: Kategori:Fotbollsspelare i Arameisk-Syrianska Botkyrka IF
Analyserar: Kategori:Fotbollsspelare i Ariana FC
Analyserar: Kategori:Fotbollsspelare i Asarums IF
Analyserar: Kategori:Fotbollsspelare i Askims IK
Analyserar: Kategori:Fotbollsspelare i IFK Aspudden-Tellus
Analyserar: Kategori:Fotbollsspelare i Assyriska BK
Analyserar: Kategori:Fotbollsspelare i Assyriska FF
Analyserar: Kategori:Fotbollsspelare i Assyri

Unnamed: 0,club_category,club_qid,wiki_count,wikidata_count,only_in_wiki,only_in_wikidata
252,Kategori:Fotbollsspelare i Örgryte IS,Q11903335,292,99,222,29
147,Kategori:Fotbollsspelare i IFK Norrköping,Q108001798,299,126,211,38
3,Kategori:Fotbollsspelare i AIK,Q221602,442,402,145,105
23,Kategori:Fotbollsspelare i IF Brommapojkarna,Q754339,280,162,142,24
64,Kategori:Fotbollsspelare i IFK Göteborg,Q201567,431,431,123,123


In [51]:
df_diff.sort_values("only_in_wiki", ascending=False)

Unnamed: 0,club_category,club_qid,wiki_count,wikidata_count,only_in_wiki,only_in_wikidata
252,Kategori:Fotbollsspelare i Örgryte IS,Q11903335,292,99,222,29
147,Kategori:Fotbollsspelare i IFK Norrköping,Q108001798,299,126,211,38
3,Kategori:Fotbollsspelare i AIK,Q221602,442,402,145,105
23,Kategori:Fotbollsspelare i IF Brommapojkarna,Q754339,280,162,142,24
64,Kategori:Fotbollsspelare i IFK Göteborg,Q201567,431,431,123,123
...,...,...,...,...,...,...
66,Kategori:Fotbollsspelare i Hallstahammars SK,Q1571931,6,15,0,9
112,Kategori:Fotbollsspelare i Kortedala IF,Q6432695,2,5,0,3
92,Kategori:Fotbollsspelare i IFK Västerås,Q1653530,5,16,0,11
95,Kategori:Fotbollsspelare i Jakobsbergs GoIF,Q1679513,2,3,0,1


In [52]:
end_time = datetime.now()

duration = end_time - start_time

print("\n===== Körningsrapport =====")
print("Starttid :", start_time.strftime("%Y-%m-%d %H:%M:%S"))
print("Sluttid  :", end_time.strftime("%Y-%m-%d %H:%M:%S"))

total_seconds = int(duration.total_seconds())
hours = total_seconds // 3600
minutes = (total_seconds % 3600) // 60
seconds = total_seconds % 60

print(f"Körtid   : {hours}h {minutes}m {seconds}s")
print("===========================\n")


===== Körningsrapport =====
Starttid : 2026-02-26 08:02:29
Sluttid  : 2026-02-26 09:49:29
Körtid   : 1h 46m 59s

