In [14]:
import re
import unicodedata
import hashlib


GENERIC_TOKENS = {
    "fc", "cf", "cd", "afc", "sc", "sv", "tsv", "psv",
    "bc", "bk", "if", "fk", "nk", "club", "clube", "united", "city", "town",
    # ligás/országos jelzők, amiket gyakran lehagynak:
    "deportivo", "sporting",
    # konkrétan a példád miatt:
    "preussen", 
    # saját
    'sp'
}

def strip_accents(text) -> str:
    """Ékezetek eltávolítása (NFKD normalizálás)."""
    text = unicodedata.normalize("NFKD", text)
    return "".join(ch for ch in text if not unicodedata.combining(ch))


def normalize_team_id(name):
    """
    Csapatnévből determinisztikus, normalizált ID-t készít.
    Az azonos csapatnév-variánsok azonos ID-t kapjanak.
    """

    if not name:
        return ""

    # 1) ékezetek, case
    text = strip_accents(name).lower()

    # 2) írásjelek → szóköz
    text = re.sub(r"[^a-z0-9]+", " ", text)
    text = re.sub(r"\s+", " ", text).strip()

    if not text:
        return ""

    tokens = text.split()

    # 3) numerikus és generikus tokenek kidobása
    clean_tokens = []
    for tok in tokens:
        if tok.isdigit():
            # pl. 06, 96, 1907 – gyakran csak alapítási év
            continue
        if tok in GENERIC_TOKENS:
            continue
        clean_tokens.append(tok)

    if not clean_tokens:
        # ha minden kiesett, essen vissza a teljesen "megtisztított" szövegre
        clean_tokens = tokens[:]

    # 4) city token: utolsó nem-generikus token
    city_token = clean_tokens[-1]

    # 5) kezdőbetűk az összes többi tokenből
    initials = []
    for tok in clean_tokens[:-1]:
        if not tok:
            continue
        initials.append(tok[0])  # első betű; akarsz, tehetsz ide több betűt is

    # 6) város-prefix (hossz limit, hogy rövid legyen az ID)
    city_key = city_token[:6]  # bilbao, madri(d), hannov, etc.

    if initials:
        canonical = f"{city_key}_{''.join(initials)}"
    else:
        canonical = city_key

    return canonical

In [19]:
s = 'Arsenal FC'
print(s, "→", normalize_team_id(s))

s = 'Arsenal'
print(s, "→", normalize_team_id(s))

Arsenal FC → arsena
Arsenal → arsena
