In [1]:

# Komórka 2: Importowanie tokenizatora
from transformers import AutoTokenizer

# Załadowanie tokenizatora papuGaPT2
tokenizer = AutoTokenizer.from_pretrained("flax-community/papuGaPT2")

# Komórka 3: Funkcja do analizy tokenów
def analyze_tokens(texts, tokenizer):
    """
    Analizuje tokeny w podanych tekstach, rozróżniając tokeny rozpoczynające nowe wyrazy 
    od tokenów będących ich kontynuacją.

    Args:
        texts (list of str): Lista tekstów do analizy.
        tokenizer: Tokenizer z biblioteki Transformers.

    Returns:
        list of dict: Lista słowników z informacjami o tokenach dla każdego tekstu.
    """
    results = []

    for text in texts:
        tokens = tokenizer.tokenize(text)
        token_info = []

        for token in tokens:
            token_data = {
                "token": token,
                "type": "Continuation" if token.startswith("Ġ") else "New word",
            }
            token_info.append(token_data)

        results.append({
            "text": text,
            "tokens": token_info,
        })

    return results


In [None]:
texts = [
    'Obowiązuje on od oddolnyc1,prefiksowanie1;*iq;*.'
]


In [23]:
results = analyze_tokens(texts, tokenizer)

In [24]:
# Wyświetlenie wyników
for result in results:
    print(f"Tekst: {result['text']}")
    print("Tokeny:")
    for token in result['tokens']:
        print(f"  - {token['token']}")
    print("-" * 50)

Tekst: Papuga to wspaniały model językowy.
Tokeny:
  - Pa
  - pu
  - ga
  - Ġto
  - ĠwspaniaÅĤy
  - Ġmodel
  - ĠjÄĻzy
  - kowy
  - .
--------------------------------------------------
Tekst: aaa
bbb
ccc
Tokeny:
  - aaa
  - Ċ
  - bb
  - b
  - Ċ
  - cc
  - c
--------------------------------------------------
Tekst: (
)[]{}-:=+!@#$%^&*;.,?/|\
Tokeny:
  - (
  - Ċ
  - )[
  - ]
  - {
  - }
  - -
  - :
  - =
  - +
  - !
  - @
  - #
  - $
  - %
  - ^
  - &
  - *
  - ;
  - .,
  - ?
  - /
  - |
  - \
--------------------------------------------------
Tekst: Obowiązuje on od określonej odmiany:Z okazji obchodów obchodów organizowanych od, od ok...
Tokeny:
  - ObowiÄħ
  - zuje
  - Ġon
  - Ġod
  - ĠokreÅĽlonej
  - Ġodmiany
  - :
  - Z
  - Ġokazji
  - ĠobchodÃ³w
  - ĠobchodÃ³w
  - Ġorganizowanych
  - Ġod
  - ,
  - Ġod
  - Ġok
  - ...
--------------------------------------------------
