In [3]:
text = """
Jag studerar naturlig språkbehandling och maskininlärning.
Detta är ett enkelt exempel för att visa tokenisering i svenska språket.
"""


In [15]:
#sentence tokenization
import nltk
# nltk.download('punkt') <-- download this first

sentences = nltk.sent_tokenize(text, language='swedish')
print(sentences)


['\nJag studerar naturlig språkbehandling och maskininlärning.', 'Detta är ett enkelt exempel för att visa tokenisering i svenska språket.']


In [5]:
#Word Tokenization
words = nltk.word_tokenize(text, language='swedish')
print(words)


['Jag', 'studerar', 'naturlig', 'språkbehandling', 'och', 'maskininlärning', '.', 'Detta', 'är', 'ett', 'enkelt', 'exempel', 'för', 'att', 'visa', 'tokenisering', 'i', 'svenska', 'språket', '.']


In [12]:
#Stop-Word Removal (Swedish)
from nltk.corpus import stopwords
# nltk.download('stopwords') <-- download this first

stop_words = set(stopwords.words('swedish'))
filtered_words = [w for w in words if w.lower() not in stop_words and w.isalpha()]
print(filtered_words)


['studerar', 'naturlig', 'språkbehandling', 'maskininlärning', 'enkelt', 'exempel', 'visa', 'tokenisering', 'svenska', 'språket']


In [16]:
#Stemming (Swedish – Snowball Stemmer)
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("swedish")
stemmed_words = [stemmer.stem(w) for w in filtered_words]
print(stemmed_words)


['studer', 'natur', 'språkbehandling', 'maskininlärning', 'enkelt', 'exempel', 'vis', 'tokenisering', 'svensk', 'språket']


In [5]:
#Lemmatization (Using spaCy – Swedish)
import spacy

nlp = spacy.load("sv_core_news_sm")
doc = nlp(text)

lemmatized_words = [token.lemma_ for token in doc if token.is_alpha and not token.is_stop]
print(lemmatized_words)


['studera', 'naturlig', 'språkbehandling', 'maskininlärning', 'vara', 'exempel', 'visa', 'tokenisering', 'svensk', 'språke']


In [6]:
#Character-Level Tokenization
characters = list(text.replace(" ", ""))
print(characters)


['\n', 'J', 'a', 'g', 's', 't', 'u', 'd', 'e', 'r', 'a', 'r', 'n', 'a', 't', 'u', 'r', 'l', 'i', 'g', 's', 'p', 'r', 'å', 'k', 'b', 'e', 'h', 'a', 'n', 'd', 'l', 'i', 'n', 'g', 'o', 'c', 'h', 'm', 'a', 's', 'k', 'i', 'n', 'i', 'n', 'l', 'ä', 'r', 'n', 'i', 'n', 'g', '.', '\n', 'D', 'e', 't', 't', 'a', 'ä', 'r', 'e', 't', 't', 'e', 'n', 'k', 'e', 'l', 't', 'e', 'x', 'e', 'm', 'p', 'e', 'l', 'f', 'ö', 'r', 'a', 't', 't', 'v', 'i', 's', 'a', 't', 'o', 'k', 'e', 'n', 'i', 's', 'e', 'r', 'i', 'n', 'g', 'i', 's', 'v', 'e', 'n', 's', 'k', 'a', 's', 'p', 'r', 'å', 'k', 'e', 't', '.', '\n']


In [3]:
#Subword Tokenization – BPE (HuggingFace Tokenizers)
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
tokenizer.pre_tokenizer = Whitespace()

trainer = BpeTrainer(vocab_size=50, special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
tokenizer.train_from_iterator([text], trainer)

bpe_output = tokenizer.encode(text)
print(bpe_output.tokens)


['Ja', 'g', 's', 't', 'u', 'd', 'er', 'a', 'r', 'n', 'at', 'u', 'r', 'l', 'i', 'g', 'språk', 'b', 'e', 'h', 'an', 'd', 'l', 'ing', 'o', 'c', 'h', 'm', 'a', 'sk', 'in', 'in', 'l', 'är', 'n', 'ing', '.', 'Dett', 'a', 'är', 'ett', 'en', 'k', 'el', 't', 'e', 'x', 'e', 'm', 'p', 'el', 'f', 'ö', 'r', 'at', 't', 'v', 'is', 'a', 't', 'o', 'k', 'en', 'is', 'er', 'ing', 'i', 's', 'v', 'en', 'sk', 'a', 'språk', 'et', '.']


In [6]:
#WordPiece Tokenization (Swedish BERT)
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("KB/bert-base-swedish-cased")
wordpiece_tokens = tokenizer.tokenize(text)
print(wordpiece_tokens)


['Jag', 'studerar', 'naturlig', 'språk', '##behandling', 'och', 'maskin', '##in', '##lär', '##ning', '.', 'Detta', 'är', 'ett', 'enkelt', 'exempel', 'för', 'att', 'visa', 'tok', '##eni', '##ser', '##ing', 'i', 'svenska', 'språket', '.']
