Various examples featuring text in Turkish.

In [2]:
from snowballstemmer import TurkishStemmer

words = ["köpekler", "koşuyordum", "güller", "yazdıklarımızdan", "yazdıklarımzdan"]

turkStem = TurkishStemmer()
stems = [turkStem.stemWord(word) for word in words]
print(stems)

['köpek', 'koşuyor', 'gül', 'yazdık', 'yazdıklarımz']


### Sentence Tokenization

In [3]:
from nltk.tokenize import sent_tokenize

text = "Bilgisayar, aritmetik veya mantıksal işlem dizilerini (berim) \
otomatik olarak yürütmek üzere programlanabilen dijital bir elektronik makinedir.  \
Çağdaş bilgisayarlar, programlar olarak bilinen genel işlem kümelerini gerçekleştirebilir. \
Bu programlar, bilgisayarların çeşitli görevleri gerçekleştirmesini sağlar. \
Ayrıca bir bilgisayar sisteminin tam verimle çalışabilmesi için donanım, \
işletim sistemi ve çevresel cihazlara sahip olması gerekmektedir. Bu terim aynı \
zamanda bir bilgisayar ağı veya bilgisayar kümesi gibi birbirine bağlı ve birlikte \
çalışan bir grup bilgisayar anlamına da gelebilir."
sentences = sent_tokenize(text)

for sent in sentences:
    print(sent)


Bilgisayar, aritmetik veya mantıksal işlem dizilerini (berim) otomatik olarak yürütmek üzere programlanabilen dijital bir elektronik makinedir.
Çağdaş bilgisayarlar, programlar olarak bilinen genel işlem kümelerini gerçekleştirebilir.
Bu programlar, bilgisayarların çeşitli görevleri gerçekleştirmesini sağlar.
Ayrıca bir bilgisayar sisteminin tam verimle çalışabilmesi için donanım, işletim sistemi ve çevresel cihazlara sahip olması gerekmektedir.
Bu terim aynı zamanda bir bilgisayar ağı veya bilgisayar kümesi gibi birbirine bağlı ve birlikte çalışan bir grup bilgisayar anlamına da gelebilir.


### Word Tokenization


In [5]:
from nltk.tokenize import word_tokenize

text = "Hello! Welcome to the world of Natural Language Processing with NLTK."


text = "Bilgisayar, aritmetik veya mantıksal işlem dizilerini (berim) \
otomatik olarak yürütmek üzere programlanabilen dijital bir elektronik makinedir.  \
Çağdaş bilgisayarlar, programlar olarak bilinen genel işlem kümelerini gerçekleştirebilir. \
Bu programlar, bilgisayarların çeşitli görevleri gerçekleştirmesini sağlar. \
Ayrıca bir bilgisayar sisteminin tam verimle çalışabilmesi için donanım, \
işletim sistemi ve çevresel cihazlara sahip olması gerekmektedir. Bu terim aynı \
zamanda bir bilgisayar ağı veya bilgisayar kümesi gibi birbirine bağlı ve birlikte \
çalışan bir grup anlamına da gelebilir."

tokens = word_tokenize(text, language="turkish")

print(tokens)

['Bilgisayar', ',', 'aritmetik', 'veya', 'mantıksal', 'işlem', 'dizilerini', '(', 'berim', ')', 'otomatik', 'olarak', 'yürütmek', 'üzere', 'programlanabilen', 'dijital', 'bir', 'elektronik', 'makinedir', '.', 'Çağdaş', 'bilgisayarlar', ',', 'programlar', 'olarak', 'bilinen', 'genel', 'işlem', 'kümelerini', 'gerçekleştirebilir', '.', 'Bu', 'programlar', ',', 'bilgisayarların', 'çeşitli', 'görevleri', 'gerçekleştirmesini', 'sağlar', '.', 'Ayrıca', 'bir', 'bilgisayar', 'sisteminin', 'tam', 'verimle', 'çalışabilmesi', 'için', 'donanım', ',', 'işletim', 'sistemi', 've', 'çevresel', 'cihazlara', 'sahip', 'olması', 'gerekmektedir', '.', 'Bu', 'terim', 'aynı', 'zamanda', 'bir', 'bilgisayar', 'ağı', 'veya', 'bilgisayar', 'kümesi', 'gibi', 'birbirine', 'bağlı', 've', 'birlikte', 'çalışan', 'bir', 'grup', 'anlamına', 'da', 'gelebilir', '.']


### Morphological Analyzer

In [23]:
import zeyrek

# Initialize the Morphological Analyzer
analyzer = zeyrek.MorphAnalyzer()

# Example Turkish words
words = ["gelmektedir", "yazmışlar", "olabildiklerimiz",
"okumuş", "gülmek", "olta", "gelmektdir", "ağzı", "haddi"]

# Perform morphological analysis
for word in words:
    analysis = analyzer.analyze(word)
    print(f"Word: {word}")
    for item in analysis:
        print(f"Analysis: {item}")
    print("-" * 30)


APPENDING RESULT: <(gelmek_Verb)(-)(gel:verbRoot_S + mekte:vProgMakta_S + vA3sg_ST + dir:vCop_ST)>
APPENDING RESULT: <(gelmek_Verb)(-)(gel:verbRoot_S + mek:vInf1_S + nounInf1Root_S + a3sgInf1_S + pnonInf1_S + te:loc_ST + nounZeroDeriv_S + nVerb_S + nPresent_S + nA3sg_S + dir:nCop_ST)>
APPENDING RESULT: <(yazmak_Verb)(-)(yaz:verbRoot_S + mış:vNarr_S + lar:vA3pl_ST)>
APPENDING RESULT: <(yazmak_Verb)(-)(yaz:verbRoot_S + mış:vNarrPart_S + adjectiveRoot_ST + adjZeroDeriv_S + nVerb_S + nPresent_S + lar:nA3pl_ST)>
APPENDING RESULT: <(yazmak_Verb)(-)(yaz:verbRoot_S + mış:vNarrPart_S + adjectiveRoot_ST + adjZeroDeriv_S + noun_S + lar:a3pl_S + pnon_S + nom_ST)>
APPENDING RESULT: <(yaz_Noun_Time)(-)(yaz:noun_S + a3sg_S + pnon_S + nom_ST + nounZeroDeriv_S + nVerb_S + mış:nNarr_S + lar:nA3pl_ST)>
APPENDING RESULT: <(olmak_Verb)(-)(ol:verbRoot_S + abil:vAble_S + verbRoot_S + dik:vPastPart_S + noun_S + ler:a3pl_S + imiz:p1pl_S + nom_ST)>
APPENDING RESULT: <(okumak_Verb)(-)(oku:verbRoot_S + muş:vNarrP

Word: gelmektedir
Analysis: [Parse(word='gelmektedir', lemma='gelmek', pos='Verb', morphemes=['Verb', 'Prog2', 'A3sg', 'Cop'], formatted='[gelmek:Verb] gel:Verb+mekte:Prog2+A3sg+dir:Cop'), Parse(word='gelmektedir', lemma='gelmek', pos='Verb', morphemes=['Verb', 'Inf1', 'Noun', 'A3sg', 'Loc', 'Zero', 'Verb', 'Pres', 'A3sg', 'Cop'], formatted='[gelmek:Verb] gel:Verb|mek:Inf1→Noun+A3sg+te:Loc|Zero→Verb+Pres+A3sg+dir:Cop')]
------------------------------
Word: yazmışlar
Analysis: [Parse(word='yazmışlar', lemma='yazmak', pos='Verb', morphemes=['Verb', 'Narr', 'A3pl'], formatted='[yazmak:Verb] yaz:Verb+mış:Narr+lar:A3pl'), Parse(word='yazmışlar', lemma='yazmak', pos='Verb', morphemes=['Verb', 'NarrPart', 'Adj', 'Zero', 'Verb', 'Pres', 'A3pl'], formatted='[yazmak:Verb] yaz:Verb|mış:NarrPart→Adj|Zero→Verb+Pres+lar:A3pl'), Parse(word='yazmışlar', lemma='yazmak', pos='Noun', morphemes=['Verb', 'NarrPart', 'Adj', 'Zero', 'Noun', 'A3pl'], formatted='[yazmak:Verb] yaz:Verb|mış:NarrPart→Adj|Zero→Nou

### String similarity

Edit distance using NLTK. Note that there might be faster libraries for high demanding tasks

In [7]:
import nltk

string1 = "söylüyorum"
string2 = "söyüyolrum"

# Calculate Edit Distance
distance = nltk.edit_distance(string1, string2)

print(f"Edit Distance between '{string1}' and '{string2}': {distance}")


Edit Distance between 'söylüyorum' and 'söyüyolrum': 2


In [9]:
import Levenshtein

string1 = "söylüyorum"
string2 = "söyüyolrum"

# Calculate Levenshtein Distance
distance = Levenshtein.distance(string1, string2)

print(f"Edit Distance between '{string1}' and '{string2}': {distance}")


Edit Distance between 'söylüyorum' and 'söyüyolrum': 2


In [10]:
import pylcs

#  finding the longest common subsequence length of string A and string B
string1 = "söylüyorum"
string2 = "söyüyolrum"
length = pylcs.lcs_sequence_length(string1, string2)
print(f"LCS between '{string1}' and '{string2}': {length}")



#  finding the longest common subsequence length of string A and a list of string B
A = 'We are shannonai'
B = ['We like shannonai', 'We work in shannonai', 'We are not shannonai']
pylcs.lcs_sequence_of_list(A, B)

LCS between 'söylüyorum' and 'söyüyolrum': 9


[14, 14, 16]

### Word Prediction from Context

In [11]:
from transformers import BertTokenizer, BertForMaskedLM
import torch

# Load pre-trained model tokenizer (vocabulary) and model
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForMaskedLM.from_pretrained('bert-base-uncased')
model.eval()

# Prepare the text
text = "[CLS] I want to eat a hot [MASK] for lunch. [SEP]"
tokenized_text = tokenizer.tokenize(text)

# Convert token to vocabulary indices
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
# Define sentence A and B indices associated to 1st and 2nd sentences (see paper)
segments_ids = [0] * len(tokenized_text)

# Convert inputs to PyTorch tensors
tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([segments_ids])

# Predict all tokens
with torch.no_grad():
    outputs = model(tokens_tensor, token_type_ids=segments_tensors)
    predictions = outputs[0]

# Find the predicted token (we focus on the masked token)
masked_index = tokenized_text.index("[MASK]")
predicted_index = torch.argmax(predictions[0, masked_index]).item()
predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0]

print(f"Original text: {text}")
print(f"Predicted token: {predicted_token}")


Downloading tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'bert.pooler.dense.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Original text: [CLS] I want to eat a hot [MASK] for lunch. [SEP]
Predicted token: dog


In [16]:
from transformers import BertTokenizer, BertForMaskedLM
import torch

# Load pre-trained model tokenizer (vocabulary) and model
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = BertForMaskedLM.from_pretrained('bert-base-multilingual-cased')
model.eval()

# Example sentence in Turkish with a masked word
text = "[CLS] bugün hava çok [MASK]. [SEP]"
tokenized_text = tokenizer.tokenize(text)

# Convert token to vocabulary indices
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
segments_ids = [0] * len(tokenized_text)

# Convert inputs to PyTorch tensors
tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([segments_ids])

# Predict all tokens
with torch.no_grad():
    outputs = model(tokens_tensor, token_type_ids=segments_tensors)
    predictions = outputs[0]

# Find the predicted token
masked_index = tokenized_text.index("[MASK]")
predicted_index = torch.argmax(predictions[0, masked_index]).item()
predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0]

print(f"Original text: {text}")
print(f"Predicted token: {predicted_token}")


Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'bert.pooler.dense.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Original text: [CLS] bugün hava çok [MASK]. [SEP]
Predicted token: hava


In [15]:
from transformers import BertTokenizer, BertForMaskedLM
from transformers import AutoModel, AutoTokenizer

import torch

# Load pre-trained model tokenizer (vocabulary) and model

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")
model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")

model.eval()

# Example sentence in Turkish with a masked word
text = "[CLS] bugün hava çok [MASK]. [SEP]"
tokenized_text = tokenizer.tokenize(text)

# Convert token to vocabulary indices
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
segments_ids = [0] * len(tokenized_text)

# Convert inputs to PyTorch tensors
tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([segments_ids])

# Predict all tokens
with torch.no_grad():
    outputs = model(tokens_tensor, token_type_ids=segments_tensors)
    predictions = outputs[0]

# Find the predicted token
masked_index = tokenized_text.index("[MASK]")
predicted_index = torch.argmax(predictions[0, masked_index]).item()
predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0]

print(f"Original text: {text}")
print(f"Predicted token: {predicted_token}")


Original text: [CLS] bugün hava çok [MASK]. [SEP]
Predicted token: 全


### Tokenization

In [20]:
from transformers import BertTokenizer

# Load the BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
#tokenizer = XLMRobertaTokenizer.from_pretrained('xlm-roberta-base')

#tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")

# Sample text
text = "WordPiece tokenization is awesome!"

# Tokenize the text
tokenized_text = tokenizer.tokenize(text)

print("Tokenized text:", tokenized_text)

text = "Bugün günlerden cumartesi ve çok çalışmam lazım!"

# Tokenize the text
tokenized_text = tokenizer.tokenize(text)

print("Tokenized text:", tokenized_text)


Tokenized text: ['word', '##pie', '##ce', 'token', '##ization', 'is', 'aw', '##es', '##ome', '!']
Tokenized text: ['bugun', 'gunlerde', '##n', 'cumartesi', 've', 'cok', 'calıs', '##mam', 'lazım', '!']


In [11]:
# pip install -U spacy
# python -m spacy download en_core_web_sm
import spacy

# Load English tokenizer, tagger, parser and NER
nlp = spacy.load("en_core_web_sm")

# Process whole documents
text = ("Bugün günlerden cumartesi ve çok çalışmam lazım!")
doc = nlp(text)

# Analyze syntax
print("Noun phrases:", [chunk.text for chunk in doc.noun_chunks])
print("Verbs:", [token.lemma_ for token in doc if token.pos_ == "VERB"])

# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)

Noun phrases: ['Bugün günlerden cumartesi', 'çalışmam lazım']
Verbs: []
