In [2]:
from unidecode import unidecode
from zemberek import (
    TurkishSpellChecker,
    TurkishSentenceNormalizer,
    TurkishSentenceExtractor,
    TurkishMorphology,
    TurkishTokenizer
)

In [3]:
examples = ["Yrn okua gidicem",
            "Tmm, yarin havuza giricem ve aksama kadar yaticam :)",
            "ah aynen ya annemde fark ettı siz evinizden cıkmayın diyo",
            "gercek mı bu? Yuh! Artık unutulması bile beklenmiyo",
            "Hayır hayat telaşm olmasa alacam buraları gökdelen dikicem.",
            "yok hocam kesınlıkle oyle birşey yok",
            "herseyi soyle hayatında olmaması gerek bence boyle ınsanların falan baskı yapıyosa",
            "email adresim zemberek_python@loodos.com",
            "Kredi başvrusu yapmk istiyrum.",
            "Bankanizin hesp blgilerini ogrenmek istyorum."]

morphology = TurkishMorphology.create_with_defaults()

# SENTENCE NORMALIZATION
normalizer = TurkishSentenceNormalizer(morphology)

2023-07-16 14:57:12,099 - zemberek.morphology.turkish_morphology - INFO
Msg: TurkishMorphology instance initialized in 7.47469687461853



In [4]:
for example in examples:
    print(example)
    print(unidecode(normalizer.normalize(unidecode(example))), "\n")

Yrn okua gidicem
yarin okula gidecegim 

Tmm, yarin havuza giricem ve aksama kadar yaticam :)
tamam , yarin havuza girecegim ve aksama kadar yatacagim :) 

ah aynen ya annemde fark ettı siz evinizden cıkmayın diyo
ah aynen ya annemde fark etti siz evinizden cikmayin diyor 

gercek mı bu? Yuh! Artık unutulması bile beklenmiyo
gercek mi bu ? yuh ! artik unutulmasi bile beklenmiyor 

Hayır hayat telaşm olmasa alacam buraları gökdelen dikicem.
hayir hayat telasi olmasa alacagim buralari gokdelen dikecegim . 

yok hocam kesınlıkle oyle birşey yok
yok hocam kesinlikle oyle bir sey yok 

herseyi soyle hayatında olmaması gerek bence boyle ınsanların falan baskı yapıyosa
herseyi soyle hayatinda olmamasi gerek bence boyle insanlarin falan baski yapiyorsa 

email adresim zemberek_python@loodos.com
mail adresim zemberek_python@loodos.com 

Kredi başvrusu yapmk istiyrum.
kredi basvurusu yapmak istiyorum . 

Bankanizin hesp blgilerini ogrenmek istyorum.
bankanizin hesap bilgilerini ogrenmek istiyoru

In [5]:
sc = TurkishSpellChecker(morphology)

In [6]:
li = ["okuyablirim", "tartısıyor", "Ankar'ada", "knlıca", "yapablrim", "kıredi", "geldm", "geliyom", "aldm", "asln"]
for word in li:
    #print(word + " = " + ' '.join(sc.suggest_for_word(word)))
    print(word, sc.suggest_for_word(word))

okuyablirim ('okuyabilirim',)
tartısıyor ('tartışıyor', 'tartılıyor')
Ankar'ada ("Ankara'da", "Ankara'ya", "Ankara'dan", "Ankara'ca", "Antara'da", "Ankara'na", "Angara'da", "Ankara'mda", "Ankaray'da", "Ankara'ma", "Ankaray'a", "Anakara'da", "Ankara'nda")
knlıca ('kanlıca', 'kanlıca', 'kılıca', 'kalıca', 'kınlıca', 'anlıca')
yapablrim ()
kıredi ('kredi', 'küredi')
geldm ('geldi', 'geldim', 'gelem', 'gelim')
geliyom ('geliyor', 'geliyim')
aldm ('aldı', 'alım', 'aldım', 'alem', 'alim', 'alim', 'alam', 'aldi', 'aldo', 'alda', "Al'dım", "Al'ım", "Aldo'm", "Aldi'm", "Al'dı", "Al'da")
asln ('asla', 'aslan', 'aslan', 'aslı', 'aslı', 'asli', 'aslen', 'asan', 'asın', 'aslin', "As'la", "As'ın", "As'lı", 'assn', 'aslın', 'asin', "As'lın", "As'lan", "Aslı'n")


In [7]:
extractor = TurkishSentenceExtractor()
text = "İnsanoğlu aslında ne para ne sevgi ne kariyer ne şöhret ne de çevre ile sonsuza dek mutlu olabilecek bir " \
       "yapıya sahiptir. Dış kaynaklardan gelebilecek bu mutluluklar sadece belirli bir zaman için insanı mutlu " \
       "kılıyor. Kişi bu kaynakları elde ettiği zaman belirli bir dönem için kendini iyi hissediyor, ancak alışma " \
       "dönemine girdiği andan itibaren bu iyilik hali hızla tükeniyor. Mutlu olma sanatının özü bu değildir. Gerçek " \
       "mutluluk, kişinin her türlü olaya ve duruma karşı kendini pozitif tutarak mutlu hissedebilmesi halidir. Bu " \
       "davranış şeklini edinen insan, zor günlerde güçlü, mutlu günlerde zevk alan biri olur ve mutluluğu kalıcı " \
       "kılar. "

In [8]:
sentences = extractor.from_paragraph(text)
sentences

['İnsanoğlu aslında ne para ne sevgi ne kariyer ne şöhret ne de çevre ile sonsuza dek mutlu olabilecek bir yapıya sahiptir.',
 'Dış kaynaklardan gelebilecek bu mutluluklar sadece belirli bir zaman için insanı mutlu kılıyor.',
 'Kişi bu kaynakları elde ettiği zaman belirli bir dönem için kendini iyi hissediyor, ancak alışma dönemine girdiği andan itibaren bu iyilik hali hızla tükeniyor.',
 'Mutlu olma sanatının özü bu değildir.',
 'Gerçek mutluluk, kişinin her türlü olaya ve duruma karşı kendini pozitif tutarak mutlu hissedebilmesi halidir.',
 'Bu davranış şeklini edinen insan, zor günlerde güçlü, mutlu günlerde zevk alan biri olur ve mutluluğu kalıcı kılar.']

In [9]:
# SINGLE WORD MORPHOLOGICAL ANALYSIS
results = morphology.analyze("Ankara'da")
for result in results:
    print(result)

[Ankara:Noun, Prop] ankara:Noun+A3sg+da:Loc


In [10]:
sentence = "Yarın kar yağacak."
analysis = morphology.analyze_sentence(sentence)
after = morphology.disambiguate(sentence, analysis)

In [11]:
print("\nBefore disambiguation")
for e in analysis:
    print(e)
    print(f"Word = {e.inp}")
    for s in e:
        print(s.format_string())


Before disambiguation
WordAnalysis{input='Yarın', normalizedInput='yarın', analysisResults=[yarın:Adv] yarın:Adv [yarmak:Verb] yar:Verb+Imp+ın:A2pl [yar:Noun] yar:Noun+A3sg+ın:Gen [yar:Noun] yar:Noun+A3sg+ın:P2sg [yarı:Noun] yarı:Noun+A3sg+n:P2sg [yarın:Noun, Time] yarın:Noun+A3sg [yarı:Adj] yarı:Adj|Zero→Noun+A3sg+n:P2sg}
Word = Yarın
[yarın:Adv] yarın:Adv
[yarmak:Verb] yar:Verb+Imp+ın:A2pl
[yar:Noun] yar:Noun+A3sg+ın:Gen
[yar:Noun] yar:Noun+A3sg+ın:P2sg
[yarı:Noun] yarı:Noun+A3sg+n:P2sg
[yarın:Noun, Time] yarın:Noun+A3sg
[yarı:Adj] yarı:Adj|Zero→Noun+A3sg+n:P2sg
WordAnalysis{input='kar', normalizedInput='kar', analysisResults=[karmak:Verb] kar:Verb+Imp+A2sg [kar:Noun] kar:Noun+A3sg [kâr:Noun] kar:Noun+A3sg}
Word = kar
[karmak:Verb] kar:Verb+Imp+A2sg
[kar:Noun] kar:Noun+A3sg
[kâr:Noun] kar:Noun+A3sg
WordAnalysis{input='yağacak', normalizedInput='yağacak', analysisResults=[yağmak:Verb] yağ:Verb+acak:Fut+A3sg [yağmak:Verb] yağ:Verb|acak:FutPart→Adj}
Word = yağacak
[yağmak:Verb] yağ:Ver

In [12]:
print("\nAfter disambiguation")
for s in after.best_analysis():
    print("lemma: ", s.item.normalized_lemma())
    print("stem: ",s.get_stem())
    #print(s.format_string())


After disambiguation
lemma:  yarın
stem:  yarın
lemma:  kar
stem:  kar
lemma:  yağ
stem:  yağ
lemma:  .
stem:  .


In [13]:
# TOKENIZATION
tokenizer = TurkishTokenizer.DEFAULT

tokens = tokenizer.tokenize("Saat 12:00.")
for token in tokens:
    print('Content = ', token.content)
    print('Type = ', token.type_.name)
    print('Start = ', token.start)
    print('Stop = ', token.end, '\n')

Content =  Saat
Type =  Word
Start =  0
Stop =  3 

Content =  12:00
Type =  Time
Start =  5
Stop =  9 

Content =  .
Type =  Punctuation
Start =  10
Stop =  10 

