In [2]:
!pip install zemberek-python



In [3]:
from zemberek import (
    TurkishSpellChecker,
    TurkishSentenceNormalizer,
    TurkishSentenceExtractor,
    TurkishMorphology,
    TurkishTokenizer
)

examples = ["Yrn okua gidicem",
            "Tmm, yarin havuza giricem ve aksama kadar yaticam :)",
            "ah aynen ya annemde fark ettı siz evinizden cıkmayın diyo",
            "gercek mı bu? Yuh! Artık unutulması bile beklenmiyo",
            "Hayır hayat telaşm olmasa alacam buraları gökdelen dikicem.",
            "yok hocam kesınlıkle oyle birşey yok"]
         
morphology = TurkishMorphology.create_with_defaults()

# SENTENCE NORMALIZATION
normalizer = TurkishSentenceNormalizer(morphology)

for example in examples:
    print(example)
    print(normalizer.normalize(example), "\n")

2020-08-25 11:28:21,672 - zemberek.morphology.turkish_morphology - INFO
Msg: TurkishMorphology instance initialized in 10.805814981460571

Yrn okua gidicem
yarın oksa gideceğim 

Tmm, yarin havuza giricem ve aksama kadar yaticam :)
tamam , yarın havuza gireceğim ve akşama kadar yatıcam :) 

ah aynen ya annemde fark ettı siz evinizden cıkmayın diyo
ah aynen ya annemde fark etti siz evinizden çıkmayın diyor 

gercek mı bu? Yuh! Artık unutulması bile beklenmiyo
gerçek mi bu ? yuh ! artık uyutulması bile beklenmiyor 

Hayır hayat telaşm olmasa alacam buraları gökdelen dikicem.
hayır hayat telaşı olmasa alacam buraları gökdelen dikeceğim . 

yok hocam kesınlıkle oyle birşey yok
yok hocam kesinlikle öyle bir şey yok 



In [4]:

sc = TurkishSpellChecker(morphology)
# SPELLING SUGGESTION
li = ["okuyablirim", "tartısıyor", "Ankar'ada", "knlıca", "yapablrim", "kıredi", "geldm", "geliyom", "aldm", "asln"]
for word in li:
    print(word + " = " + ' '.join(sc.suggest_for_word(word)))

okuyablirim = okuyabilirim
tartısıyor = tartışıyor tartılıyor
Ankar'ada = Ankara'da Ankara'ya Ankara'dan Ankara'ma Ankaray'da Ankaray'a Antara'da Ankara'na Anakara'da Ankara'mda Angara'da Ankara'ca Ankara'nda
knlıca = kanlıca kanlıca anlıca kalıca onlıca unlıca kılıca kınlıca
yapablrim = 
kıredi = kredi küredi
geldm = geldi geldim gelem gelim
geliyom = geliyor geliyim
aldm = aldı alım aldım alem alim alim alam aldi aldo Aldo'm Aldi'm alda Al'da Al'ım Al'dım Al'dı
asln = asla aslan aslan aslı aslı asli aslen asan asın As'lan As'lın As'ın assn aslin As'la aslın As'lı asin Aslı'n


In [5]:

# SENTENCE BOUNDARY DETECTION
extractor = TurkishSentenceExtractor()

text = "İnsanoğlu aslında ne para ne sevgi ne kariyer ne şöhret ne de çevre ile sonsuza dek mutlu olabilecek bir " \
       "yapıya sahiptir. Dış kaynaklardan gelebilecek bu mutluluklar sadece belirli bir zaman için insanı mutlu " \
       "kılıyor. Kişi bu kaynakları elde ettiği zaman belirli bir dönem için kendini iyi hissediyor, ancak alışma " \
       "dönemine girdiği andan itibaren bu iyilik hali hızla tükeniyor. Mutlu olma sanatının özü bu değildir. Gerçek " \
       "mutluluk, kişinin her türlü olaya ve duruma karşı kendini pozitif tutarak mutlu hissedebilmesi halidir. Bu " \
       "davranış şeklini edinen insan, zor günlerde güçlü, mutlu günlerde zevk alan biri olur ve mutluluğu kalıcı " \
       "kılar. "

sentences = extractor.from_paragraph(text)
for sentence in sentences:
    print(sentence)
print("\n")

İnsanoğlu aslında ne para ne sevgi ne kariyer ne şöhret ne de çevre ile sonsuza dek mutlu olabilecek bir yapıya sahiptir.
Dış kaynaklardan gelebilecek bu mutluluklar sadece belirli bir zaman için insanı mutlu kılıyor.
Kişi bu kaynakları elde ettiği zaman belirli bir dönem için kendini iyi hissediyor, ancak alışma dönemine girdiği andan itibaren bu iyilik hali hızla tükeniyor.
Mutlu olma sanatının özü bu değildir.
Gerçek mutluluk, kişinin her türlü olaya ve duruma karşı kendini pozitif tutarak mutlu hissedebilmesi halidir.
Bu davranış şeklini edinen insan, zor günlerde güçlü, mutlu günlerde zevk alan biri olur ve mutluluğu kalıcı kılar.




In [6]:
# SINGLE WORD MORPHOLOGICAL ANALYSIS
results = morphology.analyze("kalemin")
for result in results:
    print(result)
print("\n")

[kale:Noun] kale:Noun+A3sg+m:P1sg+in:Gen
[Kale:Noun, Prop] kale:Noun+A3sg+m:P1sg+in:Gen
[kalem:Noun] kalem:Noun+A3sg+in:Gen
[kalem:Noun] kalem:Noun+A3sg+in:P2sg




In [7]:
# TOKENIZATION
tokenizer = TurkishTokenizer.DEFAULT

tokens = tokenizer.tokenize("Saat 12:00.")
for token in tokens:
    print('Content = ', token.content)
    print('Type = ', token.type_.name)
    print('Start = ', token.start)
    print('Stop = ', token.end, '\n')

Content =  Saat
Type =  Word
Start =  0
Stop =  3 

Content =  12:00
Type =  Time
Start =  5
Stop =  9 

Content =  .
Type =  Punctuation
Start =  10
Stop =  10 

