#### Morphological Analyzer

In [1]:
import logging
logger = logging.getLogger()
logger.setLevel(logging.INFO)

In [2]:
from pp.morph_analyzer import MorphAnalyzer
ma = MorphAnalyzer()

[dynet] random seed: 918083485
[dynet] allocating memory: 512MB
[dynet] memory allocation done.


2021-08-25 11:29:15,106 - /Users/meliksahturker/Desktop/Turkish-NLP-preprocessing-module/pp/morph_analyzer/model.py - INFO - 116} - Loading Pre-Trained Model
2021-08-25 11:29:16,175 - /Users/meliksahturker/Desktop/Turkish-NLP-preprocessing-module/pp/morph_analyzer/model.py - INFO - 119} - Ready


In [67]:
ma.predict("üniversite sınavlarına canla başla çalışıyorlardı")

['üniversite+Noun+A3sg+Pnon+Nom',
 'sınav+Noun+A3pl+P3sg+Dat',
 'can+Noun+A3sg+Pnon+Ins',
 'baş+Noun+A3sg+Pnon+Ins',
 'çalış+Verb+Pos+Prog1+A3pl+Past']

In [71]:
ma.predict("şimdi baştan başla")

['şimdi+Adverb', 'baş+Noun+A3sg+Pnon+Abl', 'başla+Verb+Pos+Imp+A2sg']

In [68]:
ma.predict("koş da topu at")

['koş+Verb+Pos+Imp+A2sg',
 'da+Conj',
 'top+Noun+A3sg+P3sg+Nom',
 'at+Verb+Pos+Imp+A2sg']

In [69]:
ma.predict("babam bana at aldı")

['baba+Noun+A3sg+P1sg+Nom',
 'ben+Pron+Pers+A1sg+Pnon+Dat',
 'at+Noun+A3sg+Pnon+Nom',
 'al+Verb+Pos+Past+A3sg']

In [75]:
ma.predict("başarabildiklerimin")

['başar+Verb+Pos^DB+Verb+Able^DB+Noun+PastPart+A3pl+P1sg+Gen']

#### Normalizer
- Removes punctuations
- Converts letters to lowercase
- Converts numbers to word form
- Removes accent marks
- Deascification
- Corrects typos using
    - pre-defined typos lexicon
    - Levenshtein distance

In [15]:
from pp.normalizer import Normalizer
n = Normalizer()

In [21]:
sentence = "Test için yâzdığîm 1 cümledir. Kasitli yazişm hatasıı ekliyoruum. Adim meliksah turker, yasim 28."
n.normalize(sentence.split(" "), normalize_via_levenshtein=True, deascify=True)

['test',
 'için',
 'yazdığım',
 'bir',
 'cümledir',
 'kasıtlı',
 'yazım',
 'hatası',
 'ekliyorum',
 'adım',
 'melikşah',
 'türker',
 'yaşım',
 'yirmisekiz']

In [9]:
sentence = "boyle sey gormedim duymadim"
n.normalize(sentence.split(" "), deascify= True)

['böyle', 'şey', 'görmedim', 'duymadım']

#### Sentence Splitter

In [4]:
from pp.sentence_splitter import SentenceSplitter
ss = SentenceSplitter()

In [14]:
ss.split_sentences('Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı." Bu harika bir haber!')

['Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı."',
 'Bu harika bir haber!']

In [13]:
ss.split_sentences('4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.')

['4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.']

#### Stopword Remover
- Static: uses pre-defined lexicon of stopwords
- Dynamic: detects stop-words regardless of language and context
    - optional: can detect and drop rare-words (frequency of 1)

In [22]:
from pp.stopword_remover import StopwordRemover
sr = StopwordRemover()

In [33]:
sentence = "acaba bugün kahvaltıda kahve yerine çay mı içsem ya da neyse süt içeyim"

In [34]:
sr.drop_stop_words(sentence.split(" "))

['bugün', 'kahvaltıda', 'kahve', 'çay', 'içsem', 'süt', 'içeyim']

In [13]:
sentence = "ben bugün aşı olacağım sonra da eve gelip telefon açacağım aşı nasıl etkiledi onu anlatırım telefon aşı olmak bu dönemde çok ama ama ama ama çok önemli"
sr.dynamically_detect_stop_words(sentence.split(" "))

2021-08-20 13:54:05,506 - root - INFO - 55} - Dynamically detected stopwords are: ama, aşı, çok, telefon, gelip


In [14]:
sr.dynamic_stop_words

['ama', 'aşı', 'çok', 'telefon', 'gelip']

In [37]:
import numpy as np

In [41]:
np.random.choice(sr.stop_words, 10)

array(['olan', 'mi', 'biz', 'birçok', 'bilhassa', 'şunları', 'olsun',
       'ediliyor', 'kendisine', 'benden'], dtype='<U11')

In [16]:
sr.unify_stop_words()

2021-08-20 13:54:05,523 - root - INFO - 62} - List of stop words is unified and updated.


In [17]:
sr.stop_words[:11]

['a',
 'acaba',
 'ama',
 'ancak',
 'arada',
 'artık',
 'asla',
 'aslında',
 'ayrıca',
 'az',
 'aşı']

#### Tokenizer

In [18]:
sentence = "Beşiktaş'tan   vapura binip Kadıköy'e geçtim. E-mail adresim turkermeliksah@hotmail.com. İnternette #boğaziçi hashtag'ini gördüm. türk hava yolları test"

In [19]:
from pp.tokenizer import Tokenizer
t = Tokenizer()
t.tokenize(sentence)

("Beşiktaş'tan",
 'vapura',
 'binip',
 "Kadıköy'e",
 'geçtim.',
 'E-mail',
 'adresim',
 'turkermeliksah@hotmail.com.',
 'İnternette',
 'boğaziçi',
 "hashtag'ini",
 'gördüm.',
 'türk',
 'hava',
 'yolları',
 'test')

In [20]:
from nltk.tokenize import NLTKWordTokenizer, TweetTokenizer, WhitespaceTokenizer, WordPunctTokenizer

In [21]:
t = TweetTokenizer()
t.tokenize(sentence)

["Beşiktaş'tan",
 'vapura',
 'binip',
 "Kadıköy'e",
 'geçtim',
 '.',
 'E-mail',
 'adresim',
 'turkermeliksah@hotmail.com',
 '.',
 'İnternette',
 '#boğaziçi',
 "hashtag'ini",
 'gördüm',
 '.',
 'türk',
 'hava',
 'yolları',
 'test']

In [22]:
from spacy.tokenizer import Tokenizer
from spacy.lang.tr import Turkish

nlp = Turkish()
tokenizer = Tokenizer(nlp.vocab)
tokens = tokenizer(sentence)

for t in tokens:
    print(t)

Beşiktaş'tan
  
vapura
binip
Kadıköy'e
geçtim.
E-mail
adresim
turkermeliksah@hotmail.com.
İnternette
#boğaziçi
hashtag'ini
gördüm.
türk
hava
yolları
test


- Tokenization MWE ile düzgün çalışmıyor. Either debug or find another better tokenizer