#### Morphological Analyzer

In [1]:
import logging
logger = logging.getLogger()
logger.setLevel(logging.INFO)

In [2]:
from pp.morph_analyzer import MorphAnalyzer
ma = MorphAnalyzer()

[dynet] random seed: 2968441474
[dynet] allocating memory: 512MB
[dynet] memory allocation done.


2021-08-20 13:50:07,812 - /Users/meliksahturker/Desktop/Turkish-NLP-preprocessing-module/pp/morph_analyzer/model.py - INFO - 116} - Loading Pre-Trained Model
2021-08-20 13:50:08,877 - /Users/meliksahturker/Desktop/Turkish-NLP-preprocessing-module/pp/morph_analyzer/model.py - INFO - 119} - Ready


In [3]:
ma.predict("Yarın ahmet'in doğum gününü kutlamayı unutma ve kutla")

['yarın+Noun+A3sg+Pnon+Nom',
 'ahmet+Noun+Prop+A3sg+Pnon+Gen',
 'doğum+Noun+A3sg+Pnon+Nom',
 'gün+Noun+A3sg+P3sg+Acc',
 'kutla+Verb+Pos^DB+Noun+Inf2+A3sg+Pnon+Acc',
 'unut+Verb+Pos^DB+Noun+Inf2+A3sg+Pnon+Nom',
 've+Conj',
 'kutla+Verb+Pos+Imp+A2sg']

In [4]:
ma.predict("Kutla oynadık")

['kut+Noun+A3sg+Pnon+Ins', 'oyna+Verb+Pos+Past+A1pl']

In [5]:
ma.predict("Kutla ahmet'in doğum gününü")

['kutla+Verb+Pos+Imp+A2sg',
 'ahmet+Noun+Prop+A3sg+Pnon+Gen',
 'doğum+Noun+A3sg+Pnon+Nom',
 'gün+Noun+A3sg+P3sg+Acc']

In [6]:
ma.predict("gel de oyun oynayalım")

['gel+Verb+Pos+Imp+A2sg',
 'de+Conj',
 'oyun+Noun+A3sg+Pnon+Nom',
 'oyna+Verb+Pos+Opt+A1pl']

#### Normalizer
- Removes punctuations
- Converts letters to lowercase
- Converts numbers to word form
- Removes accent marks
- Deascification
- Corrects typos using
    - pre-defined typos lexicon
    - Levenshtein distance

In [7]:
from pp.normalizer import Normalizer
n = Normalizer()

In [8]:
sentence = "Test için yâzdığîm 1 cümledir. Yazim hatasıı ekliyorum. benim adim meliksah turker."
n.normalize(sentence.split(" "), normalize_via_levenshtein=True, deascify=True)

['test',
 'için',
 'yazdığım',
 'bir',
 'cümledir',
 'yazım',
 'hatası',
 'ekliyorum',
 'benim',
 'adım',
 'melikşah',
 'türker']

In [9]:
sentence = "boyle sey gormedim duymadim"
n.normalize(sentence.split(" "), deascify= True)

['böyle', 'şey', 'görmedim', 'duymadım']

#### Sentence Splitter

In [10]:
from pp.sentence_splitter import SentenceSplitter
ss = SentenceSplitter()

In [11]:
ss.split_sentences("Kedimi çok seviyorum. Sevgilim Av. Meryem ile 5.5 yıldır birlikteyiz.")

['Kedimi çok seviyorum.', 'Sevgilim Av. Meryem ile 5.5 yıldır birlikteyiz.']

#### Stopword Remover
- Static: uses pre-defined lexicon of stopwords
- Dynamic: detects stop-words regardless of language and context
    - optional: can detect and drop rare-words (frequency of 1)

In [12]:
from pp.stopword_remover import StopwordRemover
sr = StopwordRemover()

In [13]:
sentence = "ben bugün aşı olacağım sonra da eve gelip telefon açacağım aşı nasıl etkiledi onu anlatırım telefon aşı olmak bu dönemde çok ama ama ama ama çok önemli"
sr.dynamically_detect_stop_words(sentence.split(" "))

2021-08-20 13:50:37,881 - root - INFO - 55} - Dynamically detected stopwords are: ama, aşı, çok, telefon, gelip


In [14]:
sr.dynamic_stop_words

['ama', 'aşı', 'çok', 'telefon', 'gelip']

In [15]:
sr.stop_words[:11]

['a',
 'acaba',
 'ama',
 'ancak',
 'arada',
 'artık',
 'asla',
 'aslında',
 'ayrıca',
 'az',
 'bana']

In [16]:
sr.unify_stop_words()

2021-08-20 13:50:37,898 - root - INFO - 62} - List of stop words is unified and updated.


In [17]:
sr.stop_words[:11]

['a',
 'acaba',
 'ama',
 'ancak',
 'arada',
 'artık',
 'asla',
 'aslında',
 'ayrıca',
 'az',
 'aşı']

#### Tokenizer

In [18]:
sentence = "Beşiktaş'tan   vapura binip Kadıköy'e geçtim. E-mail adresim turkermeliksah@hotmail.com. İnternette #boğaziçi hashtag'ini gördüm. türk hava yolları test"

In [19]:
from pp.tokenizer import Tokenizer
t = Tokenizer()
t.tokenize(sentence)

("Beşiktaş'tan",
 'vapura',
 'binip',
 "Kadıköy'e",
 'geçtim.',
 'E-mail',
 'adresim',
 'turkermeliksah@hotmail.com.',
 'İnternette',
 'boğaziçi',
 "hashtag'ini",
 'gördüm.',
 'türk',
 'hava',
 'yolları',
 'test')

In [20]:
from nltk.tokenize import NLTKWordTokenizer, TweetTokenizer, WhitespaceTokenizer, WordPunctTokenizer

In [21]:
t = TweetTokenizer()
t.tokenize(sentence)

["Beşiktaş'tan",
 'vapura',
 'binip',
 "Kadıköy'e",
 'geçtim',
 '.',
 'E-mail',
 'adresim',
 'turkermeliksah@hotmail.com',
 '.',
 'İnternette',
 '#boğaziçi',
 "hashtag'ini",
 'gördüm',
 '.',
 'türk',
 'hava',
 'yolları',
 'test']

In [22]:
from spacy.tokenizer import Tokenizer
from spacy.lang.tr import Turkish

nlp = Turkish()
tokenizer = Tokenizer(nlp.vocab)
tokens = tokenizer(sentence)

for t in tokens:
    print(t)

Beşiktaş'tan
  
vapura
binip
Kadıköy'e
geçtim.
E-mail
adresim
turkermeliksah@hotmail.com.
İnternette
#boğaziçi
hashtag'ini
gördüm.
türk
hava
yolları
test


- Tokenization MWE ile düzgün çalışmıyor. Either debug or find another better tokenizer