#### Morphological Analyzer

In [2]:
import logging
logger = logging.getLogger()
logger.setLevel(logging.INFO)

In [3]:
from pp.morph_analyzer import MorphAnalyzer
ma = MorphAnalyzer()

[dynet] random seed: 1830085866
[dynet] allocating memory: 512MB
[dynet] memory allocation done.


2021-09-07 22:19:45,407 - /Users/meliksahturker/Desktop/Turkish-NLP-preprocessing-module/pp/morph_analyzer/model.py - INFO - 116} - Loading Pre-Trained Model
2021-09-07 22:19:46,407 - /Users/meliksahturker/Desktop/Turkish-NLP-preprocessing-module/pp/morph_analyzer/model.py - INFO - 119} - Ready


In [4]:
ma.predict("üniversite sınavlarına canla başla çalışıyorlardı")

['üniversite+Noun+A3sg+Pnon+Nom',
 'sınav+Noun+A3pl+P3sg+Dat',
 'can+Noun+A3sg+Pnon+Ins',
 'baş+Noun+A3sg+Pnon+Ins',
 'çalış+Verb+Pos+Prog1+A3pl+Past']

In [5]:
ma.predict("şimdi baştan başla")

['şimdi+Adverb', 'baş+Noun+A3sg+Pnon+Abl', 'başla+Verb+Pos+Imp+A2sg']

In [6]:
ma.predict("koş da topu at")

['koş+Verb+Pos+Imp+A2sg',
 'da+Conj',
 'top+Noun+A3sg+P3sg+Nom',
 'at+Verb+Pos+Imp+A2sg']

In [7]:
ma.predict("babam bana at aldı")

['baba+Noun+A3sg+P1sg+Nom',
 'ben+Pron+Pers+A1sg+Pnon+Dat',
 'at+Noun+A3sg+Pnon+Nom',
 'al+Verb+Pos+Past+A3sg']

In [8]:
ma.predict("başarabildiklerimin")

['başar+Verb+Pos^DB+Verb+Able^DB+Noun+PastPart+A3pl+P1sg+Gen']

#### Named Entity Recognizer

In [1]:
#import os
#os.environ['TF_XLA_FLAGS'] = '--tf_xla_enable_xla_devices'
from pp.named_entitiy_recognizer import NamedEntityRecognizer
ner = NamedEntityRecognizer()

In [2]:
ner.predict("Ben Melikşah, 28 yaşındayım, İstanbul'da ikamet ediyorum ve VNGRS AI Takımı'nda çalışıyorum.")

[('Ben', 'O'),
 ('Melikşah', 'PER'),
 (',', 'O'),
 ('28', 'O'),
 ('yaşındayım', 'O'),
 (',', 'O'),
 ('İstanbul', 'LOC'),
 ("'", 'O'),
 ('da', 'O'),
 ('ikamet', 'O'),
 ('ediyorum', 'O'),
 ('ve', 'O'),
 ('VNGRS', 'ORG'),
 ('AI', 'ORG'),
 ('Takımı', 'ORG'),
 ("'", 'O'),
 ('nda', 'O'),
 ('çalışıyorum', 'O'),
 ('.', 'O')]

#### Normalizer
- Removes punctuations
- Converts letters to lowercase
- Converts numbers to word form
- Removes accent marks
- Deascification
- Corrects typos using:
    - pre-defined typos lexicon
    - Levenshtein distance
    - morphological analysis

In [11]:
from pp.normalizer import Normalizer
n = Normalizer()

2021-09-07 22:20:53,256 - /Users/meliksahturker/Desktop/Turkish-NLP-preprocessing-module/pp/morph_analyzer/model.py - INFO - 116} - Loading Pre-Trained Model
2021-09-07 22:20:54,320 - /Users/meliksahturker/Desktop/Turkish-NLP-preprocessing-module/pp/morph_analyzer/model.py - INFO - 119} - Ready


In [12]:
sentence = "Test için yâzdığîm 1 cümledir. Kasitli yazişm hatasıı ekliyoruum. Adim meliksah turker, yasim 28."
n.normalize(sentence.split(" "), normalize_via_levenshtein=True, deascify=True)

['test',
 'için',
 'yazdığım',
 'bir',
 'cümledir',
 'kasıtlı',
 'yazım',
 'hatası',
 'ekliyorum',
 'adım',
 'melikşah',
 'türker',
 'yaşım',
 'yirmisekiz']

In [13]:
sentence = "boyle sey gormedim duymadim"
n.normalize(sentence.split(" "), deascify= True)

['böyle', 'şey', 'görmedim', 'duymadım']

#### Sentence Splitter

In [14]:
from pp.sentence_splitter import SentenceSplitter
ss = SentenceSplitter()

In [15]:
ss.split_sentences('Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı." Bu harika bir haber!')

['Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı."',
 'Bu harika bir haber!']

In [16]:
ss.split_sentences('4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.')

['4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.']

#### Stopword Remover
- Static: uses pre-defined lexicon of stopwords
- Dynamic: detects stop-words regardless of language and context
    - optional: can detect and drop rare-words (frequency of 1)

In [17]:
from pp.stopword_remover import StopwordRemover
sr = StopwordRemover()

In [18]:
sentence = "acaba bugün kahvaltıda kahve yerine çay mı içsem ya da neyse süt içeyim"

In [19]:
sr.drop_stop_words(sentence.split(" "))

['bugün', 'kahvaltıda', 'kahve', 'çay', 'içsem', 'süt', 'içeyim']

In [20]:
sentence = "ben bugün aşı olacağım sonra da eve gelip telefon açacağım aşı nasıl etkiledi onu anlatırım telefon aşı olmak bu dönemde çok ama ama ama ama çok önemli"
sr.dynamically_detect_stop_words(sentence.split(" "))

2021-09-07 22:21:50,917 - root - INFO - 60} - Dynamically detected stopwords are: ama, aşı, çok, telefon, gelip


In [21]:
sr.dynamic_stop_words

['ama', 'aşı', 'çok', 'telefon', 'gelip']

In [22]:
import numpy as np

In [23]:
np.random.choice(sr.stop_words, 10)

array(['bizi', 'gereği', 've', 'ettiğini', 'nerede', 'yapıyor', 'onlara',
       'bazen', 'ediliyor', 'ama'], dtype='<U11')

In [24]:
sr.unify_stop_words()

2021-09-07 22:21:50,935 - root - INFO - 67} - List of stop words is unified and updated.


In [25]:
sr.stop_words[:11]

['a',
 'acaba',
 'ama',
 'ancak',
 'arada',
 'artık',
 'asla',
 'aslında',
 'ayrıca',
 'az',
 'aşı']

#### Tokenizer

In [26]:
sentence = "Beşiktaş'tan   vapura binip Kadıköy'e geçtim. E-mail adresim turkermeliksah@hotmail.com. İnternette #boğaziçi hashtag'ini gördüm. türk hava yolları test"

In [27]:
from pp.tokenizer import Tokenizer
t = Tokenizer()
t.tokenize(sentence)

("Beşiktaş'tan",
 'vapura',
 'binip',
 "Kadıköy'e",
 'geçtim.',
 'E-mail',
 'adresim',
 'turkermeliksah@hotmail.com.',
 'İnternette',
 'boğaziçi',
 "hashtag'ini",
 'gördüm.',
 'türk',
 'hava',
 'yolları',
 'test')

In [28]:
from nltk.tokenize import NLTKWordTokenizer, TweetTokenizer, WhitespaceTokenizer, WordPunctTokenizer

In [29]:
t = TweetTokenizer()
t.tokenize(sentence)

["Beşiktaş'tan",
 'vapura',
 'binip',
 "Kadıköy'e",
 'geçtim',
 '.',
 'E-mail',
 'adresim',
 'turkermeliksah@hotmail.com',
 '.',
 'İnternette',
 '#boğaziçi',
 "hashtag'ini",
 'gördüm',
 '.',
 'türk',
 'hava',
 'yolları',
 'test']