#### Morphological Analyzer

In [1]:
import logging
logger = logging.getLogger()
logger.setLevel(logging.INFO)

In [2]:
from pp.morph_analyzer import MorphAnalyzer
ma = MorphAnalyzer()

2021-09-14 17:10:26,598 - D:\VNGRS\Turkish-NLP-preprocessing-module\pp\morph_analyzer\model.py - INFO - 116} - Loading Pre-Trained Model
2021-09-14 17:10:28,554 - D:\VNGRS\Turkish-NLP-preprocessing-module\pp\morph_analyzer\model.py - INFO - 119} - Ready


In [3]:
ma.predict("üniversite sınavlarına canla başla çalışıyorlardı")

['üniversite+Noun+A3sg+Pnon+Nom',
 'sınav+Noun+A3pl+P3sg+Dat',
 'can+Noun+A3sg+Pnon+Ins',
 'baş+Noun+A3sg+Pnon+Ins',
 'çalış+Verb+Pos+Prog1+A3pl+Past']

In [4]:
ma.predict("şimdi baştan başla")

['şimdi+Adverb', 'baş+Noun+A3sg+Pnon+Abl', 'başla+Verb+Pos+Imp+A2sg']

In [5]:
ma.predict("koş da topu at")

['koş+Verb+Pos+Imp+A2sg',
 'da+Conj',
 'top+Noun+A3sg+P3sg+Nom',
 'at+Verb+Pos+Imp+A2sg']

In [6]:
ma.predict("babam bana at aldı")

['baba+Noun+A3sg+P1sg+Nom',
 'ben+Pron+Pers+A1sg+Pnon+Dat',
 'at+Noun+A3sg+Pnon+Nom',
 'al+Verb+Pos+Past+A3sg']

In [7]:
ma.predict("başarabildiklerimin")

['başar+Verb+Pos^DB+Verb+Able^DB+Noun+PastPart+A3pl+P1sg+Gen']

#### Named Entity Recognizer

In [8]:
#import os
#os.environ['TF_XLA_FLAGS'] = '--tf_xla_enable_xla_devices'
from pp.named_entitiy_recognizer import NamedEntityRecognizer
ner = NamedEntityRecognizer()

2021-09-14 17:10:30,766 - tensorflow - DEBUG - 36} - Falling back to TensorFlow client; we recommended you install the Cloud TPU client directly with pip install cloud-tpu-client.
2021-09-14 17:10:34,348 - tensorflow - DEBUG - 411} - Layer gru will use cuDNN kernel when run on GPU.
2021-09-14 17:10:34,352 - tensorflow - DEBUG - 411} - Layer gru will use cuDNN kernel when run on GPU.
2021-09-14 17:10:34,356 - tensorflow - DEBUG - 411} - Layer gru will use cuDNN kernel when run on GPU.
2021-09-14 17:10:34,640 - tensorflow - DEBUG - 411} - Layer gru_1 will use cuDNN kernel when run on GPU.
2021-09-14 17:10:34,643 - tensorflow - DEBUG - 411} - Layer gru_1 will use cuDNN kernel when run on GPU.
2021-09-14 17:10:34,647 - tensorflow - DEBUG - 411} - Layer gru_1 will use cuDNN kernel when run on GPU.
2021-09-14 17:10:34,900 - tensorflow - DEBUG - 411} - Layer gru_2 will use cuDNN kernel when run on GPU.
2021-09-14 17:10:34,904 - tensorflow - DEBUG - 411} - Layer gru_2 will use cuDNN kernel whe

In [9]:
ner.predict("Benim adım Melikşah, 28 yaşındayım, İstanbul'da ikamet ediyorum ve VNGRS AI Takımı'nda Aydın ile birlikte çalışıyorum.")

[('Benim', 'O'),
 ('adım', 'O'),
 ('Melikşah', 'PER'),
 (',', 'O'),
 ('28', 'O'),
 ('yaşındayım', 'O'),
 (',', 'O'),
 ('İstanbul', 'LOC'),
 ("'", 'O'),
 ('da', 'O'),
 ('ikamet', 'O'),
 ('ediyorum', 'O'),
 ('ve', 'O'),
 ('VNGRS', 'ORG'),
 ('AI', 'ORG'),
 ('Takımı', 'ORG'),
 ("'", 'O'),
 ('nda', 'O'),
 ('Aydın', 'PER'),
 ('ile', 'O'),
 ('birlikte', 'O'),
 ('çalışıyorum', 'O'),
 ('.', 'O')]

In [10]:
ner.predict("Cumhurbaşkanı Ahmet Necdet Sezer'in açıklamalarına göre Ankara'daki TBMM 3 gün daha tatil kalacak")

[('Cumhurbaşkanı', 'O'),
 ('Ahmet', 'PER'),
 ('Necdet', 'PER'),
 ('Sezer', 'PER'),
 ("'", 'O'),
 ('in', 'O'),
 ('açıklamalarına', 'O'),
 ('göre', 'O'),
 ('Ankara', 'LOC'),
 ("'", 'O'),
 ('daki', 'O'),
 ('TBMM', 'ORG'),
 ('3', 'O'),
 ('gün', 'O'),
 ('daha', 'O'),
 ('tatil', 'O'),
 ('kalacak', 'O')]

In [11]:
ner.predict("Meryem Beşer ile birlikte önce Bursa'ya oradan da İzmir'e gittik, haftasonunu Foça'da geçirdik.")

[('Meryem', 'PER'),
 ('Beşer', 'PER'),
 ('ile', 'O'),
 ('birlikte', 'O'),
 ('önce', 'O'),
 ('Bursa', 'LOC'),
 ("'", 'O'),
 ('ya', 'O'),
 ('oradan', 'O'),
 ('da', 'O'),
 ('İzmir', 'LOC'),
 ("'", 'O'),
 ('e', 'O'),
 ('gittik', 'O'),
 (',', 'O'),
 ('haftasonunu', 'O'),
 ('Foça', 'LOC'),
 ("'", 'O'),
 ('da', 'O'),
 ('geçirdik', 'O'),
 ('.', 'O')]

#### Normalizer
- Removes punctuations
- Converts letters to lowercase
- Converts numbers to word form
- Removes accent marks
- Deascification
- Corrects typos using:
    - pre-defined typos lexicon
    - Levenshtein distance
    - morphological analysis

In [12]:
from pp.normalizer import Normalizer
n = Normalizer()

2021-09-14 17:11:48,899 - D:\VNGRS\Turkish-NLP-preprocessing-module\pp\morph_analyzer\model.py - INFO - 116} - Loading Pre-Trained Model
2021-09-14 17:11:50,467 - D:\VNGRS\Turkish-NLP-preprocessing-module\pp\morph_analyzer\model.py - INFO - 119} - Ready


In [13]:
sentence = "Test için yâzdığîm 1 cümledir. Kasitli yazişm hatasıı ekliyoruum. Adim meliksah turker, yasim 28."
n.normalize(sentence.split(" "), normalize_via_levenshtein=True, deascify=True)

KeyboardInterrupt: 

In [None]:
sentence = "boyle sey gormedim duymadim"
n.normalize(sentence.split(" "), deascify= True)

#### Sentence Splitter

In [None]:
from pp.sentence_splitter import SentenceSplitter
ss = SentenceSplitter()

In [None]:
ss.split_sentences('Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı." Bu harika bir haber!')

In [None]:
ss.split_sentences('4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.')

#### Stopword Remover
- Static: uses pre-defined lexicon of stopwords
- Dynamic: detects stop-words regardless of language and context
    - optional: can detect and drop rare-words (frequency of 1)

In [None]:
from pp.stopword_remover import StopwordRemover
sr = StopwordRemover()

In [None]:
sentence = "acaba bugün kahvaltıda kahve yerine çay mı içsem ya da neyse süt içeyim"

In [None]:
sr.drop_stop_words(sentence.split(" "))

In [None]:
sentence = "ben bugün aşı olacağım sonra da eve gelip telefon açacağım aşı nasıl etkiledi onu anlatırım telefon aşı olmak bu dönemde çok ama ama ama ama çok önemli"
sr.dynamically_detect_stop_words(sentence.split(" "))

In [None]:
sr.dynamic_stop_words

In [None]:
import numpy as np

In [None]:
np.random.choice(sr.stop_words, 10)

In [None]:
sr.unify_stop_words()

In [None]:
sr.stop_words[:11]

#### Tokenizer

In [None]:
sentence = "Beşiktaş'tan   vapura binip Kadıköy'e geçtim. E-mail adresim turkermeliksah@hotmail.com. İnternette #boğaziçi hashtag'ini gördüm. türk hava yolları test"

In [None]:
from pp.tokenizer import Tokenizer
t = Tokenizer()
t.tokenize(sentence)

In [None]:
from nltk.tokenize import NLTKWordTokenizer, TweetTokenizer, WhitespaceTokenizer, WordPunctTokenizer

In [None]:
t = TweetTokenizer()
t.tokenize(sentence)