#### Morphological Analyzer

In [None]:
import logging
logger = logging.getLogger()
logger.setLevel(logging.INFO)

In [None]:
from pp.morph_analyzer import MorphAnalyzer
ma = MorphAnalyzer()

In [None]:
ma.predict("üniversite sınavlarına canla başla çalışıyorlardı")

In [None]:
ma.predict("şimdi baştan başla")

In [None]:
ma.predict("koş da topu at")

In [None]:
ma.predict("babam bana at aldı")

In [None]:
ma.predict("başarabildiklerimin")

#### Named Entity Recognizer

In [None]:
#import os
#os.environ['TF_XLA_FLAGS'] = '--tf_xla_enable_xla_devices'
from pp.named_entitiy_recognizer import NamedEntityRecognizer
ner = NamedEntityRecognizer()

In [None]:
ner.predict("Benim adım Melikşah, 28 yaşındayım, İstanbul'da ikamet ediyorum ve VNGRS AI Takımı'nda Aydın ile birlikte çalışıyorum.")

In [None]:
ner.predict("Cumhurbaşkanı Ahmet Necdet Sezer'in açıklamalarına göre Ankara'daki TBMM 3 gün daha tatil kalacak")

In [None]:
ner.predict("Meryem Beşer ile birlikte önce Bursa'ya oradan da İzmir'e gittik, haftasonunu Foça'da geçirdik.")

#### Normalizer
- Removes punctuations
- Converts letters to lowercase
- Converts numbers to word form
- Removes accent marks
- Deascification
- Corrects typos using:
    - pre-defined typos lexicon
    - Levenshtein distance
    - morphological analysis

In [None]:
from pp.normalizer import Normalizer
n = Normalizer()

In [None]:
sentence = "Test için yâzdığîm 1 cümledir. Kasitli yazişm hatasıı ekliyoruum. Adim meliksah turker, yasim 28."
n.normalize(sentence.split(" "), normalize_via_levenshtein=True, deascify=True)

In [None]:
sentence = "boyle sey gormedim duymadim"
n.normalize(sentence.split(" "), deascify= True)

#### Sentence Splitter

In [None]:
from pp.sentence_splitter import SentenceSplitter
ss = SentenceSplitter()

In [None]:
ss.split_sentences('Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı." Bu harika bir haber!')

In [None]:
ss.split_sentences('4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.')

#### Stopword Remover
- Static: uses pre-defined lexicon of stopwords
- Dynamic: detects stop-words regardless of language and context
    - optional: can detect and drop rare-words (frequency of 1)

In [None]:
from pp.stopword_remover import StopwordRemover
sr = StopwordRemover()

In [None]:
sentence = "acaba bugün kahvaltıda kahve yerine çay mı içsem ya da neyse süt içeyim"

In [None]:
sr.drop_stop_words(sentence.split(" "))

In [None]:
sentence = "ben bugün aşı olacağım sonra da eve gelip telefon açacağım aşı nasıl etkiledi onu anlatırım telefon aşı olmak bu dönemde çok ama ama ama ama çok önemli"
sr.dynamically_detect_stop_words(sentence.split(" "))

In [None]:
sr.dynamic_stop_words

In [None]:
import numpy as np

In [None]:
np.random.choice(sr.stop_words, 10)

In [None]:
sr.unify_stop_words()

In [None]:
sr.stop_words[:11]

#### Tokenizer

In [None]:
sentence = "Beşiktaş'tan   vapura binip Kadıköy'e geçtim. E-mail adresim turkermeliksah@hotmail.com. İnternette #boğaziçi hashtag'ini gördüm. türk hava yolları test"

In [None]:
from pp.tokenizer import Tokenizer
t = Tokenizer()
t.tokenize(sentence)

In [None]:
from nltk.tokenize import NLTKWordTokenizer, TweetTokenizer, WhitespaceTokenizer, WordPunctTokenizer

In [None]:
t = TweetTokenizer()
t.tokenize(sentence)