#### Morphological Analyzer

In [1]:
from pp.stemmer_morph_analyzer import StemmerAnalyzer
sa = StemmerAnalyzer()

In [2]:
sa.predict("üniversite sınavlarına canla başla çalışıyorlardı")

['üniversite+Noun+A3sg+Pnon+Nom',
 'sınav+Noun+A3pl+P3sg+Dat',
 'can+Noun+A3sg+Pnon+Ins',
 'baş+Noun+A3sg+Pnon+Ins',
 'çalış+Verb+Pos+Prog1+A3pl+Past']

In [3]:
sa.predict("şimdi baştan başla")

['şimdi+Adverb', 'baş+Noun+A3sg+Pnon+Abl', 'başla+Verb+Pres+A3sg']

In [4]:
sa.predict("babam bana at aldı")

['baba+Noun+A3sg+P1sg+Nom',
 'ben+Pron+Pers+A1sg+Pnon+Dat',
 'at+Noun+A3sg+Pnon+Nom',
 'al+Verb+Pos+Past+A3sg']

In [5]:
sa.predict("Eser miktardaki geçici bir güvenlik için temel özgürlüklerinden vazgeçenler, ne özgürlüğü ne de güvenliği hak ederler. Benjamin Franklin")

['eser+Noun+A3sg+Pnon+Nom',
 'miktar+Noun+A3sg+Pnon+Loc^DB+Adj+Rel',
 'geçici+Adj',
 'bir+Det',
 'güvenlik+Noun+A3sg+Pnon+Nom',
 'için+Postp+PCNom',
 'temel+Noun+A3sg+Pnon+Nom',
 'özgür+Adj^DB+Noun+Ness+A3sg+P3pl+Abl',
 'vazgeç+Verb+Pos^DB+Adj+PresPart^DB+Noun+Zero+A3pl+Pnon+Nom',
 ',+Punc',
 'ne+Adj',
 'özgür+Adj^DB+Noun+Ness+A3sg+P3sg+Nom',
 'ne+Adj',
 'de+Conj',
 'güvenlik+Noun+A3sg+P3sg+Nom',
 'hak+Noun+A3sg+Pnon+Nom',
 'et+Verb+Pos+Aor+A3pl',
 '.+Punc',
 'benjamin+Noun+A3sg+Pnon+Nom',
 'franklin+Noun+A3sg+Pnon+Nom']

In [6]:
sa.predict("Ahmet o yoldan girmesen daha iyi olur")

['Ahmet+Noun+Prop+A3sg+Pnon+Nom',
 'o+Det',
 'yol+Noun+A3sg+Pnon+Abl',
 'gir+Verb+Neg+Desr+A2sg',
 'daha+Adverb',
 'iyi+Adj',
 'ol+Verb+Pos+Aor+A3sg']

#### Named Entity Recognizer

In [7]:
from pp.named_entitiy_recognizer import NamedEntityRecognizer
ner = NamedEntityRecognizer()

In [8]:
ner.predict("Benim adım Melikşah, 28 yaşındayım, İstanbul'da ikamet ediyorum ve VNGRS AI Takımı'nda Aydın ile birlikte çalışıyorum.")

[('Benim', 'O'),
 ('adım', 'O'),
 ('Melikşah', 'PER'),
 (',', 'O'),
 ('28', 'O'),
 ('yaşındayım', 'O'),
 (',', 'O'),
 ('İstanbul', 'LOC'),
 ("'", 'O'),
 ('da', 'O'),
 ('ikamet', 'O'),
 ('ediyorum', 'O'),
 ('ve', 'O'),
 ('VNGRS', 'ORG'),
 ('AI', 'ORG'),
 ('Takımı', 'ORG'),
 ("'", 'O'),
 ('nda', 'O'),
 ('Aydın', 'PER'),
 ('ile', 'O'),
 ('birlikte', 'O'),
 ('çalışıyorum', 'O'),
 ('.', 'O')]

In [9]:
ner.predict("Cumhurbaşkanı Ahmet Necdet Sezer'in açıklamalarına göre Ankara'daki TBMM 3 gün daha tatil kalacak")

[('Cumhurbaşkanı', 'O'),
 ('Ahmet', 'PER'),
 ('Necdet', 'PER'),
 ('Sezer', 'PER'),
 ("'", 'O'),
 ('in', 'O'),
 ('açıklamalarına', 'O'),
 ('göre', 'O'),
 ('Ankara', 'LOC'),
 ("'", 'O'),
 ('daki', 'O'),
 ('TBMM', 'ORG'),
 ('3', 'O'),
 ('gün', 'O'),
 ('daha', 'O'),
 ('tatil', 'O'),
 ('kalacak', 'O')]

In [10]:
ner.predict("Meryem Beşer ile birlikte önce Bursa'ya oradan da İzmir'e gittik, haftasonunu Foça'da geçirdik.")

[('Meryem', 'PER'),
 ('Beşer', 'PER'),
 ('ile', 'O'),
 ('birlikte', 'O'),
 ('önce', 'O'),
 ('Bursa', 'LOC'),
 ("'", 'O'),
 ('ya', 'O'),
 ('oradan', 'O'),
 ('da', 'O'),
 ('İzmir', 'LOC'),
 ("'", 'O'),
 ('e', 'O'),
 ('gittik', 'O'),
 (',', 'O'),
 ('haftasonunu', 'O'),
 ('Foça', 'LOC'),
 ("'", 'O'),
 ('da', 'O'),
 ('geçirdik', 'O'),
 ('.', 'O')]

#### Normalizer
- Removes punctuations
- Converts numbers to word form
- Removes accent marks
- Deascification
- Corrects typos using:
    - pre-defined typos lexicon
    - Levenshtein distance
    - morphological analysis

In [1]:
from pp.normalizer import Normalizer
n = Normalizer()

In [2]:
n.remove_punctuations("noktalamalı test cümlesidir...")

'noktalamalı test cümlesidir'

In [3]:
n.deasciify("boyle sey gormedim duymadim".split())

['böyle', 'şey', 'görmedim', 'duymadım']

In [18]:
n.convert_number_to_word("sabah 3 yumurta yedim ve tartıldığımda 1.15 kilogram aldığımı gördüm".split())

['sabah',
 'üç',
 'yumurta',
 'yedim',
 've',
 'tartıldığımda',
 'bir',
 'virgül',
 'on',
 'beş',
 'kilogram',
 'aldığımı',
 'gördüm']

In [None]:
n.remove_accent_marks("merhâbâ gûzel yîlkî atî")

In [None]:
n.correct_typos("kasssıtllı yazişm hatasıı".split())

In [None]:
n.correct_typos("bakarıekn".split())

#### Sentence Splitter

In [18]:
from pp.sentence_splitter import SentenceSplitter
ss = SentenceSplitter()

In [19]:
ss.split_sentences('Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı." Bu harika bir haber!')

['Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı."',
 'Bu harika bir haber!']

In [20]:
ss.split_sentences('4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.')

['4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.']

#### Stopword Remover
- Static: uses pre-defined lexicon of stopwords
- Dynamic: detects stop-words regardless of language and context
    - optional: can detect and drop rare-words (frequency of 1)

In [21]:
from pp.stopword_remover import StopwordRemover
sr = StopwordRemover()

In [22]:
sentence = "acaba bugün kahvaltıda kahve yerine çay mı içsem ya da neyse süt içeyim"
sr.drop_stop_words(sentence.split(" "))

['bugün', 'kahvaltıda', 'kahve', 'çay', 'içsem', 'süt', 'içeyim']

In [23]:
sentence = "ben bugün gidip aşı olacağım sonra da eve gelip telefon açacağım aşı nasıl etkiledi eve gelip anlatırım aşı olmak bu dönemde çok ama ama ama ama çok önemli"
sr.dynamically_detect_stop_words(sentence.split())

In [24]:
sr.dynamic_stop_words

['ama', 'aşı', 'gelip', 'eve']

In [25]:
sr.unify_stop_words()

In [26]:
sr.drop_stop_words("aşı olmak önemli demiş miydim".split())

['önemli', 'demiş', 'miydim']

#### Turkish Embeddings

In [27]:
from gensim.models import Word2Vec, FastText

In [28]:
# Word2Vec
model = Word2Vec.load('pp/turkish_embeddings/Word2Vec.model')
model.wv.most_similar('gandalf', topn = 20)

[('saruman', 0.7291593551635742),
 ('thorin', 0.6473978161811829),
 ('aragorn', 0.6401687264442444),
 ('isengard', 0.6123237013816833),
 ('orklar', 0.59786057472229),
 ('gollum', 0.5905635952949524),
 ('baggins', 0.5837421417236328),
 ('frodo', 0.5819021463394165),
 ('belgarath', 0.5811135172843933),
 ('sauron', 0.5763844847679138),
 ('elfler', 0.5758092999458313),
 ('bilbo', 0.5729959607124329),
 ('tyrion', 0.5728499889373779),
 ('rohan', 0.556411862373352),
 ('lancelot', 0.5517111420631409),
 ('mordor', 0.550175130367279),
 ('bran', 0.5482109189033508),
 ('goblin', 0.5393625497817993),
 ('thor', 0.5280926823616028),
 ('vader', 0.5258742570877075)]

In [29]:
# FastText
model = Word2Vec.load('pp/turkish_embeddings/FastText.model')
model.wv.most_similar('yamaçlardan', topn = 20)

[('kayalardan', 0.8601457476615906),
 ('kayalıklardan', 0.8567330837249756),
 ('tepelerden', 0.8423191905021667),
 ('ormanlardan', 0.8362939357757568),
 ('dağlardan', 0.8140010833740234),
 ('amaçlardan', 0.810560405254364),
 ('bloklardan', 0.803180992603302),
 ('otlardan', 0.8026642203330994),
 ('kısımlardan', 0.7993910312652588),
 ('ağaçlardan', 0.7961613535881042),
 ('dallardan', 0.7949419617652893),
 ('sahalardan', 0.7865065932273865),
 ('adalardan', 0.7819225788116455),
 ('sulardan', 0.7781057953834534),
 ('taşlardan', 0.7746424078941345),
 ('kuyulardan', 0.7689613103866577),
 ('köşelerden', 0.7678262591362),
 ('tünellerden', 0.7674043774604797),
 ('atlardan', 0.7657977342605591),
 ('kanatlardan', 0.7640945911407471)]