#### Morphological Analyzer

In [1]:
from vnlp import StemmerAnalyzer
stemmer_analyzer = StemmerAnalyzer()

In [2]:
stemmer_analyzer.predict("Üniversite sınavlarına canla başla çalışıyorlardı.")

['üniversite+Noun+A3sg+Pnon+Nom',
 'sınav+Noun+A3pl+P3sg+Dat',
 'can+Noun+A3sg+Pnon+Ins',
 'baş+Noun+A3sg+Pnon+Ins',
 'çalış+Verb+Pos+Prog1+A3pl+Past',
 '.+Punc']

In [3]:
stemmer_analyzer.predict("Şimdi baştan başla.")

['şimdi+Adverb', 'baş+Noun+A3sg+Pnon+Abl', 'başla+Verb+Pos+Imp+A2sg', '.+Punc']

#### Named Entity Recognizer

In [4]:
from vnlp import NamedEntityRecognizer
ner = NamedEntityRecognizer()

In [5]:
ner.predict("Benim adım Melikşah, 29 yaşındayım, İstanbul'da ikamet ediyorum ve VNGRS AI Takımı'nda Aydın ile birlikte çalışıyorum.")

[('Benim', 'O'),
 ('adım', 'O'),
 ('Melikşah', 'PER'),
 (',', 'O'),
 ('29', 'O'),
 ('yaşındayım', 'O'),
 (',', 'O'),
 ('İstanbul', 'LOC'),
 ("'", 'O'),
 ('da', 'O'),
 ('ikamet', 'O'),
 ('ediyorum', 'O'),
 ('ve', 'O'),
 ('VNGRS', 'ORG'),
 ('AI', 'ORG'),
 ('Takımı', 'ORG'),
 ("'", 'O'),
 ('nda', 'O'),
 ('Aydın', 'PER'),
 ('ile', 'O'),
 ('birlikte', 'O'),
 ('çalışıyorum', 'O'),
 ('.', 'O')]

#### Dependency Parser

In [6]:
from vnlp import DependencyParser
dep_parser = DependencyParser()

In [7]:
dep_parser.predict("Maltepe'nin turlamak için güzel bir sahil yolu, bir de Dragos'u vardır.")

[(1, "Maltepe'nin", 2, 'nmod'),
 (2, 'turlamak', 5, 'obl'),
 (3, 'için', 2, 'case'),
 (4, 'güzel', 5, 'amod'),
 (5, 'bir', 7, 'nmod'),
 (6, 'sahil', 7, 'nmod'),
 (7, 'yolu', 9, 'nsubj'),
 (8, ',', 7, 'punct'),
 (9, 'bir', 12, 'nmod'),
 (10, 'de', 9, 'flat'),
 (11, "Dragos'u", 9, 'flat'),
 (12, 'vardır', 0, 'root'),
 (13, '.', 12, 'punct')]

In [8]:
from spacy import displacy

In [9]:
res = dep_parser.predict("Oğuz'un kırmızı bir Astra'sı vardı.", displacy_format = True)
# Options: https://spacy.io/api/top-level#displacy_options
opts = {'distance': 100,
        'word_spacing': 45,
        'arrow_stroke': 2, # arrow body width
        'arrow_width': 10, # arrow head width
        'arrow_spacing': 12,# space between arrows
        'compact': False # square arrows
}
displacy.render(res, style="dep", options = opts, manual = True)

#### Part of Speech Tagger

In [10]:
from vnlp import PoSTagger
pos_tagger = PoSTagger()

In [11]:
pos_tagger.predict("Vapurla Beşiktaş'a geçip yürüyerek Maçka Parkı'na ulaştım.")

[('Vapurla', 'NOUN'),
 ("Beşiktaş'a", 'PROPN'),
 ('geçip', 'ADV'),
 ('yürüyerek', 'VERB'),
 ('Maçka', 'PROPN'),
 ("Parkı'na", 'NOUN'),
 ('ulaştım', 'VERB'),
 ('.', 'PUNCT')]

#### Sentiment Analysis

In [12]:
from vnlp import SentimentAnalyzer
sentiment_analyzer = SentimentAnalyzer()

In [13]:
sentiment_analyzer.predict_proba("Sipariş geldiğinde biz karnımızı çoktan atıştırmalıklarla doyurmuştuk.")

0.007859406

In [14]:
sentiment_analyzer.predict("Servis daha iyi olabilirdi ama lezzet ve hız geçer not aldı.")

1

In [15]:
sentiment_analyzer.predict_proba("Yemekleriniz o kadar şahaneydi ki artık uzun bir süre meksika yemeği yemeyi düşünmüyorum.")

0.4482034

#### Normalizer
- Spelling/Typo correction
- Converts numbers to word form
- Deascification
- Lowercasing
- Punctuation removal
- Accent mark removal

In [16]:
from vnlp import Normalizer
normalizer = Normalizer()

In [17]:
normalizer.correct_typos("kassıtlı yaezım hatasssı ekliyorumm".split())

['kasıtlı', 'yazım', 'hatası', 'ekliyorum']

In [18]:
normalizer.convert_numbers_to_words("sabah 2 yumurta yedim ve tartıldığımda 1,15 kilogram aldığımı gördüm".split())

['sabah',
 'iki',
 'yumurta',
 'yedim',
 've',
 'tartıldığımda',
 'bir',
 'virgül',
 'on',
 'beş',
 'kilogram',
 'aldığımı',
 'gördüm']

In [19]:
normalizer.deasciify("boyle sey gormedim duymadim".split())

['böyle', 'şey', 'görmedim', 'duymadım']

In [20]:
normalizer.lower_case("Test karakterleri: İIĞÜÖŞÇ")

'test karakterleri: iığüöşç'

In [21]:
normalizer.remove_punctuations("noktalamalı test cümlesidir...")

'noktalamalı test cümlesidir'

In [22]:
normalizer.remove_accent_marks("merhâbâ gûzel yîlkî atî")

'merhaba guzel yılkı atı'

#### Sentence Splitter

In [23]:
from vnlp import SentenceSplitter
sentence_splitter = SentenceSplitter()

In [24]:
sentence_splitter.split_sentences('Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı." Bu harika bir haberdi!')

['Av. Meryem Beşer, 3.5 yıldır süren dava ile ilgili dedi ki, "Duruşma bitti, dava lehimize sonuçlandı."',
 'Bu harika bir haberdi!']

In [25]:
sentence_splitter.split_sentences('4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.')

['4. Murat, diğer yazım şekli ile IV. Murat, alkollü içecekleri halka yasaklamıştı.']

#### Stopword Remover
- Static: uses pre-defined lexicon of stopwords
- Dynamic: detects stop-words regardless of language and context
    - optional: can detect and drop rare-words

In [26]:
from vnlp import StopwordRemover
stopword_remover = StopwordRemover()

In [27]:
sentence = "acaba bugün kahvaltıda kahve yerine çay mı içsem ya da neyse süt içeyim"
stopword_remover.drop_stop_words(sentence.split())

['bugün', 'kahvaltıda', 'kahve', 'çay', 'içsem', 'süt', 'içeyim']

In [28]:
sentence = "ben bugün gidip aşı olacağım sonra da eve gelip telefon açacağım aşı nasıl etkiledi eve gelip anlatırım aşı olmak bu dönemde çok ama ama ama ama çok önemli"
dynamically_detected_stop_words = stopword_remover.dynamically_detect_stop_words(sentence.split())
print(dynamically_detected_stop_words)

['ama', 'aşı', 'gelip', 'eve']


In [29]:
stopword_remover.add_to_stop_words(dynamically_detected_stop_words)

In [30]:
stopword_remover.drop_stop_words("aşı olmak önemli demiş miydim".split())

['önemli', 'demiş', 'miydim']

#### Turkish Embeddings

In [31]:
from gensim.models import Word2Vec, FastText

In [32]:
# Word2Vec
model = Word2Vec.load('vnlp/turkish_word_embeddings/Word2Vec_large.model')
model.wv.most_similar('gandalf', topn = 20)

[('saruman', 0.7153398394584656),
 ('geralt', 0.6540620923042297),
 ('aragorn', 0.6260802149772644),
 ('thorin', 0.613937258720398),
 ('orklar', 0.5860564112663269),
 ('gollum', 0.5781465768814087),
 ('tyrion', 0.5738440155982971),
 ('sauron', 0.5715942978858948),
 ('frodo', 0.5662911534309387),
 ('lancelot', 0.5607389211654663),
 ('elfler', 0.5591437816619873),
 ('bilbo', 0.5585811138153076),
 ('mordor', 0.5550921559333801),
 ('baggins', 0.5519346594810486),
 ('belgarath', 0.5489327311515808),
 ('titanlar', 0.5449507832527161),
 ('bran', 0.5402933359146118),
 ('asgard', 0.5372824668884277),
 ('thor', 0.5362329483032227),
 ('uther', 0.5343433618545532)]

In [33]:
# FastText
model = Word2Vec.load('vnlp/turkish_word_embeddings/FastText_large.model')
model.wv.most_similar('yamaçlardan', topn = 20)

[('kayalardan', 0.8831543326377869),
 ('tepelerden', 0.8753724694252014),
 ('kayalıklardan', 0.8729402422904968),
 ('ormanlardan', 0.8672202229499817),
 ('dağlardan', 0.8540675044059753),
 ('otlardan', 0.8288434147834778),
 ('kısımlardan', 0.8267730474472046),
 ('ağaçlardan', 0.8248404860496521),
 ('amaçlardan', 0.8242634534835815),
 ('bloklardan', 0.820052444934845),
 ('adalardan', 0.8200141191482544),
 ('sahalardan', 0.8146253824234009),
 ('dallardan', 0.8107085824012756),
 ('kuyulardan', 0.80833500623703),
 ('oralardan', 0.8079319000244141),
 ('tünellerden', 0.8079005479812622),
 ('sulardan', 0.8050841689109802),
 ('köşelerden', 0.8049306869506836),
 ('tarlalardan', 0.8024468421936035),
 ('pisliklerden', 0.800993025302887)]