### SadedeGel'e Hızlı Giriş

sadedegel kütüphanesinde bir çok akış `Doc` sınıfıyla başlar.

Bir metin ile `Doc` objesini çağırdığınızda

* Sentence Boundary Detection (SBD)
* Her bir cümle için word tokenization
* Cümle BERT embedding hesaplaması
* Cümle'ye ait **rouge1** score hesaplaması
    
gibi işlemler gerçekleşir.

In [24]:
from sadedegel.tokenize import Doc

text = """
Kapıyı aç Veysel Efendi! Mahmut Hoca'nın emriyle Uganda Cumhurbaşkanı'nı karşılamaya gidiyoruz.
"""

d = Doc(text)

print(d.sents)
print()
print(f"Cümle 1 - Rouge1: {d.sents[0].rouge1('recall')} (recall) {d.sents[0].rouge1('precision')} (precision)")
print()

print(f"Cümle 1 uzunluğu: {len(d.sents[0])} ")
print(d.sents[0].tokens)

[Kapıyı aç Veysel Efendi!, Mahmut Hoca'nın emriyle Uganda Cumhurbaşkanı'nı karşılamaya gidiyoruz.]

Cümle 1 - Rouge1: 0.0 (recall) 0.0 (precision)

Cümle 1 uzunluğu: 6 
['Kapı', '##yı', 'aç', 'Veysel', 'Efendi', '!']


### SadedeGel Veri Kümeleri

SadedeGel ile birlikte farklı formatlarda hazır veri kümeleri gelmektedir. Bunların bazıları ham veriler iken bazıları human-annotated veri kümeleridir.

In [27]:
from sadedegel.dataset import load_raw_corpus

raw = load_raw_corpus()

d = next(raw)
d

2020-07-29 18:32:33.238 | DEBUG    | sadedegel.dataset._core:load_raw_corpus:41 - Search path /usr/local/lib/python3.7/site-packages/sadedegel/dataset/raw/*.txt


' Belki iki senedir adaylarda farklılıklar olmakla beraber her şeye rağmen Clinton’un başkan seçileceğine dair kanaatim vardı. Tabii ki bunu her defasında ifade ederken “şartlarda beklenmedik gelişmeler olmaması” durumunda sözümü eklemiştim. Yine kanaatimce Trump’ın Cumhuriyetçi Parti adayı olması bir sürprizdi. Trump’ın adaylığı kimsenin beklemediği, ama Clinton’un yarıştaki şansını daha da arttıran bir hadise oldu. \xa0 Ancak şu gerçeği de unutmamak lazım; Clinton çok sevilen, çok desteklenen ya da istisnasız herkesin arkasında olmazsa olmaz diyerek durduğu bir aday olmadı hiçbir zaman. Buna rağmen Trump’ın Clinton’un rakibi olarak ön seçimlerden çıkması Clinton’a avantaj sağladı. Yaşanan gelişmeler ve seçime bir hafta kala geldiğimiz durumda da Clinton anketlerde Trump’ın önünde seyretmekte. Tabii ki geçen haftaya göre aralarındaki fark daha da azaldı. Bu azalmanın nedeninin Clinton’un e-maillerinin tekrar soruşturmaya alınması olduğunu zaten artık herkes biliyor. \xa0 Son yazımda d

### SadedeGel Extraction-based Özetleyiciler

SadedeGel extraction-based özetleyicilerin tamamı temelde cümle scorlaması yapan kural veya ML tabalı sınıflardır.

In [49]:
import numpy as np
from sadedegel.dataset import load_raw_corpus
from sadedegel.summarize import Rouge1Summarizer


raw = load_raw_corpus(return_iter=False)

d = Doc(raw[0])

print(f"Metin içerisindeki toplam cümle sayısı {len(d.sents)}")
print()

scores = Rouge1Summarizer().predict(d.sents)

print(scores)
print()

top3_index = np.argsort(scores)[::-1][:3]

for sent in np.array(d.sents)[top3_index]:
    print(f'⇨ {sent}')

2020-07-29 18:42:00.245 | DEBUG    | sadedegel.dataset._core:load_raw_corpus:41 - Search path /usr/local/lib/python3.7/site-packages/sadedegel/dataset/raw/*.txt


Metin içerisindeki toplam cümle sayısı 47

[0.0204461  0.01672862 0.0204461  0.0260223  0.02416357 0.0260223
 0.02788104 0.01301115 0.02416357 0.03903346 0.00743494 0.06505576
 0.01858736 0.02230483 0.01486989 0.01858736 0.01486989 0.01301115
 0.03717472 0.01858736 0.01115242 0.01486989 0.01115242 0.0204461
 0.02230483 0.01858736 0.01486989 0.01486989 0.03159851 0.01115242
 0.01301115 0.02416357 0.02230483 0.02416357 0.02416357 0.03903346
 0.0260223  0.00929368 0.01115242 0.02416357 0.01858736 0.00371747
 0.02416357 0.01672862 0.0204461  0.03531599 0.02416357]

⇨ Eyaletlerdeki anketlerin ortalamaları, Amerika’daki son sekiz seçimdir seyreden seçmen davranışı, demografik olarak adayların destek aldığı oy kitlelerinin son sekiz seçim dönemine göre eyalet bazlı hareketleri, diğer iki başkan adayının iki büyük parti adayından eyalet bazında alacağı oylar ve bunun Seçiciler Kurulu’na etkisini göz önünde bulundurdum.
⇨ Son yazımda da ifade ettiğim kanaatim, Clinton’un bu seçimi 300-330 bandı