<div class="alert alert-block alert-warning">
<b>Kullanıcı Uyarısı:</b> <b>sadedegel</b> versiyonuzu <code>pip install sadedegel -U </code> kullanarak sık sık güncellemenizi tavsiye ediyoruz. Çünkü henüz kararlı major sürümde değiliz ve API lerde sürekli yazımsal ve anlamsal değişiklikler yapıyoruz. Anlayışınız ve desteğiniz için teşekkürler. 
</div>

In [None]:
from sadedegel.about import __version__
__version__

### SadedeGel'e Hızlı Giriş

sadedegel kütüphanesinde bir çok akış `Doc` sınıfıyla başlar.

Bir metin ile `Doc` objesini çağırdığınızda

* Sentence Boundary Detection (SBD)
* Her bir cümle için word tokenization
* Cümle BERT embedding hesaplaması
* Cümle'ye ait **rouge1** score hesaplaması
    
gibi işlemler gerçekleşir.

In [None]:
from sadedegel.tokenize import Doc

text = """
Kapıyı aç Veysel Efendi! Mahmut Hoca'nın emriyle Uganda Cumhurbaşkanı'nı karşılamaya gidiyoruz.
"""

d = Doc(text)

print(d.sents)
print()
print(f"Cümle 1 - Rouge1: {d.sents[0].rouge1('recall')} (recall) {d.sents[0].rouge1('precision')} (precision)")
print()

print(f"Cümle 1 uzunluğu: {len(d.sents[0])} ")
print(d.sents[0].tokens)

### SadedeGel Veri Kümeleri

SadedeGel ile birlikte farklı formatlarda hazır veri kümeleri gelmektedir. Bunların bazıları ham veriler iken bazıları human-annotated veri kümeleridir.

In [None]:
from sadedegel.dataset import load_raw_corpus

raw = load_raw_corpus()

d = next(raw)
d

### SadedeGel Extraction-based Özetleyiciler

SadedeGel extraction-based özetleyicilerin tamamı temelde cümle scorlaması yapan kural veya ML tabalı sınıflardır.

In [None]:
import numpy as np
from sadedegel.dataset import load_raw_corpus
from sadedegel.summarize import Rouge1Summarizer


raw = load_raw_corpus(return_iter=False)

d = Doc(raw[0])

print(f"Metin içerisindeki toplam cümle sayısı {len(d.sents)}")
print()

scores = Rouge1Summarizer().predict(d.sents)

print(scores)
print()

top3_index = np.argsort(scores)[::-1][:3]

for sent in np.array(d.sents)[top3_index]:
    print(f'⇨ {sent}')