# <span style="color:#c9486f"> spaCy </span>

- Python'da ileri düzey doğal dil işleme (NLP) için kullanılan, ücretsiz ve açık kaynaklı bir kütüphanedir.

-  spaCy, büyük miktarda metni işleyen ve "anlayan" uygulamalar geliştirmenize yardımcı olur. Bu, chatbotlar, otomatik yanıt sistemleri, bilgi çıkarma araçları gibi uygulamaları içerir.


#### **spaCY özellikleri**       
                                                                                   
| ÖZELLİK                       | AÇIKLAMA                                                                 |
|-------------------------------|--------------------------------------------------------------------------|
| **Tokenizasyon**               | Metni kelimelere, noktalama işaretlerine vb. bölme işlemi.               |
| **Dil Bilgisi Etiketleme (POS)**| Kelimelere tür atama işlemi (örneğin, isim, fiil).                      |
| **Bağımlılık Ayrıştırma**      | Kelimeler arasındaki sözdizimsel ilişkileri belirleme.                   |
| **Lemmatizasyon**              | Kelimeleri kök formlarına indirme.                                       |
| **Cümle Sınırı Belirleme (SBD)**| Cümle sınırlarını bulma ve bu sınırları tanımlama.                      |
| **Adlandırılmış Varlık Tanıma (NER)**| Metinlerdeki "gerçek dünya" nesnelerini (kişi, yer, organizasyon vb.) etiketleme.|
| **Varlık Bağlama (EL)**        | Metinlerdeki varlıkları bilgi tabanındaki benzersiz tanımlayıcılara bağlama.|
| **Benzerlik**                  | Kelimeler, cümleler veya belgeler arasındaki benzerlikleri ölçme.        |
| **Metin Sınıflandırma**        | Bir belgeye veya belgenin bir bölümüne kategoriler veya etiketler atama. |
| **Kural Tabanlı Eşleştirme**   | Metin içinde belirli token dizilerini bulma.                             |
| **Model Eğitimi**              | Bir istatistiksel modelin tahminlerini güncelleme ve iyileştirme.        |
| **Serileştirme**               | Nesneleri dosyalara veya bayt dizilerine kaydetme işlemi.                |


In [5]:
!pip install spacy




In [18]:
import spacy

print(spacy.__version__)

nlp = spacy.load('en_core_web_md')

3.7.6


In [7]:
text = """
This is one of the greatest films ever made. Brilliant acting by George C. Scott and Diane Riggs. 
This movie is both disturbing and extremely deep. Don't be fooled into believing this is just a comedy. 
It is a brilliant satire about the medical profession. It is not a pretty picture.
 Healthy patients are killed by incompetent surgeons, who spend all their time making money outside the hospital. 
 And yet, you really believe that this is a hospital. 
 The producers were very careful to include real medical terminology and real medical cases. 
 This movie really reveals how difficult in is to run a hospital, and how badly things already were in 1971. 
 I loved this movie. P.S. - I noticed that the incompetent, wheeler dealer surgeon played the head of the firm in 
 LA Law. The young doctor played in Lou Grant. 
 I also noticed that the registration nurse has appeared since in Becker and other shows.
"""

- **nlp Fonksiyonu:** Bu, daha önce yüklenmiş olan spaCy modelini kullanarak metni işler. Burada kullanılan nlp fonksiyonu, metindeki her bir kelimeyi (token), cümleyi ve adlandırılmış varlıkları (NER) analiz eder. Bu işlem, POS etiketleme (tagger), bağımlılık ayrıştırma (parser) ve adlandırılmış varlık tanıma (NER) gibi işlemleri içerir.

- **doc Nesnesi:** Bu nesne, metnin işlenmiş halini temsil eder. doc nesnesi içerisinde metindeki tokenlar, cümleler, adlandırılmış varlıklar ve daha fazlası bulunur.

In [8]:
doc = nlp(text) # tagger, parser, NER
print(dir(doc))

['_', '__bytes__', '__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__pyx_vtable__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__unicode__', '_bulk_merge', '_context', '_get_array_attrs', '_realloc', '_vector', '_vector_norm', 'cats', 'char_span', 'copy', 'count_by', 'doc', 'ents', 'extend_tensor', 'from_array', 'from_bytes', 'from_dict', 'from_disk', 'from_docs', 'from_json', 'get_extension', 'get_lca_matrix', 'has_annotation', 'has_extension', 'has_unknown_spaces', 'has_vector', 'is_nered', 'is_parsed', 'is_sentenced', 'is_tagged', 'lang', 'lang_', 'mem', 'noun_chunks', 'noun_chunks_iterator', 'remove_extension', 'retokenize', 'sentiment', 'sents', 'set_ents', 'set_extension', 'similarity', 'spans', 'tens

In [23]:
from IPython.core.display import display, HTML

# Görselin bulunduğu URL
spacy_url = 'https://spacy.io/images/pipeline.svg'

# URL'yi iframe olarak eklemek
iframe = f'<iframe src="{spacy_url}" width=500 height=100></iframe>'

# Görseli görüntüleme
display(HTML(iframe))


  from IPython.core.display import display, HTML


### Tokinazor

In [24]:
# SpaCy pipeline
spacy_url = 'https://spacy.io/images/tokenization.svg'
iframe = '<iframe src={} width=1500 height=200></iframe>'.format(spacy_url)
HTML(iframe)

In [26]:
text = "This is one of the greatest movie. I loved It"
doc = nlp(text)

# Sütun başlıklarını yazdır
print(f'{"TEXT":<15} | {"LEMMA_":<15} | {"POS_":<8} | {"TAG_":<8} | {"DEP_":<11} | {"SHAPE_":<8} | {"IS_ALPHA":<8} | {"IS_STOP":<8} |')

# Her bir token için özellikleri yazdır
for token in doc:
    print(f'{token.text:<15} | {token.lemma_:<15} | {token.pos_:<8} | {token.tag_:<8} | {token.dep_:<11} | {token.shape_:<8} | {str(token.is_alpha):<8} | {str(token.is_stop):<8} |')


TEXT            | LEMMA_          | POS_     | TAG_     | DEP_        | SHAPE_   | IS_ALPHA | IS_STOP  |
This            | this            | PRON     | DT       | nsubj       | Xxxx     | True     | True     |
is              | be              | AUX      | VBZ      | ROOT        | xx       | True     | True     |
one             | one             | NUM      | CD       | attr        | xxx      | True     | True     |
of              | of              | ADP      | IN       | prep        | xx       | True     | True     |
the             | the             | DET      | DT       | det         | xxx      | True     | True     |
greatest        | great           | ADJ      | JJS      | amod        | xxxx     | True     | False    |
movie           | movie           | NOUN     | NN       | pobj        | xxxx     | True     | False    |
.               | .               | PUNCT    | .        | punct       | .        | False    | False    |
I               | I               | PRON     | PRP     

**1. Text ve Tokenization:** Metin, nlp fonksiyonu ile tokenize edilir, yani her kelime ya da noktalama işareti birer token haline getirilir.

**2.Özelliklerin Çıktısı:** Her bir token için:

- **TEXT:** Token'ın metinsel hali.
- **LEMMA_:** Token'ın kök hali (örneğin "loved" -> "love").
- **POS_:** Part of Speech (Kelimenin türü, örneğin isim, fiil).
- **TAG_:** Daha detaylı kelime türü etiketi.
- **DEP_:** Token'ın cümle içindeki bağımlılık ilişkisi.
- **SHAPE_:** Token'ın şekil yapısı (örneğin büyük/küçük harf).
- **IS_ALPHA:** Token'ın tamamen alfabetik karakterlerden oluşup oluşmadığı.
- **IS_STOP:** Token'ın bir stop-word (çok sık kullanılan ve genellikle analizlerde göz ardı edilen kelime) olup olmadığı.


!!! `<15` ifadesi, f-string (formatlı string) içinde kullanıldığında, bir değerin soldan hizalanarak ve en az 15 karakter genişliğinde olacak şekilde yazdırılmasını sağlar. 

`spacy.explain()` fonksiyonu, SpaCy tarafından kullanılan kısaltmaları ve etiketleri açıklamak için kullanılır.

- nsubj" etiketi bir cümlede özne olarak kullanılan ismi belirtir.
- AUX" etiketi, cümlede yardımcı fiilleri belirtir.

In [27]:
spacy.explain('nsubj')

'nominal subject'

In [28]:
spacy.explain('AUX')

'auxiliary'

In [30]:
previous_token = doc[0]  #ilk token'ı alıyoruz

# Bu döngü, doc içindeki diğer tüm tokenları (kelimeleri) iterasyonla dolaşır.
for token in doc[1:]:    
    # Eğer önceki token sıfat ise (ADJ) ve mevcut token isim ise (NOUN), bu durumda sıfat ve isim çiftleri ekrana yazdırılır.
    if previous_token.pos_ == 'ADJ' and token.pos_ == 'NOUN':
        print(f'{previous_token.text}_{token.text}')
    
    previous_token = token # mevcut token'ı bir sonraki token olarak atıyoruz

greatest_movie


In [31]:
ner_text = "I love my country India, and I love Machine learning"

ner_doc = nlp(ner_text) #  Metin SpaCy'nin NLP modeline aktarılır ve analiz edilir.
print('{:10} | {:15}'.format('LABEL','ENTITY')) # sütun başlıklarını yazdır

for ent in ner_doc.ents:
    print('{:10} | {:50}'.format(ent.label_, ent.text)) # etiket ve varlık bilgilerini yazdır

LABEL      | ENTITY         
GPE        | India                                             


In [32]:
from spacy import displacy

In [35]:
displacy.render(docs=ner_doc, style='ent', jupyter=True)

- docs=ner_doc: ner_doc, daha önce bir metni işleyerek oluşturduğunuz doküman (doc) nesnesidir. Bu doküman içinde SpaCy, metindeki isimlendirilmiş varlıkları (entities) tanımlamıştır.

- style='ent': Bu parametre, görselleştirmede varlıkların (entities) kullanılacağını belirtir.

- jupyter=True: Bu parametre, çıktının Jupyter Notebook içinde görselleştirilmesini sağlar.

In [None]:
spacy.explain('GPE')

'Countries, cities, states'

Bu etiket, SpaCy'nin tanımladığı bir isimlendirilmiş varlık türüdür ve "Geopolitical Entity" anlamına gelir. Yani, ülkeler, şehirler, eyaletler gibi coğrafi ve politik varlıkları tanımlar.