# Metin Temsili (Text Representation)
- Metin temsili ,bir metni sayısal veya başka türde bir formatta temsil etme işlemidir.


- Bag of Words (BoW)
- TF -IDF (Term frequency-nverse document frequency)
- N-Gram modelleri 
- Word Embeddings
- Transformer Tabanlı Metinli Temsili 


# Bag of Words 
Bag of Words (BoW), metin verisi üzerinde kullanılan bir özellik çıkarım (feature extraction) yöntemidir. Bu yaklaşım, metindeki kelimeleri bir torba (bag) gibi ele alır ve kelimelerin sırasına ya da gramatikal yapılarına bakmaz. Sadece hangi kelimelerin metinde geçtiği ve her birinin ne kadar sıklıkla kullanıldığı dikkate alınır.

## Kelime Sayımı (Word Count):
BoW, her kelimenin metin içinde kaç defa geçtiğini sayarak bir özellik (feature) vektörü oluşturur. Bu vektör, her kelimenin bir sayısı ile temsil edilir.

- Örnek:

    - Diyelim ki elimizde şu iki cümle var:

        - Cümle 1: "Kediler çok sevimli."
        - Cümle 2: "Kediler çok hızlı koşuyor."
        - Bu cümlelerden bir kelime kümesi (vocabulary) oluşturulur:  -  ["Kediler", "çok", "sevimli", "hızlı", "koşuyor"]

    BoW temelli özellik vektörleri şöyle olur:

    Cümle 1: [1, 1, 1, 0, 0]
    Cümle 2: [1, 1, 0, 1, 1]
    Her bir sayının anlamı, o kelimenin metinde kaç kere geçtiğidir.

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

documents = [
    "Kedi evde",
    "Kedi bahçede"
]
vectorizer = CountVectorizer()
# metin -> sayisal vektor
x= vectorizer.fit_transform(documents)

In [3]:
print("Kelime kumesi: ", vectorizer.get_feature_names_out())

Kelime kumesi:  ['bahçede' 'evde' 'kedi']


In [4]:
print("vector temsili : ",x.toarray())

vector temsili :  [[0 1 1]
 [1 0 1]]


# Note:
### Temel Regex Söz Dizimi (Syntax)
Regex ifadeleri belirli kurallara dayanır ve metin içinde desen aramak için kullanılır. Regex ifadelerinde kullanılan bazı yaygın semboller ve anlamları şunlardır:

1.1 Karakter Sınıfları (Character Classes)
- \d: Rakam (0-9) - herhangi bir dijital karakteri temsil eder.
- \D: Rakam olmayan karakter (herhangi bir harf, sembol vb.).
- \w: "Word" (kelime karakteri) - harfler (a-z, A-Z), rakamlar (0-9) ve alt çizgi (_) içerir.
- \W: Kelime olmayan karakterler (boşluklar, noktalama işaretleri, vb.).
- \s: Boşluk karakteri (boşluk, tab, yeni satır, vb.).
- \S: Boşluk olmayan karakter.
- \b: Kelime sınırı (bir kelimenin başlangıcı ya da sonu).
- \B: Kelime sınırı olmayan bir yer.


# Working on Real data set 
- Please check  kaggle - https://www.kaggle.com/code/zehranurmangal/learning-bag-of-words


# TF-IDF (Term Frequency-Inverse Document Frewuency)
- Metin madenciliğinde ve bilgi erişiminde sıkça kullanılan bir özellik çıkarım yöntemidir.
- kelimelerin belgeler içinde ne kadar önemli olduğunu belirlemek için kullanılır

- Term Frequency : Bir kelimenin bir belgede ne kadar sık geçtiğini ölçer
- Bir kelimenin tüm belgelerdeki yaygınlığını ölçer .Bir kelimenin çok belgede geçiyorsa o kelime çok fazla bilgi sağlamaz




![Resim](images/image1.png)



In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd 
import numpy as np 


In [14]:
documents = [ 
            "Kedi çok tatlı bir hayvandır ",
            "Kedi ve köpekler çok tatlı hayvanlardır",
            "Arılar bal üretir"]

In [15]:
tfidf_vectorizer=TfidfVectorizer()

#metinler -> sayısal 
X = tfidf_vectorizer.fit_transform(documents)

feature_names = tfidf_vectorizer.get_feature_names_out()

In [16]:
print(feature_names)

['arılar' 'bal' 'bir' 'hayvandır' 'hayvanlardır' 'kedi' 'köpekler' 'tatlı'
 've' 'çok' 'üretir']


In [17]:
print("TF-IDF vektor temsilleri: ")
vektor_temsili = X.toarray()
print(vektor_temsili)

TF-IDF vektor temsilleri: 
[[0.         0.         0.51741994 0.51741994 0.         0.3935112
  0.         0.3935112  0.         0.3935112  0.        ]
 [0.         0.         0.         0.         0.45954803 0.34949812
  0.45954803 0.34949812 0.45954803 0.34949812 0.        ]
 [0.57735027 0.57735027 0.         0.         0.         0.
  0.         0.         0.         0.         0.57735027]]


In [18]:
df_tf_ıdf = pd.DataFrame(vektor_temsili,columns=feature_names)
print(df_tf_ıdf)

    arılar      bal      bir  hayvandır  hayvanlardır      kedi  köpekler  \
0  0.00000  0.00000  0.51742    0.51742      0.000000  0.393511  0.000000   
1  0.00000  0.00000  0.00000    0.00000      0.459548  0.349498  0.459548   
2  0.57735  0.57735  0.00000    0.00000      0.000000  0.000000  0.000000   

      tatlı        ve       çok   üretir  
0  0.393511  0.000000  0.393511  0.00000  
1  0.349498  0.459548  0.349498  0.00000  
2  0.000000  0.000000  0.000000  0.57735  


In [19]:
arilat_tfıdf=df_tf_ıdf["arılar"]
arilat_mean_tfıdf = np.mean(arilat_tfıdf) 

In [20]:
print(arilat_mean_tfıdf)

0.19245008972987523


# Working on real data set
Please check -> https://www.kaggle.com/code/zehranurmangal/learning-tf-idf


# N-Gram Modelleri
- Bir dil modelinde kullanılan kelime veya karakter dizisinin uzunluğunu belirten bir terimdir
- Uni GRam 1-1 ayırır , Bi Gram olursa 2-2 ayırır cümleyi 
- Örnek ['bu bir örnek veridir']
- Unigram : ['bu','bir','örnek','veridir']
- Bi Gram : ['bu bir','örnek veridir']

### Kullanım alanları
- Metin Modelleme
- Metin sınıflandırma 
- Metin üretimi 
- Metin Benzerliği


In [22]:
from sklearn.feature_extraction.text import CountVectorizer

In [23]:
documents = [
    "Bu bir örnek metindir",
    "bu örnek metin dogal dil işlemeyi gösterir."
]

In [25]:
#Unigram , bi gram ve trigram ->countvectorizer
vectorizer_unigram = CountVectorizer(ngram_range=(1,1))
vectorizer_bigram = CountVectorizer(ngram_range=(2,2))
vectorizer_trigram = CountVectorizer(ngram_range=(3,3))

In [27]:
X_unigram = vectorizer_unigram.fit_transform(documents)
unigram_features = vectorizer_unigram.get_feature_names_out()

In [28]:
print(unigram_features)

['bir' 'bu' 'dil' 'dogal' 'gösterir' 'işlemeyi' 'metin' 'metindir' 'örnek']


In [29]:
X_bigram = vectorizer_bigram.fit_transform(documents)
bigram_features = vectorizer_bigram.get_feature_names_out()
print(bigram_features)

['bir örnek' 'bu bir' 'bu örnek' 'dil işlemeyi' 'dogal dil'
 'işlemeyi gösterir' 'metin dogal' 'örnek metin' 'örnek metindir']


In [30]:
X_trigram = vectorizer_trigram.fit_transform(documents)
trigram_features = vectorizer_trigram.get_feature_names_out()
print(trigram_features)

['bir örnek metindir' 'bu bir örnek' 'bu örnek metin'
 'dil işlemeyi gösterir' 'dogal dil işlemeyi' 'metin dogal dil'
 'örnek metin dogal']
