# TEXT CLASSIFICATION

- Text Classification: Genel bir metin sınıflandırma problemidir. Metinler farklı kategorilere ayrılır. Örneğin, e-postaların spam veya spam olmayan olarak sınıflandırılması.

- Textin sayısal özelliklerini örneğin kaç kelime, kaç tane noktalama işareti var gibi ifadeleri ayrı değişken olarak alıp ML ile analiz de edebilirsin.

- NLP' de ise texti alıp vektöre dönüştürüyorsun. Sonrasında ise ML ile birleştirip model kuruyorsun.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings("ignore")

  from pandas.core import (


In [2]:
# Kolon isimlerini belirleyerek dosyayı okuma
column_names = ['label', 'message']  # Kolon isimleri
df = pd.read_csv(r'C:\Users\Pc\Desktop\SMSSpamCollection.tsv', sep='\t', header=None, names=column_names, encoding='utf-8')

In [3]:
df

Unnamed: 0,label,message
0,ham,I've been searching for the right words to tha...
1,spam,Free entry in 2 a wkly comp to win FA Cup fina...
2,ham,"Nah I don't think he goes to usf, he lives aro..."
3,ham,Even my brother is not like to speak with me. ...
4,ham,I HAVE A DATE ON SUNDAY WITH WILL!!
...,...,...
5563,spam,This is the 2nd time we have tried 2 contact u...
5564,ham,Will ü b going to esplanade fr home?
5565,ham,"Pity, * was in mood for that. So...any other s..."
5566,ham,The guy did some bitching but I acted like i'd...


In [3]:
X = df['message']  # this time we want to look at the text
y = df['label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

TfidfVectorizer Nedir?

- TF (Term Frequency): Belirli bir terimin, belgede kaç kez geçtiğini ölçer. Yani, belgedeki toplam kelime sayısına bölünerek terimin o belgede ne kadar yaygın olduğunu gösterir.

- IDF (Inverse Document Frequency): Belirli bir terimin kaç belgede geçtiğini ölçer. Sıklıkla geçen kelimelerin (örneğin, "ve", "bu", "bir") daha az önem taşıdığını gösterir. IDF, belirli bir terimin belgelerdeki yaygınlığını azaltarak, nadir kelimelere daha fazla ağırlık verir.

TfidfVectorizer'ın Kullanım Amacı:

1. Metin Temsili: Metin verilerini sayısal bir forma dönüştürerek, bu verilerin makine öğrenimi algoritmaları tarafından işlenebilmesini sağlar. Her kelime, belgedeki yerleşimine göre bir ağırlık alır.

2. Özellik Çıkartma: TfidfVectorizer, metin verilerinden özellikler çıkartır ve bu özellikler, model eğitimi için kullanılabilir.

3. Belgelerin Karşılaştırılması: Belirli belgeler arasındaki benzerliği ölçmek için kullanılır. Yüksek TF-IDF değerine sahip kelimeler, belgeler arasındaki farklılıkları ve benzerlikleri anlamaya yardımcı olur.

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()

X_train_tfidf = vectorizer.fit_transform(X_train) # remember to use the original X_train set
X_train_tfidf.shape

(3730, 7118)

Pipeline Nedir?

- Pipeline, makine öğrenimi ve veri işleme süreçlerini düzenlemek için kullanılan bir yapıdır. Özellikle scikit-learn kütüphanesinde yaygın olarak kullanılır. Pipeline, verilerin işlenmesi ve modelin eğitilmesi için bir dizi adımı ardışık bir şekilde gerçekleştirmeyi sağlar. Bu, süreci daha okunabilir ve yönetilebilir hale getirir.

Neden Pipeline Kullanılır?

1. Kodun Okunabilirliğini Artırma: Birden fazla adımı tek bir yapı içinde tanımlamak, kodun daha temiz ve okunabilir olmasını sağlar.

2. Hata Riskini Azaltma: Her adımın düzgün bir şekilde çalışmasını sağlamak için aşamalı bir yapı sunar. Hatalar, daha kolay tanımlanabilir ve yönetilebilir.

3. Kolaylıkla Değişiklik Yapabilme: Tek bir adımda değişiklik yapmak, diğer adımları etkilemeden mümkündür.

Pipeline Kullanımında Temel Adımlar
Aşağıdaki adımlar, Pipeline kullanırken yaygın olarak izlenir:

* Veri Ön İşleme: Verilerin uygun formata getirilmesi, eksik verilerin işlenmesi, kategorik verilerin dönüştürülmesi vb.
* Özellik Çıkartma: TfidfVectorizer, CountVectorizer gibi yöntemlerle metin verilerinden özellikler çıkartma.
* Model Seçimi: Kullanılacak makine öğrenimi modelinin belirlenmesi (örneğin, LinearSVC, RandomForestClassifier, vb.).
* Model Eğitimi: Modelin eğitim verileri üzerinde eğitilmesi.
* Model Değerlendirme: Modelin test verileri üzerindeki performansının değerlendirilmesi.

In [6]:
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import TfidfVectorizer
# from sklearn.feature_extraction.text import TfidfVectorizer
# from sklearn.svm import LinearSVC

text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),  # CountVectorizer için kısaltma
    ('clf', LinearSVC()),
])

# Feed the training data through the pipeline
text_clf.fit(X_train, y_train)  

In [7]:
# Form a prediction set
predictions = text_clf.predict(X_test)

In [8]:
from sklearn import metrics

# Print a classification report
print(metrics.classification_report(y_test,predictions))

              precision    recall  f1-score   support

         ham       0.99      1.00      0.99      1608
        spam       0.99      0.90      0.94       230

    accuracy                           0.99      1838
   macro avg       0.99      0.95      0.97      1838
weighted avg       0.99      0.99      0.99      1838



- Yukardaki tf-idfvectorizer ile vektör oluşturup predictiondı.

- Aşağıdaki ise spacy ile vektör oluşturup 300 boyutlu her bir satır için o şekilde predictiondı. Ama aynı sonucu elde ettim garip bir şekilde

- TF-IDF ve SpaCy'nin word embedding tabanlı vektörleştirme yöntemleri birbirinden farklı prensiplere dayanır, bu yüzden sonuçların birebir aynı olması genellikle beklenmez. Ancak belirli durumlarda, bu iki yöntemden elde edilen vektörlerin sınıflandırma modelinde (örneğin SVM) aynı sonuçlara yol açması mümkündür. İşte neden böyle olabileceğine dair birkaç açıklama:

1. Verinin Yapısı ve Temsili:
- TF-IDF: Kelimeleri belge içinde geçiş sıklığına ve nadirliğine göre vektörleştirir. Genellikle, daha fazla geçen ve önemli olan kelimelere yüksek ağırlık verir.
- Word Embeddings (SpaCy): Kelimeleri anlamlarına göre yerleştirir ve aynı anlam çevresine sahip kelimeler benzer vektörler üretir.
Eğer verinizdeki metinler, hem TF-IDF hem de word embedding'ler için belirgin ve tutarlı bir desen oluşturuyorsa, her iki yöntemle oluşturulan vektörler SVM tarafından aynı şekilde sınıflandırılabilir. Özellikle:

In [5]:
import spacy

In [28]:
# SpaCy modelini yükle
nlp = spacy.load('en_core_web_md')  # Büyük bir model kullanın (örneğin 'en_core_web_md')

X_train_nlp = []

# Her bir metni işle ve vektörü oluştur
for i in range(X_train.shape[0]):
    doc = nlp(X_train.iloc[i])  # Pandas Series ise iloc ile satıra erişilir
    
    # Sadece alfabetik ve stop-word olmayan kelimelerin vektörlerini kullan
    vectors = [token.vector for token in doc if token.is_alpha and not token.is_stop]
    
    # Eğer vektörler boşsa, sıfır vektörünü ekleyin (örneğin SpaCy modelinin boyutunda)
    if len(vectors) > 0:
        vector = np.mean(vectors, axis=0)
    else:
        vector = np.zeros(nlp.vocab.vectors_length)  # SpaCy'nin vektör boyutu
    
    X_train_nlp.append(vector)

# X_train'i numpy dizisine dönüştür
X_train = np.array(X_train_nlp)

1. Kelime Vektörleri (Embedding ile Ortalama Almak)
- Bu yöntem, kelimeleri anlamlarına göre vektör uzayında yerleştiren kelime vektörlerini (embeddings) kullanır. Örneğin, bir satırdaki her kelimenin vektörünü alıp ortalama aldığınızda, o satırın genel "anlamını" veya "içeriğini" tek bir vektörde özetlemiş olursunuz. Kelime vektörleri genellikle SpaCy, Word2Vec, GloVe gibi pre-trained modellerden elde edilir.

Farkı: 

- Kelime vektörleri kelimenin anlamını taşır ve bağlama göre anlamlandırılır. Anlam olarak yakın kelimeler (örneğin "kral" ve "kraliçe") vektör uzayında birbirine yakın yerleştirilir. Dolayısıyla, metnin içerdiği anlamlar, o metindeki kelimelerin vektörlerinin ortalamasıyla temsil edilebilir.

Avantajları:

- Anlamsal benzerlikleri yakalar: "mutlu" ve "sevinçli" gibi kelimeler farklı olsa da benzer anlamlara sahip oldukları için bu yöntemle vektörleri yakın olur.
- Anlam, bağlam ve ilişkileri hesaba katar. Anlamsal ilişkilere dayalı olarak daha sofistike sonuçlar verebilir.
- Genelleme kapasitesi daha yüksektir, çünkü aynı anlam çevresindeki kelimeler benzer temsil edilir.

Dezavantajları:

- Bağlama özgü ayrıntılar kaybolabilir: Örneğin, çok karmaşık cümlelerde veya ironik ifadelerde, ortalama almak, bağlamın bazı önemli detaylarını silebilir.
- Hesaplama maliyeti yüksek olabilir, çünkü vektörler genellikle büyük boyutludur (örn. 300 boyutlu).

In [33]:
# SpaCy modelini yükle
nlp = spacy.load('en_core_web_md')  # Büyük bir model kullanın (örneğin 'en_core_web_md')

X_test_nlp = []

# Her bir metni işle ve vektörü oluştur
for i in range(X_test.shape[0]):
    doc = nlp(X_test.iloc[i])  # Pandas Series ise iloc ile satıra erişilir
    
    # Sadece alfabetik ve stop-word olmayan kelimelerin vektörlerini kullan
    vectors = [token.vector for token in doc if token.is_alpha and not token.is_stop]
    
    # Eğer vektörler boşsa, sıfır vektörünü ekleyin (örneğin SpaCy modelinin boyutunda)
    if len(vectors) > 0:
        vector = np.mean(vectors, axis=0)
    else:
        vector = np.zeros(nlp.vocab.vectors_length)  # SpaCy'nin vektör boyutu
    
    X_test_nlp.append(vector)

# X_test'i numpy dizisine dönüştür
X_test = np.array(X_test_nlp)

In [32]:
from sklearn.svm import LinearSVC

model = LinearSVC()

model.fit(X_train, y_train)

In [35]:
y_pred = model.predict(X_test)

In [36]:
y_pred

array(['ham', 'ham', 'ham', ..., 'ham', 'ham', 'spam'], dtype=object)

In [37]:
from sklearn import metrics

# Print a classification report
print(metrics.classification_report(y_test,y_pred))

              precision    recall  f1-score   support

         ham       0.96      0.95      0.96      1608
        spam       0.70      0.73      0.71       230

    accuracy                           0.93      1838
   macro avg       0.83      0.84      0.84      1838
weighted avg       0.93      0.93      0.93      1838



# SENTIMENT ANALYSIS

- Sentiment analysis için spacy ile vektör oluşturup 300 boyutlu bu şekilde analiz yapabiliriz.

In [15]:
import spacy

In [16]:
nlp = spacy.load('en_core_web_md')  # make sure to use a larger model!

In [17]:
nlp(u'lion').vector

array([-0.76275  , -0.2074   ,  0.32124  , -0.45817  , -0.36041  ,
        0.60152  ,  0.74492  ,  0.079701 , -0.23428  ,  0.31224  ,
       -0.43189  ,  0.20746  , -0.40774  , -0.2538   , -0.12308  ,
       -0.39652  ,  0.2361   ,  0.20473  ,  0.49645  ,  0.26983  ,
       -0.45623  ,  0.20879  , -0.0027486,  0.050435 , -0.003348 ,
       -0.088146 , -0.53855  ,  0.42507  , -0.70535  , -0.31984  ,
       -0.56023  , -0.042877 ,  0.31083  , -0.23038  ,  0.43657  ,
        0.18436  ,  0.52997  , -0.1038   ,  0.010579 ,  0.5373   ,
       -0.64911  ,  0.15171  , -0.13305  , -0.17798  ,  0.083277 ,
       -0.15615  , -0.1446   , -0.27032  ,  0.19693  ,  0.22867  ,
       -0.5745   ,  0.16468  ,  0.029028 ,  0.66735  , -0.13859  ,
        0.51194  , -0.029928 ,  0.11792  , -0.15589  ,  0.69151  ,
        0.19838  ,  0.032428 ,  0.37526  ,  0.099998 , -0.48631  ,
       -0.13605  ,  0.5295   , -0.089214 ,  0.34458  ,  0.19393  ,
        0.012607 , -0.1999   , -0.38105  , -0.05991  , -0.8103

In [18]:
# Örnek metinler
texts = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

# Vektörleri saklamak için bir liste
X_train = []

# Her bir metni işle ve vektörü oluştur
for text in texts:
    doc = nlp(text)
    # Kelimelerin vektörlerini toplamak için bir numpy dizisi oluştur
    vector = np.mean([token.vector for token in doc if token.has_vector], axis=0)   # birbirine anlam olarak yakın kelimelerin vektörleri de benzer. o yüzden ortalama alınıp her cümle için tek vektör oluyor
    X_train.append(vector)

# X_train'i numpy dizisine dönüştür
X_train = np.array(X_train)

# X_train'in boyutunu kontrol et
print(X_train.shape)  # (4, 300) gibi bir çıktı alırsınız, modelin vektör boyutuna bağlı

(4, 300)


- Ya da "NLTK's VADER module" ile daha sağlam bir analiz yapmış oluruz.

Vader_lexicon'ın Özellikleri
1. Kelime Duyguları: vader_lexicon, belirli kelimelerin duygusal değerlerini belirten bir kelime listesi içerir. Bu listede, kelimelerin pozitif, negatif veya nötr duygusal tonları belirtilmiştir.

2. Duygusal Ağırlık: Her kelime, duygu değeri (valence) ile birlikte gelir. Örneğin, "love" kelimesi pozitif bir değere sahipken, "hate" kelimesi negatif bir değere sahiptir.

3. Duygu Hesaplama: VADER, metinlerin toplam duygusal değerini hesaplamak için bu kelime listesini kullanır. Bir metindeki kelimelerin duygusal değerleri toplanarak genel duygu skoru elde edilir.

4. Negatif ve Pozitif Duygu: Ayrıca, VADER, metinlerdeki duygu ifade biçimlerini (örneğin, büyük harfle yazma veya emojiler) dikkate alarak daha doğru sonuçlar verir.

In [19]:
import nltk
nltk.download('vader_lexicon')

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\Pc\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


True

In [20]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

sid = SentimentIntensityAnalyzer()

In [21]:
df = pd.read_csv(r'C:\Users\Pc\Desktop\amazonreviews.tsv', sep='\t', header=0, names=column_names, encoding='utf-8')

In [22]:
df

Unnamed: 0,label,message
0,pos,Stuning even for the non-gamer: This sound tra...
1,pos,The best soundtrack ever to anything.: I'm rea...
2,pos,Amazing!: This soundtrack is my favorite music...
3,pos,Excellent Soundtrack: I truly like this soundt...
4,pos,"Remember, Pull Your Jaw Off The Floor After He..."
...,...,...
9995,pos,A revelation of life in small town America in ...
9996,pos,Great biography of a very interesting journali...
9997,neg,Interesting Subject; Poor Presentation: You'd ...
9998,neg,Don't buy: The box looked used and it is obvio...


In [23]:
# REMOVE NaN VALUES AND EMPTY STRINGS:
df.dropna(inplace=True)

blanks = []  # start with an empty list

for i,lb,rv in df.itertuples():  # iterate over the DataFrame
    if type(rv)==str:            # avoid NaN values
        if rv.isspace():         # test 'review' for whitespace
            blanks.append(i)     # add matching index numbers to the list

df.drop(blanks, inplace=True)

In [24]:
sid.polarity_scores(df.loc[0]['message'])

{'neg': 0.088, 'neu': 0.669, 'pos': 0.243, 'compound': 0.9454}

In [25]:
df.loc[0]['message']

'Stuning even for the non-gamer: This sound track was beautiful! It paints the senery in your mind so well I would recomend it even to people who hate vid. game music! I have played the game Chrono Cross but out of all of the games I have ever played it has the best music! It backs away from crude keyboarding and takes a fresher step with grate guitars and soulful orchestras. It would impress anyone who cares to listen! ^_^'

In [26]:
df['puan'] = df['message'].apply(lambda message: sid.polarity_scores(message)['compound'])

In [27]:
df['sentiment'] = df['puan'].apply(lambda puan: 'pos' if puan>=0 else 'neg')

In [28]:
df

Unnamed: 0,label,message,puan,sentiment
0,pos,Stuning even for the non-gamer: This sound tra...,0.9454,pos
1,pos,The best soundtrack ever to anything.: I'm rea...,0.8957,pos
2,pos,Amazing!: This soundtrack is my favorite music...,0.9858,pos
3,pos,Excellent Soundtrack: I truly like this soundt...,0.9814,pos
4,pos,"Remember, Pull Your Jaw Off The Floor After He...",0.9781,pos
...,...,...,...,...
9995,pos,A revelation of life in small town America in ...,0.9610,pos
9996,pos,Great biography of a very interesting journali...,0.9544,pos
9997,neg,Interesting Subject; Poor Presentation: You'd ...,0.9102,pos
9998,neg,Don't buy: The box looked used and it is obvio...,-0.3595,neg


In [29]:
from sklearn.metrics import accuracy_score,classification_report,confusion_matrix

In [30]:
accuracy_score(df['label'],df['sentiment'])

0.7097

In [31]:
print(classification_report(df['label'],df['sentiment']))

              precision    recall  f1-score   support

         neg       0.86      0.52      0.64      5097
         pos       0.64      0.91      0.75      4903

    accuracy                           0.71     10000
   macro avg       0.75      0.71      0.70     10000
weighted avg       0.75      0.71      0.70     10000



# DEEP LEARNING

In [53]:
def read_file(filepath):
    
    with open(filepath) as f:
        str_text = f.read()
    
    return str_text

In [54]:
nlp = spacy.load("en_core_web_sm", disable=['parser', 'tagger', 'ner'])
nlp.max_length = 1198623

# nlp = spacy.load('en', disable=['parser', 'tagger', 'ner']):

# spacy.load('en') kısmı, İngilizce için bir dil modeli yükler. 'en' burada spaCy'nin önceden eğitilmiş İngilizce modelini ifade eder.
# disable=['parser', 'tagger', 'ner'] argümanı, yüklenen modelin belirli bileşenlerini devre dışı bırakır:
# parser: Cümleleri yapısal olarak analiz eden bileşen (sözdizimi analizi).
# tagger: Kelimelere etiket atayan bileşen (part-of-speech tagging).
# ner: Adlandırılmış varlık tanıma bileşeni (kişiler, yerler, kuruluşlar vb. tanımak için).
# Bu bileşenleri devre dışı bırakmak, işlem süresini kısaltabilir ve bellek kullanımını azaltabilir, böylece sadece temel dil işleme işlevlerine odaklanmanıza olanak tanır.

# nlp.max_length = 1198623:

# nlp.max_length, spaCy'nin işlemleyebileceği maksimum dizi uzunluğunu ayarlar. Varsayılan olarak, spaCy, çok uzun metinlerle başa çıkma konusunda kısıtlamalara sahip olabilir.
# 1198623 değeri, modelin işleyebileceği maksimum karakter sayısını temsil eder. Bu, özellikle büyük metin parçalarıyla çalışırken yararlıdır. Örneğin, bir modelin 1 milyon karakterden uzun bir metni analiz etmesi gerektiğinde, bu değer artırılarak ayarlanabilir.

In [55]:
def separate_punc(doc_text):
    return [token.text.lower() for token in nlp(doc_text) if token.text not in '\n\n \n\n\n!"-#$%&()--.*+,-/:;<=>?@[\\]^_`{|}~\t\n ']

# if token.text not in '\n\n \n\n\n!"-#$%&()--.*+,-/:;<=>?@[\\]^_{|}~\t\n '`:
# Bu koşul, token'ın metninin belirli karakterler (boşluk, yeni satır, özel karakterler vb.) içermediğini kontrol eder.
# Eğer token bu karakterler dışında bir metne sahipse, o zaman o token küçük harfe dönüştürülerek listeye eklenir.

In [56]:
d = read_file(r'C:\Users\Pc\Desktop\moby_dick_four_chapters.txt')
tokens = separate_punc(d)

In [57]:
tokens

['call',
 'me',
 'ishmael',
 'some',
 'years',
 'ago',
 'never',
 'mind',
 'how',
 'long',
 'precisely',
 'having',
 'little',
 'or',
 'no',
 'money',
 'in',
 'my',
 'purse',
 'and',
 'nothing',
 'particular',
 'to',
 'interest',
 'me',
 'on',
 'shore',
 'i',
 'thought',
 'i',
 'would',
 'sail',
 'about',
 'a',
 'little',
 'and',
 'see',
 'the',
 'watery',
 'part',
 'of',
 'the',
 'world',
 'it',
 'is',
 'a',
 'way',
 'i',
 'have',
 'of',
 'driving',
 'off',
 'the',
 'spleen',
 'and',
 'regulating',
 'the',
 'circulation',
 'whenever',
 'i',
 'find',
 'myself',
 'growing',
 'grim',
 'about',
 'the',
 'mouth',
 'whenever',
 'it',
 'is',
 'a',
 'damp',
 'drizzly',
 'november',
 'in',
 'my',
 'soul',
 'whenever',
 'i',
 'find',
 'myself',
 'involuntarily',
 'pausing',
 'before',
 'coffin',
 'warehouses',
 'and',
 'bringing',
 'up',
 'the',
 'rear',
 'of',
 'every',
 'funeral',
 'i',
 'meet',
 'and',
 'especially',
 'whenever',
 'my',
 'hypos',
 'get',
 'such',
 'an',
 'upper',
 'hand',
 '

### Create Sequences of Tokens

In [58]:
# organize into sequences of tokens
train_len = 25+1 # 50 training words , then one target word

# Empty list of sequences
text_sequences = []

for i in range(train_len, len(tokens)):
    
    # Grab train_len# amount of characters
    seq = tokens[i-train_len:i]
    
    # Add to list of sequences
    text_sequences.append(seq)

# Bu kod her bir 26'lık paketi yani tokens[0:26], tokens[1:27], tokens[2:28] text_sequences'in içine ayrı ayrı listeler olarak topluyor

In [59]:
' '.join(text_sequences[0])

'call me ishmael some years ago never mind how long precisely having little or no money in my purse and nothing particular to interest me on'

In [60]:
' '.join(text_sequences[1])

'me ishmael some years ago never mind how long precisely having little or no money in my purse and nothing particular to interest me on shore'

### Keras Tokenization

Tokenizer ile Sayıya Dönüştürmek (Sıralı Sayılar ile Temsil Etmek):

- Bu yöntem, her bir kelimeyi bir token'a, yani bir sayıya dönüştürür. Bu sayı genellikle kelimenin metindeki sırasına veya bir kelime sözlüğüne dayalı bir indeksleme işlemine göre atanır. Bu yöntemde kelimelerin sırası korunur ancak kelimenin anlamı göz ardı edilir.

Farkı: 

- Tokenizer, kelimeleri basitçe bir dizi sayıya dönüştürür. Kelimenin anlamına veya bağlama dayalı bir vektörel ilişki kurulmaz. Her kelime bir sayı ile temsil edilir (örneğin, "kedi" = 15, "köpek" = 23 gibi).

Avantajları:

- Daha basit ve hızlıdır: Kelimeler sadece sayılarla temsil edildiği için işlem hızı ve maliyeti daha düşüktür.
- Küçük ve sabit boyutlu bir vektör üretir: Örneğin, her kelime bir sayıya dönüştürüldüğünde kelimeler sabit uzunluktaki bir dizide yer alır, bu da hesaplamayı kolaylaştırır.

Dezavantajları:

- Anlamsal bilgi kaybolur: Aynı anlama sahip iki kelime (örneğin "mutlu" ve "sevinçli") tamamen farklı sayılarla temsil edilebilir, bu da modelin anlamsal ilişkiyi öğrenmesini zorlaştırır.
- Bağlamı dikkate almaz: Her kelime kendi başına ele alınır ve diğer kelimelerle olan ilişkisi göz ardı edilir.

In [61]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [62]:
# integer encode sequences of words
tokenizer = Tokenizer()
tokenizer.fit_on_texts(text_sequences)    # Her bir kelimeyi sayıya dönüştürüyor. Ama bu aşamada sözlük oluşturuyor gibi düşün. Cümleleri sayıya dönüştürmüyor.
sequences = tokenizer.texts_to_sequences(text_sequences)  # Her cümledeki kelimeleri sayılara dönüştürüyor

In [63]:
sequences[0]

[956,
 14,
 263,
 51,
 261,
 408,
 87,
 219,
 129,
 111,
 954,
 260,
 50,
 43,
 38,
 314,
 7,
 23,
 546,
 3,
 150,
 259,
 6,
 2713,
 14,
 24]

In [64]:
sequences[1]

[14,
 263,
 51,
 261,
 408,
 87,
 219,
 129,
 111,
 954,
 260,
 50,
 43,
 38,
 314,
 7,
 23,
 546,
 3,
 150,
 259,
 6,
 2713,
 14,
 24,
 957]

In [65]:
tokenizer.index_word

{1: 'the',
 2: 'a',
 3: 'and',
 4: 'of',
 5: 'i',
 6: 'to',
 7: 'in',
 8: 'it',
 9: 'that',
 10: 'he',
 11: 'his',
 12: 'was',
 13: 'but',
 14: 'me',
 15: 'with',
 16: 'as',
 17: 'at',
 18: 'this',
 19: 'you',
 20: 'is',
 21: 'all',
 22: 'for',
 23: 'my',
 24: 'on',
 25: 'be',
 26: "'s",
 27: 'not',
 28: 'from',
 29: 'there',
 30: 'one',
 31: 'up',
 32: 'what',
 33: 'him',
 34: 'so',
 35: 'bed',
 36: 'now',
 37: 'about',
 38: 'no',
 39: 'into',
 40: 'by',
 41: 'were',
 42: 'out',
 43: 'or',
 44: 'harpooneer',
 45: 'had',
 46: 'then',
 47: 'have',
 48: 'an',
 49: 'upon',
 50: 'little',
 51: 'some',
 52: 'old',
 53: 'like',
 54: 'if',
 55: 'they',
 56: 'would',
 57: 'do',
 58: 'over',
 59: 'landlord',
 60: 'thought',
 61: 'room',
 62: 'when',
 63: 'could',
 64: "n't",
 65: 'night',
 66: 'here',
 67: 'head',
 68: 'such',
 69: 'which',
 70: 'man',
 71: 'did',
 72: 'sea',
 73: 'time',
 74: 'other',
 75: 'very',
 76: 'go',
 77: 'these',
 78: 'more',
 79: 'though',
 80: 'first',
 81: 'sort',


In [66]:
tokenizer.word_index

{'the': 1,
 'a': 2,
 'and': 3,
 'of': 4,
 'i': 5,
 'to': 6,
 'in': 7,
 'it': 8,
 'that': 9,
 'he': 10,
 'his': 11,
 'was': 12,
 'but': 13,
 'me': 14,
 'with': 15,
 'as': 16,
 'at': 17,
 'this': 18,
 'you': 19,
 'is': 20,
 'all': 21,
 'for': 22,
 'my': 23,
 'on': 24,
 'be': 25,
 "'s": 26,
 'not': 27,
 'from': 28,
 'there': 29,
 'one': 30,
 'up': 31,
 'what': 32,
 'him': 33,
 'so': 34,
 'bed': 35,
 'now': 36,
 'about': 37,
 'no': 38,
 'into': 39,
 'by': 40,
 'were': 41,
 'out': 42,
 'or': 43,
 'harpooneer': 44,
 'had': 45,
 'then': 46,
 'have': 47,
 'an': 48,
 'upon': 49,
 'little': 50,
 'some': 51,
 'old': 52,
 'like': 53,
 'if': 54,
 'they': 55,
 'would': 56,
 'do': 57,
 'over': 58,
 'landlord': 59,
 'thought': 60,
 'room': 61,
 'when': 62,
 'could': 63,
 "n't": 64,
 'night': 65,
 'here': 66,
 'head': 67,
 'such': 68,
 'which': 69,
 'man': 70,
 'did': 71,
 'sea': 72,
 'time': 73,
 'other': 74,
 'very': 75,
 'go': 76,
 'these': 77,
 'more': 78,
 'though': 79,
 'first': 80,
 'sort': 81,


In [44]:
tokenizer.word_counts

OrderedDict([('call', 27),
             ('me', 2471),
             ('ishmael', 133),
             ('some', 758),
             ('years', 135),
             ('ago', 84),
             ('never', 449),
             ('mind', 164),
             ('how', 321),
             ('long', 374),
             ('precisely', 37),
             ('having', 142),
             ('little', 767),
             ('or', 950),
             ('no', 1003),
             ('money', 120),
             ('in', 5647),
             ('my', 1786),
             ('purse', 71),
             ('and', 9646),
             ('nothing', 281),
             ('particular', 152),
             ('to', 6497),
             ('interest', 24),
             ('on', 1716),
             ('shore', 26),
             ('i', 7150),
             ('thought', 676),
             ('would', 702),
             ('sail', 104),
             ('about', 1014),
             ('a', 10377),
             ('see', 416),
             ('the', 15540),
             ('watery', 26),
  

In [46]:
vocabulary_size = len(tokenizer.word_counts)
vocabulary_size

2718

### Convert to Numpy Matrix

In [47]:
sequences = np.array(sequences)    # listeyi array dönüştürmek gerekiyor işlem yapabilmek için

In [48]:
sequences.shape

(11312, 26)

In [49]:
a = 0
for i in tokens:
    a = a + 1
print(a)

11338


In [50]:
11338-26

11312

In [51]:
df_deneme = pd.DataFrame(sequences)
df_deneme

# 26. kolon bizim target'ımız

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,956,14,263,51,261,408,87,219,129,111,...,7,23,546,3,150,259,6,2713,14,24
1,14,263,51,261,408,87,219,129,111,954,...,23,546,3,150,259,6,2713,14,24,957
2,263,51,261,408,87,219,129,111,954,260,...,546,3,150,259,6,2713,14,24,957,5
3,51,261,408,87,219,129,111,954,260,50,...,3,150,259,6,2713,14,24,957,5,60
4,261,408,87,219,129,111,954,260,50,43,...,150,259,6,2713,14,24,957,5,60,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11307,4,11,952,12,166,2712,3,10,2714,2715,...,7,11,110,2716,547,955,3,2717,11,262
11308,11,952,12,166,2712,3,10,2714,2715,42,...,11,110,2716,547,955,3,2717,11,262,53
11309,952,12,166,2712,3,10,2714,2715,42,4,...,110,2716,547,955,3,2717,11,262,53,2
11310,12,166,2712,3,10,2714,2715,42,4,1,...,2716,547,955,3,2717,11,262,53,2,2718


### Creating an LSTM based model

In [52]:
import keras
from keras.models import Sequential
from keras.layers import Dense,LSTM,Embedding

In [None]:
def create_model(vocabulary_size, seq_len):           # CHATGPT daha detaylı yazdı
    # Modeli başlat
    model = Sequential()

    # 1. Embedding Katmanı
    model.add(Embedding(input_dim=vocabulary_size, output_dim=25, input_length=seq_len)) 
    # input_dim: Kelime dağarcığı boyutu (2717)
    # output_dim: Kelimelerin vektör boyutu (25)
    # input_length: Giriş dizisinin uzunluğu (25)

    # 2. İlk LSTM Katmanı
    model.add(LSTM(150, return_sequences=True, dropout=0.2, recurrent_dropout=0.2))
    # 150 nöronlu LSTM, her zaman diliminde bir çıktı döndürür
    # dropout: Aşırı öğrenmeyi önlemek için nöronları rasgele kapatır
    # recurrent_dropout: LSTM'nin içsel geri bağlantılarını kullanırken dropout uygular

    # 3. İkinci LSTM Katmanı
    model.add(LSTM(150, dropout=0.2, recurrent_dropout=0.2))
    # Bu katman, sadece son zaman dilimi için bir çıktı döndürür

    # 4. Dropout Katmanı
    model.add(Dropout(0.3))
    # Aşırı öğrenmeyi önlemek için ek bir dropout katmanı

    # 5. Dense Katmanı (Ara Katman)
    model.add(Dense(150, activation='relu'))
    # Ara katman, nöron sayısını 150 olarak ayarlar ve ReLU aktivasyon fonksiyonu kullanır

    # 6. Çıkış Katmanı
    model.add(Dense(vocabulary_size, activation='softmax'))
    # Kelime tahmini için softmax aktivasyon fonksiyonu ile çıkış katmanı

    # Modelin derlenmesi
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    
    # Model özeti
    model.summary()
    
    return model

In [53]:
def create_model(vocabulary_size, seq_len):
    model = Sequential()
    model.add(Embedding(vocabulary_size, 25, input_length=seq_len))
    model.add(LSTM(150, return_sequences=True))
    model.add(LSTM(150))
    model.add(Dense(150, activation='relu'))

    model.add(Dense(vocabulary_size, activation='softmax'))
    
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
   
    model.summary()
    
    return model

- loss='categorical_crossentropy': Çok sınıflı sınıflandırma problemleri için uygun olan kayıp fonksiyonudur.

- softmax aktivasyon fonksiyonu : her bir çıkış biriminin 0 ile 1 arasında bir değer almasını ve tüm çıkışların toplamının 1 olmasını sağlar. Bu, modelin her kelime için bir olasılık dağılımı tahmin etmesini sağlar.

In [54]:
from keras.utils import to_categorical

In [55]:
# First 49 words
sequences[:,:-1]

array([[ 956,   14,  263, ...,    6, 2713,   14],
       [  14,  263,   51, ..., 2713,   14,   24],
       [ 263,   51,  261, ...,   14,   24,  957],
       ...,
       [ 952,   12,  166, ...,   11,  262,   53],
       [  12,  166, 2712, ...,  262,   53,    2],
       [ 166, 2712,    3, ...,   53,    2, 2718]])

In [56]:
X = sequences[:,:-1]

y = sequences[:,-1]

y = to_categorical(y, num_classes=vocabulary_size+1)

In [57]:
y.shape

(11312, 2719)

- to_categorical: Keras kütüphanesinin bir fonksiyonu olup, y dizisini one-hot encoding formatına dönüştürür.

- y: Modelin hedef değişkeni, yani tahmin edilmek istenen sınıfları içeren dizi.

- num_classes=vocabulary_size+1: One-hot encoding işleminde toplam sınıf sayısını belirtir. Eğer vocabulary_size, modelin öğrenmesini istediğimiz kelime hazinesinin boyutunu temsil ediyorsa, bu değere +1 eklenmesinin nedeni genellikle boş bir sınıf (veya yer tutucu) eklemektir. Bu, modelin 0 indeksli sınıfın (genellikle "no class" veya "no prediction" gibi) olabileceğini varsayar.

Neden Kullanıyoruz?

- Model Eğitimi: Sınıflandırma problemlerinde model, bir sınıfı diğerlerinden ayırabilmesi için her bir sınıfı ayrı bir çıktı birimi ile temsil etmelidir. One-hot encoding, bu ayrımı sağlar.

- Hesaplama Kolaylığı: Kayıp fonksiyonları, özellikle çok sınıflı sınıflandırma için (örneğin, categorical_crossentropy), one-hot encoded verilerle daha etkili bir şekilde çalışır.

- Model Performansı: One-hot encoding, modelin öğrenme sürecini hızlandırabilir ve performansı artırabilir, çünkü model her bir sınıfın varlığını net bir şekilde anlamış olur.

In [59]:
seq_len = X.shape[1]
seq_len

25

### Training the Model

In [60]:
# define model
model = create_model(vocabulary_size+1, seq_len)

In [61]:
from pickle import dump,load

In [108]:
# fit model
model.fit(X, y, batch_size=128, epochs=300,verbose=1)

Epoch 1/300
[1m89/89[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 66ms/step - accuracy: 0.0329 - loss: 7.1908
Epoch 2/300
[1m89/89[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 63ms/step - accuracy: 0.0527 - loss: 6.3583
Epoch 3/300
[1m89/89[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 62ms/step - accuracy: 0.0547 - loss: 6.2666
Epoch 4/300
[1m89/89[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 64ms/step - accuracy: 0.0515 - loss: 6.1446
Epoch 5/300
[1m89/89[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 64ms/step - accuracy: 0.0552 - loss: 6.0189
Epoch 6/300
[1m89/89[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 66ms/step - accuracy: 0.0640 - loss: 5.8838
Epoch 7/300
[1m89/89[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 67ms/step - accuracy: 0.0682 - loss: 5.7822
Epoch 8/300
[1m89/89[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 67ms/step - accuracy: 0.0669 - loss: 5.7040
Epoch 9/300
[1m89/89[0m [32m━━━━━━━━━

<keras.src.callbacks.history.History at 0x1afe1810850>

In [109]:
# save the model to file
model.save('epochBIG.h5')
# save the tokenizer
dump(tokenizer, open('epochBIG', 'wb'))



### Generating New Text

In [110]:
from random import randint
from pickle import load
from keras.models import load_model
from keras.preprocessing.sequence import pad_sequences

In [119]:
def generate_text(model, tokenizer, seq_len, seed_text, num_gen_words):
    '''
    INPUTS:
    model : model that was trained on text data
    tokenizer : tokenizer that was fit on text data
    seq_len : length of training sequence
    seed_text : raw string text to serve as the seed
    num_gen_words : number of words to be generated by model
    '''
    
    # Final Output
    output_text = []
    
    # Initial Seed Sequence
    input_text = seed_text
    
    # Create num_gen_words
    for i in range(num_gen_words):
        
        # Take the input text string and encode it to a sequence
        encoded_text = tokenizer.texts_to_sequences([input_text])[0]
        
        # Pad sequences to our trained rate
        pad_encoded = pad_sequences([encoded_text], maxlen=seq_len, truncating='pre')
        
        # Predict Class Probabilities for each word
        pred_probabilities = model.predict(pad_encoded, verbose=0)[0]  # Tüm olasılıkları al
        
        # Get the index of the word with the highest probability
        pred_word_ind = np.argmax(pred_probabilities)  # En yüksek olasılıklı kelimenin indeksi
        
        # Grab word
        pred_word = tokenizer.index_word[pred_word_ind] 
        
        # Update the sequence of input text (shifting one over with the new word)
        input_text += ' ' + pred_word
        
        output_text.append(pred_word)
        
    # Make it look like a sentence.
    return ' '.join(output_text)


### Grab a random seed sequence

In [113]:
import random
random.seed(101)
random_pick = random.randint(0,len(text_sequences))

In [114]:
random_seed_text = text_sequences[random_pick]

In [116]:
seed_text = ' '.join(random_seed_text)

In [129]:
seed_text

"thought i to myself the man 's a human being just as i am he has just as much reason to fear me as i have"

In [140]:
tahmin = generate_text(model,tokenizer,seq_len,seed_text=seed_text,num_gen_words=26)

In [141]:
gerçek = ' '.join(text_sequences[9547])

In [None]:
text_sequences[9521]

['thought',
 'i',
 'to',
 'myself',
 'the',
 'man',
 "'s",
 'a',
 'human',
 'being',
 'just',
 'as',
 'i',
 'am',
 'he',
 'has',
 'just',
 'as',
 'much',
 'reason',
 'to',
 'fear',
 'me',
 'as',
 'i',
 'have']

In [124]:
random_pick

9521

In [133]:
' '.join(text_sequences[9521])

"thought i to myself the man 's a human being just as i am he has just as much reason to fear me as i have"

In [135]:
' '.join(text_sequences[9547])

'i have to be afraid of him better sleep with a sober cannibal than a drunken christian landlord said i tell him to stash his tomahawk'

In [143]:
def calculate_accuracy(real_text, generated_text):
    # Kelimeleri liste olarak ayır
    real_words = real_text.split()
    generated_words = generated_text.split()
    
    # Kelime sayısını eşitle
    min_length = min(len(real_words), len(generated_words))
    
    # Doğru tahmin edilen kelimeleri say
    correct_predictions = sum(1 for i in range(min_length) if real_words[i] == generated_words[i])
    
    # Doğruluğu hesapla
    accuracy = correct_predictions / min_length
    return accuracy

In [144]:
# Doğruluğu hesapla
accuracy = calculate_accuracy(gerçek, tahmin)
print(f"Doğruluk: {accuracy:.2f}")

Doğruluk: 0.27


In [145]:
from nltk.translate.bleu_score import sentence_bleu

def calculate_bleu_score(real_text, generated_text):
    real_words = real_text.split()
    generated_words = generated_text.split()
    score = sentence_bleu([real_words], generated_words)
    return score

bleu_score = calculate_bleu_score(gerçek, tahmin)
print(f"BLEU Skoru: {bleu_score:.2f}")

BLEU Skoru: 0.23


# CHAT BOT

In [80]:
import pickle

# 'rb' (read binary) modunda dosyayı açın
with open(r'C:\Users\Pc\Desktop\train_qa.txt', 'rb') as fp:   # Unpickling
    train_data = pickle.load(fp)

with open(r'C:\Users\Pc\Desktop\test_qa.txt', 'rb') as fp:   # Unpickling
    test_data = pickle.load(fp)

In [82]:
train_data[0]

(['Mary',
  'moved',
  'to',
  'the',
  'bathroom',
  '.',
  'Sandra',
  'journeyed',
  'to',
  'the',
  'bedroom',
  '.'],
 ['Is', 'Sandra', 'in', 'the', 'hallway', '?'],
 'no')

## Setting up Vocabulary of All Words

In [101]:
# Create a set that holds the vocab words
vocab = set()

In [102]:
all_data = test_data + train_data

In [103]:
for story, question , answer in all_data:
    # In case you don't know what a union of sets is:
    # https://www.programiz.com/python-programming/methods/set/union
    vocab = vocab.union(set(story))
    vocab = vocab.union(set(question))

In [104]:
vocab.add('no')
vocab.add('yes')

-  Python'da set() fonksiyonu, kendisine verilen girdiyi öğelerine ayırarak her bir öğeyi bir küme elemanı olarak ekler. Girdi bir kelime (string) ise, her bir harfi ayrı bir öğe olarak kümeye ekler. Girdi bir cümle ya da kelime listesi ise, her bir kelimeyi öğe olarak ekler.

In [105]:
vocab

{'.',
 '?',
 'Daniel',
 'Is',
 'John',
 'Mary',
 'Sandra',
 'apple',
 'back',
 'bathroom',
 'bedroom',
 'discarded',
 'down',
 'dropped',
 'football',
 'garden',
 'got',
 'grabbed',
 'hallway',
 'in',
 'journeyed',
 'kitchen',
 'left',
 'milk',
 'moved',
 'no',
 'office',
 'picked',
 'put',
 'the',
 'there',
 'to',
 'took',
 'travelled',
 'up',
 'went',
 'yes'}

In [106]:
vocab_len = len(vocab) + 1 #we add an extra space to hold a 0 for Keras's pad_sequences

- Keras'ın pad_sequences fonksiyonu ile çalışırken, modelinizin eğitilebilmesi için dizileri aynı uzunlukta yapmanız gerekir. Ancak, bazı diziler daha kısa olabileceğinden, bu dizilere "0" ile dolgu (padding) yapmanız gerekir. Bu durumda, 0 genellikle özel bir anlam taşır ve dizilerdeki eksik veriyi ya da başlangıç boşluklarını belirtir. İşte bu yüzden bir 0 değeri tutmak için ekstra bir alan eklenir.

In [194]:
max_story_len = max([len(data[0]) for data in all_data])

In [196]:
max_question_len = max([len(data[1]) for data in all_data])

## Vectorizing the Data

In [121]:
from keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer

In [122]:
# integer encode sequences of words
tokenizer = Tokenizer(filters=[])
tokenizer.fit_on_texts(vocab)

In [123]:
tokenizer.word_index

{'went': 1,
 'moved': 2,
 'is': 3,
 'bathroom': 4,
 'dropped': 5,
 'travelled': 6,
 'the': 7,
 'milk': 8,
 'put': 9,
 '?': 10,
 'left': 11,
 'garden': 12,
 'discarded': 13,
 'kitchen': 14,
 'apple': 15,
 'office': 16,
 'up': 17,
 'hallway': 18,
 'in': 19,
 'john': 20,
 'to': 21,
 'daniel': 22,
 'mary': 23,
 'took': 24,
 'back': 25,
 'journeyed': 26,
 'sandra': 27,
 'got': 28,
 'picked': 29,
 'down': 30,
 '.': 31,
 'football': 32,
 'no': 33,
 'yes': 34,
 'grabbed': 35,
 'there': 36,
 'bedroom': 37}

In [124]:
train_story_text = []
train_question_text = []
train_answers = []

for story,question,answer in train_data:
    train_story_text.append(story)
    train_question_text.append(question)

In [125]:
train_story_seq = tokenizer.texts_to_sequences(train_story_text)

### Functionalize Vectorization

In [197]:
def vectorize_stories(data, max_story_len=max_story_len,max_question_len=max_question_len):
    '''
    INPUT: 
    
    data: consisting of Stories,Queries,and Answers
    word_index: word index dictionary from tokenizer
    max_story_len: the length of the longest story (used for pad_sequences function)
    max_question_len: length of the longest question (used for pad_sequences function)


    OUTPUT:
    
    Vectorizes the stories,questions, and answers into padded sequences. We first loop for every story, query , and
    answer in the data. Then we convert the raw words to an word index value. Then we append each set to their appropriate
    output list. Then once we have converted the words to numbers, we pad the sequences so they are all of equal length.
    
    Returns this in the form of a tuple (X,Xq,Y) (padded based on max lengths)
    '''
    
    
    # X = STORIES
    X = []
    # Xq = QUERY/QUESTION
    Xq = []
    # Y = CORRECT ANSWER
    Y = []
    
    
    for story, query, answer in data:
        
        # Grab the word index for every word in story
        x = [tokenizer.word_index[word.lower()] for word in story]
        # Grab the word index for every word in query
        xq = [tokenizer.word_index[word.lower()] for word in query]
        
        # Grab the Answers (either Yes/No so we don't need to use list comprehension here)
        # Index 0 is reserved so we're going to use + 1
        y = np.zeros(len(tokenizer.word_index) + 1)
        
        # Now that y is all zeros and we know its just Yes/No , we can use numpy logic to create this assignment
        #
        y[tokenizer.word_index[answer]] = 1
        
        # Append each set of story,query, and answer to their respective holding lists
        X.append(x)
        Xq.append(xq)
        Y.append(y)
        
    # Finally, pad the sequences based on their max length so the RNN can be trained on uniformly long sequences.
        
    # RETURN TUPLE FOR UNPACKING
    return (pad_sequences(X, maxlen=max_story_len),pad_sequences(Xq, maxlen=max_question_len), np.array(Y))

In [198]:
inputs_train, queries_train, answers_train = vectorize_stories(train_data)

In [199]:
inputs_test, queries_test, answers_test = vectorize_stories(test_data)

In [200]:
test_data[0][1]

['Is', 'John', 'in', 'the', 'kitchen', '?']

In [189]:
tokenizer.index_word[7]

'the'

In [183]:
queries_test

array([[ 3, 20, 19,  7, 14, 10],
       [ 3, 20, 19,  7, 14, 10],
       [ 3, 20, 19,  7, 12, 10],
       ...,
       [ 3, 23, 19,  7, 37, 10],
       [ 3, 27, 19,  7, 12, 10],
       [ 3, 23, 19,  7, 12, 10]])

In [184]:
answers_test

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [185]:
sum(answers_test)

array([  0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,
         0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,
         0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,
       503., 497.,   0.,   0.,   0.])

## Creating the Model

In [215]:
from keras.models import Sequential, Model
from tensorflow.keras.layers import Embedding
from keras.layers import Input, Activation, Dense, Permute, Dropout, Reshape
from keras.layers import add, dot, concatenate
from keras.layers import LSTM

In [216]:
vocab_size = len(vocab) + 1

In [217]:
# Giriş katmanları
input_sequence = Input(shape=(max_story_len,))
question = Input(shape=(max_question_len,))

# Hikaye girişi için gömme katmanı (embedding layer)
input_encoder_m = Sequential([
    Embedding(input_dim=vocab_size, output_dim=64),  # Her kelimeyi 64 boyutlu vektörlere dönüştür
    Dropout(0.3)  # Aşırı öğrenmeyi önlemek için dropout
])

# Soru girişi için gömme katmanı
question_encoder = Sequential([
    Embedding(input_dim=vocab_size, output_dim=64, input_length=max_question_len),
    Dropout(0.3)  # Aşırı öğrenmeyi önlemek için dropout
])

# Hikaye ve soru girdi dizilerini vektör dizilerine dönüştür
input_encoded_m = input_encoder_m(input_sequence)  # (samples, story_maxlen, embedding_dim)
question_encoded = question_encoder(question)  # (samples, query_maxlen, embedding_dim)

# Benzerlik matrisini hesapla
match = dot([input_encoded_m, question_encoded], axes=(2, 2))  # (samples, story_maxlen, query_maxlen)
# Benzerlik matrisini softmax ile normalize et
match = Activation('softmax')(match)  # (samples, story_maxlen, query_maxlen)

# match tensörünü (samples, story_maxlen, 1) olacak şekilde yeniden şekillendir
match = Permute((1, 2))(match)  # (samples, query_maxlen, story_maxlen) 
match = Reshape((max_story_len, 1))(match)  # (samples, story_maxlen, 1)

# Cevapları oluşturmak için benzerlik matrisini ve hikaye gömme dizisini birleştir
response = add([match, input_encoded_m])  # (samples, story_maxlen, embedding_dim)

# Soru vektör dizisi ile yan yana ekle
answer = concatenate([response, question_encoded])  # (samples, query_maxlen, embedding_dim * 2)

# Cevap dizisini LSTM ile işleme
answer = LSTM(32)(answer)  # (samples, 32) boyutuna getir
answer = Dropout(0.5)(answer)  # Aşırı öğrenmeyi önlemek için dropout
answer = Dense(vocab_size)(answer)  # (samples, vocab_size) boyutuna getir
answer = Activation('softmax')(answer)  # Kelime dağarcığı üzerinde olasılık dağılımı elde et

# Modeli oluştur
model = Model(inputs=[inputs_train, queries_train], outputs=answers_train)
model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

ValueError: The total size of the tensor must be unchanged. Received: input_shape=(156, 6), target_shape=(156, 1)