<a href="https://colab.research.google.com/github/sumeyyedemir5/nlp-preprocessing_and_textRepresentation/blob/main/nlp_preprocessing_and_textRepresentation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
 import nltk
nltk.download("wordnet")

In [None]:
from nltk.stem import PorterStemmer
# Stemming: Kelimeyi eklerinden ayırıp köküne iner (örn: "running" -> "run")
stemmer = PorterStemmer()
words= ["running","runner","runs","go","went"]
stems = [stemmer.stem(w) for w in words]
stems

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

# Örnek kelimeler
words = ["running", "runner", "ran", "runs", "better", "go", "went"]
# Lemmatization: Kelimeyi sözlükteki kök haline (lemma) çevirir (Daha anlamlıdır, örn: "went" -> "go")
lemmas = [lemmatizer.lemmatize(w, pos="v") for w in words]
# 'v' fiil olarak kök bulmasını sağlar

print("Lemma result: ",lemmas)


In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download("stopwords")
# Stopwords: "this, is, an, the" gibi tek başına anlam ifade etmeyen yaygın kelimelerin temizlenmesi
stop_words_eng = set(stopwords.words("english"))

In [None]:
text = "this is an example of removing stop words from a text document"
filtered_text = [word for word in text.split() if word.lower() not in stop_words_eng]
filtered_text

In [None]:
nltk.download("punkt_tab")
text = "Hello World, 2025"
# Tokenization: Metni kelimelere (word) veya cümlelere (sentence) parçalama işlemidir
word_tokens = nltk.word_tokenize(text)
sentence_tokens = nltk.sent_tokenize(text)
word_tokens

# Metin Temsili (Text Representation)
Metinleri sayılara dönüştürme yöntemleridir.
1.   **BoW (Bag of Words)**

* Kelimelerin cümle içindeki sırasını önemsemeden sadece frekansına (kaç kere geçtiğine) bakar.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
documents = [
    "Kedi evde",
    "Kedi bahçede"
]
vectorizer = CountVectorizer()
x= vectorizer.fit_transform(documents)
print("kelime kümesi: ", vectorizer.get_feature_names_out())

In [None]:
print("vektör kümesi:\n",x.toarray())

**1.satır ("Kedi evde") → [0 1 1]**

"bahçede" kelimesi: 0 kez

"evde" kelimesi: 1 kez

"kedi" kelimesi: 1 kez

**2.satır ("Kedi bahçede") → [1 0 1]**

"bahçede": 1 kez

"evde": 0 kez

"kedi": 1 kez

In [None]:
import pandas as pd
import re
from collections import Counter

df = pd.read_csv("/content/drive/MyDrive/IMDB Dataset.csv", encoding="utf-8")
df = df.head(50)
df

In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download("stopwords")
stop_words_eng = set(stopwords.words("english"))
documents = df['review']
labels = df["sentiment"] #positive or negative
#text cleaning func
def clean_text(text):
  text = text.lower() #lowercase conversion
  text = re.sub(r"\d+","",text) #cleaning the numbers
  text = re.sub(r"[^\w\s]","",text) #cleaning the special chars
  #cleaning short words
  text = " ".join([word for word in text.split() if len(word) > 2])
  #cleaning stopwords
  text = " ".join([word for word in text.split() if word.lower() not in stop_words_eng])
  return text
cleaned_doc = [clean_text(doc) for doc in documents]

In [None]:
cleaned_doc

In [None]:
vectorizer = CountVectorizer()
X= vectorizer.fit_transform(cleaned_doc)
feature_names = vectorizer.get_feature_names_out()
vektor2 = X.toarray()[:2]
vektor2

In [None]:
df_bow = pd.DataFrame(X.toarray(), columns = feature_names) #vektor temsili
#kelime frekansı
word_counts = X.sum(axis=0).A1
word_freq = dict(zip(feature_names,word_counts))
most_common_words = Counter(word_freq).most_common(5) #en çok tekrar eden 5 kelime
most_common_words

**2.   TF-IDF (Term Frequency - inverse document frequency)**
TF : kelimenin ne kadar sık geçtiğini ölçer
IDF : kelimenin tüm belgedeki yaygınlığını ölçer. çok fazla bulunan kelimeler çok bilgi sağlamaz.


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import numpy as np
doc = [
    "kedi çok tatlı bir hayvandır",
    "kedi ve köpekler çok tatlı hayvanlardır"
]
tfidfvector = TfidfVectorizer()
X = tfidfvector.fit_transform(doc)
feature_names = tfidfvector.get_feature_names_out()
df_tfidf = pd.DataFrame(X.toarray(),columns = feature_names)
df_tfidf

Kelimenin metin içindeki önemini gösteren TF-IDF değerlerinin ortalaması

In [None]:
kedi_tfidf = df_tfidf["kedi"]
kedi_mean_tfidf = np.mean(kedi_tfidf)
kedi_mean_tfidf

In [None]:
df2 = pd.read_csv("/content/drive/MyDrive/sms_spam.csv")
df2

In [None]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df2.text)
X

In [None]:
feature_names = vectorizer.get_feature_names_out
tfidf_score = X.mean(axis=0).A1 #ortalama TF-IDF değerleri
df_tfidf = pd.DataFrame({"word":feature_names,"score":tfidf_score})
df_tfidf

**N-GRAM MODELLİNG**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
documents = [
    "bu bir örnek metindir",
    "bu örnek metin doğal dil işlemeyi gösterir"
]
vectorizer_unigram = CountVectorizer(ngram_range=(1,1))
vectorizer_bigram = CountVectorizer(ngram_range=(2,2))
vectorizer_trigram = CountVectorizer(ngram_range=(3,3))

X_unigram = vectorizer_unigram.fit_transform(documents)
unigram_features = vectorizer_unigram.get_feature_names_out()
unigram_features

In [None]:
X_bigram = vectorizer_bigram.fit_transform(documents)
bigram_features = vectorizer_bigram.get_feature_names_out()
bigram_features

In [None]:
X_trigram = vectorizer_trigram.fit_transform(documents)
trigram_features = vectorizer_trigram.get_feature_names_out()
trigram_features

# WORD EMBEDDİNG
kelimeleri sayısal vektörlere dönüştürür. bu temsiller kelimeler arasındaki anlamsal ilişkileri yakalamayı hedefler.


*   word2Vec : Google tarafınfan geliştirilen ,kelimeleri vektörlere dönüştüren ve bu vektörleri dildeki ilişkileri yakalayacak şekilde eğiten modeldir.
*   GloVe : kelime gömme temsillerini kelime ortaklıklarını yakalayacak şekilde hesaplayan bir modeldir.
*   FastText : Facebook tarafından geliştirilen ve kelime gömme temsillerini alt birimlerini de dikkate alarak hesaplayan bir modeldir



In [None]:
!pip install gensim

In [None]:
import pandas as pd
from gensim.models import Word2Vec, FastText
from gensim.utils import simple_preprocess #büyük küçük harf çevrimi ve tokenizasyon
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

sentences = [
    "kedi çok tatlı bir hayvandır",
    "köpekler de tatlıdır"
]

tokenized_sentences = [simple_preprocess(sentence) for sentence in sentences]
tokenized_sentences


In [None]:
word2vec = Word2Vec(sentences=tokenized_sentences,vector_size=50,window=5,min_count=1,sg=0)
#vector_size = her kelime için oluşturulacak vektörlerin boyutunu belirler.boyut arttıkça yorumlama gücü artar
#window = kelimeye en yakın kaç kelime dikkate alınacak?
#min_count = 1 kelimeden sadece 1 adet bulunuyorsao kelimenin dikkate alınmayacağı anlamına gelir.
#sg=0 BoW algoritmasını kullanacak sg=1 engram algoritması

fasttext = FastText(sentences=tokenized_sentences,vector_size=50,window=5,min_count=1,sg=0)

def plot_word_embadding(model,title):
  word_vectors = model.wv
  words = list(word_vectors.index_to_key)[:1000]
  vectors = [word_vectors[word] for word in words]

  #PCA
  pca = PCA(n_components=3)
  reduced_vectors = pca.fit_transform(vectors)

  #3d görselleştirme
  fig = plt.figure(figsize = (12,8))
  ax = fig.add_subplot(111, projection="3d")

  #vektorler
  ax.scatter(reduced_vectors[:,0],reduced_vectors[:,1],reduced_vectors[:,2])
  #kelimeleri etiketler
  for i, word in enumerate(words):
    ax.text(reduced_vectors[i,0],reduced_vectors[i,1],reduced_vectors[i,2],word, fontsize=12)

  ax.set_title(title)
  ax.set_xlabel("Component 1")
  ax.set_ylabel("Component 2")
  ax.set_zlabel("Component 3")
  plt.show()

plot_word_embadding(word2vec,"Word2Vec")
plot_word_embadding(fasttext,"FastText")

In [None]:
from sklearn.cluster import KMeans
import re

In [None]:
df= pd.read_csv("/content/drive/MyDrive/IMDB Dataset.csv")

In [None]:
documents = df["review"]

In [None]:
#metin temizleme
def clean_text(text):
  text = re.sub(r"\d+","",text)
  text = re.sub(r"[^\w\s]","",text)
  text = " ".join([word for word in text.split() if len(word) > 2])
  return text

In [None]:
cleaned_documents = [clean_text(doc) for doc in documents]
#tokenizasyon
tokenized_documents = [simple_preprocess(doc) for doc in cleaned_documents]

In [None]:
model = Word2Vec(sentences = tokenized_documents, vector_size = 50,window =5, min_count=1, sg=0)
word_vectors = model.wv

words = list(word_vectors.index_to_key)[:500]
vectors = [word_vectors[word] for word in words]

In [None]:
kmeans = KMeans(n_clusters= 3) #3 küme
kmeans.fit(vectors)
clusters = kmeans.labels_ #her kelimenin hangi kümeye ait olduğunu gösterir. örn: [0,0,1,1,2..]

pca = PCA(n_components = 2) #analizi kolaylaştırmak için 50 boyutu 2 boyuta indiriyoruz.
reduced_vectors = pca.fit_transform(vectors)

In [None]:
#2d görselleştirme
plt.figure()
plt.scatter(reduced_vectors[:,0],reduced_vectors[:,1],c = clusters,cmap ="viridis" )
centers = pca.transform(kmeans.cluster_centers_)
plt.scatter(centers[:,0], centers[:,1], c="red", marker ="x", s=80, label = "merkez")
plt.legend()

for i, word in enumerate(words):
  plt.text(reduced_vectors[i,0], reduced_vectors[i,1], word, fontsize=8)
plt.title("word2Vec")

TRANSFORMERS TABANLI METİN TEMSİLİ


*   BERT : (Bidirectional Encoder Representation from Transformers) bir kelimeyi incelerken önceki ve sonraki kelimelere de bakar. Metin sınıflandırma, adlandırılmış varlık tanıma, soru yanıtlama gibi görevlerde kullanılmaktadır.
*   GPT : (Generative Pre-trained Transformer) Tek yönlü çalışır. Bir kelimeyi tahmin ederken önceki kelimelere dayanır (autoregressive).

**Attention:** modelin belirli girdi parçalarına farklı derecelerde dikkat göstermesini sağlar.Özellikle bir kelimenin diğer kelimelerle olan ilişkisini anlamak için kullanılır.
Sorgu (Query) ve Anahtar(Key) Çarpımı : Cümledeki kelimelerin birbiriyle olan ilişki skoru hesaplanır.

**Input Embedding :** Girdi verilerini sayısal formata çevirmek için kullanılan tekniktir.

**Multi Head Attention:** Birden fazla dikkat başlığı ile çalışır. Anlam ilişkisi, gramatik ilişki, cümledeki konumu gibi.

**Masked multi head attention :** Model sadece geçmiş bilgileri kullanarak tahminde bulunur. Gelecekteki kelimeleri tahmin etmez.

**Addition & Normalization  :** Dikkat katmanının çıktısına giriş verilerini ekler ve ardından verileri normalleştirir.

**Feed Forward (İleri Besleme):** Her kelimeye ayrı ayrı uygulanan bir sinir ağı katmanıdır. Her encoder ve decoder katmanında bulunan bir ağdır.

**Output Embedding :** Çıktı kelimelerini veya sembollerini sayısal vektörlere dönüştürür.

In [None]:
from transformers import AutoTokenizer, AutoModel
import torch

model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

text = "Transformers are amazing for natural language processing."
#tokenizasyon
inputs  = tokenizer(text,return_tensors = "pt")
with torch.no_grad():
   #geri yayılım iptal edilmiş oldu. Ağırlıklar güncellenmeyecek.
   outputs = model(**inputs)

#çıkışlardan ilk tokenları alalım
last_hidden_state = outputs.last_hidden_state
first_token_embedding = last_hidden_state[0,0,:].numpy()

In [None]:
print("metin temsili ilk token : ")
print(first_token_embedding)

In [None]:
from collections import Counter
import nltk
nltk.download('punkt_tab')
from nltk.util import ngrams
from nltk.tokenize import word_tokenize

corpus = [
    "I love they",
    "they love apple and banana",
    "she loves you",
    "They love me"
]

tokens = [word_tokenize(sentence.lower()) for sentence in corpus]
tokens

In [None]:
bigrams = []
for token_list in tokens:
  bigrams.extend(list(ngrams(token_list,2)))

bigrams

In [None]:
bigrams_freq = Counter(bigrams)
bigrams_freq
#kelimelerin bigramlarını oluşturur ve ard arda gelme sıklığını gösterir.

In [None]:
trigrams = []
for token_list in tokens:
  trigrams.extend(list(ngrams(token_list,3)))

trigrams_freq = Counter(trigrams)
trigrams_freq

In [None]:
bigram = ("they","love")
prob_apple = trigrams_freq[("they", "love", "apple")]/bigrams_freq[bigram]
prob_me = trigrams_freq[("they", "love", "me")]/bigrams_freq[bigram]

# **Hidden Markow model**


In [None]:
import nltk
from nltk.tag import hmm
train_data = [
    [("I","PRP"),("am","VBP"),("a","DT"),("student","NN")],
    [("you","PRP"),("are","VBP"),("a","DT"),("teacher","NN")]
]

trainer = hmm.HiddenMarkovModelTrainer()
hmm_tagger = trainer.train(train_data)
test_sentence = "I am a teacher".split()
tags = hmm_tagger.tag(test_sentence)
print("etiketli cümle :",tags)

In [None]:
from nltk.corpus import conll2000
nltk.download("conll2000")
train_data = conll2000.tagged_sents("train.txt")
test_data = conll2000.tagged_sents("test.txt")

trainer = hmm.HiddenMarkovModelTrainer()
hmm_tagger = trainer.train(train_data)
test_sentence = "I like going to park".split()
tags = hmm_tagger.tag(test_sentence)
tags

# **Maksimum Entropi Modelleri**


In [None]:
from nltk.classify import MaxentClassifier
train_data = [
    ({"love":True, "amazing":True}, "positive"),
    ({"hate":True, "terrible":True}, "negative"),
    ({"happy":True, "joy":True}, "positive"),
    ({"sad":True, "depressed":True}, "negative")
]

classifier = MaxentClassifier.train(train_data, max_iter = 10)
test_sentence = "I like this amazing movie"

features = {word: (word in test_sentence.lower().split()) for word in ["love","hate","terrible","happy","joy","sad","depressed"]}

label = classifier.classify(features)
label

# WORD EMBEDDİNGS


**WORD2VEC Temel Modelleri**
*  CBOW

bir kelimenin bağlamındaki diğer kelimeleri kullanarak o kelimeyi tahmin etmeyi hedefler.
*   Skip-gram model

CBOW'un tam tersidir. Bir kelimeyi kullanarak o kelimenin bağlamında yer alan kelimeleri tahmin etmeyi hedefler.



**Recurrent Neural Networks (RNN)**

*her zaman adımında önceki zaman adımındaki bilgiyi saklayarak ve sonraki adımlarla bu bilgiyi güncelleyerek çalışırlar.*



In [None]:
import pandas as pd
import numpy as np

from gensim.models import Word2Vec

from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import SimpleRNN, Dense , Embedding
from tensorflow.keras.preprocessing.text import Tokenizer

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

data = {
    "text": [
        "I absolutely loved the movie, it was fantastic!",
        "The plot was boring and predictable.",
        "Great performances by the lead actors.",
        "I didn't enjoy the film at all.",
        "The cinematography was stunning and beautiful.",
        "Terrible script and poor direction.",
        "An emotional rollercoaster that kept me engaged.",
        "The movie was too long and dragged on.",
        "A masterpiece that exceeded my expectations.",
        "I regret watching this movie.",
        "The soundtrack was amazing and memorable.",
        "The acting was wooden and unconvincing.",
        "I laughed throughout, such a fun movie!",
        "I almost fell asleep, it was that dull.",
        "Brilliant storytelling and plot twists.",
        "Disappointing and underwhelming.",
        "The visuals were breathtaking and immersive.",
        "Horrible pacing and confusing plot.",
        "I was moved by the heartfelt scenes.",
        "It felt like a waste of time.",
        "Excellent character development.",
        "Poor editing and awkward transitions.",
        "The movie had a perfect balance of humor and drama.",
        "I couldn't relate to any of the characters.",
        "An inspiring and uplifting story.",
        "The dialogues were cringe-worthy.",
        "Highly entertaining and captivating from start to finish.",
        "It was cliché and uninspired.",
        "I would definitely watch it again.",
        "I wish I hadn't spent money on this film."
    ],
    "label": [
        "positive", "negative", "positive", "negative", "positive", "negative",
        "positive", "negative", "positive", "negative", "positive", "negative",
        "positive", "negative", "positive", "negative", "positive", "negative",
        "positive", "negative", "positive", "negative", "positive", "negative",
        "positive", "negative", "positive", "negative", "positive", "negative"
    ]
}

df = pd.DataFrame(data)
# tokenize
tokenizer = Tokenizer()
tokenizer.fit_on_texts(df["text"])
sequences = tokenizer.texts_to_sequences(df["text"])
word_index = tokenizer.word_index

# padding
maxlen = max(len(seq) for seq in sequences)
x= pad_sequences(sequences,maxlen=maxlen)

# label Encoding
label_encoder = LabelEncoder()
y=label_encoder.fit_transform(data["label"])

#train_test_split
X_train ,X_test, y_train, y_test = train_test_split(x ,y ,test_size= 0.3, random_state=42)

# Word embedding
sentences = [text.split() for text in data["text"]]
word2vec_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)

embedding_dim = 100
embedding_matrix=np.zeros((len(word_index) +1, embedding_dim))
for word, i in word_index.items():
  if word in word2vec_model.wv:
    embedding_matrix[i] = word2vec_model.wv[word]

#build RNN model
model = Sequential()
model.add(Embedding(input_dim=len(word_index)+1, output_dim = embedding_dim, weights= [embedding_matrix],input_length = maxlen, trainable = False))
model.add(SimpleRNN(100,return_sequences=False))
model.add(Dense(1, activation="sigmoid"))

model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])
model.fit(X_train,y_train,epochs= 10, batch_size = 2,validation_data=(X_test,y_test))

print(" ")
loss, accuracy = model.evaluate(X_test, y_test)
print("Test loss: ", loss)
print("Test accuracy: ", accuracy)

In [None]:
def classify_sentence(sentence):
  seq = tokenizer.texts_to_sequences([sentence])
  padded_seq = pad_sequences(seq,maxlen = maxlen)

  prediction = model.predict(padded_seq)
  predicted_class = (prediction > 0.5).astype(int)
  label = "pozitif" if predicted_class[0][0] == 1 else "negatif"
  return label

sentence = "The dialogues were cringe-worthy."
result = classify_sentence(sentence)
print(result)