In [26]:
import pandas as pd
import re
import snowballstemmer
import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE


Adım 1 ön işlem adımları

In [2]:
df = pd.read_csv("data/nlp_proje_metin_gorsellestirme.csv",index_col=0)
df

Unnamed: 0,Text
0,merhaba can gurler belirttiginiz urunle ilgili...
1,-bir mesaj atsa! *mesaj sesi* (şok ifadesi) no...
2,mbps fiber baglantim var ama nedense ustunu go...
3,fiberin hizi vatandasin cebindeki parayi nasil...
4,sakin vestel almayinnher urunu bozuk arkasinds...
...,...
12127,tab gosterir misiniz
12128,"kimse seneye görüşürüz esprisi yapmıyo derken,..."
12129,bin kisiye verecegi hizmeti tek santralden bin...
12130,zafer bayraminiz degil bayramimiz kizmislardir...


In [3]:
df.head()

Unnamed: 0,Text
0,merhaba can gurler belirttiginiz urunle ilgili...
1,-bir mesaj atsa! *mesaj sesi* (şok ifadesi) no...
2,mbps fiber baglantim var ama nedense ustunu go...
3,fiberin hizi vatandasin cebindeki parayi nasil...
4,sakin vestel almayinnher urunu bozuk arkasinds...


In [4]:
pip install snowballstemmer

Note: you may need to restart the kernel to use updated packages.


In [5]:
# emojilerin kaldırılması
def remove_emoji(value):
    bfr=re.compile("[\U00010000-\U0010ffff]",flags=re.UNICODE)
    bfr=bfr.sub(r'',value)
    return bfr

In [6]:
#linklerin kaldırılması 
def remove_link(value):
    return re.sub('((www\.[^\s]+)|(https?://[^\s]+))','',value)

In [7]:
# numerik karakterlerin kaldırılması
def remove_numeric(value):
    bfr= [item for item in value if not item.isdigit()]
    bfr = "".join(bfr)
    return bfr 

In [8]:
def remove_hashtag(value):
    if not isinstance(value, (str, bytes)):
        raise TypeError("value parametresi bir dize veya bayt benzeri nesne olmalıdır.")
    return re.sub(r'#[^\s]+', '', value)

In [9]:
# hashtaglerin kaldırılması
def remove_hashtag(value):
    return re.sub(r'#[^\s]+','',value)

In [10]:
#noktalama işaretlerinin kaldırılması
def remove_noktalama(value):
    return re.sub(r'[^\w\s]','',value) 

In [11]:
#tek karakterli ifadelerin kaldırılması
def remove_single_character(value):
    return re.sub(r'(?:^| )\w(?:$| )','',value)

In [12]:
# kullanıcı adlarının kaldırılması
def remove_username(value):
    return re.sub('@[^\s]+','',value)

In [13]:
#kök indirgeme ve stop words işlemleri
import snowballstemmer
def stem_word(value):
    stemmer= snowballstemmer.stemmer("turkish")
    value = value.lower()
    value=stemmer.stemWords(value.split())
    stop_words= ['bence','a','acaba','altı','altmış','ama','ancak','arada','artık','asla','aslında','ayrıca','az',
                 'bana','bazen','bazı','bile','biraz','bu','bunu','bunun','çoğu','çoğunu','çok','çünkü',
                 'da','daha','de','ise','defa','diye','gibi','en','kim','mı','mi','mu','mü','bir','iki',
                 'üç','dört','beş','altı','yedi','sekiz','dokuz','on','niçin','niye','şey','siz','şu',
                'her','hiç','ve','veya','ya','yani','ne','neden']
    value= [item for item in value if not item in stop_words]
    value=' ' .join(value)
    return value

In [14]:
# ön işlem fonksiyonlarının sırayla çağırılması
def pre_processing(value):
    return [(remove_emoji(remove_link
                          (remove_numeric
                           (remove_hashtag
                            (remove_noktalama
                             (remove_single_character
                              (remove_username
                               (stem_word(word))))))))) for word in value.split()]

Adım 2 Word2vec modeli ile eğitme işlemleri

In [15]:
from gensim.models import Word2Vec

In [20]:
sentences = df["Text"].dropna().apply(pre_processing).tolist()  #NaN değerleri kaldırmak için dropna kullanıldı
word2vec_model = Word2Vec(sentences, min_count=1)   #Word2Vec modelini eğitme

In [25]:
word = "ama"  # Analiz etmek istenilen kelime

# Kelimenin en yakın 10 kelimesini bul
similar_words = word2vec_model.wv.most_similar(word, topn=10)
print(similar_words)


[('et', 0.9918080568313599), ('turkcel', 0.9917208552360535), ('rabp', 0.991639256477356), ('zengi', 0.9916020631790161), ('gol', 0.9915964007377625), ('bakma', 0.9913391470909119), ('kanal', 0.9912528991699219), ('eger', 0.9912149906158447), ('helal', 0.9911813139915466), ('verip', 0.9911149740219116)]


Adım 3 TSNE algoritması kullanılarak görselleştirme işlemi

In [65]:
# Kelimenin vektörünü alma
word_vector = word2vec_model.wv[word]

# En yakın 10 kelimenin vektörlerini alın
similar_word_vectors = [word2vec_model.wv[word] for word, _ in similar_words]
