In [20]:
### kütüphaneleri tanımlayınız. ### 
import pandas as pd
import re
import snowballstemmer

In [2]:
df = pd.read_csv("data/nlp.csv")

In [3]:
# numerik karakterlerin kaldırılması
def remove_numeric(value):
    bfr = [item for item in value if not item.isdigit()]
    bfr = "".join(bfr)
    return bfr 

In [4]:
# emojilerin kaldırılması
def remove_emoji(value):
    bfr = re.compile("[\U00010000-\U0010ffff]",flags = re.UNICODE)
    bfr = bfr.sub(r'',value)
    return bfr

In [5]:
#noktalama işaretlerinin kaldırılması
def remove_noktalama(value):
    return re.sub(r'[^\w\s]','',value)

In [6]:
#tek karakterli ifadelerin kaldırılması
def remove_single_chracter(value):
    return re.sub(r'(?:^| )\w(?:$| )','',value)

In [7]:
#linklerin kaldırılması 
def remove_link(value):
    return re.sub('((www\.[^\s]+)|(https?://[^\s]+))','',value)

In [8]:
# hashtaglerin kaldırılması
def remove_hashtag(value):
    return re.sub(r'#[^\s]+','',value)

In [9]:
# kullanıcı adlarının kaldırılması
def remove_username(value):
    return re.sub(r'@[^\s]+','',value)

In [10]:
#kök indirgeme ve stop words işlemleri
def stem_word(value):
    stemmer = snowballstemmer.stemmer('turkish')
    value = value.lower()
    value = stemmer.stemWords(value.split())
    stop_words = ["acaba","ama","aslında","az","bazı","belki","biri","birkaç","birşey","biz","bu","çok",
                 "çünkü","da","de","daha","defa","diye","eğer","en","gibi","hep","hem","hepsi","her",
                 "hiç","için","ile","ise","kez","ki","kim","mi","mı","mu","mü","nasıl","ne","neden","nerde",
                 "nerede","nereye","niçin","niye","o","sanki","şey","siz","şu","tüm","ve","veya","ya","yani"
                 ,"bir","iki","üç","dört","beş","altı","yedi","sekiz","dokuz","on"]
    value = [item for item in value if not item in stop_words]
    value = "".join(value)
    return value

In [11]:
# ön işlem fonksiyonlarının sırayla çağırılması
def pre_processing(value):
    return [remove_numeric(remove_emoji
                          (remove_single_chracter
                           (remove_noktalama
                            (remove_link
                             (remove_hashtag
                              (remove_username
                               (stem_word(word)))))))) for word in value.split()]

In [12]:
df["Text_2"] = df["Text"].apply(pre_processing)

In [13]:
df.loc[0,'Text']

'Yapay Zeka Nedir, Ne İşe Yarar?\n\nYapay zeka (YZ) bilgisayarlar ve diğer cihazların, insan zekasına benzer şekilde düşünmesini, öğrenmesini, kararlar vermesini ve problem çözmesini sağlayan bir bilim dalıdır. Yapay zeka teknolojisi, doğal dil işleme, ses tanıma, görüntü işleme,… https://t.co/nDH7iGOdFe'

In [14]:
df.loc[0,'Text_2']

['yapay',
 'zeka',
 'nedir',
 '',
 'işe',
 'yarar',
 'yapay',
 'zeka',
 'yz',
 'bilgisayar',
 '',
 'diğer',
 'cihazların',
 'in',
 'zeka',
 'benzer',
 'şekil',
 'düşünmesini',
 'öğrenmesini',
 'karar',
 'verme',
 '',
 'proble',
 'çözme',
 'sağlaya',
 '',
 'bil',
 'dalıdır',
 'yapay',
 'zeka',
 'teknolojisi',
 'doğal',
 'dil',
 'işleme',
 'ses',
 'tanıma',
 'gör',
 'işleme',
 '']

In [15]:
# Boşlukların kaldırılması
def remove_space(value):
    return [item for item in value if item.strip()]

df["Text_2"] = df["Text_2"].apply(remove_space)

In [16]:
df.loc[0,'Text_2']

['yapay',
 'zeka',
 'nedir',
 'işe',
 'yarar',
 'yapay',
 'zeka',
 'yz',
 'bilgisayar',
 'diğer',
 'cihazların',
 'in',
 'zeka',
 'benzer',
 'şekil',
 'düşünmesini',
 'öğrenmesini',
 'karar',
 'verme',
 'proble',
 'çözme',
 'sağlaya',
 'bil',
 'dalıdır',
 'yapay',
 'zeka',
 'teknolojisi',
 'doğal',
 'dil',
 'işleme',
 'ses',
 'tanıma',
 'gör',
 'işleme']

In [17]:
import on_islem
import pandas as pd

In [18]:
df =pd.read_csv('data/nlp.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,Text
0,0,"Yapay Zeka Nedir, Ne İşe Yarar?\n\nYapay zeka ..."
1,1,🔎 Verilerinizi analiz edin: \nChatGPT'yi kulla...
2,2,"Öncelikle yapay zekanın ne olduğunu, #dijitala..."
3,3,9. Baidu Research: Çin'in önde gelen arama mot...
4,4,4. Microsoft AI: Microsoft'un yapay zeka tekno...


In [19]:
df["Text_2"] = df["Text"].apply(on_islem.pre_processing)
df["Text_2"] = df["Text_2"].apply(on_islem.remove_space)
df.head()

Unnamed: 0.1,Unnamed: 0,Text,Text_2
0,0,"Yapay Zeka Nedir, Ne İşe Yarar?\n\nYapay zeka ...","[yapay, zeka, nedir, işe, yarar, yapay, zeka, ..."
1,1,🔎 Verilerinizi analiz edin: \nChatGPT'yi kulla...,"[veri, analiz, edin, chatgptyi, kullanarak, do..."
2,2,"Öncelikle yapay zekanın ne olduğunu, #dijitala...","[öncelik, yapay, zeka, olduğunu, iç, önemli, o..."
3,3,9. Baidu Research: Çin'in önde gelen arama mot...,"[baidu, research, çin, ön, gele, ara, motor, b..."
4,4,4. Microsoft AI: Microsoft'un yapay zeka tekno...,"[microsoft, ai, microsoft, yapay, zeka, teknol..."
