# Gerekli Kurulumların Yapılması

In [78]:
import pandas as pd
import nltk

# Veri Setinin Oluşturulması

In [79]:
metin1 = "Veri Bilimi*3,5, acaba ama hiç şüphesiz günümüzün en popüler araştırma ve uygulama alanlarının başında geliyor."
metin2 = "Doğal Dil İşleme, doğal dillerin kurallı yapısının çözümlenerek anlaşılması veya yeniden üretilmesi amacını taşır."
metin3 = "Yapay Zeka, bilgisayarın veya bilgisayar kontrolündeki bir robotun çeşitli faaliyetleri zeki canlılara benzer şekilde yerine getirme kabiliyetidir."
metin4 = "Derin Öğrenme bir makine öğrenme yöntemidir."
metin5 = "Bulanık Mantık kavramı ilk olarak Lotfi A. Zadeh tarafından 1965 tarihinde yayımlanan “The Theory of Fuzzy Logic and Fuzzy Sets” (Bulanık Mantık ve Bulanık Kümeler Kuramı) adlı makalede ortaya atıldı."
metin6 = "Pekiştirmeli öğrenme, davranışçılıktan esinlenen, öznelerin bir ortamda en yüksek ödül miktarına ulaşabilmesi için hangi eylemleri yapması gerektiğiyle ilgilenen bir makine öğrenmesi yaklaşımıdır."

In [80]:
#Dataframe oluşturmayı - sütun ismi vermeyi - veri tipini atamayı öğrendik
veri = pd.DataFrame({"ifade":[metin1,metin2,metin3,metin4,metin5,metin6]}, dtype="string")

In [81]:
veri

Unnamed: 0,ifade
0,"Veri Bilimi*3,5, acaba ama hiç şüphesiz günümü..."
1,"Doğal Dil İşleme, doğal dillerin kurallı yapıs..."
2,"Yapay Zeka, bilgisayarın veya bilgisayar kontr..."
3,Derin Öğrenme bir makine öğrenme yöntemidir.
4,Bulanık Mantık kavramı ilk olarak Lotfi A. Zad...
5,"Pekiştirmeli öğrenme, davranışçılıktan esinlen..."


# 1.Büyük - Küçük Harf Dönüşümü

In [82]:
for i in range(len(veri.loc[:, 'ifade'])):
    veri.loc[i, 'ifade'] = veri.loc[i, 'ifade'].lower()

In [83]:
veri

Unnamed: 0,ifade
0,"veri bilimi*3,5, acaba ama hiç şüphesiz günümü..."
1,"doğal dil i̇şleme, doğal dillerin kurallı yapı..."
2,"yapay zeka, bilgisayarın veya bilgisayar kontr..."
3,derin öğrenme bir makine öğrenme yöntemidir.
4,bulanık mantık kavramı ilk olarak lotfi a. zad...
5,"pekiştirmeli öğrenme, davranışçılıktan esinlen..."


### Farklı bir yöntem daha
* Diğeri o kadar uzun sürdü ki bırakıp başka şeyler yapmaya başladım bu ise 1 sn'den az sürdü.
* Burada ekstra olarak tekrar dataframe e çevirmemiz gerekiyor

In [84]:
düzelmiş_veri = veri["ifade"].apply(lambda x: " ".join(x.lower() for x in x.split()))

In [85]:
düzelmiş_veri

0    veri bilimi*3,5, acaba ama hiç şüphesiz günümü...
1    doğal dil i̇şleme, doğal dillerin kurallı yapı...
2    yapay zeka, bilgisayarın veya bilgisayar kontr...
3         derin öğrenme bir makine öğrenme yöntemidir.
4    bulanık mantık kavramı ilk olarak lotfi a. zad...
5    pekiştirmeli öğrenme, davranışçılıktan esinlen...
Name: ifade, dtype: object

# 2.Özel Karakterlerin/Noktalama İşaretlerinin Silinmesi

In [86]:
düzelmiş_veri2 = düzelmiş_veri.str.replace("[^\w\s]","")
# ek kaynaklar
# https://www.w3schools.com/python/python_regex.asp

In [87]:
düzelmiş_veri2 = düzelmiş_veri.str.replace("[^\w\s]","")

In [88]:
düzelmiş_veri2

0    veri bilimi35 acaba ama hiç şüphesiz günümüzün...
1    doğal dil işleme doğal dillerin kurallı yapısı...
2    yapay zeka bilgisayarın veya bilgisayar kontro...
3          derin öğrenme bir makine öğrenme yöntemidir
4    bulanık mantık kavramı ilk olarak lotfi a zade...
5    pekiştirmeli öğrenme davranışçılıktan esinlene...
Name: ifade, dtype: object

# 3.Sayıların Silinmesi

In [89]:
düzelmiş_veri3 = düzelmiş_veri2.str.replace("\d","")

In [90]:
düzelmiş_veri3

0    veri bilimi acaba ama hiç şüphesiz günümüzün e...
1    doğal dil işleme doğal dillerin kurallı yapısı...
2    yapay zeka bilgisayarın veya bilgisayar kontro...
3          derin öğrenme bir makine öğrenme yöntemidir
4    bulanık mantık kavramı ilk olarak lotfi a zade...
5    pekiştirmeli öğrenme davranışçılıktan esinlene...
Name: ifade, dtype: object

# 4.Duraklama Kelimelerinin Silinmesi

## NLTK

In [91]:
nltk.download("stopwords")
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\saban\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [92]:
duraklama_kelimeleri = stopwords.words("turkish")

In [93]:
düzelmiş_veri4 = pd.DataFrame(düzelmiş_veri3, columns = ["ifade"])

In [94]:
düzelmiş_veri5 = düzelmiş_veri4["ifade"].apply(lambda x: " ".join(x for x in x.split() if x not in duraklama_kelimeleri))

In [95]:
düzelmiş_veri5

0    veri bilimi şüphesiz günümüzün popüler araştır...
1    doğal dil işleme doğal dillerin kurallı yapısı...
2    yapay zeka bilgisayarın bilgisayar kontrolünde...
3          derin öğrenme bir makine öğrenme yöntemidir
4    bulanık mantık kavramı ilk olarak lotfi a zade...
5    pekiştirmeli öğrenme davranışçılıktan esinlene...
Name: ifade, dtype: object

## Advertools

In [96]:
#!pip install advertools

In [97]:
import advertools as adv

In [98]:
diger_duraklama_kelimeleri = sorted(adv.stopwords['turkish'])[:]

In [99]:
düzelmiş_veri5_1 = düzelmiş_veri4["ifade"].apply(lambda x: " ".join(x for x in x.split() if x not in diger_duraklama_kelimeleri))

In [100]:
düzelmiş_veri5_1

0    veri bilimi şüphesiz günümüzün popüler araştır...
1    doğal dil işleme doğal dillerin kurallı yapısı...
2    yapay zeka bilgisayarın bilgisayar kontrolünde...
3          derin öğrenme bir makine öğrenme yöntemidir
4    bulanık mantık kavramı lotfi a zadeh tarihinde...
5    pekiştirmeli öğrenme davranışçılıktan esinlene...
Name: ifade, dtype: object

# 5. Az Geçen Kelimelerin veya Çok Etkileyen İfadelerin Çıkarılması

In [101]:
düzelmiş_veri5 = pd.DataFrame(düzelmiş_veri5, columns = ["ifade"])

In [102]:
pd.Series(" ".join(düzelmiş_veri5["ifade"]).split()).value_counts()

bir         4
öğrenme     3
bulanık     3
doğal       2
makine      2
           ..
olarak      1
makalede    1
atıldı      1
kurallı     1
a           1
Length: 82, dtype: int64

In [103]:
# Veri kümesi çok büyük olduğunda haliyle devasa miktar kelime havuzu oluşacak. Bunu azaltmak için kullanılabilir.
az_gecenler = pd.Series(" ".join(düzelmiş_veri5["ifade"]).split()).value_counts()[-3:]

In [104]:
az_gecenler

atıldı     1
kurallı    1
a          1
dtype: int64

In [105]:
düzelmiş_veri6 = düzelmiş_veri5["ifade"].apply(lambda x: " ".join(i for i in x.split() if i not in az_gecenler))

In [106]:
# Bazen bazı ifadeler olumlu ifadelerde o kadar çok bulunur ki mesela :) emojisi, etkisi bazı yöntemlerde çok olur.
#Bundan kaynaklı, olumsuzlarda bile geçse onları olumlu gösterir. Bundan kurtulmak için kullanılabilir.
cok_gecenler = pd.Series(" ".join(düzelmiş_veri5["ifade"]).split()).value_counts()[0:3]

In [107]:
cok_gecenler

bir        4
öğrenme    3
bulanık    3
dtype: int64

In [108]:
düzelmiş_veri7 = düzelmiş_veri5["ifade"].apply(lambda x: " ".join(i for i in x.split() if i not in cok_gecenler))

In [109]:
düzelmiş_veri7

0    veri bilimi şüphesiz günümüzün popüler araştır...
1    doğal dil işleme doğal dillerin kurallı yapısı...
2    yapay zeka bilgisayarın bilgisayar kontrolünde...
3                              derin makine yöntemidir
4    mantık kavramı ilk olarak lotfi a zadeh tarafı...
5    pekiştirmeli davranışçılıktan esinlenen öznele...
Name: ifade, dtype: object

# 6. İstenmeyen Kelimelerin Silinmesi

In [110]:
istenmeyen_kelimeler = ["veri", "bilimi"]

In [111]:
düzelmiş_veri8 = pd.DataFrame(düzelmiş_veri7, columns = ["ifade"])

In [112]:
düzelmiş_veri8 = düzelmiş_veri8["ifade"].apply(lambda x: " ".join(x for x in x.split() if x not in istenmeyen_kelimeler))

In [113]:
düzelmiş_veri8

0    şüphesiz günümüzün popüler araştırma uygulama ...
1    doğal dil işleme doğal dillerin kurallı yapısı...
2    yapay zeka bilgisayarın bilgisayar kontrolünde...
3                              derin makine yöntemidir
4    mantık kavramı ilk olarak lotfi a zadeh tarafı...
5    pekiştirmeli davranışçılıktan esinlenen öznele...
Name: ifade, dtype: object