## Natural Language Process (NLP)

NLP, makine ile insan arasındaki iletişimi sağlamak için, maching learning modellerini testlere uygulamak için oluşturulmuş bir yöntemdir.

Konuşmalarımız mikrofon vs. gibi araçlar aracılığıyla bilgisayara aktarılıyor ve konuşmada ne söylendiğini anlamaya yarayan bazı machine learning teknikleri vardır. Bu machine learning tekniklerini bir insan diline uyguladığımızda NLP yapmış oluyoruz.

NLP ile text classification yapabilirz. Örneğin bir lokantanın yemeklerine dair yorumlar bulunan bir site düşünelim. Bu sitedeki yorumları olumlu yorum ve olumsuz yorum şeklinde machine learning algoritmaları ile sınıflandırabilmemiz mümkündür. Ve sonrasında bizim yazdığımız bir yorumun olumlu bir yorum mu yoksa olumsuz bir yorum mu olduğunu bu maching learning modeli ile tespit edebiliriz.

Bu dökümanda şunları anlatacağım:
    
    - cleaning data: Mesela "**merHABA_" şeklinde bir string var. Bilgisayarın bu stringin "merhaba" kelimesi olduğunu anlayabilmesi için bu ifadeyi "merhaba" stringine çevirmeliyiz.
    
    - bag of words: NLP'nin en temel feature çıkarma yöntemlerinden birisidir. Feature çıkartmak, bir texti machine learning uygulayabileceğimiz hale getirmektir.
    
    - text classification: Mesela twitter'da kadınlar ve erkekler tarafından atılan twitler var. Bu twitleri machine learning algoritmasına vericez ve atılan twitin kadın tarafından mı erkek tarafından mı atıldığını sınıflandırmış olacağız. Yani atılan textin kim tarafından atıldığını sınıflandırmamızı sağlayacak.
    
NLP kullanım alanları şu şekildedir:

    predict genre of book, question-answer, summarization of book
    
NLP için bazı kütüphaneler vardır:

    nltk, spacy, standford nlp, open nlp

Kullanacağımız veri seti, twitter'da kadınlar ve erkekler tarafından yapılan açıklamaları içeriyor. Veri setinde bulunan description feature'sini kullanarak, açıklamayı bir kadının mı yoksa erkeğin mi yazdığına dair sınıflandırma yapacağız.

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv(r"gender_classifier.csv",encoding="latin1")

encoding="latin1" parametresi ile csv dosyasının içerisinde latin harflerinin olduğunu belirttim. Dosya isminin başındaki r harfi read'den gelmektedir.

In [3]:
data = pd.concat([data.gender, data.description],axis=1)
data

Unnamed: 0,gender,description
0,male,i sing my own rhythm.
1,male,I'm the author of novels filled with family dr...
2,male,louis whining and squealing and all
3,male,"Mobile guy. 49ers, Shazam, Google, Kleiner Pe..."
4,female,Ricky Wilson The Best FRONTMAN/Kaiser Chiefs T...
...,...,...
20045,female,(rp)
20046,male,"Whatever you like, it's not a problem at all. ..."
20047,male,#TeamBarcelona ..You look lost so you should f...
20048,female,Anti-statist; I homeschool my kids. Aspiring t...


concat metodu ile iki tane series ya da DataFrame birleştirilir. Yukarıda veri setinden kullanacağımız feature'leri sütun bazlı birleştirdim. 

Yukarıda çıktıda gördüğünüz üzere veri setinde, kadınların ve erkeklerin yazdıkları textler bulunmaktadır.

Veri setinde bulunan anlamsız textleri ve nan ifadeleri çıkarmalıyız. Daha sonrada yazılan textlerin bir kadın mı erkek mi tarafından yazıldığını tespit edelim.

In [4]:
data.dropna(axis=0, inplace=True)  #axis=0 parametresi ile nan olan ifadelerin bulunduğu SATIR çıkarılır.

Sınıflandırma algoritmaları string ifade kullanamaz. Dolayısıyla sınıflarımı ifade eden gender sütunundaki verileri int veya categorical tipine dönüştürmeliyiz. male değerleri 0, female değerleri 1 olacak şekilde int tipine dönüştürelim:

In [5]:
data.gender = [1 if each=="female" else 0 for each in data.gender]

In [6]:
data.head()

Unnamed: 0,gender,description
0,0,i sing my own rhythm.
1,0,I'm the author of novels filled with family dr...
2,0,louis whining and squealing and all
3,0,"Mobile guy. 49ers, Shazam, Google, Kleiner Pe..."
4,1,Ricky Wilson The Best FRONTMAN/Kaiser Chiefs T...


## Regular Expression (RE)

Veri setinde bulunan :) gibi ifadeleri temizlemeliyiz. Veriyi temizlerken Regular Expression (RE) kavramından faydalanacağız. import re şeklinde kütüphanesi vardır. 

Regular Expression ile ingilizce alfabede büyük ve küçük şeklinde a'dan z'ye kadar olan harfleri bulucaz ve bu aralıkta olmayan harflerin (mesela :) gibi)  tespitini sağlayarak yerlerine boşluk koyucaz. Bu işlemi öncelikle veri setinden tek bir texten yapalım sonrasında tüm veri setine uygulayalım.

In [7]:
import re

first_description = data.description[4]

description = re.sub("[^a-zA-Z]", " ", first_description)

a-zA-Z ifadesi a'dan z'ye ve A'dan Z'ye olanları bul demektir. Bu ifadenin başına ^ koyduğumuzda a'dan z'ye ve A'dan Z'ye olanları bulma demektir. İkinci parametre ile a'dan z'ye ve A'dan Z'ye olmayanları boşluk ile değiştirdim. Bu işlem first_description değişkeninde tutulan texte uygulanır ve 3.parametre ile bunu belirttim. 

Bilgisayar dilinde "the" ve "THE" kelimeleri farklıdır. Çünkü birisi küçük harfle diğeri büyük harfle yazılmıştır. Dolayısıyla text'teki harflerin hepsini küçük harfe çevirerek veriyi hazırlayalım.

In [8]:
description = description.lower()

## Irrelavant Words (Stopwords)

Mesela " I go to the school and home" cümlesinde the ve and kelimeleri, texti kadın mı yazdı erkek mi yazdı ayrımı için bir anlam ifade etmez. Bu kelimeler insanlar tarafından sıklıkla kullanılabilir, cinsiyet ayrımı açısından bir anlamları yoktur. Dolayısıyla bu kelimeler Irrelavant Words'dür yani gereksiz kelimelerdir. Bunları data'dan çıkarmalıyız ve bunun için nltk kütüphanesine ihtiyaç vardır.

In [9]:
import nltk  # natureal language tool kit

nltk.download("stopwords")  #stopwords'ları yani gereksiz kelimeleri indirdim. stopwords'ler bilgisayarda corpus isimli bir klasöre indiriliyor.

from nltk.corpus import stopwords  # Sonra corpus klasöründen stopwords'leri import ediyorum.



[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\raziy\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Textin içerisindeki kelimeleri bir listede depolamamız lazım. Her bir kelime listenin bir değeri olmalı. Çünkü listedeki kelimeleri stopword'te bulunan kelimelerle karşılaştırırız ve eşleşen kelime varsa çıkarmalıyız.

In [10]:
#description = description.split()  #texti split() metodu ile default olarak boşluklardan ayırır. 

split yerine tokenizer metodunu kullanabiliriz. Bu metod nltk kütüphanesinde yer alır.

In [11]:
nltk.download('punkt')

description = nltk.word_tokenize(description)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\raziy\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [12]:
description

['ricky',
 'wilson',
 'the',
 'best',
 'frontman',
 'kaiser',
 'chiefs',
 'the',
 'best',
 'band',
 'xxxx',
 'thank',
 'you',
 'kaiser',
 'chiefs',
 'for',
 'an',
 'incredible',
 'year',
 'of',
 'gigs',
 'and',
 'memories',
 'to',
 'cherish',
 'always',
 'xxxxxxx']

word_tokenize metodunun split'ten avantajı şudur:

"shouldn't ve guzel" stringini split ile parçalarsak ["shouldn't", "ve", "guzel"] şeklinde bir çıktı alırız. Burada shouldn't ifadesi aslında should not dır. Bunu should ve not olarak ikiye ayırabilmek için word_tokenize metodunu kullanırız.

In [13]:
description = [word for word in description if not word in set(stopwords.words("english"))]

In [14]:
description

['ricky',
 'wilson',
 'best',
 'frontman',
 'kaiser',
 'chiefs',
 'best',
 'band',
 'xxxx',
 'thank',
 'kaiser',
 'chiefs',
 'incredible',
 'year',
 'gigs',
 'memories',
 'cherish',
 'always',
 'xxxxxxx']

## Lemmatization

Erkek kullanıcıların açıklamaları şu şekilde olsun:
    
    maça gitmek çok güzel
    
    maç çok iyiydi
    
    maçı kazandık
    
Burada erkek olmasını ayırt edebileceğimiz ifade maç 'tır. Bilgisayar için yukarıdaki cümlelerde bulunan maça, maçı, maç 3 farklı kelimeyi ifade etmekte. Dolayısıyla bu kelimeleri MAÇ olarak modele öğretmemiz gerekmekte.

Kelimenin köklerini bulmak için "Lemmatization" kullanırız.

In [15]:
nltk.download('wordnet')

import nltk as nlp

lemma = nlp.WordNetLemmatizer()

decription = [lemma.lemmatize(word) for word in description]

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\raziy\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Yukarıdaki kod bloğu ile text'te bulunan kelimelerin köklerini buldum.

In [16]:
description = " ".join(description)

Yukarıdaki kod bloğu ile description'da tutulan kelimeleri boşluk ile birleştirdim.

In [17]:
description

'ricky wilson best frontman kaiser chiefs best band xxxx thank kaiser chiefs incredible year gigs memories cherish always xxxxxxx'

Yukarıda çıktıda görüldüğü üzere, gereksiz kelimeler texten çıkarıldı. Tüm kelimeler küçük harf oldu ve gereksiz kelimeler ortadan kalktı. Ve texte her bir kelimenin kökü bulunmakta.

Şimdi veri setinin tamamına tüm bunları uygulayalım.

In [18]:
description_list = []

for description in data.description:
    description = re.sub("[^a-zA-Z]", " ", description)  
    #a-zA-Z ifadesi a'dan z'ye ve A'dan Z'ye olanları bul demektir. Bu ifadenin başına ^ koyduğumuzda a'dan z'ye ve A'dan 
    #Z'ye olanları bulma demektir. İkinci parametre ile a'dan z'ye ve A'dan Z'ye olmayanları boşluk ile değiştirdim.
    
    description = description.lower()  #Texteki tüm harfleri küçük harfe dönüştürdüm.
   
    description = nltk.word_tokenize(description)  #cümleyi kelimelere parçaladım.
    
    lemma = nlp.WordNetLemmatizer()
    decription = [lemma.lemmatize(word) for word in description]  #Tüm kelimelerin köklerini buldum.
    
    description = " ".join(description)
    #Gereksiz kelimeleri çıkarıp, kelimelerin köklerini bulduktan sonra tüm kelimeleri birleştirerek cümle elde ettim.
    
    description_list.append(description)

In [19]:
description_list

['i sing my own rhythm',
 'i m the author of novels filled with family drama and romance',
 'louis whining and squealing and all',
 'mobile guy ers shazam google kleiner perkins yahoo sprint pcs airtouch air force stanford gsb uva dad husband brother golfer',
 'ricky wilson the best frontman kaiser chiefs the best band xxxx thank you kaiser chiefs for an incredible year of gigs and memories to cherish always xxxxxxx',
 'you don t know me',
 'a global marketplace for images videos and music sharing photos inspiration design tips videos for the creative community',
 'the secret of getting ahead is getting started',
 'pll fan crazy about mcd ramen is bae',
 'renaissance art historian university of nottingham fuelled by haribo partial to coffee and with a soft spot for renaissance china national teaching fellow',
 'clean food that tastes great while providing energy nutrients no guilt granola vegan paleo friendly options too cert organic gf kosher',
 'highly extraordinary auctions',
 'seni

Şu ana kadar yaptıklarımız şu şekildedir: Data'nın içerisindeki gereksiz karakterleri ortadan kaldırdık. Gereksiz karakterler ?, ! gibi ifadelerdir. Sonrasında tüm harfleri küçük harfe çevirdik. Ve sonra cümleleri parçalayıp, kelimeleri elde ettik. Kelimeleri elde ettikten sonra, her bir kelimenin kökünü bulduk. Sonrada bulduğumuz bu kökleri tekrar cümle haline getirerek birleştirdik.

## Bag of Words

<br><br>
<img src="n1.png" style="width:900px;height:300px"/>

<br>
<img src="n2.png" align="left" style="width:500px;height:200px"/>

<br><br>
Yukarıda sağ taraftaki görselin yapısı bu şekildedir.

Yukarıdaki görsel üzerinden Bag of Words'ü anlatayım. 3 adet cümle bulunmakta. Cümle içerisindeki her bir kelime bir feature olur. İlk cümlede "merhaba", "ben", "geldim" kelimelerei var ve bu kelimeler birer feature olur. Sonrasında 2.cümlede "merhaba" kelimesi var ve bu kelime, 1.cümledede vardı ve feature yapılmıştı dolayısıyla tekrar aynı kelime farklı feature olarak yazılmaz. Diğer kelimeler feature olarak yazılır. 3.cümle içinde aynı işlem yapılır.

Sonrasında 1.cümlede bulunan kelimelerin olduğu feature altına 1 yazılır. 1.cümlede olmayan kelimelerin feature'lerine 0 yazılır. Diğer cümleler içinde aynı işlemler gerçekleştirilir.

Böylece bag of words işlemi gerçekleştirilmiştir.

Şimdi sklearn kütüphanesi ile bag of words metodunu yazalım.

In [20]:
from sklearn.feature_extraction.text import CountVectorizer #bag of words oluşturmak için kullanılan metottur.

max_features = 500

count_vectorizer = CountVectorizer(max_features = max_features, stop_words = "english")

sparce_matrix = count_vectorizer.fit_transform(description_list).toarray()

print("en sik kullanilan {} kelimeler: {}".format(max_features,count_vectorizer.get_feature_names()))

en sik kullanilan 500 kelimeler: ['account', 'activist', 'actor', 'addict', 'advocate', 'alum', 'amazing', 'america', 'american', 'animal', 'animals', 'anime', 'app', 'area', 'art', 'artist', 'arts', 'ask', 'aspiring', 'ass', 'author', 'award', 'away', 'awesome', 'baby', 'bad', 'band', 'based', 'basketball', 'beautiful', 'beauty', 'beer', 'believe', 'best', 'better', 'big', 'bio', 'bit', 'bitch', 'black', 'blog', 'blogger', 'book', 'booking', 'bookings', 'books', 'born', 'bot', 'boy', 'boys', 'breaking', 'building', 'business', 'care', 'cat', 'cats', 'ceo', 'certified', 'change', 'channel', 'check', 'chicago', 'child', 'children', 'christ', 'christian', 'city', 'class', 'club', 'coach', 'coffee', 'college', 'com', 'come', 'coming', 'community', 'company', 'conservative', 'consultant', 'contact', 'content', 'continuous', 'cool', 'country', 'county', 'crazy', 'create', 'creative', 'creator', 'culture', 'currently', 'dad', 'daily', 'dance', 'data', 'day', 'days', 'deals', 'dedicated', 'de

Çıktıda en sık kullanılan 500 kelimeyi görmekteyiz.

max_features = 500 ifadesi ile yapılan şudur: toplam 16224 tane cümle var. Bunlarda ortalama 32000 tane farklı kelime var diyelim. 32000 tane kelimenin içerisinden maksimum kullanılan 500 tanesini seçtik. Böyle yapıcaz çünkü diğer türlü algoritma çok yavaşlıyor.

stop_words = "english" parametresi ile CountVectorizer metodu uygulanırken gereksiz kelimeler cümlenin içerisinden çıkarılır.

Hatırlarsanız tüm kelimeleri küçük harfe dönüştürmüştük. Burada aynı işlemi lowercase parametresi ile de yapabiliriz. Birde re.sub metodu ile ".", ",", "!" gibi gereksiz parametreleri kaldırmıştık. Aynı işlemi burada token_pattern parametresiylede yapabiliriz. Fakat burada kullanmayacağız çünkü yukarıdaki kod bloğunun öncesindeki bloklarda tüm bu işlemleri yapmıştık.

Literatürde 1 ve 0 değerlerinden oluşan matrix'e sparce matrix denir.

En sık kullanılan 500 kelimeye değilde, en sık kullanılan tüm kelimelere bakalım:

In [21]:
"""
from sklearn.feature_extraction.text import CountVectorizer #bag of words oluşturmak için kullanılan metottur.

count_vectorizer = CountVectorizer(stop_words = "english")

sparce_matrix = count_vectorizer.fit_transform(description_list).toarray()

print("en sik kullanilan kelimeler: {}".format(count_vectorizer.get_feature_names()))
"""

'\nfrom sklearn.feature_extraction.text import CountVectorizer #bag of words oluşturmak için kullanılan metottur.\n\ncount_vectorizer = CountVectorizer(stop_words = "english")\n\nsparce_matrix = count_vectorizer.fit_transform(description_list).toarray()\n\nprint("en sik kullanilan kelimeler: {}".format(count_vectorizer.get_feature_names()))\n'

29144 tane  kelime elde edilmiştir.

feature'lerin olduğu data sparce_matrix'te tutulmakta. Dolayısıyla x=sparce_matrix.

In [23]:
y = data.iloc[:,0].values  #y=gender
x=sparce_matrix

In [24]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.1,random_state=42)

naive bayes algoritması ile model oluşturalım.

In [25]:
from sklearn.naive_bayes import GaussianNB

nb = GaussianNB()
nb.fit(x_train,y_train)

GaussianNB()

In [26]:
#prediction

y_pred = nb.predict(x_test)

print("accuracy: ",nb.score(y_pred.reshape(-1,1),y_test))

accuracy:  0.4232902033271719


Çok düşük bir doğruluk değeri elde ettik. max_features=500 ifadesinde 500 değerini artırarak doğruluk oranını da artırabiliriz.