# Data Cleaning and Vectorization For NLP

## Install and Import

In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', 50)

In [2]:
#!pip install nltk
#conda install -c anaconda nltk 
#default yüklü gelmiyor.

## Tokenization

In [3]:
import nltk

In [4]:
nltk.download('punkt')       # sentence ve word tokenleştirme işlemleri için gerekli olan dosyaları yükler.
nltk.download('stopwords')   # stopword datasetlerini yükler
nltk.download('wordnet')     # normalizasyon için gerekli olan dosyaları yükler.
nltk.download('omw-1.4')
# "omw-1.4", bir metinde geçen kelime ve ifadelerin anlamlarını belirlemek için kullanılan bir datasetidir. 
# Kelimelere/tokenlere uyguladığımız normalization işlemlerinde kelimeleri kökenlerine indirgemek için kelimenin orjinal
# hali ile köküne inmiş hali arasındaki anlamsal ilişkiyi kurabilmek için kullanılır.

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\insan\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\insan\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\insan\AppData\Roaming\nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\insan\AppData\Roaming\nltk_data...


True

In [5]:
sample_text = "Oh man, this is pretty cool. We will do more such things. 2 ½ % (2) hasn't Ali's books 10.2"

In [6]:
from nltk.tokenize import sent_tokenize, word_tokenize

# sent_tokenize, word_tokenize import ediyoruz. sent_tokenize için sadece bugün bir örnek yapacağız. Bundan sonraki 
# derslerimizde tokenleştirme işlemlerimizi word_tokenize üzerinden yapacağız.

In [7]:
sentence_token = sent_tokenize(sample_text.lower())
sentence_token

# öncelikle string fonksiyonlarından biri olan lower() ile textimizi küçük harfli formata dönüştürüyoruz. Sonrasında cümle
# tokenlerine ayırıyoruz. Sentence token işleminde "."ları dikkate aldığından her nokta sonrasında cümleler biribirinden
# ayrılarak tokenleştirilir.
# sentence tokenize çoğunlukla özet çıkarma, translation gibi advence tasklerde kullanılır.

['oh man, this is pretty cool.',
 'we will do more such things.',
 "2 ½ % (2) hasn't ali's books 10.2"]

In [8]:
word_token = word_tokenize(sample_text.lower())
word_token

# öncelikle string fonksiyonlarından biri olan lower() ile textimizi küçük harfli formata dönüştürüyor ve sonrasında kelime
# tokenlerine ayırıyoruz. word token işleminde boşlukları dikkate aldığından her boşluk sonrasında kelimeler biribirinden
# ayrılarak tokenleştirilir.
# Ancak, noktalama işaretleri (üst ayıraç hariç) ve özel karekterler için boşluk şartı aranmaz. Bu işaret veya karakterler ayrı 
# birer token muamelesi görür.
# üst ayraçlar;
# 1. olumsuz yardımcı fiiler için olumsuzluk ekleri (hasn't--> "has", "n't", isn't--> "is", "n't") gösterildiği
#    gibi tokenleştirilir.
# 2. iyelik eklerinde (Ali's books--> "ali", "'s", "books") gösterildiği gibi tokenleştirilir.


['oh',
 'man',
 ',',
 'this',
 'is',
 'pretty',
 'cool',
 '.',
 'we',
 'will',
 'do',
 'more',
 'such',
 'things',
 '.',
 '2',
 '½',
 '%',
 '(',
 '2',
 ')',
 'has',
 "n't",
 'ali',
 "'s",
 'books',
 '10.2']

## Removing Punctuation and Numbers

In [9]:
tokens_without_punc = [w for w in word_token if w.isalpha()] # .isalnum() for number and object
tokens_without_punc

# isalpha() bir tokenin string olup olmadığını kontrol eder. String ise True, değil ise False döndürür.
# Yukarıda oluşturduğumuz list comprehension içinde word tokenler teker teker kontrol edilerek string olanlar filtreleniyor.
# isalnum() bir tokenin string veya numeric olup olmadığını kontrol eder. String veya numeric ise True, değil ise False döndürür
# Eğer numeric ifadelerin de filtrelenmesini istiyorsak isalnum() kullanabiliriz.

# Yaptığımız bu filtrelemeyi tokens_without_punc değişkenine atıyoruz.

['oh',
 'man',
 'this',
 'is',
 'pretty',
 'cool',
 'we',
 'will',
 'do',
 'more',
 'such',
 'things',
 'has',
 'ali',
 'books']

## Removing Stopwords

In [10]:
from nltk.corpus import stopwords

In [11]:
stop_words = stopwords.words("english")
stop_words

# ingilizce için stopwordlarin listesini alıyoruz.
# Hangi dile ait stopwordsleri istiyorsak parantez içerisine istediğimiz dili yazıyoruz.

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [12]:
tokens_without_punc

# Noktalama işaretleri ve özel karakterlerden temizlenmiş tokenleri şimdi aşağıda olduğu stopwordlerden temizliyoruz.

['oh',
 'man',
 'this',
 'is',
 'pretty',
 'cool',
 'we',
 'will',
 'do',
 'more',
 'such',
 'things',
 'has',
 'ali',
 'books']

In [13]:
token_without_sw = [t for t in tokens_without_punc if t not in stop_words] 
                                                                          
token_without_sw

# duygu analizi yapmayacaksanız olumsuz yardımcı fiilleri temizleyebilirsiniz. Ancak yapacaksanız olumsuz yardımcı fiillerin
# mutlaka text içerisinde kalması gerekiyor.

# Noktalama işaretleri ve özel karakterlerden temizlenmiş tokenleri teker teker çekip stopwordler içerisinde olup olmadığı 
# kontrol ediliyor. Eğer stopwordler içinde geçmiyorsa textimizde bu token kalmaya devam ediyor. Stopwordler içinde geçiyorsa
# ignore ediliyor.

['oh', 'man', 'pretty', 'cool', 'things', 'ali', 'books']

## Data Normalization-Lemmatization

In [14]:
from nltk.stem import WordNetLemmatizer

# tokenleri eklerinden kurtarıp köklerine indirgeme işlemine data normalization denir.
# Lemmetization ve stemming olarak 2 farklı yöntem vardır.
# lemmatization token köklerine inerken orjinal tokenin sözlükte bir karşılığı olup olmadığına yani token köküne inildiğinde
# orjinal tokende anlam kaybı olup olmayacağına bakarken stemming böyle bir kontrol ihtiyacı hissetmeden direk köke inebilir.
# örnek: "arabacı" tokenini köküne indirirken lemmatization "cı" ekini atarsam tokende anlam kaybı(arabayı satan kişi, arabaya
# dönüşecek) olacağını öngörür ve "arabacı" tokenini olduğu gibi bırakır. Ancak stemming direk "araba" olarak dönüştürebilir.
# Çoğunlukla lemmatization tercih edilir. Ama siz 2'sini de deneyip hangisinde sonuçlarınız iyi ise onunla devam edebilirsiniz.

In [15]:
WordNetLemmatizer().lemmatize("driving")

'driving'

In [16]:
tokens = ["driving", "drivers", "driver", "drives", "drove"]

for i in tokens:
    print(WordNetLemmatizer().lemmatize(i))

driving
driver
driver
drive
drove


In [17]:
lem = [WordNetLemmatizer().lemmatize(t) for t in token_without_sw]

# tüm tokenleri lemmatization yöntemi ile köklerine indirgiyoruz ve lem değişkenine atıyoruz.

In [18]:
lem

['oh', 'man', 'pretty', 'cool', 'thing', 'ali', 'book']

## Data Normalization-Stemming

In [19]:
from nltk.stem import PorterStemmer

# yukarda da bahsettiğimiz gibi lemmatization token köklerine inerken ineceği kökün sözlükte bir karşılığı olup olmadığına yani 
# anlam kaybı olup olmayacağına bakarken stemming böyle bir kontrol yapma ihtiyacı hissetmeden direk köke inebilir.

In [78]:
PorterStemmer().stem("driving")

'drive'

In [21]:
tokens = ["driving", "drivers", "driver", "drives", "drove"]

for i in tokens:
    print(PorterStemmer().stem(i))

drive
driver
driver
drive
drove


In [22]:
stem = [PorterStemmer().stem(t) for t in token_without_sw]

# tüm tokenleri stemming yöntemi ile köklerine indirgiyoruz ve stem değişkenine atıyoruz.

In [23]:
stem

['oh', 'man', 'pretti', 'cool', 'thing', 'ali', 'book']

## Joining

In [24]:
" ".join(lem)

# son aşamda temizleme işlemi tamamlanan tokenleri join ediyoruz.

'oh man pretty cool thing ali book'

## Cleaning Function - for classification (NOT for sentiment analysis)

In [25]:
def cleaning(data):
    
    #1. Tokenize and lower
    text_tokens = word_tokenize(data.lower()) 
    
    #2. Remove Puncs and numbers
    tokens_without_punc = [w for w in text_tokens if w.isalpha()]
    
    #3. Removing Stopwords
    tokens_without_sw = [t for t in tokens_without_punc if t not in stop_words]
    
    #4. lemma
    text_cleaned = [WordNetLemmatizer().lemmatize(t) for t in tokens_without_sw]
    
    #5. joining
    return " ".join(text_cleaned)

# yukarda yaptığımız işlemleri otomatize etmek için temizleme işlemlerini sırasıyla cleaning fonksiyonu içerisine tanımlıyoruz
# Eğer sentiment analiz yapılmayacaksa bu fonksiyonu kullanabiliriz.

In [26]:
pd.Series(sample_text).apply(cleaning) #df["text"].apply(cleaning)

# apply fonksiyonu hem df hem de serieslerle birlikte kullanılabildiğinden önce sample_text'i seriese dönüştürüp sonra
# apply ile cleaning fonksiyonunu uyguluyoruz.

0    oh man pretty cool thing ali book
dtype: object

## Cleaning Function - for sentiment analysis

In [27]:
sample_text= "Oh man, this is pretty cool. We will do more such things. don't aren't are not. no problem"

# eğer bir duygu analizi yapacaksak textimizden olumsuz yardımcı fiileri atmamamız gerektiğini söylemiştik.
# örnek için textimizi sample_text değişkenine atıyoruz.

In [28]:
s = sample_text.replace("'",'')
s

# textimizi stop wordlerden temizlenirken eğer olumsuz yardımcı fiilleri üst ayraçlarından kurtarırsam "don't" --> "dont"a
# "hasn't"--> "hasnt"a dönüşecek ve stopwordlerden temizleme aşamasında bu tokenler textimizde kalmaya devam edecek. Çünkü,
# stopword temizleme aşamasında üst ayraçlı olumsuz yardımcı fiiller temizlenir sadece.

'Oh man, this is pretty cool. We will do more such things. dont arent are not. no problem'

In [29]:
word = word_tokenize(s.lower())
word 

# sample_textimizi önce küçük harflere dönüştürüyoruz.

['oh',
 'man',
 ',',
 'this',
 'is',
 'pretty',
 'cool',
 '.',
 'we',
 'will',
 'do',
 'more',
 'such',
 'things',
 '.',
 'dont',
 'arent',
 'are',
 'not',
 '.',
 'no',
 'problem']

In [30]:
stop_words
# stop wordlerimizi tekrar görüyoruz. Gördüğünüz gibi olumsuz yardımcı fiiller üst ayraçlı bir şekilde bulunuyor.

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [31]:
cleaning_words = [t for t in word if t not in stop_words]
cleaning_words

# tokenleri teker teker çekip stopwordler içerisinde olup olmadığı kontrol ediliyor. Eğer stopwordler içinde geçmiyorsa 
# textimizde bu token kalmaya devam ediyor. Stopwordler içinde geçiyorsa ignore ediliyor. 

# Olumsuz yardımcı fiilleri üst ayraçlarından kurtardığımızdan stopwordlere takılmadan textimizde kalmaya devam ediyorlar.

# Ancak gördüğünüz gibi "not", "no" gibi tektimize olumsuzluk katan tokenler textimizden temizlenmiş. Bunun önüne geçmek için
# stopword listesinden remove fonksiyonu ile "not" ve "no" tokenlerini çıkaracağız. Bu şekilde "not" ve "no" tokenleri
# textimizde kalmaya devam edecek.

['oh',
 'man',
 ',',
 'pretty',
 'cool',
 '.',
 'things',
 '.',
 'dont',
 'arent',
 '.',
 'problem']

In [32]:
for i in ["not", "no"]:
        stop_words.remove(i)

# "not" ve "no" tokenlerini stop_words listesinden çıkarıyoruz.

In [33]:
def cleaning_fsa(data):
    
    #1. removing upper brackets to keep negative auxiliary verbs in text
    text = data.replace("'",'')
         
    #2. Tokenize and lower
    text_tokens = word_tokenize(text.lower()) 
    
    #3. Remove punkt and numbers
    tokens_without_punc = [w for w in text_tokens if w.isalpha()]
    
    #4. Removing Stopwords     
    tokens_without_sw = [t for t in tokens_without_punc if t not in stop_words]
    
    #5. lemma
    text_cleaned = [WordNetLemmatizer().lemmatize(t) for t in tokens_without_sw]
    
    #6. joining
    return " ".join(text_cleaned)

# duygu analizi yapacaksanız bu fonksiyonu kullanabilirsiniz.

In [34]:
np.array(pd.Series(sample_text).apply(cleaning_fsa)) # arrayi tüm cümleyi okumak için kullandık. yoksa ... çıkardı.

array(['oh man pretty cool thing dont arent not no problem'], dtype=object)

## CountVectorization and TF-IDF Vectorization

In [35]:
df = pd.read_csv("airline_tweets.csv")

In [36]:
df.head()

Unnamed: 0,tweet_id,airline_sentiment,airline_sentiment_confidence,negativereason,negativereason_confidence,airline,airline_sentiment_gold,name,negativereason_gold,retweet_count,text,tweet_coord,tweet_created,tweet_location,user_timezone
0,570306133677760513,neutral,1.0,,,Virgin America,,cairdin,,0,@VirginAmerica What @dhepburn said.,,2015-02-24 11:35:52 -0800,,Eastern Time (US & Canada)
1,570301130888122368,positive,0.3486,,0.0,Virgin America,,jnardino,,0,@VirginAmerica plus you've added commercials t...,,2015-02-24 11:15:59 -0800,,Pacific Time (US & Canada)
2,570301083672813571,neutral,0.6837,,,Virgin America,,yvonnalynn,,0,@VirginAmerica I didn't today... Must mean I n...,,2015-02-24 11:15:48 -0800,Lets Play,Central Time (US & Canada)
3,570301031407624196,negative,1.0,Bad Flight,0.7033,Virgin America,,jnardino,,0,@VirginAmerica it's really aggressive to blast...,,2015-02-24 11:15:36 -0800,,Pacific Time (US & Canada)
4,570300817074462722,negative,1.0,Can't Tell,1.0,Virgin America,,jnardino,,0,@VirginAmerica and it's a really big bad thing...,,2015-02-24 11:14:45 -0800,,Pacific Time (US & Canada)


In [37]:
df = df[['airline_sentiment','text']]
df

# datamızdan sadece text ve targetimız olan airline_sentiment'i çekiyoruz. Bundan sonra tüm datalarımızda bu şekilde 
# çalışacağız.

Unnamed: 0,airline_sentiment,text
0,neutral,@VirginAmerica What @dhepburn said.
1,positive,@VirginAmerica plus you've added commercials t...
2,neutral,@VirginAmerica I didn't today... Must mean I n...
3,negative,@VirginAmerica it's really aggressive to blast...
4,negative,@VirginAmerica and it's a really big bad thing...
...,...,...
14635,positive,@AmericanAir thank you we got on a different f...
14636,negative,@AmericanAir leaving over 20 minutes Late Flig...
14637,neutral,@AmericanAir Please bring American Airlines to...
14638,negative,"@AmericanAir you have my money, you change my ..."


In [38]:
df = df.head(8)
df

# CountVectorization ve TF-IDF Vectorization'ın çalışma mantığını göreceğimizden sadece ilk 8 satır ile çalışacağız.

Unnamed: 0,airline_sentiment,text
0,neutral,@VirginAmerica What @dhepburn said.
1,positive,@VirginAmerica plus you've added commercials t...
2,neutral,@VirginAmerica I didn't today... Must mean I n...
3,negative,@VirginAmerica it's really aggressive to blast...
4,negative,@VirginAmerica and it's a really big bad thing...
5,negative,@VirginAmerica seriously would pay $30 a fligh...
6,positive,"@VirginAmerica yes, nearly every time I fly VX..."
7,neutral,@VirginAmerica Really missed a prime opportuni...


In [39]:
df2 = df.copy()

In [40]:
df2["text"] = df2["text"].apply(cleaning_fsa)

# duygu analizi yapılacağından tektimize cleaning_fsa fonksiyonu ile temizlik işlemi uygulanıyor.
# Bu notebookta sadece textimizin nasıl numeric bir forma dönüştürüldüğü gösterilecek. ML algoritmlarına sonraki notebookumuzda
# sokacağız.

In [41]:
df2

Unnamed: 0,airline_sentiment,text
0,neutral,virginamerica dhepburn said
1,positive,virginamerica plus youve added commercial expe...
2,neutral,virginamerica didnt today must mean need take ...
3,negative,virginamerica really aggressive blast obnoxiou...
4,negative,virginamerica really big bad thing
5,negative,virginamerica seriously would pay flight seat ...
6,positive,virginamerica yes nearly every time fly vx ear...
7,neutral,virginamerica really missed prime opportunity ...


## CountVectorization

In [42]:
X = df2["text"]
y = df2["airline_sentiment"]

In [43]:
from sklearn.model_selection import train_test_split

In [44]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.5, stratify = y, random_state = 42)

# datamız 8 satırdan oluştuğundan train ve test datamızı %50 olarak ayırmamız sadece bugüne özel. Yoksa uygulanan bir yöntem 
# değil.

In [45]:
from sklearn.feature_extraction.text import CountVectorizer

In [46]:
X_train

6    virginamerica yes nearly every time fly vx ear...
0                          virginamerica dhepburn said
2    virginamerica didnt today must mean need take ...
4                   virginamerica really big bad thing
Name: text, dtype: object

In [47]:
vectorizer = CountVectorizer()
X_train_count = vectorizer.fit_transform(X_train)
X_test_count = vectorizer.transform(X_test)

# data leakagenin önüne geçmek için dönüşümler train datasına fit_transform olarak, test datasına da transform olarak yapılıyor

# countvectorizer fit'in yaptığı işlem train setindeki unique bütün tokenleri tespit eder (tüm dönüşümler train setindeki 
# unique tokenlere göre yapılır)


# countvectorizer transformun yaptığı işlem;

# Her unique tokenin her yorumda(dokument, row) kaç defa geçtiğini tespit eder (Hem traim hemde test seti için ayrı ayrı).

# Dönüşümler train datasındaki unique tokenlere göre yapıldığından train datasında geçen unique tokenler az olursa test datamıza
# yapılan dönüşüm esnasında test datasındaki çoğu tokenin ignore olmasına sebebiyet verebiliriz. Bunun önüne geçmek için
# train datasının tüm unique tokenleri ihtiva edecek kadar büyük olması gerekir.

In [48]:
vectorizer.get_feature_names_out()

# get_feature_names_out() ile fit uygulanan train datasındaki unique tokenlerin listesini array olarak çekebiliyoruz.

array(['another', 'away', 'bad', 'big', 'dhepburn', 'didnt', 'ear',
       'every', 'fly', 'go', 'mean', 'must', 'nearly', 'need', 'really',
       'said', 'take', 'thing', 'time', 'today', 'trip', 'virginamerica',
       'vx', 'worm', 'yes'], dtype=object)

In [49]:
X_train_count

# numeric forma dönüştürülmüş olan X_train_count bu şekilde okuyamıyoruz. Bu sebeple toarray() fonksiyonu ile aşağıda olduğu
# gibi array'e dönüştüreceğiz.

<4x25 sparse matrix of type '<class 'numpy.int64'>'
	with 28 stored elements in Compressed Sparse Row format>

In [50]:
X_train_count.toarray()

array([[0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1,
        1, 1, 1],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1,
        0, 0, 0],
       [1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1,
        0, 0, 0],
       [0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1,
        0, 0, 0]], dtype=int64)

In [51]:
df_train_count = pd.DataFrame(X_train_count.toarray(), columns = vectorizer.get_feature_names_out(), index=X_train.index)
df_train_count

# Yukarda elde ettiğimiz arrayin daha okunaklı olabilmesi için df'e dönüştürüp columns isimleri olarak train datasında geçen
# unique tokenleri veriyoruz. 

# Orjinal X_train'indeki yorumların/textlerin numeric dönüşümünlerinin nasıl olduğunu index bazında görebilmek maksadıyla df'e 
# index olarak X_train.index'i veriyoruz.

Unnamed: 0,another,away,bad,big,dhepburn,didnt,ear,every,fly,go,mean,must,nearly,need,really,said,take,thing,time,today,trip,virginamerica,vx,worm,yes
6,0,1,0,0,0,0,1,1,1,1,0,0,1,0,0,0,0,0,1,0,0,1,1,1,1
0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0
2,1,0,0,0,0,1,0,0,0,0,1,1,0,1,0,0,1,0,0,1,1,1,0,0,0
4,0,0,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,1,0,0,0


In [52]:
X_train

6    virginamerica yes nearly every time fly vx ear...
0                          virginamerica dhepburn said
2    virginamerica didnt today must mean need take ...
4                   virginamerica really big bad thing
Name: text, dtype: object

In [53]:
X_train[6]

# orjinal X_train'imizin 6'ıncı indexsinde bulunan yorumun yukardaki df'de nasıl numeric bir forma dönüştüğünü görebiliyoruz.

'virginamerica yes nearly every time fly vx ear worm go away'

In [54]:
df_test_count = pd.DataFrame(X_test_count.toarray(), columns = vectorizer.get_feature_names_out(), index = X_test.index)
df_test_count

# test datasına yapılan dönüşüm train datasındaki unique tokenlere göre yapıldığından çoğu tokenin ignore edildiğini 
# görebiliyoruz. Bunun sebebi train datamızın çok küçük olması. Bu tür sorunların önüne geçebilmek için train datamızın
# tüm olası tokenleri ihtiva edecek kadar mümkün olduğunca büyük olması gerekiyor.

Unnamed: 0,another,away,bad,big,dhepburn,didnt,ear,every,fly,go,mean,must,nearly,need,really,said,take,thing,time,today,trip,virginamerica,vx,worm,yes
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0
5,0,0,1,0,0,1,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,1,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0
7,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0


In [55]:
X_test

3    virginamerica really aggressive blast obnoxiou...
5    virginamerica seriously would pay flight seat ...
1    virginamerica plus youve added commercial expe...
7    virginamerica really missed prime opportunity ...
Name: text, dtype: object

In [56]:
X_test[3]

'virginamerica really aggressive blast obnoxious entertainment guest face amp little recourse'

In [57]:
vectorizer.vocabulary_

# fit işlemi uygulanan train datasındaki unique tokenlerinden toplam sayısı.

{'virginamerica': 21,
 'yes': 24,
 'nearly': 12,
 'every': 7,
 'time': 18,
 'fly': 8,
 'vx': 22,
 'ear': 6,
 'worm': 23,
 'go': 9,
 'away': 1,
 'dhepburn': 4,
 'said': 15,
 'didnt': 5,
 'today': 19,
 'must': 11,
 'mean': 10,
 'need': 13,
 'take': 16,
 'another': 0,
 'trip': 20,
 'really': 14,
 'big': 3,
 'bad': 2,
 'thing': 17}

## TF-IDF

sklearn TD-IDF
https://towardsdatascience.com/how-sklearns-tf-idf-is-different-from-the-standard-tf-idf-275fa582e73d

In [58]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [59]:
tf_idf_vectorizer = TfidfVectorizer()
X_train_tf_idf = tf_idf_vectorizer.fit_transform(X_train)
X_test_tf_idf = tf_idf_vectorizer.transform(X_test)

# data leakagenin önüne geçmek için dönüşümler train datasına fit_transform olarak, test datasına da transform olarak yapılıyor

# TF-IDF fit'in yaptığı işlem train setindeki unique bütün tokenleri tespit eder (tüm dönüşümler train setindeki unique
# tokenlere göre yapılır)


# TF-IDF transformun yaptığı işlem;
# a = Her unique tokenin her satırda/yorumda kaçar defa geçtiğini tespit eder (Hem train hemde test seti için ayrı ayrı).
# b = Her satırın/yorumun(dokument, row) kaç tokenden oluştuğunu tespit eder (Hem train hemde test seti için ayrı ayrı).
# c = Her unique tokenin kaç satırda/yorumda (document) geçtiğini tespit eder (Hem train hemde test seti için ayrı ayrı).
# d = datanın toplam kaç satırdan/yorumdan oluştuğunu tespit eder (Hem train hemde test seti için ayrı ayrı)
# bu değerleri aşağıdaki formulde yerlerine koyup hesaplamasını yapar.
# TF = a/b, DF = c/d, 
# IDF = log10(d/c+1)--> log10(0) olması durumunda sonsuz/tanımsız olacağından sklearn +1 ilave eder. 
# TF-IDF = TF x IDF

# TF-IDF (train datası için) = train datasındaki a, b, c,d bilgilerine göre hesaplanır.
# TF-IDF (test datası için)  = test  datasındaki a, b, c,d bilgilerine göre hesaplanır.

In [60]:
tf_idf_vectorizer.get_feature_names_out()

# get_feature_names_out() ile fit uygulanan train datasındaki unique tokenlerin listesini array olarak çekebiliyoruz.

array(['another', 'away', 'bad', 'big', 'dhepburn', 'didnt', 'ear',
       'every', 'fly', 'go', 'mean', 'must', 'nearly', 'need', 'really',
       'said', 'take', 'thing', 'time', 'today', 'trip', 'virginamerica',
       'vx', 'worm', 'yes'], dtype=object)

In [61]:
X_train_tf_idf.toarray()

# array'e dönüştürüyoruz.

array([[0.        , 0.31200802, 0.        , 0.        , 0.        ,
        0.        , 0.31200802, 0.31200802, 0.31200802, 0.31200802,
        0.        , 0.        , 0.31200802, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.31200802, 0.        ,
        0.        , 0.16281873, 0.31200802, 0.31200802, 0.31200802],
       [0.        , 0.        , 0.        , 0.        , 0.66338461,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.66338461, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.34618161, 0.        , 0.        , 0.        ],
       [0.34768534, 0.        , 0.        , 0.        , 0.        ,
        0.34768534, 0.        , 0.        , 0.        , 0.        ,
        0.34768534, 0.34768534, 0.        , 0.34768534, 0.        ,
        0.        , 0.34768534, 0.        , 0.        , 0.34768534,
        0.34768534, 0.18143663, 0.        , 0.

In [62]:
df_train_tfidf = pd.DataFrame(X_train_tf_idf.toarray(), columns = tf_idf_vectorizer.get_feature_names_out(), 
                              index= X_train.index)
df_train_tfidf

# Yukarda elde ettiğimiz arrayin daha okunaklı olabilmesi için df'e dönüştürüp columns isimleri olarak train datasında geçen
# unique tokenleri veriyoruz. 

# Orjinal X_train'indeki yorumların numeric dönüşümünlerinin nasıl olduğunu index bazında görebilmek maksadıyla df'e index 
# olarak X_train.index'i veriyoruz.

Unnamed: 0,another,away,bad,big,dhepburn,didnt,ear,every,fly,go,mean,must,nearly,need,really,said,take,thing,time,today,trip,virginamerica,vx,worm,yes
6,0.0,0.312008,0.0,0.0,0.0,0.0,0.312008,0.312008,0.312008,0.312008,0.0,0.0,0.312008,0.0,0.0,0.0,0.0,0.0,0.312008,0.0,0.0,0.162819,0.312008,0.312008,0.312008
0,0.0,0.0,0.0,0.0,0.663385,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.663385,0.0,0.0,0.0,0.0,0.0,0.346182,0.0,0.0,0.0
2,0.347685,0.0,0.0,0.0,0.0,0.347685,0.0,0.0,0.0,0.0,0.347685,0.347685,0.0,0.347685,0.0,0.0,0.347685,0.0,0.0,0.347685,0.347685,0.181437,0.0,0.0,0.0
4,0.0,0.0,0.483803,0.483803,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.483803,0.0,0.0,0.483803,0.0,0.0,0.0,0.252468,0.0,0.0,0.0


In [63]:
X_train[6]

# orjinal X_train'imizin 6'ıncı indexsinde bulunan yorumun yukardaki df'de nasıl numeric bir forma dönüştüğünü görebiliyoruz.

'virginamerica yes nearly every time fly vx ear worm go away'

In [64]:
df_train_tfidf.loc[2].sort_values(ascending=False)

# TF-IDF textimizde sıklıkla geçen tokenlere ait TF-IDF katsayılarını minimize ederek bu tekenleri önemsizleştirir.

# TF-IDF ile dönüştürülmüş bir text ML veya DL modeline verildiğinde model öncelikle yüksek katsayı atanmış tokenlere 
# yoğunlaşır. 

# virginamerica her yorumda geçtiği için diğer tokenlere göre daha küçük bir katsayı almış.

another          0.347685
didnt            0.347685
trip             0.347685
today            0.347685
mean             0.347685
must             0.347685
take             0.347685
need             0.347685
virginamerica    0.181437
said             0.000000
worm             0.000000
vx               0.000000
time             0.000000
thing            0.000000
nearly           0.000000
really           0.000000
away             0.000000
go               0.000000
fly              0.000000
every            0.000000
ear              0.000000
dhepburn         0.000000
big              0.000000
bad              0.000000
yes              0.000000
Name: 2, dtype: float64

In [65]:
df_test_tfidf=pd.DataFrame(X_test_tf_idf.toarray(), columns = tf_idf_vectorizer.get_feature_names_out(), index = X_test.index)
df_test_tfidf

# test datasına yapılan dönüşüm train datasındaki unique tokenlere göre yapıldığından çoğu tokenin ignore edildiğini 
# görebiliyoruz. Bunun sebebi train datamızın çok küçük olması. Bu tür sorunların önüne geçebilmek için train datamızın
# tüm olası tokenleri ihtiva edecek kadar mümkün olduğunca büyük olması gerekiyor.

Unnamed: 0,another,away,bad,big,dhepburn,didnt,ear,every,fly,go,mean,must,nearly,need,really,said,take,thing,time,today,trip,virginamerica,vx,worm,yes
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.886548,0.0,0.0,0.0,0.0,0.0,0.0,0.462637,0.0,0.0,0.0
5,0.0,0.0,0.483803,0.0,0.0,0.483803,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.483803,0.0,0.0,0.483803,0.0,0.0,0.0,0.252468,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
7,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.886548,0.0,0.0,0.0,0.0,0.0,0.0,0.462637,0.0,0.0,0.0


In [66]:
X_test[3]

# df'deki dönüşümüne bakıldığında çoğu tokenin iğnore edildiğini görebiliyoruz.

'virginamerica really aggressive blast obnoxious entertainment guest face amp little recourse'

In [67]:
np.log10(3/100)

-1.5228787452803376

In [68]:
np.log10(100/3)

1.5228787452803376

In [69]:
np.log10(10000000/3)

6.522878745280337

In [70]:
np.log10(2)*1/5

0.06020599913279624

In [71]:
np.log10(0)

-inf

In [72]:
2


2

In [74]:
doc2="john likes to watch movies.Mary likes movies too."

In [75]:
from nltk.corpus import stopwords
stopwords.words('turkish')

['acaba',
 'ama',
 'aslında',
 'az',
 'bazı',
 'belki',
 'biri',
 'birkaç',
 'birşey',
 'biz',
 'bu',
 'çok',
 'çünkü',
 'da',
 'daha',
 'de',
 'defa',
 'diye',
 'eğer',
 'en',
 'gibi',
 'hem',
 'hep',
 'hepsi',
 'her',
 'hiç',
 'için',
 'ile',
 'ise',
 'kez',
 'ki',
 'kim',
 'mı',
 'mu',
 'mü',
 'nasıl',
 'ne',
 'neden',
 'nerde',
 'nerede',
 'nereye',
 'niçin',
 'niye',
 'o',
 'sanki',
 'şey',
 'siz',
 'şu',
 'tüm',
 've',
 'veya',
 'ya',
 'yani']