# Data Cleaning and Vectorization For NLP

## Install and Import

In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', 50)

In [2]:
#!pip install nltk

## Tokenization

In [3]:
import nltk

In [4]:
sample_text= "Oh man, this is pretty cool. We will do more such things. @mynet"

In [5]:
from nltk.tokenize import sent_tokenize, word_tokenize

In [6]:
sample_text.lower()

'oh man, this is pretty cool. we will do more such things. @mynet'

In [7]:
sentence_token = sent_tokenize(sample_text.lower())  # tokenleri küçük harfe çevirdik.
sentence_token
# burada sentence token olarak yani cümle olarak atadı.

['oh man, this is pretty cool.', 'we will do more such things.', '@mynet']

In [8]:
word_token = word_tokenize(sample_text.lower())
word_token
# burada word token olarak yani kelime olarak atadı. Genellikle bu kullanılır.

['oh',
 'man',
 ',',
 'this',
 'is',
 'pretty',
 'cool',
 '.',
 'we',
 'will',
 'do',
 'more',
 'such',
 'things',
 '.',
 '@',
 'mynet']

## Removing Punctuation and Numbers

.isalpha() yazarsak sayıyı almazken .isalnum() yazarsak sayıyı alır.

In [9]:
tokens_without_punc = [w for w in word_token if w.isalpha()] 
# .isalnum() for number and object  
tokens_without_punc  
# noktalama işaretleri ve sayılardan temizledik.

['oh',
 'man',
 'this',
 'is',
 'pretty',
 'cool',
 'we',
 'will',
 'do',
 'more',
 'such',
 'things',
 'mynet']

## Removing Stopwords

In [10]:
#nltk.download('stopwords')

In [11]:
from nltk.corpus import stopwords

In [12]:
stop_words = stopwords.words("english")  # hangi dili kullanacaksak o dili yazıyoruz.
print(len(stop_words))
stop_words


179


['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [13]:
tokens_without_punc

['oh',
 'man',
 'this',
 'is',
 'pretty',
 'cool',
 'we',
 'will',
 'do',
 'more',
 'such',
 'things',
 'mynet']

In [14]:
token_without_sw = [t for t in tokens_without_punc if t not in stop_words] 
# if you make a sentiment analysis , you can't remove negative auxiliary verb
token_without_sw

['oh', 'man', 'pretty', 'cool', 'things', 'mynet']

!!! Önemli:

Sentiment analysis yapıyorsak bu durumda olumsuz yardımcı fiilleri içeren stopwodsleri çıkarmamam gerekir.

## Data Normalization-Lemmatization

In [15]:
from nltk.stem import WordNetLemmatizer

In [16]:
#nltk.download('wordnet')

In [17]:
WordNetLemmatizer().lemmatize("children")  # köklerinin sözlükte bir anlamı var mı yok mu ona bakıp kontrol ediyor.

'child'

In [18]:
WordNetLemmatizer().lemmatize("drove", pos="v") # pos ile ne tip bir yapı olduğunu belirtirsek bu şekilde sonuç verir. default noun dur.

'drive'

In [19]:
lem = [WordNetLemmatizer().lemmatize(t) for t in token_without_sw]  # herbirini köklerine indirdik lemmatization ile. 

In [20]:
lem

['oh', 'man', 'pretty', 'cool', 'thing', 'mynet']

## Data Normalization-Stemming

In [21]:
from nltk.stem import PorterStemmer

In [22]:
PorterStemmer().stem("driving")

'drive'

In [23]:
PorterStemmer().stem("drove")

'drove'

In [24]:
stem = [PorterStemmer().stem(t) for t in token_without_sw]

In [25]:
stem

['oh', 'man', 'pretti', 'cool', 'thing', 'mynet']

## Joining

In [26]:
" ".join(lem)  # boşluk ile birleştirdi.

'oh man pretty cool thing mynet'

## Cleaning Function - for classification (NOT for sentiment analysis)

!!! Önemli:

Yukarıdaki işlemleri aşağıdaki func ile yapabiliriz. Ancak bunu bir classification işlemi yapacaksak kullanabiliriz.

Ancak sentiment analiz yapacaksak olumlu ve olumsuz yardımcı fiillerin text içinde kalması önem kazandığından dolayı bunun yerine farklı bir işlem yapmamız gerekir.

In [27]:
def cleaning(data):
    
    #1. Tokenize
    text_tokens = word_tokenize(data.lower()) 
    
    #2. Remove Puncs
    tokens_without_punc = [w for w in text_tokens if w.isalpha()]
    
    #3. Removing Stopwords
    tokens_without_sw = [t for t in tokens_without_punc if t not in stop_words]
    
    #4. lemma
    text_cleaned = [WordNetLemmatizer().lemmatize(t) for t in tokens_without_sw]
    
    #joining
    return " ".join(text_cleaned)

In [28]:
pd.Series(sample_text).apply(cleaning)

0    oh man pretty cool thing mynet
dtype: object

## Cleaning Function - for sentiment analysis

In [29]:
sample_text= "Oh man, this is pretty cool. We will do more such things. don't aren't are not. no problem"

In [30]:
s = sample_text.replace("'",'')  # Üs ayıraç varsa bunu al yerine bir şey atama.
word = word_tokenize(s)
word 
# Bu şekilde yapınca olumlu olumsuz yapıların bu şekli stopwords içinde geçmediğinden dolayı silinmeyecek. 
# Ayrıca no not gibi tokenlerin de silinmemesini istiyorum.

['Oh',
 'man',
 ',',
 'this',
 'is',
 'pretty',
 'cool',
 '.',
 'We',
 'will',
 'do',
 'more',
 'such',
 'things',
 '.',
 'dont',
 'arent',
 'are',
 'not',
 '.',
 'no',
 'problem']

Sentiment analizde; yukarıdaki gibi ayıraç ile ayrılan yardımcı fiilleri düzelttim ancak sentence içinde not ve no gibi kelimeler var ise bunları düşürmemek için bunları öncelikle stopwords içindeki kelimelerden çıkarıyor ve aşağıdaki gibi işlem yapıyorum.

In [31]:
for i in ["not", "no"]:  # sentiment analizde not ve no önemli olduğundan dolayı bunları stopwords içinden çıkarıyorum.
        stop_words.remove(i)

def cleaning_fsa(data):
    
    
    #1. removing upper brackets to keep negative auxiliary verbs in text
    text = data.replace("'",'')
         
    #2. Tokenize
    text_tokens = word_tokenize(text.lower()) 
    
    #3. Remove numbers
    tokens_without_punc = [w for w in text_tokens if w.isalpha()]
    
    #4. Removing Stopwords
        
    tokens_without_sw = [t for t in tokens_without_punc if t not in stop_words]
    
    #5. lemma
    text_cleaned = [WordNetLemmatizer().lemmatize(t) for t in tokens_without_sw]
    
    #joining
    return " ".join(text_cleaned)

4. Removing Stopwords
    my_stop_words = stop_words.copy()
    for i in ["not", "no"]:           #don't touch negative meanings!
        my_stop_words.remove(i)
        
    tokens_without_sw = [t for t in tokens_without_punc if t not in my_stop_words]

In [32]:
stop_words

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [33]:
pd.Series(sample_text).apply(cleaning_fsa)  

# Seri haline getirdikten sonra apply işlemini uygulayabiliyorum. Yukarıda oluşturduğum func.ismini içine yazdım.

0    oh man pretty cool thing dont arent not no pro...
dtype: object

## CountVectorization and TF-IDF Vectorization

In [34]:
df = pd.read_csv("airline_tweets.csv")

In [35]:
df.head()

Unnamed: 0,tweet_id,airline_sentiment,airline_sentiment_confidence,negativereason,negativereason_confidence,airline,airline_sentiment_gold,name,negativereason_gold,retweet_count,text,tweet_coord,tweet_created,tweet_location,user_timezone
0,570306133677760513,neutral,1.0,,,Virgin America,,cairdin,,0,@VirginAmerica What @dhepburn said.,,2015-02-24 11:35:52 -0800,,Eastern Time (US & Canada)
1,570301130888122368,positive,0.3486,,0.0,Virgin America,,jnardino,,0,@VirginAmerica plus you've added commercials t...,,2015-02-24 11:15:59 -0800,,Pacific Time (US & Canada)
2,570301083672813571,neutral,0.6837,,,Virgin America,,yvonnalynn,,0,@VirginAmerica I didn't today... Must mean I n...,,2015-02-24 11:15:48 -0800,Lets Play,Central Time (US & Canada)
3,570301031407624196,negative,1.0,Bad Flight,0.7033,Virgin America,,jnardino,,0,@VirginAmerica it's really aggressive to blast...,,2015-02-24 11:15:36 -0800,,Pacific Time (US & Canada)
4,570300817074462722,negative,1.0,Can't Tell,1.0,Virgin America,,jnardino,,0,@VirginAmerica and it's a really big bad thing...,,2015-02-24 11:14:45 -0800,,Pacific Time (US & Canada)


Bütün NLP datalarını text ve label olarak iki sütuna dönüştüreceğiz.

In [36]:
df = df[['airline_sentiment','text']]
df

Unnamed: 0,airline_sentiment,text
0,neutral,@VirginAmerica What @dhepburn said.
1,positive,@VirginAmerica plus you've added commercials t...
2,neutral,@VirginAmerica I didn't today... Must mean I n...
3,negative,@VirginAmerica it's really aggressive to blast...
4,negative,@VirginAmerica and it's a really big bad thing...
...,...,...
14635,positive,@AmericanAir thank you we got on a different f...
14636,negative,@AmericanAir leaving over 20 minutes Late Flig...
14637,neutral,@AmericanAir Please bring American Airlines to...
14638,negative,"@AmericanAir you have my money, you change my ..."


In [37]:
df = df.iloc[:8, :]  # ilk 8 satırı aldım.
df

Unnamed: 0,airline_sentiment,text
0,neutral,@VirginAmerica What @dhepburn said.
1,positive,@VirginAmerica plus you've added commercials t...
2,neutral,@VirginAmerica I didn't today... Must mean I n...
3,negative,@VirginAmerica it's really aggressive to blast...
4,negative,@VirginAmerica and it's a really big bad thing...
5,negative,@VirginAmerica seriously would pay $30 a fligh...
6,positive,"@VirginAmerica yes, nearly every time I fly VX..."
7,neutral,@VirginAmerica Really missed a prime opportuni...


In [38]:
df2 = df.copy()

In [39]:
df2["text"] = df2["text"].apply(cleaning_fsa) # sentiment analysis olduğundan dolayı içine yukarıdaki func.verdik.

In [40]:
df2

Unnamed: 0,airline_sentiment,text
0,neutral,virginamerica dhepburn said
1,positive,virginamerica plus youve added commercial expe...
2,neutral,virginamerica didnt today must mean need take ...
3,negative,virginamerica really aggressive blast obnoxiou...
4,negative,virginamerica really big bad thing
5,negative,virginamerica seriously would pay flight seat ...
6,positive,virginamerica yes nearly every time fly vx ear...
7,neutral,virginamerica really missed prime opportunity ...


Bizim için önemli olan her bir cümle içinde grammer yapısına uygun olarak gelmesi.

Textimizi sayısallaştırıp modelin anlayabileceği şekilde getirebilmek için;

CountVectorization
TF IDF
Wordembedding olmak üzere 3 yöntem kullanıyoruz.

## CountVectorization

In [41]:
X = df2["text"]
y = df2["airline_sentiment"]

In [42]:
from sklearn.model_selection import train_test_split

In [43]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.5, stratify = y, random_state = 42)

In [44]:
from sklearn.feature_extraction.text import CountVectorizer

!!! Önemli:

Önce train içindeki unique olarak tüm tokenleri alıyor. Sonra transform diyince bunları document içinde teker teker sayıyor. 

Test içinde geçen bir token eger train içinde yoksa bunu ignore eder. Eğitimi train data seti ile yapıyoruz ki data leakage oluşmasın. X_trainin içinde geçtiği corpusun çok büyük olması gerekir ki burada çok iyi eğitim yapıp test seti içinde geçen ancak train de olmaması gibi bir durum söz konusu olmasın. 

Bizim bulacağımız data setleri yetersiz olacağından google ve facebook gibi platformlardan bulacağımız datasetlerini kullanabilirsek modelimizi daha iyi eğitmiş ve bunun sonucunda daha iyi sonuçlar alabiliriz.

In [45]:
vectorizer = CountVectorizer()
X_train_count = vectorizer.fit_transform(X_train) # fit ile train içindeki unique olarak tüm tokenleri alıyor ve transform ile bunların kaç kere geçiyorsa yazıyor.
X_test_count = vectorizer.transform(X_test)   # transform ile Xtest içindeki kelimeleri Xtraindeki gibi bunları teker teker sayıyor.

In [46]:
vectorizer.get_feature_names()  # Train datasındaki tüm unique tokenleri veriyor.
# get_feature_names_out() da kullanılabilir.

['another',
 'away',
 'bad',
 'big',
 'dhepburn',
 'didnt',
 'ear',
 'every',
 'fly',
 'go',
 'mean',
 'must',
 'nearly',
 'need',
 'really',
 'said',
 'take',
 'thing',
 'time',
 'today',
 'trip',
 'virginamerica',
 'vx',
 'worm',
 'yes']

In [47]:
X_train_count.toarray()  # Array çevirdik.

array([[0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1,
        1, 1, 1],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1,
        0, 0, 0],
       [1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1,
        0, 0, 0],
       [0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1,
        0, 0, 0]], dtype=int64)

In [48]:
df_count = pd.DataFrame(X_train_count.toarray(), columns = vectorizer.get_feature_names())
df_count

Unnamed: 0,another,away,bad,big,dhepburn,didnt,ear,every,fly,go,mean,must,nearly,need,really,said,take,thing,time,today,trip,virginamerica,vx,worm,yes
0,0,1,0,0,0,0,1,1,1,1,0,0,1,0,0,0,0,0,1,0,0,1,1,1,1
1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0
2,1,0,0,0,0,1,0,0,0,0,1,1,0,1,0,0,1,0,0,1,1,1,0,0,0
3,0,0,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,1,0,0,0


In [49]:
X_train

6    virginamerica yes nearly every time fly vx ear...
0                          virginamerica dhepburn said
2    virginamerica didnt today must mean need take ...
4                   virginamerica really big bad thing
Name: text, dtype: object

In [50]:
X_train[6]

'virginamerica yes nearly every time fly vx ear worm go away'

In [51]:
vectorizer.vocabulary_  # document içinde her kelime kaçar defa geçiyor. 

{'virginamerica': 21,
 'yes': 24,
 'nearly': 12,
 'every': 7,
 'time': 18,
 'fly': 8,
 'vx': 22,
 'ear': 6,
 'worm': 23,
 'go': 9,
 'away': 1,
 'dhepburn': 4,
 'said': 15,
 'didnt': 5,
 'today': 19,
 'must': 11,
 'mean': 10,
 'need': 13,
 'take': 16,
 'another': 0,
 'trip': 20,
 'really': 14,
 'big': 3,
 'bad': 2,
 'thing': 17}

## TF-IDF

sklearn TD-IDF
https://towardsdatascience.com/how-sklearns-tf-idf-is-different-from-the-standard-tf-idf-275fa582e73d

In [52]:
from sklearn.feature_extraction.text import TfidfVectorizer

fit ile önce her satırda geçen unique tokenleri buluyor bunların sayısı ile ilgilenmiyor ve sonrasında her cümlede bunların kaçar kere geçtiğini tespit ediyor. Sonra transform ile satırlarda geçen unique tokenlerin kaç satırda geçtiğini, sonrasında ise her cümlede kaçar kez geçtiğini buluyor.

Daha sonra TF ve IDF değerleri buluyor.

Mesela test setinde geçer bir kelime train setinde olmasın. Bu durumda TF=0/10 olurken IDF=log(0/0) tanımsız olacak. bu durumda ortaya çıkan sorunu gidermek için TF=0/10 sonucuna +1 IDF ise log(0+1/0+1) olarak yani bir ekleyerek çözüyor.


In [53]:
tf_idf_vectorizer = TfidfVectorizer()
X_train_tf_idf = tf_idf_vectorizer.fit_transform(X_train)
X_test_tf_idf = tf_idf_vectorizer.transform(X_test)

In [54]:
tf_idf_vectorizer.get_feature_names()

['another',
 'away',
 'bad',
 'big',
 'dhepburn',
 'didnt',
 'ear',
 'every',
 'fly',
 'go',
 'mean',
 'must',
 'nearly',
 'need',
 'really',
 'said',
 'take',
 'thing',
 'time',
 'today',
 'trip',
 'virginamerica',
 'vx',
 'worm',
 'yes']

In [55]:
X_train_tf_idf.toarray()

array([[0.        , 0.31200802, 0.        , 0.        , 0.        ,
        0.        , 0.31200802, 0.31200802, 0.31200802, 0.31200802,
        0.        , 0.        , 0.31200802, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.31200802, 0.        ,
        0.        , 0.16281873, 0.31200802, 0.31200802, 0.31200802],
       [0.        , 0.        , 0.        , 0.        , 0.66338461,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.66338461, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.34618161, 0.        , 0.        , 0.        ],
       [0.34768534, 0.        , 0.        , 0.        , 0.        ,
        0.34768534, 0.        , 0.        , 0.        , 0.        ,
        0.34768534, 0.34768534, 0.        , 0.34768534, 0.        ,
        0.        , 0.34768534, 0.        , 0.        , 0.34768534,
        0.34768534, 0.18143663, 0.        , 0.

In [56]:
df_tfidf = pd.DataFrame(X_train_tf_idf.toarray(), columns = tf_idf_vectorizer.get_feature_names())
df_tfidf

Unnamed: 0,another,away,bad,big,dhepburn,didnt,ear,every,fly,go,mean,must,nearly,need,really,said,take,thing,time,today,trip,virginamerica,vx,worm,yes
0,0.0,0.312008,0.0,0.0,0.0,0.0,0.312008,0.312008,0.312008,0.312008,0.0,0.0,0.312008,0.0,0.0,0.0,0.0,0.0,0.312008,0.0,0.0,0.162819,0.312008,0.312008,0.312008
1,0.0,0.0,0.0,0.0,0.663385,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.663385,0.0,0.0,0.0,0.0,0.0,0.346182,0.0,0.0,0.0
2,0.347685,0.0,0.0,0.0,0.0,0.347685,0.0,0.0,0.0,0.0,0.347685,0.347685,0.0,0.347685,0.0,0.0,0.347685,0.0,0.0,0.347685,0.347685,0.181437,0.0,0.0,0.0
3,0.0,0.0,0.483803,0.483803,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.483803,0.0,0.0,0.483803,0.0,0.0,0.0,0.252468,0.0,0.0,0.0


Bir token her satırda geçiyorsa önemsizleşiyor diyebiliriz. yukarıda ilk satırdaki sonuçlara bakınca sonuçlar arasında en düşük değeri yani katsayıyı virginamerica almış. Her satırda geçeni sanki stopwordmüş gibi değerlendiriyor.

In [57]:
X_train[6]

'virginamerica yes nearly every time fly vx ear worm go away'

In [58]:
df_tfidf.loc[2].sort_values(ascending=False) # 2.cümledeki tokenlerin sıklıklarına baktık.

another          0.347685
didnt            0.347685
trip             0.347685
today            0.347685
mean             0.347685
must             0.347685
take             0.347685
need             0.347685
virginamerica    0.181437
said             0.000000
worm             0.000000
vx               0.000000
time             0.000000
thing            0.000000
nearly           0.000000
really           0.000000
away             0.000000
go               0.000000
fly              0.000000
every            0.000000
ear              0.000000
dhepburn         0.000000
big              0.000000
bad              0.000000
yes              0.000000
Name: 2, dtype: float64

In [None]:
X_test[3] # çalıştırdığımızda bazı kelimelerin train setinde olmadığından dolayı geçmediğini görebiliriz.