# Word Embedding

It is a natural language processing project which maps words by learning from text content that consists of technology news collected from Turkish websites.

The dataset used in this project was downloaded from https://hakan.io/makine-ogrenmesi-turkce-haber-metinleri-veri-seti/ .

Credits: https://www.analyticsvidhya.com/blog/2018/02/the-different-methods-deal-text-data-predictive-python/

### Data

In [1]:
stopwords = [i.strip() for i in open("data/stopwords.txt", "r").readlines()]

In [2]:
import pandas as pd

data = pd.DataFrame(open("data/news.txt", "r").readlines(), columns =["News"])
data.head()

Unnamed: 0,News
0,"'Sürücüsüz otomobil yola çıktı', 'Modifiye oto..."
1,'Akıllı telefon bağımlılığına karşı \'Vekil Te...
2,'iPhone X ile iPhone 8 Plus karşı karşıya: Dah...
3,'Avrupa devleri hibrit elektrikli uçak için ko...
4,'11 yaşındaki kız 25 bin dolar değerindeki bil...


##### Lowercase

In [3]:
data["News"] = data["News"].apply(lambda x: " ".join(x.lower() for x in x.split()))
data.head()

Unnamed: 0,News
0,"'sürücüsüz otomobil yola çıktı', 'modifiye oto..."
1,'akıllı telefon bağımlılığına karşı \'vekil te...
2,'iphone x ile iphone 8 plus karşı karşıya: dah...
3,'avrupa devleri hibrit elektrikli uçak için ko...
4,'11 yaşındaki kız 25 bin dolar değerindeki bil...


##### Remove punctuations

In [4]:
data["News"] = data["News"].str.replace('[^\w\s]', '')
data.head()

Unnamed: 0,News
0,sürücüsüz otomobil yola çıktı modifiye otomobi...
1,akıllı telefon bağımlılığına karşı vekil telef...
2,iphone x ile iphone 8 plus karşı karşıya daha ...
3,avrupa devleri hibrit elektrikli uçak için kol...
4,11 yaşındaki kız 25 bin dolar değerindeki bili...


##### Remove stopwords

In [5]:
data["News"] = data["News"].apply(lambda x: " ".join(x for x in x.split() if x not in stopwords))
data.head()

Unnamed: 0,News
0,sürücüsüz otomobil yola çıktı modifiye otomobi...
1,akıllı telefon bağımlılığına karşı vekil telef...
2,iphone x iphone 8 plus karşı karşıya küçük kas...
3,avrupa devleri hibrit elektrikli uçak kolları ...
4,11 yaşındaki kız 25 dolar değerindeki bilim öd...


##### Features

In [6]:
import re

In [7]:
# Character count
data["Char"] = data["News"].apply(lambda x: len(re.sub(r"\s+", "", x)))
data.head()

Unnamed: 0,News,Char
0,sürücüsüz otomobil yola çıktı modifiye otomobi...,589
1,akıllı telefon bağımlılığına karşı vekil telef...,800
2,iphone x iphone 8 plus karşı karşıya küçük kas...,521
3,avrupa devleri hibrit elektrikli uçak kolları ...,624
4,11 yaşındaki kız 25 dolar değerindeki bilim öd...,544


In [8]:
# String count
data["Str"] = data["News"].apply(lambda x: len(re.sub(r"[^a-zA-ZığüşöçİĞÜŞÖÇ]+", "", x)))
data.head()

Unnamed: 0,News,Char,Str
0,sürücüsüz otomobil yola çıktı modifiye otomobi...,589,563
1,akıllı telefon bağımlılığına karşı vekil telef...,800,799
2,iphone x iphone 8 plus karşı karşıya küçük kas...,521,489
3,avrupa devleri hibrit elektrikli uçak kolları ...,624,605
4,11 yaşındaki kız 25 dolar değerindeki bilim öd...,544,536


In [9]:
# Integer count
data["Int"] = data["News"].apply(lambda x: len(re.sub(r"[^\d]+", "", x)))
data.head()

Unnamed: 0,News,Char,Str,Int
0,sürücüsüz otomobil yola çıktı modifiye otomobi...,589,563,26
1,akıllı telefon bağımlılığına karşı vekil telef...,800,799,1
2,iphone x iphone 8 plus karşı karşıya küçük kas...,521,489,32
3,avrupa devleri hibrit elektrikli uçak kolları ...,624,605,19
4,11 yaşındaki kız 25 dolar değerindeki bilim öd...,544,536,8


In [10]:
# Word count
data["Word"] = data["News"].apply(lambda x: len(x.split()))
data.head()

Unnamed: 0,News,Char,Str,Int,Word
0,sürücüsüz otomobil yola çıktı modifiye otomobi...,589,563,26,83
1,akıllı telefon bağımlılığına karşı vekil telef...,800,799,1,96
2,iphone x iphone 8 plus karşı karşıya küçük kas...,521,489,32,98
3,avrupa devleri hibrit elektrikli uçak kolları ...,624,605,19,90
4,11 yaşındaki kız 25 dolar değerindeki bilim öd...,544,536,8,77


In [11]:
# Average Word Length
data["Avg"] = data["News"].apply(lambda x: len(re.sub(r"\s+", "", x)) / len(x.split()))
data.head()

Unnamed: 0,News,Char,Str,Int,Word,Avg
0,sürücüsüz otomobil yola çıktı modifiye otomobi...,589,563,26,83,7.096386
1,akıllı telefon bağımlılığına karşı vekil telef...,800,799,1,96,8.333333
2,iphone x iphone 8 plus karşı karşıya küçük kas...,521,489,32,98,5.316327
3,avrupa devleri hibrit elektrikli uçak kolları ...,624,605,19,90,6.933333
4,11 yaşındaki kız 25 dolar değerindeki bilim öd...,544,536,8,77,7.064935


##### Frequent words

In [12]:
freq = pd.Series(" ".join(data["News"]).split()).value_counts()[:10]
freq

yeni         57
iphone       41
r            32
telefon      30
ilk          29
2            28
satışa       24
teknoloji    24
apple        23
sahip        23
dtype: int64

In [13]:
# Remove frequent words

data["News"] = data["News"].apply(lambda x: " ".join(x for x in x.split() if x not in list(freq.index)))
data["News"].head()

0    sürücüsüz otomobil yola çıktı modifiye otomobi...
1    akıllı bağımlılığına karşı vekil avusturyalı t...
2    x 8 plus karşı karşıya küçük kasa büyük ekran ...
3    avrupa devleri hibrit elektrikli uçak kolları ...
4    11 yaşındaki kız 25 dolar değerindeki bilim öd...
Name: News, dtype: object

##### Rare words

In [14]:
rare = pd.Series(" ".join(data["News"]).split()).value_counts()[-10:]
rare

suçlamaları    1
zahmetli       1
erken          1
mit            1
akımlı         1
akıncılar      1
çözdü          1
montana        1
uzmanlığa      1
tartışmayı     1
dtype: int64

In [15]:
# Remove rare words

data["News"] = data["News"].apply(lambda x: " ".join(x for x in x.split() if x not in list(rare.index)))
data["News"].head()

0    sürücüsüz otomobil yola çıktı modifiye otomobi...
1    akıllı bağımlılığına karşı vekil avusturyalı t...
2    x 8 plus karşı karşıya küçük kasa büyük ekran ...
3    avrupa devleri hibrit elektrikli uçak kolları ...
4    11 yaşındaki kız 25 dolar değerindeki bilim öd...
Name: News, dtype: object

### Pre-processing

##### ASCII character correction

In [16]:
from lib.turkish_deasciifier.turkish.deasciifier import Deasciifier
    
data["News"] = data["News"].apply(lambda x: Deasciifier(x).convert_to_turkish())
    
data["News"].head()

0    sürücüsüz otomobil yola çıktı modifiye otomobi...
1    akıllı bağımlılığına karşı vekil avusturyalı t...
2    x 8 plus karşı karşıya küçük kasa büyük ekran ...
3    avrupa devleri hibrit elektrikli uçak kolları ...
4    11 yasındaki kız 25 dolar değerindeki bilim öd...
Name: News, dtype: object

##### Tokenization

In [17]:
from lib.turkish_nltk.trnltk.tokenizer.texttokenizer import TextTokenizer

data["Token"] = data["News"].apply(lambda x: list(TextTokenizer().tokenize(x)))
    
data["Token"].head()

0    [sürücüsüz, otomobil, yola, çıktı, modifiye, o...
1    [akıllı, bağımlılığına, karşı, vekil, avustury...
2    [x, 8, plus, karşı, karşıya, küçük, kasa, büyü...
3    [avrupa, devleri, hibrit, elektrikli, uçak, ko...
4    [11, yasındaki, kız, 25, dolar, değerindeki, b...
Name: Token, dtype: object

##### Stemming

In [18]:
from TurkishStemmer import TurkishStemmer

data["Stem"] = data["Token"].apply(lambda x: " ".join(TurkishStemmer().stem(x) for x in x))

data["Stem"].head()

0    sürücüs otomobil yol çıkt modifi otomobil 12 s...
1    akıl bağımlılık karş vekil avusturya tasarımç ...
2    x 8 plus karş karşı küçük kas büyük ekran 8 in...
3    avrup dev hibrit elektrik uçak kol sıva bbcde ...
4    11 yas kız 25 do değer bil ödül sahip geliştir...
Name: Stem, dtype: object

##### Lemmatization

In [19]:
'''
from lib.turkish_lemmer.trLemmer import MorphAnalyzer

data["Lemma"] = data["Token"].apply(lambda x: " ".join(MorphAnalyzer().lemmatize(x)[0] for x in x))
    
data["Lemma"].head()
'''

'\nfrom lib.turkish_lemmer.trLemmer import MorphAnalyzer\n\ndata["Lemma"] = data["Token"].apply(lambda x: " ".join(MorphAnalyzer().lemmatize(x)[0] for x in x))\n    \ndata["Lemma"].head()\n'

### Processing

##### N-grams

In [23]:
'''
from textblob import TextBlob

data["Ngram"] = data["Stem"].apply(lambda x: TextBlob(x).ngrams(5))
    
data["Ngram"].head()
'''

'\nfrom textblob import TextBlob\n\ndata["Ngram"] = data["Stem"].apply(lambda x: TextBlob(x).ngrams(5))\n    \ndata["Ngram"].head()\n'

##### Term frequency

In [24]:
terms = (data["Stem"][1:2]).apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0).reset_index()
terms.columns = ["Term", "tf"]

terms.head()

Unnamed: 0,Term,tf
0,bağımlılık,3
1,vekil,3
2,schillinger,3
3,sağlıyor,2
4,telefon,2


##### Inverse document frequency

In [25]:
import numpy as np

for i, word in enumerate(terms["Term"]):
    terms.loc[i, "idf"] = np.log(data.shape[0] / (len(data[data["Stem"].str.contains(word)])))
    
terms.head()

Unnamed: 0,Term,tf,idf
0,bağımlılık,3,3.901973
1,vekil,3,4.59512
2,schillinger,3,4.59512
3,sağlıyor,2,4.59512
4,telefon,2,1.88707


##### Term frequency - Inverse document frequency

In [28]:
terms["tf_idf"] = terms["tf"] * terms["idf"]

terms.head()

Unnamed: 0,Term,tf,idf,tf_idf
0,bağımlılık,3,3.901973,11.705918
1,vekil,3,4.59512,13.78536
2,schillinger,3,4.59512,13.78536
3,sağlıyor,2,4.59512,9.19024
4,telefon,2,1.88707,3.774139


In [35]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(max_features=1000, lowercase=True, analyzer="word", stop_words=stopwords, ngram_range=(1,1))
train_tfidf = tfidf.fit_transform(data["Stem"])

train_tfidf

<99x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 3322 stored elements in Compressed Sparse Row format>

##### Bag of words

In [36]:
from sklearn.feature_extraction.text import CountVectorizer

bag = CountVectorizer(max_features=1000, lowercase=True, analyzer="word", ngram_range=(1,1))
train_bag = bag.fit_transform(data["Stem"])

train_bag

<99x1000 sparse matrix of type '<class 'numpy.int64'>'
	with 3385 stored elements in Compressed Sparse Row format>

##### Sentiment analysis

In [37]:
data["Sentiment"] = data["Stem"].apply(lambda x: TextBlob(x).translate(from_lang="tr", to="en").sentiment.polarity)

data[["Stem", "Sentiment"]].head()

Unnamed: 0,Stem,Sentiment
0,sürücüs otomobil yol çıkt modifi otomobil 12 s...,0.092857
1,akıl bağımlılık karş vekil avusturya tasarımç ...,-0.083333
2,x 8 plus karş karşı küçük kas büyük ekran 8 in...,0.005952
3,avrup dev hibrit elektrik uçak kol sıva bbcde ...,-0.016667
4,11 yas kız 25 do değer bil ödül sahip geliştir...,0.058333


##### Word embeddings