In [61]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize #for tokenization
from nltk.stem import PorterStemmer #for stemming
import snowballstemmer #We also import this one for "Turkish"
from nltk.corpus import stopwords 
import numpy as np

In [62]:
# Reading the data and lowercasing all the letters and return it 

In [63]:
def processing_data(file_name):
    
    with open(file_name, encoding="utf8") as f:
        file_name_d = f.read()
    file_name_d_lower = file_name_d.lower() #.lower() for lowering the letters
    # tokenize the text word by word
    sentences = sent_tokenize(file_name_d_lower)
    words = word_tokenize(file_name_d_lower)
    
    return sentences,words
    

In [64]:
# We have two text files (one for eng and the other for tr)
# Let's deal with the ENG one

In [65]:
sentence_list_eng, word_list_eng = processing_data('news_eng.txt')

In [66]:
print(word_list_eng)

['international', 'climate', 'change', 'groups', 'and', 'influential', 'advisers', 'on', 'the', 'global', 'shift', 'from', 'fossil', 'fuels', 'have', 'written', 'to', 'the', 'oecd', 'expressing', '“', 'grave', 'concerns', '”', 'over', 'australian', 'politician', 'mathias', 'cormann', '’', 's', 'bid', 'to', 'be', 'its', 'next', 'secretary-general', '.', 'former', 'australian', 'finance', 'minister', 'cormann', '’', 's', 'record', 'in', 'a', 'government', 'that', '“', 'persistently', 'failed', 'to', 'take', 'effective', 'action', '”', 'to', 'cut', 'emissions', 'while', 'blocking', 'international', 'action', 'meant', 'he', 'was', '“', 'not', 'a', 'suitable', 'candidate', '”', ',', 'the', 'letter', 'says', '.', 'cormann', 'is', 'one', 'of', 'only', 'two', 'remaining', 'candidates', 'for', 'the', 'top', 'oecd', 'role', 'after', 'two', 'candidates', '–', 'swiss', 'banker', 'philipp', 'hildebrand', 'and', 'greek', 'politician', 'anna', 'diamantopoulou', '–', 'withdrew', 'earlier', 'this', 'we

In [67]:
print(sentence_list_eng)

['international climate change groups and influential advisers on the global shift from fossil fuels have written to the oecd expressing “grave concerns” over australian politician mathias cormann’s bid to be its next secretary-general.', 'former australian finance minister cormann’s record in a government that “persistently failed to take effective action” to cut emissions while blocking international action meant he was “not a suitable candidate”, the letter says.', 'cormann is one of only two remaining candidates for the top oecd role after two candidates – swiss banker philipp hildebrand and greek politician anna diamantopoulou – withdrew earlier this week.']


In [68]:
# Let's deal with the TR one

In [69]:
sentence_list_tr, word_list_tr = processing_data('haber_tr.txt')

In [70]:
print(word_list_tr)

['ekonomi', 'yönetiminin', 'değişmesinden', 'sonra', 'düşüşe', 'geçen', 'dolar', 'kuru', '6.90', '’', 'a', 'kadar', 'çekildi', '.', 'ancak', 'son', 'dönemde', 'yine', 'yönünü', 'yukarı', 'çevirmiş', 'durumda', '.', 'kur', 'dün', '7.59', 'seviyesine', 'kadar', 'çıktı', '.', 'bu', 'yükselişin', 'en', 'önemli', 'sebebi', 'ise', 'abd', 'hazine', 'tahvili', 'faizlerinde', 'yaşanan', 'artış', '.', 'faizler', 'gece', 'saatlerinde', 'yüzde', '1.5', '’', 'i', 'aşarken', ',', 'dolar', 'endeksi', 'de', 'üç', 'ayın', 'zirvesine', 'çıktı', '.', 'ata', 'yatırım', 'direktörü', 'cem', 'tözge', ',', 'tera', 'yatırım', 'ekonomisti', 'enver', 'erkan', 've', 'i̇stanbul', 'altın', 'rafinerisi', 'stratejisti', 'haluk', 'i̇zzet', 'mutlu', 'abd', 'tahvillerinde', 'yaşanan', 'yükselişi', 've', 'piyasaya', 'etkilerini', 'sozcu.com.tr', '’', 'ye', 'değerlendirdi', '.']


In [71]:
print(sentence_list_tr)

['ekonomi yönetiminin değişmesinden sonra düşüşe geçen dolar kuru 6.90’a kadar çekildi.', 'ancak son dönemde yine yönünü yukarı çevirmiş durumda.', 'kur dün 7.59 seviyesine kadar çıktı.', 'bu yükselişin en önemli sebebi ise abd hazine tahvili faizlerinde yaşanan artış.', 'faizler gece saatlerinde yüzde 1.5’i aşarken, dolar endeksi de üç ayın zirvesine çıktı.', 'ata yatırım direktörü cem tözge, tera yatırım ekonomisti enver erkan ve i̇stanbul altın rafinerisi stratejisti haluk i̇zzet mutlu abd tahvillerinde yaşanan yükselişi ve piyasaya etkilerini sozcu.com.tr’ye değerlendirdi.']


In [72]:
# Examining the stemming operation for both english and turkish

In [73]:
from nltk.stem.snowball import SnowballStemmer

In [74]:
stemmer_eng = SnowballStemmer("english", ignore_stopwords = False)

In [55]:
words_stemmed_eng = []
for word in word_list_eng:
    words_stemmed_eng.append(stemmer_eng.stem(word))
print(words_stemmed_eng)

['intern', 'climat', 'chang', 'group', 'and', 'influenti', 'advis', 'on', 'the', 'global', 'shift', 'from', 'fossil', 'fuel', 'have', 'written', 'to', 'the', 'oecd', 'express', '“', 'grave', 'concern', '”', 'over', 'australian', 'politician', 'mathia', 'cormann', '’', 's', 'bid', 'to', 'be', 'it', 'next', 'secretary-gener', '.', 'former', 'australian', 'financ', 'minist', 'cormann', '’', 's', 'record', 'in', 'a', 'govern', 'that', '“', 'persist', 'fail', 'to', 'take', 'effect', 'action', '”', 'to', 'cut', 'emiss', 'while', 'block', 'intern', 'action', 'meant', 'he', 'was', '“', 'not', 'a', 'suitabl', 'candid', '”', ',', 'the', 'letter', 'say', '.', 'cormann', 'is', 'one', 'of', 'onli', 'two', 'remain', 'candid', 'for', 'the', 'top', 'oecd', 'role', 'after', 'two', 'candid', '–', 'swiss', 'banker', 'philipp', 'hildebrand', 'and', 'greek', 'politician', 'anna', 'diamantopoulou', '–', 'withdrew', 'earlier', 'this', 'week', '.']


In [56]:
# Let's try for the Turkish

In [59]:
from snowballstemmer import TurkishStemmer
stemmer_tr = TurkishStemmer()

In [60]:
words_stemmed_tr = []
for word in word_list_tr:
    words_stemmed_tr.append(stemmer_tr.stemWord(word))
print(words_stemmed_tr)

['ekono', 'yönetim', 'değişme', 'sonra', 'düşüş', 'geçe', 'do', 'kur', '6.90', '’', 'a', 'kadar', 'çekil', '.', 'ancak', 'son', 'döne', 'y', 'yön', 'yukar', 'çevir', 'dur', '.', 'kur', 'dün', '7.59', 'seviye', 'kadar', 'çık', '.', 'bu', 'yükseliş', 'en', 'önemli', 'sebep', 'is', 'abd', 'haz', 'tahvil', 'faiz', 'yaşana', 'artış', '.', 'faiz', 'geç', 'saat', 'yüz', '1.5', '’', 'i', 'aşar', ',', 'do', 'endeksi', 'de', 'üç', 'ay', 'zirve', 'çık', '.', 'a', 'yatır', 'direktör', 'cem', 'tözge', ',', 'tera', 'yatır', 'ekonomis', 'enver', 'erka', 've', 'i̇stanbul', 'al', 'rafineris', 'stratejis', 'haluk', 'i̇zzet', 'mutlu', 'abd', 'tahvil', 'yaşana', 'yükseliş', 've', 'piyasa', 'etki', 'sozcu.com.tr', '’', 'ye', 'değerlendir', '.']
