# NLP Preprocessing Toolkit

In [1]:
from Turkish_Preprocessing.modules.tokenizer import Tokenizer
from Turkish_Preprocessing.modules.splitter import SentenceSplitter
from Turkish_Preprocessing.modules.normalization import Normalization
from Turkish_Preprocessing.modules.stopwords import StopwordRemoval
from Turkish_Preprocessing.modules.stemmer import Stemmer

In [2]:
sample_text = """Şahap Kavcıoğlu (Başkan), Taha Çakmak, Mustafa Duman, Elif Haykır Hobikoğlu, Emrah Şener, Yusuf Tuna. Para Politikası Kurulu (Kurul), politika faizi olan bir hafta vadeli repo ihale faiz oranının yüzde 16’dan yüzde 15’e indirilmesine karar vermiştir. Küresel iktisadi faaliyette yılın ilk yarısında yaşanan toparlanma ve aşılama oranlarındaki artışa rağmen salgında yeni varyantlar küresel iktisadi faaliyet üzerindeki aşağı yönlü riskleri canlı tutmaktadır. Küresel talepteki toparlanma, emtia fiyatlarındaki yüksek seyir, bazı sektörlerdeki arz kısıtları ve taşımacılık maliyetlerindeki artış uluslararası ölçekte üretici ve tüketici fiyatlarının yükselmesine yol açmaktadır. Başlıca tarımsal emtia ihracatçısı ülkelerde yaşanan iklim koşullarının küresel gıda fiyatları üzerinde olumsuz yansımaları görülmektedir. Yüksek küresel enflasyonun, enflasyon beklentileri ve uluslararası finansal piyasalar üzerindeki etkileri yakından izlenmekle birlikte, gelişmiş ülke merkez bankaları artan enerji fiyatları ve arz-talep uyumsuzluğuna bağlı olarak enflasyonda görülen yükselişin beklenenden uzun sürebileceğini değerlendirmektedir. Bu çerçevede, gelişmiş ülke merkez bankaları destekleyici parasal duruşlarını sürdürmekte, varlık alım programlarına devam etmektedir. Öncü göstergeler yurt içinde iktisadi faaliyetin dış talebin de etkisiyle güçlü seyrettiğine işaret etmektedir. Aşılamanın toplumun geneline yayılması salgından olumsuz etkilenen hizmetler, turizm ve bağlantılı sektörlerin canlanmasına ve iktisadi faaliyetin daha dengeli bir bileşimle sürdürülmesine olanak tanımaktadır. Dayanıklı tüketim malları talebi yavaşlarken, dayanıksız tüketim mallarında toparlanma devam etmektedir. İhracattaki güçlü artış eğilimiyle yılın geri kalanında yıllıklandırılmış cari işlemler denge-
sindeki iyileşmenin sürmesi beklenmekte, bu eğilimin güçlenerek devam etmesi fiyat istikrarı hedefi için önem arz etmektedir."""

## Tokenizer

In [3]:
tokenizer = Tokenizer()

In [4]:
print(tokenizer.RuleBasedTokenizer(sample_text))

['Şahap', 'Kavcıoğlu', '', '(', 'Başkan', ')', '', ',', 'Taha', 'Çakmak', ',', 'Mustafa', 'Duman', ',', 'Elif', 'Haykır', 'Hobikoğlu', ',', 'Emrah', 'Şener', ',', 'Yusuf', 'Tuna.', 'Para', 'Politikası', 'Kurulu', '', '(', 'Kurul', ')', '', ',', 'politika', 'faizi', 'olan', 'bir', 'hafta', 'vadeli', 'repo', 'ihale', 'faiz', 'oranının', 'yüzde', '16’dan', 'yüzde', '15’e', 'indirilmesine', 'karar_ver.', 'Küresel', 'iktisadi', 'faaliyette', 'yılın', 'ilk', 'yarısında', 'yaşanan', 'toparlanma', 've', 'aşılama', 'oranlarındaki', 'artışa', 'rağmen', 'salgında', 'yeni', 'varyantlar', 'küresel', 'iktisadi', 'faaliyet', 'üzerindeki', 'aşağı', 'yönlü', 'riskleri', 'canlı', 'tutmaktadır.', 'Küresel', 'talepteki', 'toparlanma', ',', 'emtia', 'fiyatlarındaki', 'yüksek', 'seyir', ',', 'bazı', 'sektörlerdeki', 'arz', 'kısıtları', 've', 'taşımacılık', 'maliyetlerindeki', 'artış', 'uluslararası', 'ölçekte', 'üretici', 've', 'tüketici', 'fiyatlarının', 'yükselmesine', 'yol_aç.', 'Başlıca', 'tarımsal', 'e

In [5]:
print(tokenizer.LogisticTokenizer(sample_text))

['Şahap', 'Kavcıoğlu', '(Başkan)', 'Taha', 'Çakmak', 'Mustafa', 'Duman', 'Elif', 'Haykır', 'Hobikoğlu', 'Emrah', 'Şener', 'Yusuf', 'Tuna', 'Para', 'Politikası', 'Kurulu', '(Kurul)', 'politika', 'faizi', 'olan', 'bir', 'hafta', 'vadeli', 'repo', 'ihale', 'faiz', 'oranının', 'yüzde', '16’dan', 'yüzde', '15’e', 'indirilmesine', 'karar', 'vermiştir', 'Küresel', 'iktisadi', 'faaliyette', 'yılın', 'ilk', 'yarısında', 'yaşanan', 'toparlanma', 've', 'aşılama', 'oranlarındaki', 'artışa', 'rağmen', 'salgında', 'yeni', 'varyantlar', 'küresel', 'iktisadi', 'faaliyet', 'üzerindeki', 'aşağı', 'yönlü', 'riskleri', 'canlı', 'tutmaktadır', 'Küresel', 'talepteki', 'toparlanma', 'emtia', 'fiyatlarındaki', 'yüksek', 'seyir', 'bazı', 'sektörlerdeki', 'arz', 'kısıtları', 've', 'taşımacılık', 'maliyetlerindeki', 'artış', 'uluslararası', 'ölçekte', 'üretici', 've', 'tüketici', 'fiyatlarının', 'yükselmesine', 'yol', 'açmaktadır', 'Başlıca', 'tarımsal', 'emtia', 'ihracatçısı', 'ülkelerde', 'yaşanan', 'iklim', '

In [6]:
print(tokenizer.model_accuracy())

              precision    recall  f1-score   support

           0       0.84      1.00      0.91     81326
           1       0.00      0.00      0.00     15981

    accuracy                           0.84     97307
   macro avg       0.42      0.50      0.46     97307
weighted avg       0.70      0.84      0.76     97307



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [7]:
splitter = SentenceSplitter()

In [8]:
print(splitter.RuleBasedSplitter(sample_text))

['Şahap Kavcıoğlu (Başkan), Taha Çakmak, Mustafa Duman, Elif Haykır Hobikoğlu, Emrah Şener, Yusuf Tuna.', ' Para Politikası Kurulu (Kurul), politika faizi olan bir hafta vadeli repo ihale faiz oranının yüzde 16’dan yüzde 15’e indirilmesine karar vermiştir.', ' Küresel iktisadi faaliyette yılın ilk yarısında yaşanan toparlanma ve aşılama oranlarındaki artışa rağmen salgında yeni varyantlar küresel iktisadi faaliyet üzerindeki aşağı yönlü riskleri canlı tutmaktadır.', ' Küresel talepteki toparlanma, emtia fiyatlarındaki yüksek seyir, bazı sektörlerdeki arz kısıtları ve taşımacılık maliyetlerindeki artış uluslararası ölçekte üretici ve tüketici fiyatlarının yükselmesine yol açmaktadır.', ' Başlıca tarımsal emtia ihracatçısı ülkelerde yaşanan iklim koşullarının küresel gıda fiyatları üzerinde olumsuz yansımaları görülmektedir.', ' Yüksek küresel enflasyonun, enflasyon beklentileri ve uluslararası finansal piyasalar üzerindeki etkileri yakından izlenmekle birlikte, gelişmiş ülke merkez bank

In [9]:
print(splitter.NaiveBayesSplitter(sample_text))

['Şahap Kavcıoğlu (Başkan), Taha Çakmak, Mustafa Duman, Elif Haykır Hobikoğlu, Emrah Şener, Yusuf Tuna.', ' Para Politikası Kurulu (Kurul), politika faizi olan bir hafta vadeli repo ihale faiz oranının yüzde 16’dan yüzde 15’e indirilmesine karar vermiştir. Küresel iktisadi faaliyette yılın ilk yarısında yaşanan toparlanma ve aşılama oranlarındaki artışa rağmen salgında yeni varyantlar küresel iktisadi faaliyet üzerindeki aşağı yönlü riskleri canlı tutmaktadır.', ' Küresel talepteki toparlanma, emtia fiyatlarındaki yüksek seyir, bazı sektörlerdeki arz kısıtları ve taşımacılık maliyetlerindeki artış uluslararası ölçekte üretici ve tüketici fiyatlarının yükselmesine yol açmaktadır.', ' Başlıca tarımsal emtia ihracatçısı ülkelerde yaşanan iklim koşullarının küresel gıda fiyatları üzerinde olumsuz yansımaları görülmektedir.', ' Yüksek küresel enflasyonun, enflasyon beklentileri ve uluslararası finansal piyasalar üzerindeki etkileri yakından izlenmekle birlikte, gelişmiş ülke merkez bankalar

In [10]:
print(splitter.model_accuracy())

              precision    recall  f1-score   support

           0       0.00      0.00      0.00         0
           1       1.00      1.00      1.00      1649

    accuracy                           1.00      1649
   macro avg       0.50      0.50      0.50      1649
weighted avg       1.00      1.00      1.00      1649



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


## Normalization

In [11]:
normalization = Normalization()

In [12]:
normalization.normalize(sample_text)

'şahap kavcıoğlu (başkan) taha çakmak mustafa duman elif haykır hobikoğlu emrah şener yusuf tuna. para politikası kurulu (kurul) politika faizi olan bir hafta vadeli repo ihale faiz oranının yüzde 16’dan yüzde 15’e indirilmesine karar_ver. küresel iktisadi faaliyette yılın ilk yarısında yaşanan toparlanma ve aşılama oranlarındaki artışa rağmen salgında yeni varyantlar küresel iktisadi faaliyet üzerindeki aşağı yönlü riskleri canlı tutmaktadır. küresel talepteki toparlanma emtia fiyatlarındaki yüksek seyir bazı sektörlerdeki arz kısıtları ve taşımacılık maliyetlerindeki artış uluslararası ölçekte üretici ve tüketici fiyatlarının yükselmesine yol_aç. başlıca tarımsal emtia ihracatçısı ülkelerde yaşanan iklim koşullarının küresel gıda fiyatları üzerinde olumsuz yansımaları görülmektedir. yüksek küresel enflasyonun enflasyon beklentileri ve uluslararası finansal piyasalar üzerindeki etkileri yakından izlenmekle birlikte gelişmiş ülke merkez bankaları artan enerji fiyatları ve arz-talep uyu

## Stemmer

In [13]:
stemmer = Stemmer()

In [14]:
for token  in tokenizer.LogisticTokenizer(sample_text):
    stem, morphology = stemmer.get_stem(token)
    print("Token: ",token, "Stem:", stem, "Morphology: ", morphology)

Token:  Şahap Stem: Şahap Morphology:  []
Token:  Kavcıoğlu Stem: Kavcıok Morphology:  ['Derivation=With']
Token:  (Başkan) Stem: (Başkan) Morphology:  []
Token:  Taha Stem: Taha Morphology:  []
Token:  Çakmak Stem: Çak Morphology:  ['PersonNumber=V1pl', 'Polarity=Neg']
Token:  Mustafa Stem: Mustafa Morphology:  []
Token:  Duman Stem: Dum Morphology:  ['Voice=Rfx']
Token:  Elif Stem: Elif Morphology:  []
Token:  Haykır Stem: Haykır Morphology:  []
Token:  Hobikoğlu Stem: Hobikok Morphology:  ['Derivation=With']
Token:  Emrah Stem: Emrah Morphology:  []
Token:  Şener Stem: Şen Morphology:  ['NumberType=Dist']
Token:  Yusuf Stem: Yusuf Morphology:  []
Token:  Tuna Stem: Tuna Morphology:  []
Token:  Para Stem: Para Morphology:  []
Token:  Politikası Stem: Politika Morphology:  ['Case=Acc']
Token:  Kurulu Stem: Kur Morphology:  ['Case=Acc', 'Voice=Pass']
Token:  (Kurul) Stem: (Kurul) Morphology:  []
Token:  politika Stem: politika Morphology:  []
Token:  faizi Stem: faiz Morphology:  ['Cas

## Stopwords

In [15]:
stopwords = StopwordRemoval(type="custom", top_k=50)
#stopwords = StopwordRemoval(type="lexicon")

In [16]:
print(stopwords.stopwords)

['bir', 'bu', 've', 'gibi', 'de', 'da', 'o', 'için', 'her', 'kadar', 'sonra', 'ben', 'ile', 'ki', 'çok', 'iki', 'içinde', 'daha', 'ne', 'bütün', 'gün', 'diye', 'bile', 'onun', 'vardı', 'bana', 'var', 'ama', 'değil', 'büyük', 'beni', 'adam', 'onu', 'şimdi', 'böyle', 'hiç', 'artık', 'zaman', 'olan', 'şey', 'benim', 'üç', 'en', 'beş', 'bizim', 'ona', 'sen', 'oldu', 'kadın', 'pek']


In [17]:
print(stopwords.remove(tokenizer.LogisticTokenizer(sample_text)))

['Şahap', 'Kavcıoğlu', '(Başkan)', 'Taha', 'Çakmak', 'Mustafa', 'Duman', 'Elif', 'Haykır', 'Hobikoğlu', 'Emrah', 'Şener', 'Yusuf', 'Tuna', 'Para', 'Politikası', 'Kurulu', '(Kurul)', 'politika', 'faizi', 'hafta', 'vadeli', 'repo', 'ihale', 'faiz', 'oranının', 'yüzde', '16’dan', 'yüzde', '15’e', 'indirilmesine', 'karar', 'vermiştir', 'Küresel', 'iktisadi', 'faaliyette', 'yılın', 'ilk', 'yarısında', 'yaşanan', 'toparlanma', 'aşılama', 'oranlarındaki', 'artışa', 'rağmen', 'salgında', 'yeni', 'varyantlar', 'küresel', 'iktisadi', 'faaliyet', 'üzerindeki', 'aşağı', 'yönlü', 'riskleri', 'canlı', 'tutmaktadır', 'Küresel', 'talepteki', 'toparlanma', 'emtia', 'fiyatlarındaki', 'yüksek', 'seyir', 'bazı', 'sektörlerdeki', 'arz', 'kısıtları', 'taşımacılık', 'maliyetlerindeki', 'artış', 'uluslararası', 'ölçekte', 'üretici', 'tüketici', 'fiyatlarının', 'yükselmesine', 'yol', 'açmaktadır', 'Başlıca', 'tarımsal', 'emtia', 'ihracatçısı', 'ülkelerde', 'yaşanan', 'iklim', 'koşullarının', 'küresel', 'gıda',