# Turkish NLP Pipeline with BERT 

1. Sentiment Analysis
2. NER Model
3. Question Answering
4. Text Summarization *
5. Text Categorization
6. Text Normalization, Spell Checker *

These models are fined tuned based on Turkish-Bert model 

https://github.com/stefan-it/turkish-bert

## Requirements
* python3
* pip install transformers

In [None]:
!pip install transformers

In [None]:
import transformers
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline

# Bert 
Paper:
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
https://arxiv.org/pdf/1810.04805

 *Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova*
 **Google AI Language**

*Abstract*

* We introduce a new language representation model called BERT, which stands for **Bidirectional Encoder Representations from Transformers.** 
* Unlike recent language representation models (Peters et al., 2018a; Radford et al., 2018), BERT is designed to pretrain deep bidirectional representations from **unlabeled text** by jointly conditioning on *both left and right context* in all layers. 
* BERT alleviates the previously mentioned unidirectionality constraint by using a **“masked language model”** (MLM) pre-training objective, inspired by the Cloze task (Taylor, 1953). T
* As a result, the pre-trained BERT model can be finetuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as 
   - question answering and
   - language inference, without substantial taskspecific architecture modifications.

* BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on **eleven (11)**natural language processing tasks, including pushing the GLUE score to
    - 80.5% (7.7% point absolute improvement), 
    - MultiNLI accuracy to 86.7% (4.6% absolute improvement), 
    - SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and 
    - SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).

## Unidirectionality
"I made a bank deposit" the unidirectional representation of bank is only based on I made a but not deposit

## Training
masking out 15% of the words in the input

```
Input: the man went to the [MASK1] . he bought a [MASK2] of milk.
Labels: [MASK1] = store; [MASK2] = gallon
```

## Bert codes and pre-trained models

https://github.com/google-research/bert

* Overall pre-training and fine-tuning procedures for BERT.

* Apart from output layers, the **same architectures** are used in both **pre-training** and **fine-tuning**. 

* The same pre-trained model parameters are used to initialize models for **different down-stream tasks**. 

* During fine-tuning, all parameters are fine-tuned. 
[CLS] is a special symbol added in front of every input example, and [SEP] is a special separator token (e.g. separating questions/answers).

## Word embeddings
* Context-free models such as word2vec or GloVe
* Contextual representation (each word is based on the other words in the sentence)

# Tokenization

In [None]:
import torch
from transformers import BertTokenizer, BertModel, BertForMaskedLM
# Load pre-trained model tokenizer (vocabulary)
tokenizer = BertTokenizer.from_pretrained('dbmdz/bert-base-turkish-uncased')
# Tokenize input
text = "[CLS] yeni derin öğrenme modelleri doğal dil işlemede heyacan uyandırdı [SEP]"

tokenized_text = tokenizer.tokenize(text)
print(tokenized_text)

In [None]:
uzun="Muvaffakiyetsizleştiricileştiriveremeyebileceklerimizdenmişsinizcesinesiniz"

In [None]:
tokenizer.tokenize(uzun)

In [None]:
tokenizer.tokenize("merhaba :) !")

# Language Model Head

In [None]:
from transformers import AutoModel, AutoTokenizer, pipeline, AutoModelWithLMHead
#inp="dbmdz/electra-base-turkish-cased-discriminator"
inp="dbmdz/bert-base-turkish-cased"

model = AutoModelWithLMHead.from_pretrained(inp)
tokenizer = AutoTokenizer.from_pretrained(inp)
fm=pipeline("fill-mask", model=model, tokenizer=tokenizer)

In [None]:
fm("Ergün [MASK] ayrı düz koştu yaptı")

# Feature Extraction

In [None]:
fe= pipeline("feature-extraction", model=model, tokenizer=tokenizer)

In [None]:
import numpy as np
vec=np.array(fe("Ergün takım ayrı düz koşu yaptı"))

In [None]:
vec

In [None]:
np.array(vec).shape

In [None]:
import numpy as np
vec=np.array(fe(uzun))

In [None]:
vec.shape

# TASKS

### Bert Paper's performance Tables, 
paper published on arxiv.org, on  **24 May 2019**

# BERTurk: Turkish Bert Pre-trained model
https://github.com/stefan-it/turkish-bert

* The current version of the model is trained on a filtered and sentence segmented version of 
    * the Turkish OSCAR corpus, 
    * a recent Wikipedia dump, 
    * various OPUS corpora 
    * and a special corpus provided by Kemal Oflazer.

* The final training corpus has a size of 35GB and 44,004,976,662 tokens.

* Thanks to Google's TensorFlow Research Cloud (TFRC) we can train both cased and uncased models on a TPU v3-8. 



# How to train 

A detailed cheatsheet of how the models were trained, can be found 


https://github.com/stefan-it/turkish-bert/blob/master/CHEATSHEET.md
    

# Some Helpful libraries
* https://github.com/google-research/bert
* https://huggingface.co/ 27 K Stars
* SimpleTransformers.ai
* FARM: https://farm.deepset.ai/
* https://github.com/kaushaltrivedi/fast-bert


# Turkish NLP downstream tasks


## 1-Sentiment Analysis
* This model can get up to %95 success rate on our dataset 
* To see the training detail and the model performce, check the link \
 https://huggingface.co/savasy/bert-base-turkish-sentiment-cased
 
 https://github.com/savasy/TurkishSentimentAnalysis
 
 

### Usage

In [None]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline
# load model, it takes time since it loads over 500 MB model file
model = AutoModelForSequenceClassification.from_pretrained("savasy/bert-base-turkish-sentiment-cased")
tokenizer = AutoTokenizer.from_pretrained("savasy/bert-base-turkish-sentiment-cased")
# create pipeline
sa= pipeline("sentiment-analysis", tokenizer=tokenizer, model=model)

### Example usage
* Label_1: positive
* Label_0: negative

In [None]:
p= sa("bu telefon modelleri çok kaliteli")
print(p)
#[{'label': 'LABEL_1', 'score': 0.9871089}]
print (p[0]['label']=='LABEL_1')
#True


In [None]:
p= sa("Film çok kötü ve oyuncular çok sahteydi")
print(p)
#[{'label': 'LABEL_0', 'score': 0.9975505}]
print (p[0]['label']=='LABEL_1')
#False

In [None]:
def sa2(inp):
    p=sa(inp)
    if p[0]['label']=='LABEL_1':
        print("Positive - with score of {}".format(p[0]['score']))
    else:
        print("Negative - with score of {}".format(p[0]['score']))

In [None]:
sa2("hahaha çok kötü")

How to train and fine-tune your own model, please check 

https://github.com/savasy/TurkishSentimentAnalysis

# 2- Name Entity Recognizer (NER)
This model can get %95 accuracy, currently it works with PER, LOC, and ORG

check huugingface model repo and ner pipeline repo for other detail

* https://huggingface.co/savasy/bert-base-turkish-ner-cased
* https://github.com/savasy/Turkish-Bert-Based-NERModel


## Example usage

In [None]:
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer

# load model
model = AutoModelForTokenClassification.from_pretrained("savasy/bert-base-turkish-ner-cased")
tokenizer = AutoTokenizer.from_pretrained("savasy/bert-base-turkish-ner-cased")

ner=pipeline('ner', model=model, tokenizer=tokenizer)

res=ner("Mustafa Kemal Atatürk 19 Mayıs 1919'da Samsun'a ayak bastı.")
for r in res:
    print(r)


In [None]:
res=ner("Sait Faik Abasıyanık ömrünün sonuna kadar yazları Burgaz Adadaki köşklerinde kalmıştır")

for r in res:
    print(r)


# 3- Question Answering  (SQuAD) for Turkish

This model is tranied with TQuAD dataset (which is SQuAD-like data set of Turkish)

https://github.com/TQuad/turkish-nlp-qa-dataset

> This dataset is the Turkish Question & Answer dataset on Turkish & Islamic Science History within the scope of Teknofest 2018 Artificial Intelligence competition.


* 'exact': 62.55605381165919, 
* 'f1': 80.48410211644173, 
* 'HasAns_exact': 62.55605381165919, 
* 'HasAns_f1': 80.48410211644173, 
* 'HasAns_total': 892,
* 'best_exact': 62.55605381165919, 
* 'best_f1': 80.48410211644173, 


# Loading model

In [None]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering, pipeline
import torch
 # LOAD MODEL
tokenizer = AutoTokenizer.from_pretrained("savasy/bert-base-turkish-squad")
model = AutoModelForQuestionAnswering.from_pretrained("savasy/bert-base-turkish-squad")

qa=pipeline("question-answering", model=model, tokenizer=tokenizer)

In [None]:
sait="ABASIYANIK, Sait Faik. Hikayeci (Adapazarı 23 Kasım 1906-İstanbul 11 Mayıs 1954). \
İlk öğrenimine Adapazarı’nda Rehber-i Terakki Mektebi’nde başladı. İki yıl kadar Adapazarı İdadisi’nde okudu.\
İstanbul Erkek Lisesi’nde devam ettiği orta öğrenimini Bursa Lisesi’nde tamamladı (1928). İstanbul Edebiyat \
Fakültesi’ne iki yıl devam ettikten sonra babasının isteği üzerine iktisat öğrenimi için İsviçre’ye gitti. \
Kısa süre sonra iktisat öğrenimini bırakarak Lozan’dan Grenoble’a geçti. Üç yıl başıboş bir edebiyat öğrenimi \
gördükten sonra babası tarafından geri çağrıldı (1933). Bir müddet Halıcıoğlu Ermeni Yetim Mektebi'nde Türkçe \
gurup dersleri öğretmenliği yaptı. Ticarete atıldıysa da tutunamadı. Bir ay Haber gazetesinde adliye muhabirliği\
yaptı (1942). Babasının ölümü üzerine aileden kalan emlakin geliri ile avare bir hayata başladı. Evlenemedi.\
Yazları Burgaz adasındaki köşklerinde, kışları Şişli’deki apartmanlarında annesi ile beraber geçen bu fazla \
içkili bohem hayatı ömrünün sonuna kadar sürdü."

In [None]:
print(qa(question="Ne zaman avare bir hayata başladı?", context=sait))

In [None]:
print(qa(question="Sait Faik orta öğrenimini ne zaman bitirdi?", context=sait))

In [None]:
print(qa(question="Sait Faik kimdir?", context=sait))

In [None]:
# Ask your self ! type your question
print(qa(question="...?", context=sait))

In [None]:
# source: wikipedia
ataturk="Atatürk  modern, ilerici ve laik bir ulus devleti oluşturmak için politik, ekonomik ve kültürel alanlarda sekülarist ve milliyetçi \
 karakterdeki reformlarını başlattı. Yabancılara tanınan ekonomik imtiyazlar kaldırıldı ve onlara ait üretim araçları ve demiryolları millîleştirildi. \
 Tevhîd-i Tedrîsât Kanunu ile eğitim Türk hükûmetinin denetimine girdi. Seküler ve bilimsel eğitim esas alındı. Binlerce yeni okul inşa edildi. \
 İlköğretim ücretsiz ve zorunlu hale getirildi. Yabancı okullar devlet denetimine alındı. Köylülerin sırtına yüklenen ağır vergiler azaltıldı. \
 Erkeklerin serpuş ve kıyafetlerinde değişiklikler yapıldı. Takvim, saat ve ölçülerde değişikliklere gidildi. \
 Mecelle kaldırılarak yerine seküler Türk Kanunu Medenisi yürürlüğe konuldu. Kadınların sivil ve politik hakları pek çok Batı ülkesinden önce tanındı. \
 Çok eşlilik yasaklandı. Kadınların şahitliği ve miras hakkı erkeklerinkiyle eşit hale getirildi. Benzer şekilde, dünyanın çoğu ülkesinden önce olarak \
 Türkiye'de kadınların ilkin yerel seçimlerde (1930), sonra genel seçimlerde (1934) seçme ve seçilme hakkı tanındı. Ceza ve borçlar hukukunda \
 seküler yasalar yürürlüğe konuldu. Sanayi Teşvik Kanunu kabul edildi. Toprak Reformu için çabalandı.[3] Arap harfleri temelli Osmanlı alfabesinin yerine \
  Latin harfleri temelli yeni Türk alfabesi kabul edildi. Halkı okuryazar kılmak için eğitim seferberliği başlatıldı. Üniversite Reformu gerçekleştirildi. \
  Birinci Beş Yıllık Sanayi Planı yürürlüğe konuldu. Sınıf ve statü farkı gözeten lâkap ve unvanlar kaldırıldı ve soyadları yürürlüğe konuldu. \
  Homojen ve birleşmiş bir ulus yaratılması için Türkleştirme politikası yürütüldü.[4][5][6] Türk olmayan azınlıklar kamuoyunda Türkçe konuşmaya zorlandı,[7] \
  Türkçe olmayan toponomiler ve azınlıkların soyadları Türkçeye çevrildi.[8][9]"

In [None]:
print(qa(question="Kimlere ekonomik imtiyaz kaldırıldı?", context=ataturk))

In [None]:
print(qa(question="tüm bu devrimleri kim yaptı?", context=ataturk))

In [None]:
# Ask your self ! type your question
print(qa(question="...?", context=ataturk))

In [None]:
text="Bugün 19 Mayıs Atatürk'ü Anma, Gençlik ve Spor Bayramı. Mustafa Kemal Atatürk, 19 Mayıs 1919'da Bandırma Vapuru ile Samsun'a çıkmış ve İtilaf Devletleri'nin işgaline karşı Kurtuluş Savaşı'nı başlatmıştı. Siyaset Bilimci Prof. Dr. Ahmet Demirel, Mustafa Kemal'in askeri başarılarıyla tanınan bir Osmanlı paşasıyken tüm yurt çapında saygı duyulan siyasi bir lidere dönüşmesinin ilk adımı olan 19 Mayıs 1919'un öncesi ve sonrasında neler yaşandığını BBC Türkçe'ye anlattı."
print(qa(question="19 Mayıs ne bayramıdır?", context=text))

In [None]:
print(qa(question="Atatürk Samsun'a ne zaman çıktı?", context=text))

In [None]:
print(qa(question="Atatürk Samsun'da neyi başlattı?", context=text))

In [None]:
print(qa(question="Kim Samsun'a çıktı?", context=text))

# 4 - Text Summarization

...will be soon

# 5- Text/Document Classification 

In this study we fine-tune 7 classes Turkish news dataset


The following Turkish benchmark dataset is used for fine-tuning

https://www.kaggle.com/savasy/ttc4900

 * 'LABEL_0': 'dunya 
 * 'LABEL_1': 'ekonomi '
 * 'LABEL_2': 'kultur '
 * 'LABEL_3': 'saglik '
 * 'LABEL_4': 'siyaset '
 * 'LABEL_5': 'spor '
 * 'LABEL_6': 'teknoloji'

In [None]:
# import libraries
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer, AutoModelForSequenceClassification

# load models
tokenizer= AutoTokenizer.from_pretrained("savasy/bert-turkish-text-classification")
model= AutoModelForSequenceClassification.from_pretrained("savasy/bert-turkish-text-classification")

In [None]:
# make pipeline
tc=pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# apply model
res=tc("bla bla beşiktaş ve fenerbahce ")
res
# [{'label': 'LABEL_2', 'score': 0.4753005802631378}]

In [None]:
text="Bugün 19 Mayıs Atatürk'ü Anma, Gençlik ve Spor Bayramı. Mustafa Kemal Atatürk, 19 Mayıs 1919'da Bandırma Vapuru ile Samsun'a çıkmış ve İtilaf Devletleri'nin işgaline karşı Kurtuluş Savaşı'nı başlatmıştı. Siyaset Bilimci Prof. Dr. Ahmet Demirel, Mustafa Kemal'in askeri başarılarıyla tanınan bir Osmanlı paşasıyken tüm yurt çapında saygı duyulan siyasi bir lidere dönüşmesinin ilk adımı olan 19 Mayıs 1919'un öncesi ve sonrasında neler yaşandığını BBC Türkçe'ye anlattı."
tc(text)[0]['label']

For the details of traininig models please check

* https://github.com/savasy/TurkishTextClassification