# Turkish Text / Document Classification with Bert 

In [2]:
import os

In [3]:
os.listdir()

['outputs',
 'my_simple_transformation.py',
 'runs',
 '.ipynb_checkpoints',
 'Bert_base_Text_Classification_for_Turkish.ipynb',
 'eval.csv',
 'cache_dir',
 '7allV03.csv']

## Loading data for Turkish text classification

In [4]:

import pandas as pd
df=pd.read_csv("eval.csv", )
df.head()

Unnamed: 0,text,labels
0,mars tan önemli ipucu ! abd_ulusal_havacılık ...,0
1,bu sözler sarıgül ü ağlattı şişli den sarıyer...,4
2,samsung_galaxy s4 bilgileri samsung  un başa...,6
3,israil den suriye ye uyarı ateşi israil ordus...,0
4,elvan_abeylegesse yeni sezondan umutlu milli ...,5


## Requirements

In [5]:
# you need to install transform if you have not
#!pip install transformers

In [7]:
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer, AutoModelForSequenceClassification

In [8]:
tokenizer= AutoTokenizer.from_pretrained("savasy/bert-turkish-text-classification")
model= AutoModelForSequenceClassification.from_pretrained("savasy/bert-turkish-text-classification")

In [9]:
nlp=pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

In [10]:
nlp("bla bla")

[{'label': 'LABEL_2', 'score': 0.4753005802631378}]

In [11]:
code_to_label={
 'LABEL_0': 'dunya ',
 'LABEL_1': 'ekonomi ',
 'LABEL_2': 'kultur ',
 'LABEL_3': 'saglik ',
 'LABEL_4': 'siyaset ',
 'LABEL_5': 'spor ',
 'LABEL_6': 'teknoloji '}

In [12]:
code_to_label[nlp("bla bla")[0]['label']]

'kultur '

In [30]:
df.head()

Unnamed: 0,text,labels
0,mars tan önemli ipucu ! abd_ulusal_havacılık ...,0
1,bu sözler sarıgül ü ağlattı şişli den sarıyer...,4
2,samsung_galaxy s4 bilgileri samsung  un başa...,6
3,israil den suriye ye uyarı ateşi israil ordus...,0
4,elvan_abeylegesse yeni sezondan umutlu milli ...,5


In [13]:
df.text[20]

' altının onsu 1 750 dolar sınırında seyrediyor uluslararası piyasada altının onsu geçtiğimiz hafta gerçekleştirdiği sert yükselişin ardından bugün sınırlı da olsa satıcılı seyrediyor ve 1 750 dolar sınırından işlem görüyor altının onsu geçtiğimiz haftanın son işlem günü yurt içi piyasaların kapanışa yakın saatlerde sert bir şekilde yükselişe geçerek 1 729 dolardan başladığı günü 1 752 dolara kadar yükselmişti analistler altının anlık olarak 1 750 dolar direncinin üzerini görse de bu seviyenin kırıldığından bahsetmek için henüz erken olduğunu belirtiyor teknik analistler altının onsunda 1 750 dolar direncinin kırılması durumunda ters omuz baş omuz tobo formasyonunun teyit edileceğini dolayısıyla stop loss alış emirlerinin gelebileceğini kaydediyor bu durumda altının yükselişine devam etmesinin beklenebileceğini ifade eden analistler sonraki hedeflerin 1 775 ve 1 790 seviyeleri olabileceğini tahmin ediyor'

In [14]:
pr=nlp(df.text[20])
pr

[{'label': 'LABEL_1', 'score': 0.9978324174880981}]

In [15]:
pr[0]['label']

'LABEL_1'

In [16]:
code_to_label[pr[0]['label']]

'ekonomi '

## Test the model

In [18]:
preds=nlp(list([t[:300] for t in df.text]))

In [19]:
preds_codes=[int(p['label'].split("_")[1]) for p in preds]

In [20]:
print(preds_codes)
print("#")
print(list(df.labels))

[6, 4, 6, 0, 5, 3, 4, 1, 6, 6, 0, 2, 5, 1, 5, 2, 1, 2, 5, 4, 1, 0, 5, 4, 6, 0, 5, 2, 4, 4, 3, 5, 2, 6, 2, 4, 2, 3, 1, 4, 2, 2, 3, 2, 4, 1, 2, 0, 5, 1, 2, 3, 6, 1, 3, 2, 4, 1, 3, 4, 5, 0, 4, 6, 5, 5, 2, 5, 5, 2, 1, 5, 1, 0, 6, 1, 3, 6, 4, 6, 5, 6, 4, 3, 0, 6, 0, 5, 4, 3, 3, 2, 6, 4, 6, 0, 6, 5, 6, 6, 4, 5, 6, 6, 0, 5, 5, 2, 4, 6, 3, 5, 2, 5, 2, 2, 6, 6, 0, 5, 3, 4, 4, 5, 2, 4, 2, 5, 1, 6, 3, 2, 5, 1, 2, 1, 0, 5, 6, 3, 1, 1, 1, 1, 2, 2, 4, 5, 0, 1, 6, 1, 6, 2, 0, 1, 5, 1, 5, 0, 1, 4, 3, 0, 6, 6, 2, 4, 6, 0, 5, 2, 6, 5, 5, 0, 1, 6, 1, 4, 0, 2, 3, 0, 6, 0, 2, 3, 3, 5, 4, 4, 3, 1, 3, 6, 4, 5, 1]
#
[0, 4, 6, 0, 5, 3, 4, 1, 6, 6, 0, 2, 5, 1, 5, 2, 1, 2, 5, 4, 1, 0, 5, 4, 6, 0, 5, 2, 4, 4, 3, 5, 2, 6, 2, 4, 2, 3, 1, 4, 2, 2, 3, 2, 4, 1, 2, 0, 5, 1, 2, 3, 6, 1, 3, 2, 4, 1, 3, 4, 5, 0, 4, 6, 5, 5, 2, 5, 5, 2, 1, 5, 1, 0, 6, 1, 3, 6, 4, 6, 5, 6, 4, 3, 0, 6, 0, 5, 4, 3, 3, 2, 6, 4, 6, 0, 6, 5, 6, 6, 4, 5, 6, 6, 0, 5, 5, 2, 4, 6, 3, 5, 2, 5, 2, 2, 6, 6, 0, 5, 3, 4, 4, 5, 2, 4, 2, 5, 1, 6, 3, 2, 5, 

In [21]:
sum(preds_codes ==df.labels) / len(preds)

0.9899497487437185