In [110]:
!nvidia-smi -L

GPU 0: Tesla K80 (UUID: GPU-121c93d8-f366-16c2-dfeb-4e61bd808a9b)


## Preprocess

In [111]:
# Get data
import pandas as pd

df = pd.read_csv("siyaset.csv")
df.head()

Unnamed: 0,category,text
0,siyaset,3 milyon ile ön seçim vaadi mhp nin 10 olağan...
1,siyaset,mesut_yılmaz yüce_divan da ceza alabilirdi pr...
2,siyaset,disko lar kaldırılıyor başbakan_yardımcısı ar...
3,siyaset,sarıgül anayasa_mahkemesi ne gidiyor mustafa_...
4,siyaset,erdoğan idamın bir haklılık sebebi var demek ...


In [112]:
# Check the DataFrame to see the number of lines and non-null objects
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4900 entries, 0 to 4899
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   category  4900 non-null   object
 1   text      4900 non-null   object
dtypes: object(2)
memory usage: 76.7+ KB


In [113]:
# Check value counts to see whether the data is balanced or not
df.category.value_counts()

saglik        700
spor          700
dunya         700
kultur        700
siyaset       700
ekonomi       700
teknoloji     700
Name: category, dtype: int64

In [114]:
# Since some nulls might be seen as a float, drop na to not face any problems.
df.dropna(inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4900 entries, 0 to 4899
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   category  4900 non-null   object
 1   text      4900 non-null   object
dtypes: object(2)
memory usage: 114.8+ KB


In [115]:
# Check the first line in df.text
df.text[0]

' 3 milyon ile ön seçim vaadi mhp nin 10 olağan büyük kurultayı nda konuşan genel başkan adayı koray_aydın seçimlerden önce partinin üye sayısının 3 milyona ulaştırılması hedefini koyarak ön seçim uygulaması vaadinde bulundu mhp nin 10 olağan büyük kurultayı nda konuşan genel başkan adayı koray_aydın seçimlerden önce partinin üye sayısının 3 milyona ulaştırılması hedefini koyarak ön seçim uygulaması vaadinde bulundu genel_başkan adayı koray_aydın kürsüye beklenirken yapılan tezahüratlar ve ıslıklamalar üzerine divan başkanı tuğrul_türkeş mhp nin genel başkanlığı da genel başkan adaylığı da saygıdeğer işlerdir bu salondaki herkes ciddiye almak zorundadır dedi ve taşkınlıklara izin verilmeyeceğini salonda sükunet sağlanmadan konuşmaların başlamayacağını vurguladı türkeş devlet_bahçeli nin kurultay açılışında konuştuğu için adaylık nedeniyle ikinci bir konuşma yapmayacağını açıkladı konuşmasında kurultayın mhp nin tek başına iktidarına vesile olmasını dileyen aydın ak_parti nin mhp yi ele

In [116]:
# Remove punctuation for our model to learn better
df['text'] = df['text'].str.replace(r'[^\w\s]+', '')
df.text[0]

' 3 milyon ile ön seçim vaadi mhp nin 10 olağan büyük kurultayı nda konuşan genel başkan adayı koray_aydın seçimlerden önce partinin üye sayısının 3 milyona ulaştırılması hedefini koyarak ön seçim uygulaması vaadinde bulundu mhp nin 10 olağan büyük kurultayı nda konuşan genel başkan adayı koray_aydın seçimlerden önce partinin üye sayısının 3 milyona ulaştırılması hedefini koyarak ön seçim uygulaması vaadinde bulundu genel_başkan adayı koray_aydın kürsüye beklenirken yapılan tezahüratlar ve ıslıklamalar üzerine divan başkanı tuğrul_türkeş mhp nin genel başkanlığı da genel başkan adaylığı da saygıdeğer işlerdir bu salondaki herkes ciddiye almak zorundadır dedi ve taşkınlıklara izin verilmeyeceğini salonda sükunet sağlanmadan konuşmaların başlamayacağını vurguladı türkeş devlet_bahçeli nin kurultay açılışında konuştuğu için adaylık nedeniyle ikinci bir konuşma yapmayacağını açıkladı konuşmasında kurultayın mhp nin tek başına iktidarına vesile olmasını dileyen aydın ak_parti nin mhp yi ele

In [117]:
# Lower the inputs for our model to learn better
df["text"] = df["text"].str.lower()
df.head()

Unnamed: 0,category,text
0,siyaset,3 milyon ile ön seçim vaadi mhp nin 10 olağan...
1,siyaset,mesut_yılmaz yüce_divan da ceza alabilirdi pr...
2,siyaset,disko lar kaldırılıyor başbakan_yardımcısı ar...
3,siyaset,sarıgül anayasa_mahkemesi ne gidiyor mustafa_...
4,siyaset,erdoğan idamın bir haklılık sebebi var demek ...


In [118]:
# Get train sentences from df.comment
train_sentences = df["text"].tolist()

train_sentences[0]

' 3 milyon ile ön seçim vaadi mhp nin 10 olağan büyük kurultayı nda konuşan genel başkan adayı koray_aydın seçimlerden önce partinin üye sayısının 3 milyona ulaştırılması hedefini koyarak ön seçim uygulaması vaadinde bulundu mhp nin 10 olağan büyük kurultayı nda konuşan genel başkan adayı koray_aydın seçimlerden önce partinin üye sayısının 3 milyona ulaştırılması hedefini koyarak ön seçim uygulaması vaadinde bulundu genel_başkan adayı koray_aydın kürsüye beklenirken yapılan tezahüratlar ve ıslıklamalar üzerine divan başkanı tuğrul_türkeş mhp nin genel başkanlığı da genel başkan adaylığı da saygıdeğer işlerdir bu salondaki herkes ciddiye almak zorundadır dedi ve taşkınlıklara izin verilmeyeceğini salonda sükunet sağlanmadan konuşmaların başlamayacağını vurguladı türkeş devlet_bahçeli nin kurultay açılışında konuştuğu için adaylık nedeniyle ikinci bir konuşma yapmayacağını açıkladı konuşmasında kurultayın mhp nin tek başına iktidarına vesile olmasını dileyen aydın ak_parti nin mhp yi ele

In [119]:
# Shuffle the data so our model can learn in a proper way

from sklearn.utils import shuffle
df = shuffle(df)
df.head()

Unnamed: 0,category,text
1575,ekonomi,harcamalar istanbul dan türkiye_istatistik_ku...
4361,teknoloji,chrome 24 yayınlandı google web tarayıcısının...
649,siyaset,türkiye dönülmesi zor bir sürece girdi mhp ge...
130,siyaset,kışanak tan suriye kürtlerine toprak mesajı b...
2512,kultur,carla pires salon_iksv istanbul 15 11 2012 21...


In [120]:
# Check the DataFrame for one last time
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4900 entries, 1575 to 2968
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   category  4900 non-null   object
 1   text      4900 non-null   object
dtypes: object(2)
memory usage: 114.8+ KB


## Input pipeline

In [121]:
# Get the average and the max length of the inputs
import numpy as np

sent_lens = [len(sentence.split()) for sentence in train_sentences]
avg_sent_len = np.mean(sent_lens)
max_sent_len = np.max(sent_lens)
avg_sent_len, max_sent_len

(263.39897959183673, 2640)

In [122]:
import numpy as np
output_seq_len = int(np.percentile(sent_lens, 95))

output_seq_len

656

In [123]:
# Get transformers
!pip install transformers



In [124]:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('dbmdz/bert-base-turkish-128k-uncased', do_lower_case=True)
sentences = df.text.values
max_len = 250

In [125]:
# Encode inputs
import tensorflow as tf

input_ids = []
attention_mask = []

for txt in df.text.values:
    encoded = tokenizer.encode_plus(
        text=txt, # the sentence to be encoded 
        add_special_tokens=True, # Add [CLS] and [SEP]
        max_length=250, # max length of a sentence
        truncation=True, # truncate if sentence length is bigger than max_length
        pad_to_max_length=True, # Add [PAD]s
        return_attention_mask=True, # Generate attention mask
        return_tensors="tf" # return TensorFlow tensors
    )

    # Append input_ids and attention_masks to their own lists
    input_ids.append(encoded["input_ids"])
    attention_mask.append(encoded["attention_mask"])

# Concatenate
input_ids = tf.concat(input_ids, 0)
attention_mask = tf.concat(attention_mask, 0)

print("Original: ", df.text.values[0])
print("Token IDs: ", input_ids[0])



Original:   harcamalar istanbul dan türkiye_istatistik_kurumu tüik 2011 yılında toplam tüketim harcamasının yüzde 23 3 ünün istanbul da oturan hanehalkları tarafından yapıldığını açıkladı türkiye de 2011 yılı sonu itibariyle toplam tüketim harcamasının yüzde 23 3 ü istanbul daki hanehalkları tarafından yapıldı istanbul u yüzde 14 5 ile ege yüzde 11 6 ile akdeniz_bölgesi izledi türkiye_istatistik_kurumu tüik 2011 yılına ilişkin bölgesel bazda hanehalkı tüketim harcaması araştırması nın sonuçlarını açıkladı hanehalkı bütçe araştırması verilerinden bölge bazında tahmin üretmek üzere 2009 2010 ve 2011 yılı hanehalkı bütçe araştırmalarının uygulandığı örnek hanelerin tamamı birleştirilerek 2009 2010 2011 yıllarına ait hanehalkı harcamaları elde edilirken 2009 ve 2010 yıllarındaki harcama değerleri 2011 yılının ilgili ayındaki fiyatlarına çekildi bu sonuçlara göre toplam tüketim harcamasının yüzde 23 3 ü istanbul da oturan hanehalkları tarafından yapıldı istanbul u yüzde 14 5 ile ege yüzde 1

In [126]:
# Convert tokens to ids to check if the encoding operation is done correctly
tokenizer.convert_ids_to_tokens(input_ids[0])

['[CLS]',
 'harcamalar',
 'istanbul',
 'dan',
 'turkiye',
 '_',
 'istatistik',
 '_',
 'kurumu',
 'tui',
 '##k',
 '2011',
 'yılında',
 'toplam',
 'tuket',
 '##im',
 'harcamasını',
 '##n',
 'yuzde',
 '23',
 '3',
 'unun',
 'istanbul',
 'da',
 'oturan',
 'hanehalk',
 '##ları',
 'tarafından',
 'yapıldı',
 '##gını',
 'acık',
 '##ladı',
 'turkiye',
 'de',
 '2011',
 'yılı',
 'sonu',
 'itibariyle',
 'toplam',
 'tuket',
 '##im',
 'harcamasını',
 '##n',
 'yuzde',
 '23',
 '3',
 'u',
 'istanbul',
 'daki',
 'hanehalk',
 '##ları',
 'tarafından',
 'yapıldı',
 'istanbul',
 'u',
 'yuzde',
 '14',
 '5',
 'ile',
 'ege',
 'yuzde',
 '11',
 '6',
 'ile',
 'akdeniz',
 '_',
 'bolg',
 '##esi',
 'izledi',
 'turkiye',
 '_',
 'istatistik',
 '_',
 'kurumu',
 'tui',
 '##k',
 '2011',
 'yılına',
 'iliskin',
 'bolg',
 '##esel',
 'bazda',
 'hanehalkı',
 'tuket',
 '##im',
 'harcaması',
 'arastır',
 '##ması',
 'nın',
 'sonuc',
 '##larını',
 'acık',
 '##ladı',
 'hanehalkı',
 'but',
 '##ce',
 'arastır',
 '##ması',
 'verilerin

In [127]:
# Check input_ids and shape of input_ids
input_ids, input_ids.shape

(<tf.Tensor: shape=(4900, 250), dtype=int32, numpy=
 array([[     2,  25347,   6810, ...,   7887, 122278,      3],
        [     2,  22772,   3444, ...,  22586,   3043,      3],
        [     2,  22918,   3720, ...,  83872,   1939,      3],
        ...,
        [     2,     21,   3898, ...,      0,      0,      0],
        [     2,  29622,  13643, ...,  17336,   2242,      3],
        [     2,  23836,     41, ...,      0,      0,      0]], dtype=int32)>,
 TensorShape([4900, 250]))

In [128]:
# Check attention_mask and shape of attention_mask
attention_mask, attention_mask.shape

(<tf.Tensor: shape=(4900, 250), dtype=int32, numpy=
 array([[1, 1, 1, ..., 1, 1, 1],
        [1, 1, 1, ..., 1, 1, 1],
        [1, 1, 1, ..., 1, 1, 1],
        ...,
        [1, 1, 1, ..., 0, 0, 0],
        [1, 1, 1, ..., 1, 1, 1],
        [1, 1, 1, ..., 0, 0, 0]], dtype=int32)>, TensorShape([4900, 250]))

In [129]:
# Seperate test df from original df
test_df = df.iloc[:490]
df = df.iloc[490:]
len(df), len(test_df)

(4410, 490)

In [130]:
# Seperate test input ids and test attention mask from the original ones
test_input_ids = input_ids[:490]
test_attention_mask = attention_mask[:490]

input_ids = input_ids[490:]
attention_mask = attention_mask[490:]

input_ids.shape, test_input_ids.shape, attention_mask.shape, test_attention_mask.shape

(TensorShape([4410, 250]),
 TensorShape([490, 250]),
 TensorShape([4410, 250]),
 TensorShape([490, 250]))

In [131]:
from sklearn.preprocessing import OneHotEncoder
one_hot_encoder = OneHotEncoder(sparse=False)
labels_one_hot = one_hot_encoder.fit_transform(df["category"].to_numpy().reshape(-1,1))
labels_one_hot

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 1.],
       [0., 0., 0., ..., 0., 0., 1.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [132]:
# One hot encode test labels
one_hot_encoder = OneHotEncoder(sparse=False)
test_labels_one_hot = one_hot_encoder.fit_transform(test_df["category"].to_numpy().reshape(-1,1))
test_labels_one_hot.shape

(490, 7)

In [133]:
# Label encode test labels
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
test_labels_encoded = label_encoder.fit_transform(test_df["category"].to_numpy())

test_labels_encoded

array([1, 6, 4, 4, 2, 5, 4, 0, 5, 1, 0, 2, 6, 6, 5, 5, 1, 3, 2, 3, 4, 6,
       5, 3, 3, 2, 3, 5, 3, 6, 1, 6, 0, 3, 2, 2, 6, 2, 1, 3, 4, 2, 0, 4,
       3, 4, 1, 2, 2, 5, 4, 2, 5, 2, 3, 2, 5, 0, 0, 4, 5, 4, 0, 5, 5, 0,
       3, 4, 0, 3, 2, 3, 4, 2, 3, 1, 0, 2, 1, 5, 5, 6, 4, 6, 2, 2, 3, 6,
       1, 2, 0, 3, 2, 1, 6, 0, 6, 4, 1, 4, 0, 2, 2, 6, 3, 3, 0, 5, 0, 6,
       3, 0, 6, 5, 4, 6, 1, 6, 2, 5, 0, 6, 5, 2, 0, 5, 0, 4, 1, 1, 1, 0,
       5, 6, 1, 4, 6, 4, 4, 2, 6, 3, 3, 4, 3, 1, 0, 2, 2, 2, 4, 5, 5, 4,
       3, 2, 0, 6, 4, 2, 1, 5, 3, 6, 3, 4, 4, 2, 5, 1, 3, 2, 6, 4, 2, 6,
       3, 4, 5, 4, 1, 2, 1, 1, 2, 2, 0, 2, 5, 3, 1, 2, 4, 3, 5, 0, 1, 1,
       3, 2, 4, 6, 5, 0, 0, 4, 0, 3, 1, 1, 2, 2, 2, 2, 0, 1, 3, 0, 1, 4,
       2, 2, 1, 5, 3, 0, 0, 4, 5, 1, 1, 1, 6, 4, 1, 1, 2, 4, 1, 0, 4, 6,
       6, 4, 6, 4, 5, 6, 2, 0, 4, 0, 4, 6, 3, 3, 5, 3, 5, 5, 5, 3, 3, 6,
       4, 0, 3, 2, 6, 4, 3, 0, 0, 1, 4, 6, 5, 5, 0, 1, 6, 4, 1, 2, 2, 0,
       2, 6, 2, 3, 6, 0, 5, 5, 6, 0, 6, 3, 2, 2, 5,

In [134]:
# Create TensorFlow Datasets
dataset = tf.data.Dataset.from_tensor_slices((input_ids, attention_mask, labels_one_hot))
test_dataset = tf.data.Dataset.from_tensor_slices((test_input_ids, test_attention_mask, test_labels_one_hot))
dataset, test_dataset

(<TensorSliceDataset shapes: ((250,), (250,), (7,)), types: (tf.int32, tf.int32, tf.float64)>,
 <TensorSliceDataset shapes: ((250,), (250,), (7,)), types: (tf.int32, tf.int32, tf.float64)>)

In [135]:
# Create a function to map our dataset
def map_func(input_ids, masks, labels):
    # We convert our three-item tuple into a two-item tuple where the input item is a dictionary
    return {"input_ids": input_ids,
            "attention_mask": masks}, labels

In [136]:
# Map the dataset using the function we created and check the dataset
dataset = dataset.map(map_func)
test_dataset = test_dataset.map(map_func)
dataset, test_dataset

(<MapDataset shapes: ({input_ids: (250,), attention_mask: (250,)}, (7,)), types: ({input_ids: tf.int32, attention_mask: tf.int32}, tf.float64)>,
 <MapDataset shapes: ({input_ids: (250,), attention_mask: (250,)}, (7,)), types: ({input_ids: tf.int32, attention_mask: tf.int32}, tf.float64)>)

In [137]:
# Get the length of our dataset
len_dataset_unbatched = len(dataset)

In [138]:
# Batch our datasets
batch_size=16
dataset = dataset.batch(batch_size) #.shuffle(10000) , drop_remainder=True
test_dataset = test_dataset.batch(batch_size)

dataset.take, test_dataset

(<bound method DatasetV2.take of <BatchDataset shapes: ({input_ids: (None, 250), attention_mask: (None, 250)}, (None, 7)), types: ({input_ids: tf.int32, attention_mask: tf.int32}, tf.float64)>>,
 <BatchDataset shapes: ({input_ids: (None, 250), attention_mask: (None, 250)}, (None, 7)), types: ({input_ids: tf.int32, attention_mask: tf.int32}, tf.float64)>)

In [139]:
# Split our dataset into train, validation and test datasets
split = 0.9
size = int((input_ids.shape[0] / batch_size) * split)

train_ds = dataset.take(size) # 85% of the dataset
val_ds = dataset.skip(size) # 15% of the dataset

len(dataset), len(train_ds), len(val_ds)

(276, 248, 28)

## Build and train

In [31]:
from transformers import TFAutoModel

bert128k = TFAutoModel.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")

Downloading:   0%|          | 0.00/1.06G [00:00<?, ?B/s]

Some layers from the model checkpoint at dbmdz/bert-base-turkish-128k-uncased were not used when initializing TFBertModel: ['mlm___cls', 'nsp___cls']
- This IS expected if you are initializing TFBertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFBertModel were initialized from the model checkpoint at dbmdz/bert-base-turkish-128k-uncased.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertModel for predictions without further training.


In [None]:
import tensorflow as tf

# two input layers, we ensure layer name variables match to dictionary keys in TF dataset
input_ids = tf.keras.layers.Input(shape=(250,), name='input_ids', dtype='int32')
mask = tf.keras.layers.Input(shape=(250,), name='attention_mask', dtype='int32')

# we access the transformer model within our bert object using the bert attribute (eg bert.bert instead of bert)
embeddings = bert128k.bert(input_ids, attention_mask=mask)[1]  # access final activations (already max-pooled) [1]
# convert bert embeddings into 6 output classes
#x = tf.keras.layers.Dropout(0.1)(embeddings)
x = tf.keras.layers.Dense(1024, activation='relu')(embeddings)
outputs = tf.keras.layers.Dense(7, activation='softmax', name='outputs')(x)

# model
model_1 = tf.keras.Model(inputs=[input_ids, mask], outputs=outputs)

In [None]:
model_1.layers[2].trainable=False
model_1.summary()

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_ids (InputLayer)         [(None, 250)]        0           []                               
                                                                                                  
 attention_mask (InputLayer)    [(None, 250)]        0           []                               
                                                                                                  
 bert (TFBertMainLayer)         TFBaseModelOutputWi  184345344   ['input_ids[0][0]',              
                                thPoolingAndCrossAt               'attention_mask[0][0]']         
                                tentions(last_hidde                                               
                                n_state=(None, 250,                                           

In [None]:
# Get learning rate using PolynomialDecay
from tensorflow.keras.optimizers.schedules import PolynomialDecay

x = len_dataset_unbatched*0.9 # length of train_ds (unbatched)

num_epochs = 3
num_train_steps = x * num_epochs
lr_scheduler = PolynomialDecay(
    initial_learning_rate=5e-5,
    end_learning_rate=0.,
    decay_steps=num_train_steps
)

In [None]:
# Compile the model
optimizer = tf.keras.optimizers.Adam(learning_rate=lr_scheduler)
loss = tf.keras.losses.CategoricalCrossentropy()
acc = tf.keras.metrics.CategoricalAccuracy('accuracy')

model_1.compile(optimizer=optimizer, 
              loss=loss, 
              metrics=[acc])

In [None]:
# Fit the model
history = model_1.fit(
    train_ds,
    validation_data=val_ds,
    epochs=4,
    verbose=1
)

Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4


In [None]:
# Evaluate the model on test_ds
model_1.evaluate(test_dataset)



[0.6884288787841797, 0.7755101919174194]

In [32]:
# Download helper functions
!wget https://raw.githubusercontent.com/mrdbourke/tensorflow-deep-learning/main/extras/helper_functions.py

--2021-12-07 23:40:26--  https://raw.githubusercontent.com/mrdbourke/tensorflow-deep-learning/main/extras/helper_functions.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10246 (10K) [text/plain]
Saving to: ‘helper_functions.py’


2021-12-07 23:40:26 (37.5 MB/s) - ‘helper_functions.py’ saved [10246/10246]



In [33]:
from helper_functions import calculate_results

In [None]:
# Make predictions
model_1_pred_probs = model_1.predict(test_dataset)
model_1_pred_probs[0], model_1_pred_probs.shape

(array([0.0337254 , 0.01682904, 0.76626486, 0.03436323, 0.08349808,
        0.01023222, 0.05508713], dtype=float32), (490, 7))

In [None]:
# Convert pred_probs to classes
model_1_preds = tf.argmax(model_1_pred_probs, axis=1)
model_1_preds

<tf.Tensor: shape=(490,), dtype=int64, numpy=
array([2, 4, 6, 0, 0, 3, 3, 0, 1, 3, 5, 2, 5, 5, 2, 6, 6, 6, 0, 1, 2, 6,
       2, 2, 4, 3, 2, 2, 0, 0, 1, 0, 4, 1, 3, 1, 4, 3, 4, 0, 1, 1, 0, 0,
       0, 4, 0, 2, 2, 0, 3, 4, 4, 6, 5, 1, 6, 1, 2, 4, 0, 0, 2, 0, 0, 1,
       0, 4, 3, 0, 5, 3, 6, 5, 4, 4, 2, 3, 2, 0, 6, 6, 1, 3, 0, 6, 0, 3,
       6, 4, 0, 3, 2, 2, 5, 2, 0, 2, 2, 3, 3, 0, 2, 0, 0, 4, 1, 3, 5, 0,
       1, 1, 3, 4, 5, 3, 1, 0, 5, 1, 5, 1, 1, 5, 0, 6, 2, 0, 4, 3, 0, 0,
       4, 2, 4, 4, 0, 6, 0, 4, 0, 0, 1, 2, 5, 4, 0, 0, 5, 2, 5, 3, 0, 5,
       1, 0, 3, 6, 2, 5, 5, 5, 4, 1, 5, 0, 2, 3, 6, 6, 6, 1, 4, 0, 1, 4,
       2, 1, 6, 1, 4, 0, 6, 6, 4, 6, 4, 0, 4, 0, 6, 2, 5, 2, 2, 2, 5, 1,
       5, 3, 0, 0, 3, 3, 5, 1, 4, 6, 3, 1, 4, 6, 5, 2, 6, 6, 0, 5, 4, 2,
       0, 0, 1, 6, 0, 6, 0, 3, 4, 1, 1, 2, 1, 1, 6, 3, 4, 0, 6, 1, 4, 1,
       0, 3, 5, 0, 5, 1, 2, 0, 0, 0, 6, 2, 6, 0, 1, 6, 3, 0, 3, 3, 1, 5,
       0, 0, 0, 3, 5, 3, 0, 3, 1, 4, 3, 0, 2, 4, 0, 2, 5, 5, 3, 0, 3, 3,
     

In [None]:
# Calculate model results
model_1_results = calculate_results(y_true=test_labels_encoded,
                                    y_pred=model_1_preds)
model_1_results

{'accuracy': 77.55102040816327,
 'f1': 0.7805864672014955,
 'precision': 0.8025049044099667,
 'recall': 0.7755102040816326}

In [None]:
import tensorflow as tf

# two input layers, we ensure layer name variables match to dictionary keys in TF dataset
input_ids = tf.keras.layers.Input(shape=(250,), name='input_ids', dtype='int32')
mask = tf.keras.layers.Input(shape=(250,), name='attention_mask', dtype='int32')

# we access the transformer model within our bert object using the bert attribute (eg bert.bert instead of bert)
embeddings = bert128k.bert(input_ids, attention_mask=mask)[1]  # access final activations (already max-pooled) [1]
# convert bert embeddings into 6 output classes
#x = tf.keras.layers.Dropout(0.1)(embeddings)
x = tf.keras.layers.Dense(48, activation='relu')(embeddings)
outputs = tf.keras.layers.Dense(7, activation='softmax', name='outputs')(x)

# model
model_2 = tf.keras.Model(inputs=[input_ids, mask], outputs=outputs)

In [None]:
model_2.layers[2].trainable=True
model_2.summary()

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_ids (InputLayer)         [(None, 250)]        0           []                               
                                                                                                  
 attention_mask (InputLayer)    [(None, 250)]        0           []                               
                                                                                                  
 bert (TFBertMainLayer)         TFBaseModelOutputWi  184345344   ['input_ids[0][0]',              
                                thPoolingAndCrossAt               'attention_mask[0][0]']         
                                tentions(last_hidde                                               
                                n_state=(None, 250,                                           

In [None]:
# Compile the model
optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
loss = tf.keras.losses.CategoricalCrossentropy()
acc = tf.keras.metrics.CategoricalAccuracy('accuracy')

model_2.compile(optimizer=optimizer, 
              loss=loss, 
              metrics=[acc])

In [None]:
# Fit the model
history_2 = model_2.fit(
    train_ds,
    validation_data=val_ds,
    epochs=3,
    verbose=1
)

Epoch 1/3
Epoch 2/3
Epoch 3/3


In [None]:
# Evaluate the model on test_ds
model_2.evaluate(test_dataset)



[0.2575474977493286, 0.9306122660636902]

In [None]:
# Make predictions
model_2_pred_probs = model_2.predict(test_dataset)
model_2_pred_probs[0], model_2_pred_probs.shape

(array([1.6984274e-03, 9.9714798e-01, 1.5023623e-04, 3.8604983e-04,
        2.8157854e-04, 1.3128079e-04, 2.0441656e-04], dtype=float32), (490, 7))

In [None]:
# Convert pred_probs to classes
model_2_preds = tf.argmax(model_2_pred_probs, axis=1)
model_2_preds

<tf.Tensor: shape=(490,), dtype=int64, numpy=
array([1, 4, 6, 2, 0, 6, 3, 0, 4, 1, 1, 0, 3, 2, 4, 3, 0, 2, 0, 5, 2, 6,
       0, 1, 5, 4, 5, 6, 4, 5, 4, 6, 2, 5, 6, 5, 4, 4, 1, 1, 1, 6, 2, 5,
       6, 2, 5, 3, 3, 6, 1, 4, 4, 2, 3, 2, 1, 4, 4, 2, 5, 6, 3, 2, 4, 0,
       6, 4, 6, 4, 6, 0, 4, 3, 3, 0, 4, 0, 2, 4, 2, 2, 2, 5, 4, 6, 1, 0,
       3, 4, 1, 4, 6, 6, 5, 3, 4, 3, 0, 3, 5, 2, 3, 5, 3, 4, 3, 4, 1, 2,
       4, 5, 4, 5, 6, 6, 1, 5, 6, 0, 5, 0, 4, 0, 1, 1, 6, 5, 2, 1, 2, 2,
       2, 3, 4, 5, 0, 6, 3, 0, 3, 3, 1, 0, 3, 1, 5, 1, 1, 3, 1, 0, 0, 3,
       2, 4, 3, 1, 2, 3, 4, 3, 5, 1, 4, 1, 3, 6, 4, 2, 0, 4, 4, 3, 1, 6,
       4, 3, 3, 1, 2, 3, 2, 6, 5, 1, 0, 5, 5, 3, 6, 1, 6, 0, 5, 1, 3, 3,
       0, 0, 1, 6, 1, 3, 0, 1, 0, 3, 1, 3, 5, 3, 6, 0, 1, 3, 5, 0, 6, 1,
       1, 2, 1, 1, 2, 0, 1, 5, 6, 5, 5, 2, 5, 3, 4, 5, 4, 6, 1, 5, 6, 3,
       0, 4, 6, 5, 2, 0, 4, 2, 3, 3, 4, 6, 1, 0, 2, 6, 6, 0, 0, 6, 4, 3,
       2, 6, 0, 0, 0, 4, 4, 2, 5, 4, 0, 0, 4, 2, 1, 4, 3, 3, 1, 6, 4, 2,
     

In [None]:
# Calculate model results
model_2_results = calculate_results(y_true=test_labels_encoded,
                                    y_pred=model_2_preds)
model_2_results

{'accuracy': 93.06122448979592,
 'f1': 0.9313862997916361,
 'precision': 0.9334231576116824,
 'recall': 0.9306122448979591}

In [34]:
from transformers import TFAutoModel

bert = TFAutoModel.from_pretrained("dbmdz/bert-base-turkish-uncased")

Downloading:   0%|          | 0.00/385 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/520M [00:00<?, ?B/s]

Some layers from the model checkpoint at dbmdz/bert-base-turkish-uncased were not used when initializing TFBertModel: ['mlm___cls', 'nsp___cls']
- This IS expected if you are initializing TFBertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFBertModel were initialized from the model checkpoint at dbmdz/bert-base-turkish-uncased.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertModel for predictions without further training.


In [140]:
import tensorflow as tf

# two input layers, we ensure layer name variables match to dictionary keys in TF dataset
input_ids = tf.keras.layers.Input(shape=(250,), name='input_ids', dtype='int32')
mask = tf.keras.layers.Input(shape=(250,), name='attention_mask', dtype='int32')

# we access the transformer model within our bert object using the bert attribute (eg bert.bert instead of bert)
embeddings = bert.bert(input_ids, attention_mask=mask)[1]  # access final activations (already max-pooled) [1]
# convert bert embeddings into 6 output classes
#x = tf.keras.layers.Dropout(0.1)(embeddings)
x = tf.keras.layers.Dense(112, activation='relu')(embeddings)
outputs = tf.keras.layers.Dense(7, activation='softmax', name='outputs')(x)

# model
model_3 = tf.keras.Model(inputs=[input_ids, mask], outputs=outputs)

In [141]:
model_3.layers[2].trainable=True
model_3.summary()

Model: "model_3"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_ids (InputLayer)         [(None, 250)]        0           []                               
                                                                                                  
 attention_mask (InputLayer)    [(None, 250)]        0           []                               
                                                                                                  
 bert (TFBertMainLayer)         TFBaseModelOutputWi  110617344   ['input_ids[0][0]',              
                                thPoolingAndCrossAt               'attention_mask[0][0]']         
                                tentions(last_hidde                                               
                                n_state=(None, 250,                                         

In [142]:
# Compile the model
optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
loss = tf.keras.losses.CategoricalCrossentropy()
acc = tf.keras.metrics.CategoricalAccuracy('accuracy')

model_3.compile(optimizer=optimizer, 
              loss=loss, 
              metrics=[acc])

In [143]:
# Fit the model
history_3 = model_3.fit(
    train_ds,
    validation_data=val_ds,
    epochs=3,
    verbose=1
)

Epoch 1/3
Epoch 2/3
Epoch 3/3


In [144]:
# Evaluate the model on test_ds
model_3.evaluate(test_dataset)



[0.65479576587677, 0.8224489688873291]

In [145]:
# Make predictions
model_3_pred_probs = model_3.predict(test_dataset)
model_3_pred_probs[0], model_3_pred_probs.shape

(array([1.3398643e-02, 9.3429285e-01, 1.4642811e-02, 7.1787969e-03,
        7.0928917e-03, 4.2697377e-04, 2.2966960e-02], dtype=float32), (490, 7))

In [146]:
# Convert pred_probs to classes
model_3_preds = tf.argmax(model_3_pred_probs, axis=1)
model_3_preds

<tf.Tensor: shape=(490,), dtype=int64, numpy=
array([1, 6, 4, 4, 2, 5, 4, 0, 5, 1, 0, 2, 6, 0, 5, 5, 1, 3, 2, 3, 4, 2,
       5, 3, 1, 6, 3, 5, 3, 6, 4, 6, 0, 3, 2, 2, 6, 2, 1, 0, 4, 2, 0, 4,
       3, 4, 1, 0, 2, 4, 4, 2, 5, 2, 0, 2, 5, 0, 0, 4, 5, 4, 0, 5, 5, 0,
       6, 4, 0, 3, 2, 3, 4, 2, 3, 1, 0, 2, 1, 5, 5, 2, 4, 6, 2, 2, 3, 6,
       1, 2, 0, 3, 2, 1, 6, 1, 6, 4, 1, 4, 0, 2, 2, 6, 3, 3, 0, 5, 0, 6,
       3, 1, 6, 0, 4, 6, 0, 6, 4, 5, 0, 6, 5, 2, 0, 5, 0, 4, 0, 1, 1, 0,
       5, 6, 1, 4, 6, 4, 5, 2, 6, 3, 3, 4, 6, 1, 1, 1, 2, 2, 6, 5, 1, 4,
       6, 2, 3, 0, 4, 2, 4, 5, 3, 6, 3, 4, 4, 2, 5, 3, 3, 2, 6, 4, 1, 6,
       3, 4, 5, 3, 1, 2, 2, 1, 2, 0, 4, 2, 0, 3, 3, 2, 4, 3, 5, 0, 1, 1,
       3, 2, 4, 3, 5, 3, 0, 4, 0, 3, 1, 6, 2, 2, 2, 2, 0, 0, 3, 0, 1, 4,
       2, 2, 0, 4, 3, 0, 0, 4, 5, 0, 1, 1, 6, 4, 1, 1, 2, 4, 1, 0, 4, 6,
       6, 3, 6, 2, 5, 6, 2, 0, 4, 0, 4, 3, 3, 3, 5, 3, 5, 5, 5, 3, 3, 3,
       4, 0, 3, 2, 6, 4, 3, 0, 0, 1, 4, 6, 5, 5, 0, 1, 6, 4, 1, 2, 1, 3,
     

In [148]:
# Calculate model results
model_3_results = calculate_results(y_true=test_labels_encoded,
                                    y_pred=model_3_preds)
model_3_results

{'accuracy': 82.24489795918367,
 'f1': 0.8243684226528627,
 'precision': 0.8308263461882649,
 'recall': 0.8224489795918367}