# <h1 align=center> BERT ile Sentiment Analizi </h1>

---
<h3 align=center>(BERT: Bidirectional Encoder Representations for Transformers)</h3>

---


### Bilinse iyi olurlar


- Orta düzey Python ve NumPy ve Pandas kütüphanelerine aşina olmak
- PyTorch kullanmaya yatkın olmak
- Derin Öğrenme ve Dil Modellerinin temelleri bilgisi (özellikle BERT) 

## GİRİŞ

### Terminolojiler

- **NPL Görevleri:** İnsanların kullandıkları dillerle ilgili görevleri kapsar. Dil çevirisi, metin sınıflandırma, duygu durumu kestirimi, okuduğunu anlama, isimlendirilmemiş varlıkları tanıma (metindeki kişiyi, şirketi, yeri vb. isimlerin tanınması) 
- **Dil Modelleri:** Bir dizi kelime verildiğinde (Google sorgusu otomatik tamamlama vb.) en olası sonraki kelimeleri (ve olasılıklarını) tahmin edebilen modellerdir. Bu tür modellerin, sıradan bir sonraki kelime tahmini üzerine eğitilmiş olsalar da, bir dizi başka görev için yararlı olduğu bilinmektedir. Klasik dil modelleri kelimelerin soldan sağa akışını tahmin ederken BERT hem önceki hem sonraki -yani bidirectional- bir yaklaşıma sahiptir. Yani geçmiş ve gelecek bilgilerinden faydalanmaktadır.
- **Sıfır / Bir / Az Shot öğrenme:** Modelin, o görev için sıfır / bir / birkaç örnek görerek yeni bir görevi öğrenme yeteneğini ifade eder.
- **Transfer Öğrenme:** Bir görev için bir model eğittiğiniz (görüntülerde örnek nesne algılama), ancak diğer bazı farklı görevler için bundan yararlanma ve geliştirme becerisi olan Derin Öğrenme kavramını ifade eder. Bilgisayarlı görüdeki (Computer vision) büyük başarıdan sonra, günümüzde NLP içinde güncel modeller sayesinde mümkün olmaktadır.
- **Transformatör (Transformers) Modelleri:** Öncelikle NLP'de kullanılan ve bugünlerde en son teknoloji NLP mimarilerinin temel yapı taşını oluşturan derin öğrenme modelleri ailesi. Yalnızca dikkat mekanizmalarına dayanan, yineleme ve evrişimleri tamamen ortadan kaldıran yeni ve basit bir ağ mimarisidir. Makine dil çevirileri konusunda özellikle tercih edilir. Kaynak: https://arxiv.org/pdf/1706.03762.pdf

---

### BERT nedir?
Google şirketi tarafından geliştirilmiştir. Büyük bir veri kümesi ile eğitilen genelleştirilmiş bir dil modelidir. Dildeki tüm dil bilimsel yapıyı bir çerçevede tutmuş, gerekli olduğunda diğer küçük dil işleme görevleri için transfer edilmesine olanak sağlamaktadır. Böylece bu küçük dil görevleri için minimal düzeye inmesinin yanı sıra 11 doğal dil işleme görevi için state-of-the-art başarı sergilemiştir.  
Uzun süreli kelimeler arasında bağımlılıkları belirleme yeteneği ve başarısı yüksek olan çift yönlü kodlayıcı modelidir. GPT-n ve diğer dil modellerinden ayıran özellikleri aşağıdaki gibidir:

- 24 Transformer bloğu ve 1024 gizli katmanı ve 349M parametre hesaplayan büyük bir modeldir.
- 800 milyon İngilizce kelime (BooksCorpus) ve 2.5 Milyar İngilizce kelime (Wikipedia) dahil, toplam 3.3 milyar kelimelik korpus üzerinde eğitilmiştir.
- Bu modelin eğitimi için 16 TPU’ya ihtiyaç duyulmuştur.

---

**Harika bir Türkçe Kaynak: [Susam Sokağı’ndan Doğal Dil İşlemeye](https://medium.com/basakbuluz/susam-soka%C4%9F%C4%B1ndan-do%C4%9Fal-dil-i%CC%87%C5%9Flemeye-7cc37903b5d4)**

---

Daha fazla bilgi için:

[HuggingFace Kaynak Dokümanı](https://huggingface.co/transformers/model_doc/bert.html)

[BERT için Kaynak Doküman](https://characters.fandom.com/wiki/Bert_(Sesame_Street)


<img src="https://i.hizliresim.com/SghEUo.png" width="500">


### İşlemleri GPU üzerinde gerçekleştirilmesi
Google Colab'da çalışırken eğitimleri GPU üzerinde veye TPU üzerinde eğitmek zaman bakımından fark yaratıcı olacaktır.

Aşağıdaki kaynaklar ve onlar içindeki diğer kaynaklardan bu ücretsiz bulut servislerinin nasıl kullanılabileceğini öğrenebilirsiniz.

[Google Colab'da GPU'yu nasıl kullanabilirim!](https://www.youtube.com/watch?v=bT-T1i_Rpy8)
[Google Colab'da TPU'yu nasıl kullanabilirim!](https://medium.com/@ayyucekizrak/ad%C4%B1m-ad%C4%B1m-google-colab-%C3%BCcretsiz-tpu-kullan%C4%B1m%C4%B1-621dc6e5487d)
[TPU ile Yapay Sinir Ağlarınızı Çok Daha Hızlı Eğitin - Google I/O 2019 GoogleCodeLabs](https://github.com/yapay-ogrenme/googlecodelabs/wiki)

*GPU: Graphic Processing Unit (Grafik işlem birimi)*

*TPU: Tensor Processing Unit (Tensor işlem birimi)* 

In [None]:
#GPU kullanmak için kimlik doğrulama işlemi
from google.colab import drive
drive.mount('/gdrive')
#%cd /gdrive

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly&response_type=code

Enter your authorization code:
··········
Mounted at /gdrive


In [None]:
!ls "/gdrive/My Drive/BERT_ile_SentimentAnaliz"

'BERT ile Sentiment Analiz.ipynb'   Data   Images


In [None]:
import os
os.chdir("/gdrive/My Drive/BERT_ile_SentimentAnaliz/")

In [None]:
#Kullanacağınız donanım özelliklerini bu kod parçasını çalıştırarak görebilirsiniz.
import tensorflow as tf
tf.test.gpu_device_name()
from tensorflow.python.client import device_lib
device_lib.list_local_devices()

[name: "/device:CPU:0"
 device_type: "CPU"
 memory_limit: 268435456
 locality {
 }
 incarnation: 5997873912140352113, name: "/device:XLA_CPU:0"
 device_type: "XLA_CPU"
 memory_limit: 17179869184
 locality {
 }
 incarnation: 17842479982210255833
 physical_device_desc: "device: XLA_CPU device", name: "/device:XLA_GPU:0"
 device_type: "XLA_GPU"
 memory_limit: 17179869184
 locality {
 }
 incarnation: 14072794995853097475
 physical_device_desc: "device: XLA_GPU device", name: "/device:GPU:0"
 device_type: "GPU"
 memory_limit: 14640891840
 locality {
   bus_id: 1
   links {
   }
 }
 incarnation: 4606652802577553031
 physical_device_desc: "device: 0, name: Tesla T4, pci bus id: 0000:00:04.0, compute capability: 7.5"]

### Veriyi keşfetme ve Önişlemler

SMILE Twitter veri setini kullanacağız.

<img src="https://images.unsplash.com/photo-1585507252242-11fe632c26e8?ixlib=rb-1.2.1&auto=format&fit=crop&w=1050&q=80" width="500">

Resim Kaynak: [Tengyart](https://unsplash.com/@tengyart) / Unsplash


Wang, Bo; Tsakalidis, Adam; Liakata, Maria; Zubiaga, Arkaitz; Procter, Rob; Jensen, Eric (2016): SMILE Twitter Emotion veri kümesi. figshare.

Veri kümesi: https://doi.org/10.6084/m9.figshare.3187909.v2

In [None]:
#Gerekli kütüphanelerin kurulması
import torch
import pandas as pd
from tqdm.notebook import tqdm

In [None]:
#Verinin okunması 
df = pd.read_csv('Data/smile-annotations-final.csv', names=['id', 'text', 'category'])
df.set_index('id', inplace=True)

In [None]:
#Veriden örnekleri görme
df.head()

Unnamed: 0_level_0,text,category
id,Unnamed: 1_level_1,Unnamed: 2_level_1
611857364396965889,@aandraous @britishmuseum @AndrewsAntonio Merc...,nocode
614484565059596288,Dorian Gray with Rainbow Scarf #LoveWins (from...,happy
614746522043973632,@SelectShowcase @Tate_StIves ... Replace with ...,happy
614877582664835073,@Sofabsports thank you for following me back. ...,happy
611932373039644672,@britishmuseum @TudorHistory What a beautiful ...,happy


In [None]:
#Veriye ilişkin istatistikleri görme
df.category.value_counts()

nocode               1572
happy                1137
not-relevant          214
angry                  57
surprise               35
sad                    32
happy|surprise         11
happy|sad               9
disgust|angry           7
disgust                 6
sad|angry               2
sad|disgust             2
sad|disgust|angry       1
Name: category, dtype: int64

Çoklu duygu durumlarını ve `nocode` olarak belirtilen verileri çıkarma

In [None]:
df = df[~df.category.str.contains('\|')]

In [None]:
df = df[df.category != 'nocode']

In [None]:
df.category.value_counts()

happy           1137
not-relevant     214
angry             57
surprise          35
sad               32
disgust            6
Name: category, dtype: int64

In [None]:
possible_labels = df.category.unique()

In [None]:
label_dict = {}
for index, possible_label in enumerate(possible_labels):
    label_dict[possible_label] = index

In [None]:
#Verinin kategoriye dair etiketini de alır
df['label'] = df.category.replace(label_dict)

In [None]:
#ilk 10 veriyi etiketleri ve text içeriği ile birlikte görselleştirme
df.head(10)

Unnamed: 0_level_0,text,category,label
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
614484565059596288,Dorian Gray with Rainbow Scarf #LoveWins (from...,happy,0
614746522043973632,@SelectShowcase @Tate_StIves ... Replace with ...,happy,0
614877582664835073,@Sofabsports thank you for following me back. ...,happy,0
611932373039644672,@britishmuseum @TudorHistory What a beautiful ...,happy,0
611570404268883969,@NationalGallery @ThePoldarkian I have always ...,happy,0
614499696015503361,Lucky @FitzMuseum_UK! Good luck @MirandaStearn...,happy,0
613601881441570816,Yr 9 art students are off to the @britishmuseu...,happy,0
613696526297210880,@RAMMuseum Please vote for us as @sainsbury #s...,not-relevant,1
610746718641102848,#AskTheGallery Have you got plans to privatise...,not-relevant,1
612648200588038144,@BarbyWT @britishmuseum so beautiful,happy,0


## Eğitim ve Doğrulama Setlerinin Ayrılması

In [None]:
#Veriyi eğitim, test, doğrulama olarak ayırmak için gereken kütüphaneleri yükler
from sklearn.model_selection import train_test_split

In [None]:
#Veriyi eğitim ve test için eğitim ve doğrulama olarak ayırır, rastgelelik, test büyüklüğü belirlenir.
X_train, X_val, y_train, y_val = train_test_split(df.index.values, 
                                                  df.label.values, 
                                                  test_size=0.15, 
                                                  random_state=17, 
                                                  stratify=df.label.values)

Veriyi ayırdıktan sonra eğitim kümesinde mi doğrulama kümesinde mi görebiliriz. Daha sonra hangi kategoriler var bu kategorilere atanan etiketler ve hangi kümede kaç veri olduğunun istatistiklerini tablo olarak çıkarabiliriz.

In [None]:
df['data_type'] = ['not_set']*df.shape[0]

In [None]:
df.loc[X_train, 'data_type'] = 'train'
df.loc[X_val, 'data_type'] = 'val'

In [None]:
df.groupby(['category', 'label', 'data_type']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,text
category,label,data_type,Unnamed: 3_level_1
angry,2,train,48
angry,2,val,9
disgust,3,train,5
disgust,3,val,1
happy,0,train,966
happy,0,val,171
not-relevant,1,train,182
not-relevant,1,val,32
sad,4,train,27
sad,4,val,5


## Tokenizer Yükleme ve Datayı Kodlama

Gerekli kurulumlarla başlayalım...

In [None]:
!pip3 install transformers

Collecting transformers
[?25l  Downloading https://files.pythonhosted.org/packages/27/3c/91ed8f5c4e7ef3227b4119200fc0ed4b4fd965b1f0172021c25701087825/transformers-3.0.2-py3-none-any.whl (769kB)
[K     |████████████████████████████████| 778kB 4.1MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/7d/34/09d19aff26edcc8eb2a01bed8e98f13a1537005d31e95233fd48216eed10/sacremoses-0.0.43.tar.gz (883kB)
[K     |████████████████████████████████| 890kB 24.0MB/s 
[?25hCollecting sentencepiece!=0.1.92
[?25l  Downloading https://files.pythonhosted.org/packages/d4/a4/d0a884c4300004a78cca907a6ff9a5e9fe4f090f5d95ab341c53d28cbc58/sentencepiece-0.1.91-cp36-cp36m-manylinux1_x86_64.whl (1.1MB)
[K     |████████████████████████████████| 1.1MB 15.0MB/s 
Collecting tokenizers==0.8.1.rc1
[?25l  Downloading https://files.pythonhosted.org/packages/40/d0/30d5f8d221a0ed981a186c8eb986ce1c94e3a6e87f994eae9f4aa5250217/tokenizers-0.8.1rc1-cp36-cp36m-manylinux1_x86_64.whl (3.0MB

In [None]:
from transformers import BertTokenizer
from torch.utils.data import TensorDataset

In [None]:
#BERT Tokenizerın pretrained olarak alınması
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', 
                                          do_lower_case=True)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=231508.0, style=ProgressStyle(descripti…




In [None]:
#Verilerin eğitim ve doğrulama olarak encode edilmesi
encoded_data_train = tokenizer.batch_encode_plus(
    df[df.data_type=='train'].text.values, 
    add_special_tokens=True, 
    return_attention_mask=True, 
    pad_to_max_length=True, 
    max_length=256, 
    return_tensors='pt'
)

encoded_data_val = tokenizer.batch_encode_plus(
    df[df.data_type=='val'].text.values, 
    add_special_tokens=True, 
    return_attention_mask=True, 
    pad_to_max_length=True, 
    max_length=256, 
    return_tensors='pt'
)


input_ids_train = encoded_data_train['input_ids']
attention_masks_train = encoded_data_train['attention_mask']
labels_train = torch.tensor(df[df.data_type=='train'].label.values)

input_ids_val = encoded_data_val['input_ids']
attention_masks_val = encoded_data_val['attention_mask']
labels_val = torch.tensor(df[df.data_type=='val'].label.values)

Truncation was not explicitely activated but `max_length` is provided a specific value, please use `truncation=True` to explicitely truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Truncation was not explicitely activated but `max_length` is provided a specific value, please use `truncation=True` to explicitely truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


In [None]:
dataset_train = TensorDataset(input_ids_train, attention_masks_train, labels_train)
dataset_val = TensorDataset(input_ids_val, attention_masks_val, labels_val)

In [None]:
#Eğitim setinin uzunluğu
len(dataset_train)

1258

In [None]:
#Doğrulama setinin uzunluğu
len(dataset_val)

223

## Önceden Eğitilen BERT Modelini Kullanma

In [None]:
from transformers import BertForSequenceClassification

In [None]:
model = BertForSequenceClassification.from_pretrained("bert-base-uncased",
                                                      num_labels=len(label_dict),
                                                      output_attentions=False,
                                                      output_hidden_states=False)



HBox(children=(FloatProgress(value=0.0, description='Downloading', max=433.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=440473133.0, style=ProgressStyle(descri…




Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPretraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at

## Veri Yükleyicileri (DataLoaders) Oluşturma

In [None]:
from torch.utils.data import DataLoader, RandomSampler, SequentialSampler

In [None]:
batch_size = 32

dataloader_train = DataLoader(dataset_train, 
                              sampler=RandomSampler(dataset_train), 
                              batch_size=batch_size)

dataloader_validation = DataLoader(dataset_val, 
                                   sampler=SequentialSampler(dataset_val), 
                                   batch_size=batch_size)

## Optimize Edici ve Zamanlayıcıyı(Scheduler) Kurma 

In [None]:
from transformers import AdamW, get_linear_schedule_with_warmup

In [None]:
optimizer = AdamW(model.parameters(),
                  lr=1e-6, 
                  eps=2e-8)

In [None]:
epochs = 10

scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps=0,
                                            num_training_steps=len(dataloader_train)*epochs)

## Performans Metriklerinin Tanımlanması
Bu çalışma için doğruluk(accuracy) performans metriği olarak kullanılmaktadır. 

[Kaynak Doküman Burada](https://mccormickml.com/2019/07/22/BERT-fine-tuning/#41-bertforsequenceclassification).


In [1]:
import numpy as np

In [2]:
from sklearn.metrics import f1_score

In [3]:
#F1 Score hesaplaması için fonksiyon
def f1_score_func(preds, labels):
    preds_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()
    return f1_score(labels_flat, preds_flat, average='weighted')

In [4]:
#Her bir sınıf için doğruluk hesabı fonksiyonu
def accuracy_per_class(preds, labels):
    label_dict_inverse = {v: k for k, v in label_dict.items()}
    
    preds_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()

    for label in np.unique(labels_flat):
        y_preds = preds_flat[labels_flat==label]
        y_true = labels_flat[labels_flat==label]
        print(f'Class: {label_dict_inverse[label]}')
        print(f'Accuracy: {len(y_preds[y_preds==label])}/{len(y_true)}\n')

## Eğitim için döngünün oluşturulması

Yaklaşım, HuggingFace'in `run_glue.py` betiğinin eski bir sürümünden uyarlanmıştır. [Buradan]((https://github.com/huggingface/transformers/blob/5bfcd0485ece086ebcbed2d008813037968a9e58/examples/run_glue.py#L128)) erişilebilir.

In [None]:
import random

seed_val = 17
random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

print(device)

cuda


In [None]:
def evaluate(dataloader_val):

    model.eval()
    
    loss_val_total = 0
    predictions, true_vals = [], []
    
    for batch in dataloader_val:
        
        batch = tuple(b.to(device) for b in batch)
        
        inputs = {'input_ids':      batch[0],
                  'attention_mask': batch[1],
                  'labels':         batch[2],
                 }

        with torch.no_grad():        
            outputs = model(**inputs)
            
        loss = outputs[0]
        logits = outputs[1]
        loss_val_total += loss.item()

        logits = logits.detach().cpu().numpy()
        label_ids = inputs['labels'].cpu().numpy()
        predictions.append(logits)
        true_vals.append(label_ids)
    
    loss_val_avg = loss_val_total/len(dataloader_val) 
    
    predictions = np.concatenate(predictions, axis=0)
    true_vals = np.concatenate(true_vals, axis=0)
            
    return loss_val_avg, predictions, true_vals

In [None]:
for epoch in tqdm(range(1, epochs+1)):
    
    model.train()
    
    loss_train_total = 0

    progress_bar = tqdm(dataloader_train, desc='Epoch {:1d}'.format(epoch), leave=False, disable=False)
    for batch in progress_bar:

        model.zero_grad()
        
        batch = tuple(b.to(device) for b in batch)
        
        inputs = {'input_ids':      batch[0],
                  'attention_mask': batch[1],
                  'labels':         batch[2],
                 }       

        outputs = model(**inputs)
        
        loss = outputs[0]
        loss_train_total += loss.item()
        loss.backward()

        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

        optimizer.step()
        scheduler.step()
        
        progress_bar.set_postfix({'training_loss': '{:.3f}'.format(loss.item()/len(batch))})
         
        
    torch.save(model.state_dict(), f'finetuned_BERT_epoch_{epoch}.model')
        
    tqdm.write(f'\nEpoch {epoch}')
    
    loss_train_avg = loss_train_total/len(dataloader_train)            
    tqdm.write(f'Training loss: {loss_train_avg}')
    
    val_loss, predictions, true_vals = evaluate(dataloader_validation)
    val_f1 = f1_score_func(predictions, true_vals)
    tqdm.write(f'Validation loss: {val_loss}')
    tqdm.write(f'F1 Score (Weighted): {val_f1}')

HBox(children=(FloatProgress(value=0.0, max=10.0), HTML(value='')))

HBox(children=(FloatProgress(value=0.0, description='Epoch 1', max=40.0, style=ProgressStyle(description_width…


Epoch 1
Training loss: 1.6383513033390045
Validation loss: 1.3566149984087263
F1 Score (Weighted): 0.6650956346664225


HBox(children=(FloatProgress(value=0.0, description='Epoch 2', max=40.0, style=ProgressStyle(description_width…


Epoch 2
Training loss: 1.2845926463603974
Validation loss: 1.2047337463923864
F1 Score (Weighted): 0.6656119824269878


HBox(children=(FloatProgress(value=0.0, description='Epoch 3', max=40.0, style=ProgressStyle(description_width…


Epoch 3
Training loss: 1.1670102804899216
Validation loss: 1.1142743740762984
F1 Score (Weighted): 0.6673056515934688


HBox(children=(FloatProgress(value=0.0, description='Epoch 4', max=40.0, style=ProgressStyle(description_width…


Epoch 4
Training loss: 1.0940130963921546
Validation loss: 1.0620592321668352
F1 Score (Weighted): 0.687601068893145


HBox(children=(FloatProgress(value=0.0, description='Epoch 5', max=40.0, style=ProgressStyle(description_width…


Epoch 5
Training loss: 1.0362995505332946
Validation loss: 1.0169559461729867
F1 Score (Weighted): 0.6970383876213473


HBox(children=(FloatProgress(value=0.0, description='Epoch 6', max=40.0, style=ProgressStyle(description_width…


Epoch 6
Training loss: 0.9987702131271362
Validation loss: 0.9739662068230766
F1 Score (Weighted): 0.6977759529232745


HBox(children=(FloatProgress(value=0.0, description='Epoch 7', max=40.0, style=ProgressStyle(description_width…


Epoch 7
Training loss: 0.9515697315335274
Validation loss: 0.9517771686826434
F1 Score (Weighted): 0.699031152380512


HBox(children=(FloatProgress(value=0.0, description='Epoch 8', max=40.0, style=ProgressStyle(description_width…


Epoch 8
Training loss: 0.9288410186767578
Validation loss: 0.9305935757500785
F1 Score (Weighted): 0.7082942260228735


HBox(children=(FloatProgress(value=0.0, description='Epoch 9', max=40.0, style=ProgressStyle(description_width…


Epoch 9
Training loss: 0.9137313425540924
Validation loss: 0.9208738122667585
F1 Score (Weighted): 0.7082942260228735


HBox(children=(FloatProgress(value=0.0, description='Epoch 10', max=40.0, style=ProgressStyle(description_widt…


Epoch 10
Training loss: 0.9088167458772659
Validation loss: 0.9180664334978376
F1 Score (Weighted): 0.7082942260228735



In [None]:
model = BertForSequenceClassification.from_pretrained("bert-base-uncased",
                                                      num_labels=len(label_dict),
                                                      output_attentions=False,
                                                      output_hidden_states=False)

model.to(device)

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPretraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, element

In [None]:
model.load_state_dict(torch.load('/gdrive/My Drive/BERT_ile_SentimentAnaliz/finetuned_BERT_epoch_10.model', map_location=torch.device('cpu')))

<All keys matched successfully>

In [None]:
_, predictions, true_vals = evaluate(dataloader_validation)

In [None]:
accuracy_per_class(predictions, true_vals)

Class: happy
Accuracy: 171/171

Class: not-relevant
Accuracy: 3/32

Class: angry
Accuracy: 1/9

Class: disgust
Accuracy: 0/1

Class: sad
Accuracy: 0/5

Class: surprise
Accuracy: 0/5



# KAYNAKLAR:

*   [Coursera Course: Sentiment Analysis with Deep Learning using BERT](https://www.coursera.org/projects/sentiment-analysis-bert)
* [Tutorial: Fine tuning BERT for Sentiment Analysis](https://skimai.com/fine-tuning-bert-for-sentiment-analysis/)
* [Multi-class Sentiment Analysis using BERT](https://towardsdatascience.com/multi-class-sentiment-analysis-using-bert-86657a2af156)
* [Understand Tweets Better with BERT Sentiment Analysis](https://medium.com/swlh/understand-tweets-better-with-bert-sentiment-analysis-3b054c4b802a)
