Data: https://www.kaggle.com/mustfkeskin/turkish-movie-sentiment-analysis-dataset/code

In [1]:
!pip install ktrain

Collecting ktrain
  Downloading ktrain-0.28.3.tar.gz (25.3 MB)
[K     |████████████████████████████████| 25.3 MB 1.5 MB/s 
[?25hCollecting scikit-learn==0.23.2
  Downloading scikit_learn-0.23.2-cp37-cp37m-manylinux1_x86_64.whl (6.8 MB)
[K     |████████████████████████████████| 6.8 MB 14.7 MB/s 
Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[K     |████████████████████████████████| 981 kB 30.7 MB/s 
Collecting cchardet
  Downloading cchardet-2.1.7-cp37-cp37m-manylinux2010_x86_64.whl (263 kB)
[K     |████████████████████████████████| 263 kB 51.4 MB/s 
Collecting syntok
  Downloading syntok-1.3.1.tar.gz (23 kB)
Collecting seqeval==0.0.19
  Downloading seqeval-0.0.19.tar.gz (30 kB)
Collecting transformers<=4.10.3,>=4.0.0
  Downloading transformers-4.10.3-py3-none-any.whl (2.8 MB)
[K     |████████████████████████████████| 2.8 MB 48.9 MB/s 
[?25hCollecting sentencepiece
  Downloading sentencepiece-0.1.96-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 

In [3]:
import pandas as pd

df = pd.read_csv("turkish_movie_sentiment_dataset.csv")
df.head()

Unnamed: 0,comment,film_name,point
0,\n Jean Reno denince zate...,Sevginin Gücü,50
1,\n Ekşın falan izlemek is...,Sevginin Gücü,50
2,\n Bu yapım hakkında öyle...,Sevginin Gücü,50
3,\n finali yeter... (sting...,Sevginin Gücü,50
4,\n Jean Reno..\r\nbu adam...,Sevginin Gücü,50


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83227 entries, 0 to 83226
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   comment    83227 non-null  object
 1   film_name  83227 non-null  object
 2   point      83227 non-null  object
dtypes: object(3)
memory usage: 1.9+ MB


## Preprocess

### Preprocessing guide:

* 1: Organize the dataset and comment column
* 2: Drop film_name column
* 3: Change point column's rows to integers
* 4: Remove punctuation (comment column) and lower the inputs
* 5: Remove stopwords and make sentences lower(comment column)
* 6: Stemming (comment column)

In [5]:
# Remove the unnecessary characters (space chars, \n and etc.) from the beginning and at the end
df["comment"] = df["comment"].str[23:-22]
df.head()

Unnamed: 0,comment,film_name,point
0,Jean Reno denince zaten leon filmi gelir akla ...,Sevginin Gücü,50
1,Ekşın falan izlemek istiyorsanız eğer bunu izl...,Sevginin Gücü,50
2,Bu yapım hakkında öyle çok şey yazabilirim ki ...,Sevginin Gücü,50
3,finali yeter... (sting - shape of my heart)\r\...,Sevginin Gücü,50
4,Jean Reno..\r\nbu adam kusursuz biri..\r\nve o...,Sevginin Gücü,50


In [6]:
# Drop "film_name" column
df.drop("film_name", axis=1, inplace=True)
df.head()

Unnamed: 0,comment,point
0,Jean Reno denince zaten leon filmi gelir akla ...,50
1,Ekşın falan izlemek istiyorsanız eğer bunu izl...,50
2,Bu yapım hakkında öyle çok şey yazabilirim ki ...,50
3,finali yeter... (sting - shape of my heart)\r\...,50
4,Jean Reno..\r\nbu adam kusursuz biri..\r\nve o...,50


### Remove punctuation

In [7]:
df['comment'] = df['comment'].str.replace(r'[^\w\s]+', '')
df.head()

Unnamed: 0,comment,point
0,Jean Reno denince zaten leon filmi gelir akla ...,50
1,Ekşın falan izlemek istiyorsanız eğer bunu izl...,50
2,Bu yapım hakkında öyle çok şey yazabilirim ki ...,50
3,finali yeter sting shape of my heart\r\n\r\nb...,50
4,Jean Reno\r\nbu adam kusursuz biri\r\nve oyunc...,50


### Lower the inputs

In [8]:
df["comment"] = df["comment"].str.lower()
df.head()

Unnamed: 0,comment,point
0,jean reno denince zaten leon filmi gelir akla ...,50
1,ekşın falan izlemek istiyorsanız eğer bunu izl...,50
2,bu yapım hakkında öyle çok şey yazabilirim ki ...,50
3,finali yeter sting shape of my heart\r\n\r\nb...,50
4,jean reno\r\nbu adam kusursuz biri\r\nve oyunc...,50


### Stopwords

In [9]:
# Import the nltk library and download stopwords
import nltk

nltk.download("stopwords")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [10]:
# Get the stopwords
from nltk.corpus import stopwords

stop_words = stopwords.words("turkish")
stop_words[:10]

['acaba',
 'ama',
 'aslında',
 'az',
 'bazı',
 'belki',
 'biri',
 'birkaç',
 'birşey',
 'biz']

In [11]:
# Create a function to print each line of the inputs
def print_lines(column, n): 
    counter = 0
    for i in column:
        print(i)
        print("########\n")
        counter+=1
        if counter == n:
            break

print_lines(df["comment"], 3)

jean reno denince zaten leon filmi gelir akla izlemeyen kalmamıştır ama kaldıysada ee ne duruyorsun hemen izle 
########

ekşın falan izlemek istiyorsanız eğer bunu izlemeyiin dostlarım keza ilk sahne hariç ekşın filmde yerini gittikçe duygusallığa bırakır mathildanın leonun evine geldiğinde ağladığı sahnede ben de ağlamış olabilirim tamam olabilirim değil ağladım ama sen de izle ağlarsın dostooom 
etkileyici bir film sıkmıyor hiçbir salise boyunca sizi
 ben artık büyüdüm leon yaşlanıyorum 
 hayat hep böyle zor mu yoksa sadece çocukken mi 
########

bu yapım hakkında öyle çok şey yazabilirim ki kitap olur o yüzden kısa kesmem lazım bir kere ağladığım iki filmden birisidirdiğeri  yeşil yol i̇zlediğim en iyi film midir karar veremeyeceğim ama izlediğim en sanatsal sahneleri barındıran luc besson harikası olduğu kesindir 

oyunculardan sıkça bahseldilmiş o konuya girmeyeceğim ama luc besson abi sen de ne cevher varmış demekten kendimi alamıyorum yönetmenlikten çabuk çekilerek kıytırı

In [12]:
# Remove stopwords from each line and check the lines
stop_words = set(stop_words)
df['comment'] = df['comment'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_words)]))

print_lines(df["comment"], 3)

jean reno denince zaten leon filmi gelir akla izlemeyen kalmamıştır kaldıysada ee duruyorsun hemen izle
########

ekşın falan izlemek istiyorsanız bunu izlemeyiin dostlarım keza ilk sahne hariç ekşın filmde yerini gittikçe duygusallığa bırakır mathildanın leonun evine geldiğinde ağladığı sahnede ben ağlamış olabilirim tamam olabilirim değil ağladım sen izle ağlarsın dostooom etkileyici bir film sıkmıyor hiçbir salise boyunca sizi ben artık büyüdüm leon yaşlanıyorum hayat böyle zor yoksa sadece çocukken mi
########

yapım hakkında öyle yazabilirim kitap olur yüzden kısa kesmem lazım bir kere ağladığım iki filmden birisidirdiğeri yeşil yol i̇zlediğim iyi film midir karar veremeyeceğim izlediğim sanatsal sahneleri barındıran luc besson harikası olduğu kesindir oyunculardan sıkça bahseldilmiş konuya girmeyeceğim luc besson abi sen cevher varmış demekten kendimi alamıyorum yönetmenlikten çabuk çekilerek kıytırık aksiyon filmlerine senaryo yazman yazık oldu gerçekten övgülerim eric serra içi

### Stemmer

In [14]:
!pip install TurkishStemmer

Collecting TurkishStemmer
  Downloading TurkishStemmer-1.3-py3-none-any.whl (20 kB)
Installing collected packages: TurkishStemmer
Successfully installed TurkishStemmer-1.3


In [15]:
# Import the library and get the stemmer for Turkish Language
from TurkishStemmer import TurkishStemmer

stemmer = TurkishStemmer()

In [16]:
# To use stemmer on each word, turn each line into a list
df['comment'] = df['comment'].str.split()
df.head()

Unnamed: 0,comment,point
0,"[jean, reno, denince, zaten, leon, filmi, geli...",50
1,"[ekşın, falan, izlemek, istiyorsanız, bunu, iz...",50
2,"[yapım, hakkında, öyle, yazabilirim, kitap, ol...",50
3,"[finali, yeter, sting, shape, of, my, heart, b...",50
4,"[jean, reno, adam, kusursuz, oyunculugu, müthi...",50


In [17]:
# Apply stemmer
df['comment'] = df['comment'].apply(lambda x: [stemmer.stem(y) for y in x])

df.head()

Unnamed: 0,comment,point
0,"[jean, reno, deni, zaten, leon, film, gelir, a...",50
1,"[ekşı, falan, izlemek, istiyor, bun, izlemey, ...",50
2,"[yap, hakk, öyl, yazabilir, kitap, olur, yüz, ...",50
3,"[finali, yeter, sting, shape, of, my, heart, b...",50
4,"[jean, reno, ada, kusurs, oyunculug, müthiş, f...",50


In [18]:
# Check the lines
print_lines(df["comment"], 3)

['jean', 'reno', 'deni', 'zaten', 'leon', 'film', 'gelir', 'akl', 'izlemeyen', 'kalm', 'kaldıysa', 'e', 'duruyor', 'hemen', 'izl']
########

['ekşı', 'falan', 'izlemek', 'istiyor', 'bun', 'izlemey', 'dost', 'keza', 'ilk', 'sahne', 'hariç', 'ekşı', 'film', 'yer', 'gittikç', 'duygusallık', 'bırakır', 'mathilda', 'leon', 'ev', 'geldik', 'ağladık', 'sahne', 'ben', 'ağla', 'olabilir', 'tama', 'olabilir', 'değil', 'ağla', 'sen', 'izl', 'ağlar', 'dostooom', 'etkileyiç', 'bir', 'film', 'sıkmıyor', 'hiçbir', 'sali', 'boyu', 'siz', 'ben', 'ar', 'büyü', 'leon', 'yaşlanıyor', 'hayat', 'böyl', 'zor', 'yoks', 'sade', 'çocukken', 'mi']
########

['yap', 'hakk', 'öyl', 'yazabilir', 'kitap', 'olur', 'yüz', 'kıs', 'kesme', 'lazım', 'bir', 'ker', 'ağladık', 'ik', 'film', 'birisidirdiğer', 'yeşil', 'yol', 'i̇zlediğim', 'iyi', 'film', 'mi', 'karar', 'veremeyecek', 'izledik', 'sanatsal', 'sahne', 'barındıran', 'luc', 'besson', 'harika', 'olduk', 'kes', 'oyuncu', 'sıkç', 'bahseldil', 'konu', 'girmeyecek', 'l

In [19]:
# Turn back each line to a string (from list)
df['comment'] = df['comment'].apply(lambda x: ' '.join(word for word in x))

df.head()

Unnamed: 0,comment,point
0,jean reno deni zaten leon film gelir akl izlem...,50
1,ekşı falan izlemek istiyor bun izlemey dost ke...,50
2,yap hakk öyl yazabilir kitap olur yüz kıs kesm...,50
3,finali yeter sting shape of my heart bazı film...,50
4,jean reno ada kusurs oyunculug müthiş film baş...,50


In [20]:
# Get train sentences from df.comment
train_sentences = df["comment"].tolist()

train_sentences[:3]

['jean reno deni zaten leon film gelir akl izlemeyen kalm kaldıysa e duruyor hemen izl',
 'ekşı falan izlemek istiyor bun izlemey dost keza ilk sahne hariç ekşı film yer gittikç duygusallık bırakır mathilda leon ev geldik ağladık sahne ben ağla olabilir tama olabilir değil ağla sen izl ağlar dostooom etkileyiç bir film sıkmıyor hiçbir sali boyu siz ben ar büyü leon yaşlanıyor hayat böyl zor yoks sade çocukken mi',
 'yap hakk öyl yazabilir kitap olur yüz kıs kesme lazım bir ker ağladık ik film birisidirdiğer yeşil yol i̇zlediğim iyi film mi karar veremeyecek izledik sanatsal sahne barındıran luc besson harika olduk kes oyuncu sıkç bahseldil konu girmeyecek luc besson abi sen cevher var demek kent alamıyor yönetmenlik çabuk çekilerek kıytırık aksiyon film senaryo yazman yazık olt gerçek övgü eric serra iç geçer nitek abartmıyor film 50 si eric serra nın hakk muhteşe melodi hayran son olarak natali portman a dek sen kadar tatl munis bir şe yahu küçük ayr bir havan şimt ayr bir havan var y

### Organize point column

In [21]:
# Replace "." with ","
df['point'] = df['point'].str.replace(',','.')
# Change data type to float
df["point"] = df["point"].astype(float)
# Rond every number and make them integers.
df["point"] = df["point"].round().astype('int')
df.head()

Unnamed: 0,comment,point
0,jean reno deni zaten leon film gelir akl izlem...,5
1,ekşı falan izlemek istiyor bun izlemey dost ke...,5
2,yap hakk öyl yazabilir kitap olur yüz kıs kesm...,5
3,finali yeter sting shape of my heart bazı film...,5
4,jean reno ada kusurs oyunculug müthiş film baş...,5


In [22]:
# Get the average and the max length of the inputs
import numpy as np

sent_lens = [len(sentence.split()) for sentence in train_sentences]
avg_sent_len = np.mean(sent_lens)
max_sent_len = np.max(sent_lens)
avg_sent_len, max_sent_len

(36.48517908851695, 3608)

In [23]:
# How long of a sentence lenght covers 95% of examples?
output_seq_len = int(np.percentile(sent_lens, 95))

output_seq_len

113

In [24]:
# How long of a sentence lenght covers 97% of examples?
x = int(np.percentile(sent_lens, 97))

x

159

In [25]:
# Setting it 160 instead of 159 since 160 is divisible to 8.
output_seq_len = 160

In [None]:
# Import AutoTokenizer
from transformers import AutoTokenizer
# Initialize tokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-128k-uncased")

### Test the tokizer on a sample sentence 

In [None]:
# Convert tokens to ids
sample_sentence = "Bu film berbat. Cidden en kötü film ama izlenir yine de"
sample_tokenized_sentence = tokenizer.tokenize(sample_sentence)
sample_tokenized_sentence

In [None]:
# Convert ids to tokens
sample_ids = tokenizer.convert_tokens_to_ids(sample_tokenized_sentence)
sample_ids

In [None]:
sample_encoded_sentence = tokenizer.encode_plus(
    text=sample_sentence, 
    add_special_tokens=True,
    max_length=32,
    truncation=True,
    pad_to_max_length=True,
    return_attention_mask=True,
    return_tensors="np"
)

In [None]:
# Get keys for the sample encoded sentence
sample_encoded_sentence.keys()

In [None]:
sample_input_ids = sample_encoded_sentence["input_ids"]
sample_attention_mask = sample_encoded_sentence["attention_mask"]

In [None]:
sample_input_ids[:1]

In [None]:
tokenizer.convert_ids_to_tokens(sample_input_ids[0])

In [None]:
df.info()

In [None]:
df.dropna(axis=0, inplace=True)
df.info()

## Encode inputs

After experimenting the encoding operation on the sample sentence, now we're ready to encode our inputs (tf.comments)

In [None]:
df.comment.tolist()

In [None]:
import tensorflow as tf

input_ids = []
attention_mask = []

for txt in df.comment.values:
    encoded = tokenizer.encode_plus(
        text=txt, # the sentence to be encoded 
        add_special_tokens=True, # Add [CLS] and [SEP]
        max_length=160, # max length of a sentence
        truncation=True, # truncate if sentence length is bigger than max_length
        pad_to_max_length=True, # Add [PAD]s
        return_attention_mask=True, # Generate attention mask
        return_tensors="np" # return NumPy tensors
    )

    # Append input_ids and attention_masks to their own lists
    input_ids.append(encoded["input_ids"])
    attention_mask.append(encoded["attention_mask"])

# Concatenate
input_ids = tf.concat(input_ids, 0)
attention_mask = tf.concat(attention_mask, 0)

print("Original: ", df.comment.values[0])
print("Token IDs: ", input_ids[0])

In [None]:
# Convert tokens to ids to check
tokenizer.convert_ids_to_tokens(input_ids[0])

In [None]:
# Check input_ids and shape of input_ids
input_ids, input_ids.shape

In [None]:
# Check attention_mask and shape of attention_mask
attention_mask, attention_mask.shape

In [None]:
attention_mask[1], attention_mask[1].shape

In [None]:
# Save input_ids and attention_mask
with open('movie-xids.npy', 'wb') as f:
    np.save(f, input_ids)
with open('movie-xmask.npy', 'wb') as f:
    np.save(f, attention_mask)

## One-hot-encode labels    

In [None]:
from sklearn.preprocessing import OneHotEncoder
one_hot_encoder = OneHotEncoder(sparse=False)
labels_one_hot = one_hot_encoder.fit_transform(df["point"].to_numpy().reshape(-1,1))
labels_one_hot

In [None]:
# Save the labels
with open("movie-labels.npy", "wb") as f:
    np.save(f, labels_one_hot)

##Course

In [None]:
df.to_csv("use_this.csv")

In [2]:
import pandas as pd
import numpy as np
import ktrain
from ktrain import text
import tensorflow as tf

In [3]:
df = pd.read_csv("use_this.csv")
df.drop("Unnamed: 0", axis=1, inplace=True)
df.head()

Unnamed: 0,comment,point
0,jean reno deni zaten leon film gelir akl izlem...,5
1,ekşı falan izlemek istiyor bun izlemey dost ke...,5
2,yap hakk öyl yazabilir kitap olur yüz kıs kesm...,5
3,finali yeter sting shape of my heart bazı film...,5
4,jean reno ada kusurs oyunculug müthiş film baş...,5


In [4]:
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 82566 entries, 0 to 83226
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   comment  82566 non-null  object
 1   point    82566 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 1.9+ MB


In [5]:
df.shape

(82566, 2)

In [6]:
from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(df, test_size=0.2)

train_df.shape, test_df.shape

((66052, 2), (16514, 2))

In [7]:
(X_train, y_train), (X_test, y_test), preproc = text.texts_from_df(train_df = train_df,
                                                                   text_column="comment",
                                                                   label_columns="point",
                                                                   val_df=test_df,
                                                                   maxlen=160,
                                                                   preprocess_mode="bert")

['point_0', 'point_1', 'point_2', 'point_3', 'point_4', 'point_5']
       point_0  point_1  point_2  point_3  point_4  point_5
16083      0.0      0.0      0.0      0.0      1.0      0.0
10844      0.0      0.0      0.0      0.0      0.0      1.0
72955      0.0      0.0      0.0      0.0      1.0      0.0
30245      0.0      0.0      1.0      0.0      0.0      0.0
51977      0.0      0.0      0.0      1.0      0.0      0.0
['point_0', 'point_1', 'point_2', 'point_3', 'point_4', 'point_5']
       point_0  point_1  point_2  point_3  point_4  point_5
23075      0.0      0.0      1.0      0.0      0.0      0.0
2533       0.0      0.0      0.0      0.0      1.0      0.0
53699      0.0      0.0      1.0      0.0      0.0      0.0
5966       0.0      0.0      0.0      0.0      1.0      0.0
69758      0.0      0.0      1.0      0.0      0.0      0.0
preprocessing train...
language: tr


Is Multi-Label? False
preprocessing test...
language: tr


In [8]:
model = text.text_classifier(name="bert",
                             train_data = (X_train, y_train),
                             preproc=preproc)

Is Multi-Label? False
maxlen is 160
done.


In [9]:
learner = ktrain.get_learner(model=model,
                   train_data=(X_train, y_train),
                   val_data=(X_test, y_test),
                   batch_size=16)

In [10]:
learner.fit_onecycle(lr=2e-5, epochs=1)



begin training using onecycle policy with max lr of 2e-05...


<keras.callbacks.History at 0x7fdbd00783d0>