Data: https://www.kaggle.com/mustfkeskin/turkish-movie-sentiment-analysis-dataset/code

Preprocessing guide:

* 1: Organize the dataset and comment column
* 2: Drop film_name column
* 3: Change point column's rows to integers
* 4: Remove punctuation (comment column)
* 5: Remove stopwords and make sentences lower(comment column)
* 6: Stemming (comment column)

In [1]:
!nvidia-smi -L

GPU 0: NVIDIA GeForce GTX 1050 Ti (UUID: GPU-ada268bc-35a4-5a51-f812-70e7584578bb)


In [2]:
import pandas as pd

df = pd.read_csv("data/turkish_movie_sentiment_dataset.csv")
df.head()

Unnamed: 0,comment,film_name,point
0,\n Jean Reno denince zate...,Sevginin Gücü,50
1,\n Ekşın falan izlemek is...,Sevginin Gücü,50
2,\n Bu yapım hakkında öyle...,Sevginin Gücü,50
3,\n finali yeter... (sting...,Sevginin Gücü,50
4,\n Jean Reno..\r\nbu adam...,Sevginin Gücü,50


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83227 entries, 0 to 83226
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   comment    83227 non-null  object
 1   film_name  83227 non-null  object
 2   point      83227 non-null  object
dtypes: object(3)
memory usage: 1.9+ MB


## Preprocess

In [4]:
# Drop the unnecessary characters (space chars, \n and etc.) from the beginning and the end
df["comment"] = df["comment"].str[23:-22]

In [5]:
df.head()

Unnamed: 0,comment,film_name,point
0,Jean Reno denince zaten leon filmi gelir akla ...,Sevginin Gücü,50
1,Ekşın falan izlemek istiyorsanız eğer bunu izl...,Sevginin Gücü,50
2,Bu yapım hakkında öyle çok şey yazabilirim ki ...,Sevginin Gücü,50
3,finali yeter... (sting - shape of my heart)\r\...,Sevginin Gücü,50
4,Jean Reno..\r\nbu adam kusursuz biri..\r\nve o...,Sevginin Gücü,50


In [6]:
df.drop("film_name", axis=1, inplace=True)
df.head()

Unnamed: 0,comment,point
0,Jean Reno denince zaten leon filmi gelir akla ...,50
1,Ekşın falan izlemek istiyorsanız eğer bunu izl...,50
2,Bu yapım hakkında öyle çok şey yazabilirim ki ...,50
3,finali yeter... (sting - shape of my heart)\r\...,50
4,Jean Reno..\r\nbu adam kusursuz biri..\r\nve o...,50


### Remove punctuation

In [7]:
df['comment'] = df['comment'].str.replace(r'[^\w\s]+', '')
df.head()

  df['comment'] = df['comment'].str.replace(r'[^\w\s]+', '')


Unnamed: 0,comment,point
0,Jean Reno denince zaten leon filmi gelir akla ...,50
1,Ekşın falan izlemek istiyorsanız eğer bunu izl...,50
2,Bu yapım hakkında öyle çok şey yazabilirim ki ...,50
3,finali yeter sting shape of my heart\r\n\r\nb...,50
4,Jean Reno\r\nbu adam kusursuz biri\r\nve oyunc...,50


In [8]:
df["comment"] = df["comment"].str.lower()
df.head()

Unnamed: 0,comment,point
0,jean reno denince zaten leon filmi gelir akla ...,50
1,ekşın falan izlemek istiyorsanız eğer bunu izl...,50
2,bu yapım hakkında öyle çok şey yazabilirim ki ...,50
3,finali yeter sting shape of my heart\r\n\r\nb...,50
4,jean reno\r\nbu adam kusursuz biri\r\nve oyunc...,50


In [9]:
import nltk

nltk.download("stopwords")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\egehan\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [10]:
from nltk.corpus import stopwords

stop_words = stopwords.words("turkish")
stop_words[:10]

['acaba',
 'ama',
 'aslında',
 'az',
 'bazı',
 'belki',
 'biri',
 'birkaç',
 'birşey',
 'biz']

In [11]:
def print_lines(column, n): 
    counter = 0
    for i in column:
        print(i)
        print("########\n")
        counter+=1
        if counter == n:
            break

print_lines(df["comment"], 3)

jean reno denince zaten leon filmi gelir akla izlemeyen kalmamıştır ama kaldıysada ee ne duruyorsun hemen izle 
########

ekşın falan izlemek istiyorsanız eğer bunu izlemeyiin dostlarım keza ilk sahne hariç ekşın filmde yerini gittikçe duygusallığa bırakır mathildanın leonun evine geldiğinde ağladığı sahnede ben de ağlamış olabilirim tamam olabilirim değil ağladım ama sen de izle ağlarsın dostooom 
etkileyici bir film sıkmıyor hiçbir salise boyunca sizi
 ben artık büyüdüm leon yaşlanıyorum 
 hayat hep böyle zor mu yoksa sadece çocukken mi 
########

bu yapım hakkında öyle çok şey yazabilirim ki kitap olur o yüzden kısa kesmem lazım bir kere ağladığım iki filmden birisidirdiğeri  yeşil yol i̇zlediğim en iyi film midir karar veremeyeceğim ama izlediğim en sanatsal sahneleri barındıran luc besson harikası olduğu kesindir 

oyunculardan sıkça bahseldilmiş o konuya girmeyeceğim ama luc besson abi sen de ne cevher varmış demekten kendimi alamıyorum yönetmenlikten çabuk çekilerek kıytırık aks

In [12]:
stop_words = set(stop_words)
df['comment'] = df['comment'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_words)]))
#no_stopwords = [word for word in line if word not in stop_words]

In [13]:
print_lines(df["comment"], 3)

jean reno denince zaten leon filmi gelir akla izlemeyen kalmamıştır kaldıysada ee duruyorsun hemen izle
########

ekşın falan izlemek istiyorsanız bunu izlemeyiin dostlarım keza ilk sahne hariç ekşın filmde yerini gittikçe duygusallığa bırakır mathildanın leonun evine geldiğinde ağladığı sahnede ben ağlamış olabilirim tamam olabilirim değil ağladım sen izle ağlarsın dostooom etkileyici bir film sıkmıyor hiçbir salise boyunca sizi ben artık büyüdüm leon yaşlanıyorum hayat böyle zor yoksa sadece çocukken mi
########

yapım hakkında öyle yazabilirim kitap olur yüzden kısa kesmem lazım bir kere ağladığım iki filmden birisidirdiğeri yeşil yol i̇zlediğim iyi film midir karar veremeyeceğim izlediğim sanatsal sahneleri barındıran luc besson harikası olduğu kesindir oyunculardan sıkça bahseldilmiş konuya girmeyeceğim luc besson abi sen cevher varmış demekten kendimi alamıyorum yönetmenlikten çabuk çekilerek kıytırık aksiyon filmlerine senaryo yazman yazık oldu gerçekten övgülerim eric serra içi

In [14]:
from TurkishStemmer import TurkishStemmer

stemmer = TurkishStemmer()
#stemmed = [(my.stem(word), word) for word in tweet]
#stemmed

In [15]:
df['comment'] = df['comment'].str.split()
#df["stemmed"] = df['unstemmed'].apply(lambda x: [stemmer.stem(word) for word in x])
df.head()

Unnamed: 0,comment,point
0,"[jean, reno, denince, zaten, leon, filmi, geli...",50
1,"[ekşın, falan, izlemek, istiyorsanız, bunu, iz...",50
2,"[yapım, hakkında, öyle, yazabilirim, kitap, ol...",50
3,"[finali, yeter, sting, shape, of, my, heart, b...",50
4,"[jean, reno, adam, kusursuz, oyunculugu, müthi...",50


In [16]:
df['comment'] = df['comment'].apply(lambda x: [stemmer.stem(y) for y in x])

In [17]:
df.head()

Unnamed: 0,comment,point
0,"[jean, reno, deni, zaten, leon, film, gelir, a...",50
1,"[ekşı, falan, izlemek, istiyor, bun, izlemey, ...",50
2,"[yap, hakk, öyl, yazabilir, kitap, olur, yüz, ...",50
3,"[finali, yeter, sting, shape, of, my, heart, b...",50
4,"[jean, reno, ada, kusurs, oyunculug, müthiş, f...",50


In [18]:
print_lines(df["comment"], 3)

['jean', 'reno', 'deni', 'zaten', 'leon', 'film', 'gelir', 'akl', 'izlemeyen', 'kalm', 'kaldıysa', 'e', 'duruyor', 'hemen', 'izl']
########

['ekşı', 'falan', 'izlemek', 'istiyor', 'bun', 'izlemey', 'dost', 'keza', 'ilk', 'sahne', 'hariç', 'ekşı', 'film', 'yer', 'gittikç', 'duygusallık', 'bırakır', 'mathilda', 'leon', 'ev', 'geldik', 'ağladık', 'sahne', 'ben', 'ağla', 'olabilir', 'tama', 'olabilir', 'değil', 'ağla', 'sen', 'izl', 'ağlar', 'dostooom', 'etkileyiç', 'bir', 'film', 'sıkmıyor', 'hiçbir', 'sali', 'boyu', 'siz', 'ben', 'ar', 'büyü', 'leon', 'yaşlanıyor', 'hayat', 'böyl', 'zor', 'yoks', 'sade', 'çocukken', 'mi']
########

['yap', 'hakk', 'öyl', 'yazabilir', 'kitap', 'olur', 'yüz', 'kıs', 'kesme', 'lazım', 'bir', 'ker', 'ağladık', 'ik', 'film', 'birisidirdiğer', 'yeşil', 'yol', 'i̇zlediğim', 'iyi', 'film', 'mi', 'karar', 'veremeyecek', 'izledik', 'sanatsal', 'sahne', 'barındıran', 'luc', 'besson', 'harika', 'olduk', 'kes', 'oyuncu', 'sıkç', 'bahseldil', 'konu', 'girmeyecek', 'l

In [19]:
#tweet = "bugün seninle harika bir gün geçirecekmişiz; gibi. Hissed|iyorum ne de olsa biz harikayız"
#tweet.translate(str.maketrans('', '', string.punctuation))
df['comment'] = df['comment'].apply(lambda x: ' '.join(word for word in x))

In [20]:
df.head()

Unnamed: 0,comment,point
0,jean reno deni zaten leon film gelir akl izlem...,50
1,ekşı falan izlemek istiyor bun izlemey dost ke...,50
2,yap hakk öyl yazabilir kitap olur yüz kıs kesm...,50
3,finali yeter sting shape of my heart bazı film...,50
4,jean reno ada kusurs oyunculug müthiş film baş...,50


In [21]:
train_sentences = df["comment"].tolist()

train_sentences[:3]

['jean reno deni zaten leon film gelir akl izlemeyen kalm kaldıysa e duruyor hemen izl',
 'ekşı falan izlemek istiyor bun izlemey dost keza ilk sahne hariç ekşı film yer gittikç duygusallık bırakır mathilda leon ev geldik ağladık sahne ben ağla olabilir tama olabilir değil ağla sen izl ağlar dostooom etkileyiç bir film sıkmıyor hiçbir sali boyu siz ben ar büyü leon yaşlanıyor hayat böyl zor yoks sade çocukken mi',
 'yap hakk öyl yazabilir kitap olur yüz kıs kesme lazım bir ker ağladık ik film birisidirdiğer yeşil yol i̇zlediğim iyi film mi karar veremeyecek izledik sanatsal sahne barındıran luc besson harika olduk kes oyuncu sıkç bahseldil konu girmeyecek luc besson abi sen cevher var demek kent alamıyor yönetmenlik çabuk çekilerek kıytırık aksiyon film senaryo yazman yazık olt gerçek övgü eric serra iç geçer nitek abartmıyor film 50 si eric serra nın hakk muhteşe melodi hayran son olarak natali portman a dek sen kadar tatl munis bir şe yahu küçük ayr bir havan şimt ayr bir havan var y

In [22]:
import numpy as np

sent_lens = [len(sentence.split()) for sentence in train_sentences]
avg_sent_len = np.mean(sent_lens)
max_sent_len = np.max(sent_lens)
avg_sent_len, max_sent_len

(36.48517908851695, 3608)

In [23]:
# How long of a sentence lenght covers 95% of examples?
output_seq_len = int(np.percentile(sent_lens, 95))

output_seq_len

113

In [24]:
output_seq_len = 120