# Preparing movie review text data for sentiment analysis in Azerbaijani

The Movie Review Data is a collection of movie reviews retrieved from the imdb.com website in
the early 2000s by Bo Pang and Lillian Lee. The reviews were collected and made available
as part of their research on natural language processing. The reviews were originally released
in 2002, but an updated and cleaned up version was released in 2004, referred to as v2.0. The
dataset is comprised of 1,000 positive and 1,000 negative movie reviews drawn from an archive
of the rec.arts.movies.reviews newsgroup hosted at IMDB. The authors refer to this dataset as
the polarity dataset.

Our data contains 1000 positive and 1000 negative reviews all written before 2002,
with a cap of 20 reviews per author (312 authors total) per category. We refer to
this corpus as the polarity dataset.


## 1. Load Text Data

In this section, we will look at loading individual text files, then processing the directories of
files. We will assume that the review data is downloaded and available in the current working
directory in the folder txt sentoken. We can load an individual text file by opening it, reading
in the ASCII text, and closing the file. This is standard file handling stuff.


In [1]:
# load one file
filename = 'txt_sentoken/neg/cv000_29416.txt'
# open the file as read only
file = open(filename, 'r')
# read all text
text = file.read()
# close the file
file.close()

In [2]:
print(text)

We can turn the processing of the documents into a function as well and use it as a template
later for developing a function to clean all documents in a folder. For example, below we define
a process docs() function to do the same thing.

In [3]:
from os import listdir
# load document into pc memory
def load_doc(filename):
# open the file
    file = open(filename, 'r')
# read whole text
    text = file.read()
# close the file
    file.close()
    return text
# load all docs in a directory
def process_docs(directory):
# walk through all files in the folder
    for filename in listdir(directory):
# skip files that do not have the right extension
        if not filename.endswith(".txt"):
            next
# create the full path of the file to open
        path = directory + '/' + filename
# load document
        doc = load_doc(path)
        print('Loaded %s' % filename)
# specify directory to load
directory = 'txt_sentoken/neg'
process_docs(directory)

Loaded cv000_29416.txt
Loaded cv001_19502.txt
Loaded cv002_17424.txt
Loaded cv003_12683.txt
Loaded cv004_12641.txt
Loaded cv005_29357.txt
Loaded cv006_17022.txt
Loaded cv007_4992.txt
Loaded cv008_29326.txt
Loaded cv009_29417.txt
Loaded cv010_29063.txt
Loaded cv011_13044.txt
Loaded cv012_29411.txt
Loaded cv013_10494.txt
Loaded cv014_15600.txt
Loaded cv015_29356.txt
Loaded cv016_4348.txt
Loaded cv017_23487.txt
Loaded cv018_21672.txt
Loaded cv019_16117.txt
Loaded cv020_9234.txt
Loaded cv021_17313.txt
Loaded cv022_14227.txt
Loaded cv023_13847.txt
Loaded cv024_7033.txt
Loaded cv025_29825.txt
Loaded cv026_29229.txt
Loaded cv027_26270.txt
Loaded cv028_26964.txt
Loaded cv029_19943.txt
Loaded cv030_22893.txt
Loaded cv031_19540.txt
Loaded cv032_23718.txt
Loaded cv033_25680.txt
Loaded cv034_29446.txt
Loaded cv035_3343.txt
Loaded cv036_18385.txt
Loaded cv037_19798.txt
Loaded cv038_9781.txt
Loaded cv039_5963.txt
Loaded cv040_8829.txt
Loaded cv041_22364.txt
Loaded cv042_11927.txt
Loaded cv043_16808.

Loaded cv414_11161.txt
Loaded cv415_23674.txt
Loaded cv416_12048.txt
Loaded cv417_14653.txt
Loaded cv418_16562.txt
Loaded cv419_14799.txt
Loaded cv420_28631.txt
Loaded cv421_9752.txt
Loaded cv422_9632.txt
Loaded cv423_12089.txt
Loaded cv424_9268.txt
Loaded cv425_8603.txt
Loaded cv426_10976.txt
Loaded cv427_11693.txt
Loaded cv428_12202.txt
Loaded cv429_7937.txt
Loaded cv430_18662.txt
Loaded cv431_7538.txt
Loaded cv432_15873.txt
Loaded cv433_10443.txt
Loaded cv434_5641.txt
Loaded cv435_24355.txt
Loaded cv436_20564.txt
Loaded cv437_24070.txt
Loaded cv438_8500.txt
Loaded cv439_17633.txt
Loaded cv440_16891.txt
Loaded cv441_15276.txt
Loaded cv442_15499.txt
Loaded cv443_22367.txt
Loaded cv444_9975.txt
Loaded cv445_26683.txt
Loaded cv446_12209.txt
Loaded cv447_27334.txt
Loaded cv448_16409.txt
Loaded cv449_9126.txt
Loaded cv450_8319.txt
Loaded cv451_11502.txt
Loaded cv452_5179.txt
Loaded cv453_10911.txt
Loaded cv454_21961.txt
Loaded cv455_28866.txt
Loaded cv456_20370.txt
Loaded cv457_19546.txt


Now that we know how to load the movie review text data, let’s look at cleaning it.

# 2. Clean Text Data

In this section, we will look at what data cleaning we might want to do to the movie review
data. We will assume that we will be using a bag-of-words model or perhaps a word embedding
that does not require too much preparation.

## 2.1 Split into Tokens

First, let’s load one document and look at the raw tokens split by white space. We will use the
load doc() function developed in the previous section. We can use the split() function to
split the loaded document into tokens separated by white space.

In [4]:
# load doc into memory
def load_doc(filename):
    # open the file as read only
    file = open(filename, 'r')
    # read all text
    text = file.read()
    # close the file
    file.close()
    return text
# load the document
filename = 'txt_sentoken/neg/cv000_29416.txt'
text = load_doc(filename)
# split into tokens by white space
tokens = text.split()
print(tokens)

['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.', 'they', 'get', 'into', 'an', 'accident', '.', 'one', 'of', 'the', 'guys', 'dies', ',', 'but', 'his', 'girlfriend', 'continues', 'to', 'see', 'him', 'in', 'her', 'life', ',', 'and', 'has', 'nightmares', '.', "what's", 'the', 'deal', '?', 'watch', 'the', 'movie', 'and', '"', 'sorta', '"', 'find', 'out', '.', '.', '.', 'critique', ':', 'a', 'mind-fuck', 'movie', 'for', 'the', 'teen', 'generation', 'that', 'touches', 'on', 'a', 'very', 'cool', 'idea', ',', 'but', 'presents', 'it', 'in', 'a', 'very', 'bad', 'package', '.', 'which', 'is', 'what', 'makes', 'this', 'review', 'an', 'even', 'harder', 'one', 'to', 'write', ',', 'since', 'i', 'generally', 'applaud', 'films', 'which', 'attempt', 'to', 'break', 'the', 'mold', ',', 'mess', 'with', 'your', 'head', 'and', 'such', '(', 'lost', 'highway', '&', 'memento', ')', ',', 'but', 'there', 'are', 'good', 'and', 'bad', 'ways', 'of'

Just looking at the raw tokens can give us a lot of ideas of things to try, such as:

 Remove punctuation from words (e.g. ‘what’s’).

 Removing tokens that are just punctuation (e.g. ‘-’).

 Removing tokens that contain numbers (e.g. ‘10/10’).

 Remove tokens that have one character (e.g. ‘a’).

 Remove tokens that don’t have much meaning (e.g. ‘and’).

In [5]:
from nltk.corpus import stopwords
import string
import re
# load doc into memory
def load_doc(filename):
# open the file as read only
    file = open(filename, 'r')
    # read all text
    text = file.read()
    # close the file
    file.close()
    return text
# load the document
filename = 'txt_sentoken/neg/cv000_29416.txt'
text = load_doc(filename)
# split into tokens by white space
tokens = text.split()
# prepare regex for char filtering
re_punc = re.compile('[%s]' % re.escape(string.punctuation))
# remove punctuation from each word
tokens = [re_punc.sub('', w) for w in tokens]
# remove remaining tokens that are not alphabetic
tokens = [word for word in tokens if word.isalpha()]
# filter out stop words
stop_words = set(stopwords.words('english'))
tokens = [w for w in tokens if not w in stop_words]
# filter out short tokens
tokens = [word for word in tokens if len(word) > 1]
print(tokens)

['plot', 'two', 'teen', 'couples', 'go', 'church', 'party', 'drink', 'drive', 'get', 'accident', 'one', 'guys', 'dies', 'girlfriend', 'continues', 'see', 'life', 'nightmares', 'whats', 'deal', 'watch', 'movie', 'sorta', 'find', 'critique', 'mindfuck', 'movie', 'teen', 'generation', 'touches', 'cool', 'idea', 'presents', 'bad', 'package', 'makes', 'review', 'even', 'harder', 'one', 'write', 'since', 'generally', 'applaud', 'films', 'attempt', 'break', 'mold', 'mess', 'head', 'lost', 'highway', 'memento', 'good', 'bad', 'ways', 'making', 'types', 'films', 'folks', 'didnt', 'snag', 'one', 'correctly', 'seem', 'taken', 'pretty', 'neat', 'concept', 'executed', 'terribly', 'problems', 'movie', 'well', 'main', 'problem', 'simply', 'jumbled', 'starts', 'normal', 'downshifts', 'fantasy', 'world', 'audience', 'member', 'idea', 'whats', 'going', 'dreams', 'characters', 'coming', 'back', 'dead', 'others', 'look', 'like', 'dead', 'strange', 'apparitions', 'disappearances', 'looooot', 'chase', 'scen

We can put this into a function called clean doc() and test it on another review, this time
a positive review.

In [6]:
from nltk.corpus import stopwords
import string
import re
# load doc into memory
def load_doc(filename):
# open the file as read only
    file = open(filename, 'r')
    # read all text
    text = file.read()
    # close the file
    file.close()
    return text
# turn a doc into clean tokens
def clean_doc(doc):
    # split into tokens by white space
    tokens = doc.split()
    # prepare regex for char filtering
    re_punc = re.compile('[%s]' % re.escape(string.punctuation))
    # remove punctuation from each word
    tokens = [re_punc.sub('', w) for w in tokens]
    # remove remaining tokens that are not alphabetic
    tokens = [word for word in tokens if word.isalpha()]
    # filter out stop words
    stop_words = set(stopwords.words('english'))
    tokens = [w for w in tokens if not w in stop_words]
    # filter out short tokens
    tokens = [word for word in tokens if len(word) > 1]
    return tokens
# load the document
filename = 'txt_sentoken/pos/cv000_29590.txt'
text = load_doc(filename)
tokens = clean_doc(text)
print(tokens)


['films', 'adapted', 'comic', 'books', 'plenty', 'success', 'whether', 'theyre', 'superheroes', 'batman', 'superman', 'spawn', 'geared', 'toward', 'kids', 'casper', 'arthouse', 'crowd', 'ghost', 'world', 'theres', 'never', 'really', 'comic', 'book', 'like', 'hell', 'starters', 'created', 'alan', 'moore', 'eddie', 'campbell', 'brought', 'medium', 'whole', 'new', 'level', 'mid', 'series', 'called', 'watchmen', 'say', 'moore', 'campbell', 'thoroughly', 'researched', 'subject', 'jack', 'ripper', 'would', 'like', 'saying', 'michael', 'jackson', 'starting', 'look', 'little', 'odd', 'book', 'graphic', 'novel', 'pages', 'long', 'includes', 'nearly', 'consist', 'nothing', 'footnotes', 'words', 'dont', 'dismiss', 'film', 'source', 'get', 'past', 'whole', 'comic', 'book', 'thing', 'might', 'find', 'another', 'stumbling', 'block', 'hells', 'directors', 'albert', 'allen', 'hughes', 'getting', 'hughes', 'brothers', 'direct', 'seems', 'almost', 'ludicrous', 'casting', 'carrot', 'top', 'well', 'anythi

# 3. Develop Vocabulary

When working with predictive models of text, like a bag-of-words model, there is a pressure to
reduce the size of the vocabulary. The larger the vocabulary, the more sparse the representation
of each word or document. A part of preparing text for sentiment analysis involves defining and
tailoring the vocabulary of words supported by the model. We can do this by loading all of the
documents in the dataset and building a set of words. We may decide to support all of these
words, or perhaps discard some. The final chosen vocabulary can then be saved to file for later
use, such as filtering words in new documents in the future.


We can keep track of the vocabulary in a Counter, which is a dictionary of words and their
count with some additional convenience functions. We need to develop a new function to process
a document and add it to the vocabulary. The function needs to load a document by calling the
previously developed load doc() function. It needs to clean the loaded document using the
previously developed clean doc() function, then it needs to add all the tokens to the Counter,
and update counts. We can do this last step by calling the update() function on the counter
object. Below is a function called add doc to vocab() that takes as arguments a document
filename and a Counter vocabulary.


In [7]:
# load doc and add to vocab
def add_doc_to_vocab(filename, vocab):
    # load doc
    doc = load_doc(filename)
    # clean doc
    tokens = clean_doc(doc)
    # update counts
    vocab.update(tokens)


Finally, we can use our template above for processing all documents in a directory called
process docs() and update it to call add doc to vocab().

In [8]:
# load all docs in a directory
def process_docs(directory, vocab):
    # walk through all files in the folder
    for filename in listdir(directory):
    # skip files that do not have the right extension
        if not filename.endswith(".txt"):
            next
        # create the full path of the file to open
        path = directory + '/' + filename
        # add doc to vocab
        add_doc_to_vocab(path, vocab)

We can put all of this together and develop a full vocabulary from all documents in the
dataset

In [9]:
import string
import re
from os import listdir
from collections import Counter
from nltk.corpus import stopwords

# load doc into memory
def load_doc(filename):
    # open the file as read only
    file = open(filename, 'r')
    # read all text
    text = file.read()
    # close the file
    file.close()
    return text
# turn a doc into clean tokens
def clean_doc(doc):
    # split into tokens by white space
    tokens = doc.split()
    # prepare regex for char filtering
    re_punc = re.compile('[%s]' % re.escape(string.punctuation))
    # remove punctuation from each word
    tokens = [re_punc.sub('', w) for w in tokens]
    # remove remaining tokens that are not alphabetic
    tokens = [word for word in tokens if word.isalpha()]
    # filter out stop words
    stop_words = set(stopwords.words('english'))
    tokens = [w for w in tokens if not w in stop_words]
    # filter out short tokens
    tokens = [word for word in tokens if len(word) > 1]
    return tokens

# load doc and add to vocab
def add_doc_to_vocab(filename, vocab):
    # load doc
    doc = load_doc(filename)
    # clean doc
    tokens = clean_doc(doc)
    # update counts
    vocab.update(tokens)
# load all docs in a directory
def process_docs(directory, vocab):
    # walk through all files in the folder
    for filename in listdir(directory):
    # skip files that do not have the right extension
        if not filename.endswith(".txt"):
            next
        # create the full path of the file to open
        path = directory + '/' + filename
        # add doc to vocab
        add_doc_to_vocab(path, vocab)
# define vocab
vocab = Counter()
# add all docs to vocab
process_docs('txt_sentoken/neg', vocab)
process_docs('txt_sentoken/pos', vocab)
# print the size of the vocab
print(len(vocab))


46557


Running the example creates a vocabulary with all documents in the dataset, including
positive and negative reviews. We can see that there are a little over 46,000 unique words across
all reviews and the top 3 words are film, one, and movie.

In [10]:
# print the top words in the vocab
print(vocab.most_common(50))

[('film', 8860), ('one', 5521), ('movie', 5440), ('like', 3553), ('even', 2555), ('good', 2320), ('time', 2283), ('story', 2118), ('films', 2102), ('would', 2042), ('much', 2024), ('also', 1965), ('characters', 1947), ('get', 1921), ('character', 1906), ('two', 1825), ('first', 1768), ('see', 1730), ('well', 1694), ('way', 1668), ('make', 1590), ('really', 1563), ('little', 1491), ('life', 1472), ('plot', 1451), ('people', 1420), ('movies', 1416), ('could', 1395), ('bad', 1374), ('scene', 1373), ('never', 1364), ('best', 1301), ('new', 1277), ('many', 1268), ('doesnt', 1267), ('man', 1266), ('scenes', 1265), ('dont', 1210), ('know', 1207), ('hes', 1150), ('great', 1141), ('another', 1111), ('love', 1089), ('action', 1078), ('go', 1075), ('us', 1065), ('director', 1056), ('something', 1048), ('end', 1047), ('still', 1038)]


Perhaps the least common words, those that only appear once across all reviews, are not
predictive. Perhaps some of the most common words are not useful too. These are good
questions and really should be tested with a specific predictive model. 

Generally, words that
only appear once or a few times across 2,000 reviews are probably not predictive and can be
removed from the vocabulary, greatly cutting down on the tokens we need to model. We can do
this by stepping through words and their counts and only keeping those with a count above a
chosen threshold. Here we will use 3 occurrences.


In [1]:
# keep tokens with > 3 occurrence
min_occurane = 3
tokens = [k for k,c in vocab.items() if c >= min_occurane]


We can then save
the chosen vocabulary of words to a new file. I like to save the vocabulary as ASCII with one
word per line. Below defines a function called save list() to save a list of items, in this case,
tokens to file, one per line.

In [12]:
def save_list(lines, filename):
    data = '\n'.join(lines)
    file = open(filename, 'w')
    file.write(data)
    file.close()


The complete example for defining and saving the vocabulary is listed below.


In [21]:
import string
import re
from os import listdir
from collections import Counter
from nltk.corpus import stopwords
# load doc into memory
def load_doc(filename):
    # open the file as read only
    file = open(filename, 'r')
    # read all text
    text = file.read()
    # close the file
    file.close()
    return text

# turn a doc into clean tokens
def clean_doc(doc):
    # split into tokens by white space
    tokens = doc.split()
    # prepare regex for char filtering
    re_punc = re.compile('[%s]' % re.escape(string.punctuation))
    # remove punctuation from each word
    tokens = [re_punc.sub('', w) for w in tokens]
    # remove remaining tokens that are not alphabetic
    tokens = [word for word in tokens if word.isalpha()]
    # filter out stop words
    stop_words = set(stopwords.words('english'))
    tokens = [w for w in tokens if not w in stop_words]
    # filter out short tokens
    tokens = [word for word in tokens if len(word) > 1]
    return tokens
# load doc and add to vocab
def add_doc_to_vocab(filename, vocab):
    # load doc
    doc = load_doc(filename)
    # clean doc
    tokens = clean_doc(doc)
    # update counts
    vocab.update(tokens)
    # load all docs in a directory
def process_docs(directory, vocab):
    # walk through all files in the folder
    for filename in listdir(directory):
        # skip files that do not have the right extension
        if not filename.endswith(".txt"):
            next
        # create the full path of the file to open
        path = directory + '/' + filename
        # add doc to vocab
        add_doc_to_vocab(path, vocab)
# save list to file
def save_list(lines, filename):
    data = '\n'.join(lines)
    file = open(filename, 'w')
    file.write(data)
    file.close()

# define vocab
vocab = Counter()
# add all docs to vocab
process_docs('txt_sentoken/neg', vocab)
process_docs('txt_sentoken/pos', vocab)
# print the size of the vocab
print(len(vocab))
# print the top words in the vocab
print(vocab.most_common(50))
# keep tokens with > 5 occurrence
min_occurane = 5
tokens = [k for k,c in vocab.items() if c >= min_occurane]
print(len(tokens))
# save tokens to a vocabulary file
save_list(tokens, 'vocab.txt')


46557
[('film', 8860), ('one', 5521), ('movie', 5440), ('like', 3553), ('even', 2555), ('good', 2320), ('time', 2283), ('story', 2118), ('films', 2102), ('would', 2042), ('much', 2024), ('also', 1965), ('characters', 1947), ('get', 1921), ('character', 1906), ('two', 1825), ('first', 1768), ('see', 1730), ('well', 1694), ('way', 1668), ('make', 1590), ('really', 1563), ('little', 1491), ('life', 1472), ('plot', 1451), ('people', 1420), ('movies', 1416), ('could', 1395), ('bad', 1374), ('scene', 1373), ('never', 1364), ('best', 1301), ('new', 1277), ('many', 1268), ('doesnt', 1267), ('man', 1266), ('scenes', 1265), ('dont', 1210), ('know', 1207), ('hes', 1150), ('great', 1141), ('another', 1111), ('love', 1089), ('action', 1078), ('go', 1075), ('us', 1065), ('director', 1056), ('something', 1048), ('end', 1047), ('still', 1038)]
14803


## 4. Save Prepared Data

We can use the data cleaning and chosen vocabulary to prepare each movie review and save the
prepared versions of the reviews ready for modeling. This is a good practice as it decouples
the data preparation from modeling, allowing you to focus on modeling and circle back to data
prep if you have new ideas. We can start off by loading the vocabulary from vocab.txt.

In [23]:
# load doc into memory
def load_doc(filename):
    # open the file as read only
    file = open(filename, 'r')
    # read all text
    text = file.read()
    # close the file

    file.close()
    return text
# load vocabulary
vocab_filename = 'vocab.txt'
vocab = load_doc(vocab_filename)
vocab = vocab.split()
vocab = set(vocab)


Next, we can clean the reviews, use the loaded vocab to filter out unwanted tokens, and
save the clean reviews in a new file. One approach could be to save all the positive reviews
in one file and all the negative reviews in another file, with the filtered tokens separated by
white space for each review on separate lines. 

First, we can define a function to process a
document, clean it, filter it, and return it as a single line that could be saved in a file. Below
defines the doc to line() function to do just that, taking a filename and vocabulary (as a set)
as arguments. It calls the previously defined load doc() function to load the document and
clean doc() to tokenize the document.

In [24]:
# load doc, clean and return line of tokens
def doc_to_line(filename, vocab):
    # load the doc
    doc = load_doc(filename)
    # clean doc
    tokens = clean_doc(doc)
    # filter by vocab
    tokens = [w for w in tokens if w in vocab]
    return ' '.join(tokens)


Next, we can define a new version of process docs() to step through all reviews in a folder
and convert them to lines by calling doc to line() for each document. A list of lines is then
returned.

In [25]:
# load all docs in a directory
def process_docs(directory, vocab):
    lines = list()
    # walk through all files in the folder
    for filename in listdir(directory):
        # skip files that do not have the right extension
        if not filename.endswith(".txt"):
            next
        # create the full path of the file to open
        path = directory + '/' + filename
        # load and clean the doc
        line = doc_to_line(path, vocab)
        # add to list
        lines.append(line)
    return lines

We can then call process docs() for both the directories of positive and negative reviews,
then call save list() from the previous section to save each list of processed reviews to a file.

In [26]:
# load vocabulary
vocab_filename = 'vocab.txt'
vocab = load_doc(vocab_filename)
vocab = vocab.split()
vocab = set(vocab)
# prepare negative reviews
negative_lines = process_docs('txt_sentoken/neg', vocab)
save_list(negative_lines, 'negative.txt')
# prepare positive reviews
positive_lines = process_docs('txt_sentoken/pos', vocab)
save_list(positive_lines, 'positive.txt')


## 5. TRANSLATING AND FILTERING RELEVANT DATA



Now we have positive and negative words, separetly. We have to translate it in Azerbaijani by using translate package. It is time consuming process and I will only add vocab.txt file's translate's code to this notebook. After translating, we will add some common used words which is not exist in dataset, manually.

In [7]:
from translate import Translator
import time
f = open('vocab.txt')
for word in f.read().split():
    time.sleep(2)
    x = translator.translate(word, dest = 'az')
    print(x.text)


süjet
iki
yeniyetmə
cütlər
go
kilsə
tərəf
içki
drive
get
qəza
bir
uşaqlar
bu
girlfriend
davam edir
görmək
həyat
nightmares
whats
məşğul
watch
film
cür
tapmaq
tənqidi
nəsil
üz
sərin
fikir
hədiyyələr
pis
paket
markalar
baxış-icmal
hətta
daha
write
çünki
ümumən
Applaud
filmlər
cəhd
fasilə
kif
dolaşıq
baş
itirilmiş
şose
memento
yaxşı
yolları
edilməsi
növləri
millət
etməyib
doğru
görünür
qəbul
yaraşıqlı
səliqəli
anlayış
edam
dəhşətli
problemlər
quyu
əsas
problem
sadəcə
jumbled
başlayır
normal
fantaziya
dünya
tamaşaçı
üzv
davam
dreams
simvol
gələn
geri
ölü
qeyriləri
baxmaq
kimi
qəribə
çıxışları
təqib
səhnələri
ton
qəribə
şeylər
baş
izah
şəxsən
kimin
ağıl
çalışır
açmaq
film
hər
vermək
yumaq
cür
fed
böyük
açıq-aydın
Got
böyük
gizli
hide
görünür
ehtiyac
tamamilə
final
beş
dəqiqə
etmək
əyləncəli
həyəcanlandıran
məşğul
Bu vaxt
həqiqətən
Amerika Birləşmiş Ştatları
hissə
ox
siz
flicks
həqiqətən
fiqurlu
ortasında
nöqtə
qəribəlik
başlamaq
az
parça
məna
hələ
tapmaq
alt
xətt
kino
həmişə
əmin
verilmiş
g

göz yumur
mövzu
istismar
istehza
yeddi
katib
andrew
kevin
görmə
lane
məhdud
rrated
hollywood
məhsul
parçalarını
örtüyü
sonra
joaquin
phoenix
whos
uzaq
adult
kitab
max
california
örtük
qorxulu
Filtrelenen
tanış
nazil
cinsi
həqiqətən
canavarlar
hər gün
nə
super
qorxunc
bayağılıq
dəqiq
hiss
werent
doqquz
gülür
ay
dəhşətli
Cənab
hugh
qrant
böyük
istinadən
bugs
zəhlətökən
adam
jim
göz
sinir
smiles
slapstick
çatdırılması
otaq
zirvəsidir
qrantlar
joan
cusacks
ödənilmiş
daxil
ədəbsiz
ikiqat
aydın
hamilə
boy
pencək
yenə
mübadilə
kökə kəsicisi
orijinallıq
yumor
uğurlu
uşaq
psixiatr
psixoloq
bilər
Inject
unfunny
oğlaq
dads
göt
eyelashes
təkliflər
smile
cavab verir
ingilis
vurğu
münasibət
bəlkə
yanaşı
daxildir
ehtiyacsız
axmaq
zarafatlar
olds
hər kəs
shakes
hər halda
tapıntılar
adi
reaksiya
mümkün
doğuş
tıxac
kitab
dostlar
dost
arnold
təmin edir
məzəli
beats
kostyumlu
Arnie
dinozavr
çəkmək
paralellər
oyuncaq
mağaza
jeff
Goldblum
qorxulu
hideaway
rəssam
qorxu
arzu
öhdəlik
həkim
son vaxtlar
switch
d

çat
öldürücü
maşın
pöhrə
güzgülər
fond
maraqlı
yuva
yumurta
cənnət
qoy
park
graham
greene
Schroeder
fasilə
bəxt
bmovies
york
Xortdan
son
opus
var
gəzinti
güman
getdi
Elsəs
bmovie
sıçrayışlı
storyline
sərhədləri
gic
xaotik
hərəkətsiz
Martians
awakened
malik
ürəyisınıq
kolonistləri
marilyn
manson
lookalikes
məsləhət
rəsmi
melanie
natasha
Henstridge
sub
növ
zabit
INCARCERATED
ikinci
sarışın
çıxardı
kip
yöndəmsiz
buz
kub
pam
GRIER
qısa
wonder
ev sahibi
Əlavələr
Buna görə də
çekim
sprawling
paytaxt
stateoftheart
marka
writerdirector
tapıntı
şöbə
bağlamaq
gülə-gülə
çəllək
etmək
kirli
daxili
cluttered
xarici
mənasız
çoxlu
scarred
əcnəbilər
silah
hərb
gic
villains
sərhəd
münaqişələr
shootouts
minus
darıxmaq
dublyaj
Bizdə
məzun
təsirli
qol
işıqlandırılması
screeching
gitara
xoşbəxtlikdən
drowns
deyil
eşidilən
qiymətsiz
sübut
heyvandarlıq
torpaq
h
KILMER
Acınacaqlı
həftə sonu
Overshadowed
sequels
arasında
qədər
qamış
olmayan
istinadlar
dəst
torpaq
yaxın
qonşu
əldə
sillə
ayaq
saxlayır
ecazkarcası

keyfiyyətlər
hekayətçi
nəfəssiz
Amerika
sevir
rahatlığı
uydurma
sevimli
uzaq
çətin
dırnaqlar
eskadra
almaq
sınaq
yoldaşlar
komandir
şəhərlər
sakinləri
Slaughtered
qalan
pəncə
dolu
arıq
storytelling
flashbacks
dəyişikliklər
dolaşıq
tikilmiş
xəstə düşdü
anlaşılmaz
dik
sadəlik
yarıb
pages
zombi
dayandırma
qarşılıqlı əlaqə
inkişaf
nadir
streetwise
dinamit
müqayisə
bronx
kazanılmış
qaranlıq
rahat
verir
ağır
zirehli
daşıma
əlçatan
tüfəng
səyahət
fəth
stansiya
təchizat
dayaq
narkotik
zəmanətli
dərs
qurban
atom
guns
Dəstəyin
partlayışlar
paket
əsgər
müəyyən edir
ridiculously
şimal maralı
qələmə aldığı
şərəf
Kruger
scream
örnək
oğru
çoxşaxəli
mühəndis
əlaqəli
cəfəng
Deems
çətin
masalar
cəza
mükafat
envision
mý
ck
domkrat
göt
deşifr
Invest
dəyişdirmə
Qaydalar
müəllif
mənfur
küləklər
iddia
orijinal
birbaşa
ol
ləl-cəvahirat
cins
stunned
həyata
Hal-hazırda
dəb
screenplays
üçün
tez-tez
mickey
şirkət
imzalanmış
qarşıdakı
layihələr
müvafiq
Miramax
etiket
artistcəsinə
cəsarətli
freddie
Prinze
fellow
ca

dəhşətli
tərəqqi
işçi
stumbles
kəşf
icma
yaradan
vəhşi
nəzarət
insanlar
tir
yaradıcılığının
almaq
sahə
boynuburuq
bəraət
üsyançı
Incorporate
yay
əmtəəlik
real
apes
Evlerde
essensiya
həyata
aşağı
uçan
inkpot
yayım
creaky
olma
gotcha
güclü
kamillik
uzun
bitli
xəstə
ralph
Fiennes
Schindler
siyahı
kavrama
yaddaşsızlıq
burns
ii
italy
juliet
atlı
dam
tibb bacısı
ilə
inkişaf
subplot
william
Dafoe
thomas
ağır
yaralı
qəza
ölmüş
mağara
geri
uçdu
cazibədar
əməlli
səhra
dəyərsiz
cansıxıcılıq
arakəsmələr
limey
uninvolving
təsvir
elmore
leonard
palıdı
qısa
lət
qeyri-xətti
centlmen
Terrence
excon
qızırqamaq
soyğun
axtarmaq
intiqam
jenny
hallar
ölüm
valentine
satqın
rekord
dəhşətli
qızıl
Sevgililer
iqamətgah
təsirli
məskən
dağlar
sneaks
qəbulu
qarışdıracaq
daxilinə
təsadüfi
aşkar
xülya
hackneyed
brooding
səthi
proses
paycheck
kopya
qəsdən
sloppy
altmışlı
icon
hədələyici
qocalma
boy
underrated
usta
çatdırılması
ifadə
Soderbergh
tutuquşu
images
miqdar
nil
edilir
əsasları
jurnallar
görkəmli
Sheedy
mitche

qeydlər
daş
adaçayı
buy
geniş
Staring
qədər
drifter
çətinliklər
başlıq
şlanq
arizona
inbred
mexaniki
yemək
lüzumsuz
shiny
lopez
dəvət
daxili
graces
jake
fırtına
yoxla
konvensiya
qanlı
gerek
təbrik
kukla
qərb
dini
Dahl
fenomenal
cəzb
gals
russ
meyer
qızmış
tərli
Schwarzenegger
çox
qayahörümçəyi
vultures
yerüstü
güzəşt
doc
narahatlıq
mərhəmət
alternativ
hiylə
ifşa
məbləğlər
Nolte
karikaturalar
reaksiya
texnika
dəyişkən
pis
rəng
bağışlanmaz
iyləmək
sərhəd
JFK
Nixon
büdcələr
şıllaq
dəli
damcı
cib
həbsxana
çevirmək
roman
yaşıl işıq
ağ
fantastika
gildiya
məhbus
tək
davranış
fəndgir
dayandırmaq
nail olmaq
bəşəriyyət
təhlükə
psychlos
rap
məskunlaşmaq
mağara
Şirkətin
Rockies
Demons
resursları
baza
denver
yaramaz
Jonnie
Goodboy
qabiliyyətlilik
bibər
müəssisələr
təhlükəsizlik
cəld
məruz
damar
qul
psychlo
təlim
uçmaq
bağlayır
obnoxious
ibadət
icarəyə
dune
qaçan
Stargate
dutch
başlıqlı
silmək
jamaican
klinqon
kontur
Travolta
ekspertlər
inkişaf
wallace
azadlıq
Convinces
tədris
nail olmaq
tools
rober

cinayətlər
baş
oxşarlıqlar
Şirkət
müstəntiqlər
artıq
Forsythe
narahat
anybodys
ən yaxşı
tackles
qığılcım
claudia
lauren
holly
yaxşı
jovi
qırdı
evlənmək
Claudias
alov
şərhlər
məmləkəti
məhəl qoymamaq
blythe
təşkil
səhvlər
doxsan
ego
Abdülməcid
riqqətlə
qərarları
böyük
təsirsiz
murphy
metro
Dolittle
müqəddəs
Bowfinger
azalıb
washedup
omuz
Klumps
sherman
universitet
imkan verir
jackson
seçir
mat
əsr
yaşayır
güc
can
səbəbləri
imitasiya
vaughn
Gut
şıq
qarşısını almaq
döşlər
momentum
sik
erir
əyar
yumşaq
qıraq
keçid
Weitz
Funniest
bərpa
xarakteristikası
donuz
nənə
zovq
atəş
qeyri-qənaətbəxş
ünsiyyət
mənfilik
səssiz
bənzəyir
başlıq
etibarsız
köçürür
acizlik
dangalak
geri
neqativlər
yağışına
binalar
rəsm
çörəkçi
werewolf
london
qarşılıqlı
məhəllə
palma
carrie
ekspertiza
sui-qəsd
dair
fantastik
drops
simasız
unlikeable
noone
kafes
dəhşətli
artırmaq
dəfn
bataqlıqlaşmışdır
qamaşdırmaq
tərk
newcomer
qızğın
yol
hewitt
nightmarish
xatirələr
konsentrat
kölgələri
STROB
işıqlar
rezin
slicker
çəngəl
ov


əhəmiyyətli
ekvivalent
beattys
qaz
believability
geniş
televiziya
Təşəkkür
Yosef
müşavir
ağac
montaj
dərin
köçürmək
kəskin
əsərlər
zərgər
top
təkamül
iştirak
tidbits
ağıllı
azalıb
razılaşdırılmış
əvəz
şıltaq
iddia
nəşr
bərk
əlavə
ibarətdir
kobud
bildirmək
stereo
praktik
highprofile
bullock
nicole
kidman
Gillian
owens
STOCKARD
qiyamçı
sibling
təhqiramiz
viran
əlacsızlıq
Bahçe
messy
əks
daimi
Akiva
Goldsman
qrif
sevmədiyi
burton
Scissorhands
yuxulu
kəşfiyyat
Burtons
ICHABOD
kran
Depp
qalabəyi
elmi
üstlərinə
decapitated
başsız
cinayətləri
Ricci
marc
forgivable
məhsullar
fahişəliyə cəlb edilməsi maddələri
eskiz
boo
müəmmalı
zəmanət
cartoonish
landau
düşdü
Coppola
qotik
böyürtkən
ocaqçı
dracula
Frankenstein
Coppola
əks etdirir
qarışıqları
Çevrilmiş
annie
hər
Blanchett
mübarizə
georgia
həll
psixi
bouts
fiziki
mühafizəkar
taşra
ifadəsində
məhkəmə
redneck
donnie
amerikalı
müəyyən
səbəbləri
vəsf
hissələri
forewarned
MGM
planlaşdırma
eyni
maliyyə
fərqli
kingsleys
dəbdəbəli
şəkk
vermək
Medak
Bran

Shawshank
pensiya
alt
balans
rainstorm
şərait
oğrular
qarşı
baddies
təsir
müraciət
ele
cəsarət
adları
mənimsəmiş
crummy
əsaslı
təkan
tamahlandırıcı
basırıq
tag
savadlı
faciəvi
Jacksons
axın
fırıldaqçılıq
qorxutmaq
key
Rube
contraption
kövrək
biseksual
sahib
ev sahibliyi
ilik
data
paranoid
hazırlanmış
dözülməz
marşlar
dəyirmi
meyl
xəndək
qaş-göz etmək
etmək
vətəndaş
əlavə
məmnuniyyətlə
akademik
yemi
fənlər
etiraf
risklər
ovma
jodie
faydalı
obsessively
xarici
geniş
locations
məhdudlaşmır
səksən
marketing
körpü
sübut
xidmət
olmadan
asan
frighteners
qayalı
Edutv
yaxında
christ
yaxınlaşdığını
döyüşçüləri
Tyson
bölünür
davranışsız
əzələ
təyin
Çər
uncomfortably
möhkəm
konversiya
austin
shagged
hitchhiker
boksçu
üstünlük
amil
inkar
wellchoreographed
yönləndirilib
çıxdıqda
biblical
deyil
almaq
KJV
maneələr
ifadə
yetkinlik
mənəvi
dərinliyi ölçmək
hesablanması
ferociously
sığorta
məqsədləri
kompliment
entrapment
şantaj
nefes
unspectacular
sürünərək
tunel
fotoşəkil
slaydlar
altda
şüaları
qanad
Rha

Howling
ifaçı
qərar
tövsiyə
etibarən
cəlbedici
qurur
nailiyyət
ağır
Beans ts
Mamet
oyadan
mutasiya
yaradıcıları
qurbağa
zərbə
çevirmək
inkişafsız
yuxusuzluq
dindar
transformasiya
görünüş
windows
dumber
unwatchable
Byrnes
st
Vatikan
xülyaçı
vıjıltı
atdırmaq
qapıları
dairə
nyc
qeyd etmək
pollack
tavan
xəbərdarlıq
xilas
düşmə
Arnolds
yaşanır
bağışladım
bomba
metro
kilsə
qarşıdurma
mariah
parıltı
gruesomely
inexplicably
chicks
jarqon
billie
julian
deyir
Niro
sürətli
roller
sahil gəmisi
gözyaşlı
nərmə-nazik
wideeyed
dondurulmuş
balans
cəfəng
Barbie
demo
sübut
Afişa
istehlakçı
tələb
nehrə
həcm
bərabər
horrendous
təklif
dırmıq
engrossing
həkim
ilə
yamalar
straightlaced
Gunton
goofiness
fayl
xoşbəxtlik
yetmişli
Klinika
güclü
əhval
xəyali
hardy
uşaqlar
pərdələr
ehtiraslı
sədaqət
messages
doğurur
einstein
hogan
yahoo
azadlıqları
yeniden
yüksək
Köpük
üfunət
sherlock
holmes
sophomoric
Hattie
sid
TURPIN
windsor
Butterworth
kənd
quruluş
quldurluq
baş
desmond
idmançı
Jock
ser
bernard
bresslaw
şübhəli

təzyiqlər
psixoloji
maliyyə
hüquqi
xırdaca
tanınmış
ewan
HighTech
qanunsuz
öldürmək
trigger
dumanlı
faks
e-poçt
kefləndirici
stephan
təşkilatları
Fond
yalnız
portfel
gendən
abort
crammed
wigs
konteyner
tying
qanunlar
qlobus
sharks
fleshed
qeyri-ruhani
hisslər
ixtiraçılıq
of
öküz
import
sayəsində
mənzərə
qaynadılmış
zail
dumbed
siqar
yaxşı hiss etmək
darren
diş
judith
peet
gələnlər
Darrens
ər-arvad
dominant
istədi
bal gücündə
büt
childlike
Farley
makings
Intim
fleming
Quinns
Ernie
qadın
çam
süst
müəssisə
atelye
iq
oblivion
münkircəsinə
rahiblərini
qaniçən
inkvizisiya
sayar
Buffy
port
rican
saqqallı
üstdə
qəzet
sütun
qarşısını almaq
rebecca
acerbic
ehtiraslı
qarnıtox
pozğunluq
əldə
asılı olmayaraq
karnaval
tələsmək
bayır
oftentimes
Həssas
cross
hazırlıq
pedro
almod
sataşmaq
xəstəlik
Braziliya
garson
qarşısıalınmaz
azad
figuring
musiqiçilər
charmed
ərköyünlük
qəşəng
çempionat
Gordie
Boggs
WCW
nitro
Promoter
Titus
sinclair
Bischoff
atlanta
güləşçiləri
BRET
garth
alqışladı
eşşək
idman
outta

fəlakət
şəbəkələr
rəqabət
dinozavrlar
mutated
B
claude
vega
əsasları
Julias
Scotty
İş qrafiki
Oyanış
sayıqlamaq
rome
fellinis
yetim
şənlik
konsentratları
yerinə yetirmək
qulaq
nişanlı
oturmuş
hörümçək
əmrləri
Blueprint
taplitz
əlil
bolt
versa
Courteney
Lapaglia
seths
faciələri
orijinal
machinations
Higkonsept
müvəkkil
comeuppance
sonsuz
fantastik
intibah
Jawbreaker
qorxulan
klik
courtney
Marcie
benz
ayıdöşəyi
may
greer
makeover
gözəl
honlanmış
muchneeded
Tünd
feat
uzunluğu
tibet
miniatür
bəbir
məbəd
sahibkar
sui
gezmek
iztirab
çaba
iyirminci illər
ləzzətlə
thickens
nəvə
Baba
miras
cranky
eksiklikleri
Geoff
Lizs
haqqında
enərkən
hiss olunan
zidd düşən
parlaq
nəsillər
Şükran günü
aşiq
inc
dulus
dəqiqlik
Emmanuelle
deşmək
limanlar
yarışmaq
kəhrəba
bullies
savadsız
diaries
Vay
tətbiqi
Hellraiser
həssaslıq
müraciət
neill
skeleti
McConaughey
dərslər
xəbərdarlıq
Leatherface
scariest
dodaq boyası
qələbə
qərargah
müdafiə
baxımsızlıq
dolay yol
freaky
vahid
təklik
storylines
drifts
Pacinos
canlı


sergio
evocative
oyanır
korkunç
əməkdaş
yürüşləri
rhea
Odette
Sevigny
rabitə
nina
inanmaq
yerdə
ronald
səbirlilik
çəkinmək
hoqqa çıxarmaq
teologiya
fasilə
sidetracked
ilgi çekmeye yönelik
fərqli
qaşıq
tieins
təmtəraqlı
siçan
lazımdır ki,
Cavanaugh
nağıl
overused
Magda
pratfalls
babes
scarface
qəza
təcrübəli
intrigued
kələ-kötür
NESMITH
imza
fasiləsiz
blockbusters
abırsızlıq
müraciət
təlqinedici
sculptress
straighttovideo
oba
geyim
qabarıq
albom
rants
kartof
ballistik
ardıcıl olmayan
Melvin
gözlük
ağılsızlıq
valyuta
qərb
avery
Melvins
single
görmək
flopped
Regan
əzab
fletcher
Boorman
təşkil
əlavə
məzuniyyət
cəlb
kinoteatr
Brackett
poetik
nifrət
blah
süresi
welltodo
Qonaqpərvərlik
yataq otağı
MARTHAS
sarf
ata
sallanan
bağlanması
müdafiəçinin
dağ
acı
Lovitz
gangsta
Bunz
Luchon
nikki
Nikkis
lateks
sənətkarlıq
qarıxdırıcılıq
hyperactive
təcrübəsizlik
ifadə
tərəddüdlü
nikbinlik
əkiz
jeanne
naviqasiya
jittery
köçürmək
fəaliyyət
səbəb
təfsir
Slapped
Yakuza
gömrük
qoşulma
eyham
istehsal
şirəli


fala
rəng
baxan
manipulyasiya
yaxşı öğreten
geniş
əvvəlcədən
ayıq
davranış
smarts
fitri
şişmək
vəz etmək
xərac
modelləşdirmə
gündüz
dram
torpaq
başgicəllənmə
mommie
istəkli
salnamələr
tüklü
təraş
amerikalı asialı
məzlum
kohort
loren
Grodin
talvar
Danson
qənimət
bal
kartof
qazma man
xaç
portal
katana
resurrected
axır
nəqliyyat şəbəkəsi
cəld
ötüb
caped
Jekyll
fizzles
güc
fabulously
bildirilir
dəfinə
Henson
piggy
sövq
barks
Serendipity
brokedown
qarşılıqsız
istiqamətini dəyişmək
hectic
murad
french
radiasiya
Zeist
ramirez
üsyan
vızıldama
wyatt
Earp
Wyatts
dastanlar
rahat
yapıştırılmış
tatlı
RapidFire
comingofage
Vodka Island
nişanlar
təhqir
çəyirdək
təmsil
Hawke
tapmaq
var
Dinsmoor
Estella
raquel
nəzərdən qaçırmaq
hestons
əshabının
Roddy
McDowall
corky
batmaz
Falk
Paulie
blucas
nasos
chad
tatyana
cəsarət
Conaway
sylvia
chang
yalnız
emal
ev
indulges
doğru
hesab
tənəzzül
Faking
qızartmaq
tarak
rafael
saxlayır
ərköyün
samantha
dominic
şairlər
iqlim
eskizlər
ciliklənmiş
gigs
bilinçaltı
marys


Meryl
Streep
bahalı
mənzərə
irvings
balet
Caviezel
Dorff
tərcümə etmək
accolades
Seahaven
Niccol
sorğu
canlı
incəlik
ethereal
tearjerker
Facehugger
sarajevo
ictimai
henderson
dillane
əmir
qabarıq
bombaladı
təhlükəsiz
televiziya
stephane
camille
dözülməzlik
bacarıqla
vergi
COYLE
immerses
şagird
Yeoh
matç
bandit
kral
vasitəsilə
crazybeautiful
giles
bədbəxtlik
ronnie
dartmaq
monroe
millətlərarası
Hobbes
Azazel
Tətil
Davidtz
cəsarətli
UDALL
Stealer
afterglow
Marianne
Phyllis
uyğunluq
tolerantlıq
kimbles
Robby
böceği
qaranlıq
rəng
təngnəfəslik
əməkdaşları
Pixar
notoriously
neednt
funnest
Brean
təzyiqə məruz
motss
Fourstar
təhlükəli
inandırıcı
DVD
çox
codirector
comforts
Hitchcockian
alimlər
sarsılmaz
diqqətli
Springsteen
russia
grownups
lətifələr
failsafe
kommunizm
bombers
groeteschele
Falter
balkon
patti
həzin
yorğan
bittersweet
yaxşı dairəvi
Schwartzman
Griffiths
soğukluk
antiwar
rəngli
Texan
daytoday
pub
iradə
leeloo
uşaq
larch
idealları
tərbiyəçi
məzuniyyət
qorxu görmədiyini
məhəbbətlə


In [17]:
with open('positive_words_az.txt', 'r', encoding = 'utf-8') as f:
    text = f.read()
    print(text[:95])

əla
böyük
gözəl
yüksək
geniş
yaxşı
səmimi
məşhur
maraqlı
sevdim
səviyyəli
gülməli
sevimli
super


In [20]:
with open('negative_words_az.txt', 'r', encoding = 'utf-8') as f:
    text = f.read()
    print(text[:91])

səviyyəsiz
maraqsız
mənfi
şit
əxlaqsız
peşman
iyrənc
mənasız
bəyənmədim
pisdir
heyf
əttökən


Running the example saves two new files, negative.txt and positive.txt, that contain the
prepared negative and positive reviews respectively. The data is ready for use in a bag-of-words
or even word embedding model.

<hr>

Copyright &copy; 2020 Nijat Zeynalov. Some codes has been taken from Jason Brownlee. The notebook are released under the terms of the [MIT License](https://bigdatauniversity.com/mit-license/).