In [26]:
import pandas as pd

dataset = pd.read_csv('./dataset.csv', 
                    header=None, 
                    names=["Comment", "Movie" ,"Bool"])

dataset = dataset.tail(-1)
dataset = dataset.drop("Movie", 1)

dataset = dataset.sample(frac=.01, random_state=1).reset_index(drop=True)

dataset.head()

Unnamed: 0,Comment,Bool
0,\n ben bu kadar güzel bir...,50
1,"\n En yakın dostumun ""Eşş...",40
2,\n son zamanlarda seyrett...,5
3,\n yer yer samimi ve amat...,25
4,\n Klasik korku içermeyen...,20


In [16]:
def map_points(x):
    x = float(x.replace(',', '.'))
    if x < 3.5:
        return False
    else:
        return True
def clean_values(x):
    x = x.replace('\n', ' ')
    x = x.replace('\W', ' ')
    x = x.lower()
    return x

dataset['Bool'] = dataset['Bool'].apply(map_points)
dataset['Comment'] = dataset['Comment'].apply(clean_values)
dataset['Comment'] = dataset['Comment'].str.split()

dataset.head()

Unnamed: 0,Comment,Bool
0,"[ben, bu, kadar, güzel, bir, film, ne, zamandı...",True
1,"[en, yakın, dostumun, ""eşşek, kadar, adam, old...",True
2,"[son, zamanlarda, seyrettiğim, en, kötü, film,...",False
3,"[yer, yer, samimi, ve, amatör, tadıyla, hafif,...",False
4,"[klasik, korku, içermeyen, kanlı, bir, film, b...",False


In [17]:
vocabulary = []
for comment in dataset['Comment']:
    for word in comment:
        vocabulary.append(word)
# zayıflıklardan biri datasetin temizlenmesine çok bağlı
vocabulary = list(set(vocabulary))

# datanın temizlenmesi ve sözlüğün oluşması burada bitiyor

print(vocabulary)

['döktürüyor.', 'gülebileceği', 'western', 'tanrıyla', 'nefret', 'istiyorum.1963', 'sunulan', 'filimdi.', 'tablet', 'kopyası', 'mükemmeliyete', 'çıkardılar', 'sıkkınken,arşivimde', 'ortanın', 'övgü', 'seferde', 'önemsemeyebiliriz.biraz', 'misin?', 'muazzamdır..', 'sevenlerin', 'kanaatimce.', 'başbaran', "eylül'de", 'olmuş', 'bırakıyor.', 'etkilerinin', 'becerdiklerine', 'dar', 'olacak,', 'bekledim', 'yurtdisina', 'uyguladığı', 'insanlık', 'arkası', 'tedavi', 'uzatmışlar', 'buzz', 'ama...).ayrıca', '6.7/10', 'ediyorum.', 'carrell', 'doğruloğlu', 'düşünü', 'reed', 'olalim', 'sade', 'damme’ın', 'güzelliklerden', 'roosevelt', 'trkiyede', 'etsinler', 'tip', 'basite', 'desem', 'yazıyla', 'alıyorsunuz.', 'kardeşimi', 'işte..', 'sıfır', 'saplantıya', 'hakimiyetiyle', 'diebilirim', 'yoremiz.sivesine', 'hindistanın', 'rastladığımız', 'i̇kimiz', 'ce5lioglu', 'verir', 'oyunculuk,', 'daginik', 'film..gercekten', 'royali', 'canlandırmışdım......', 'çalıntısı', 'konusu.', 'kılıcı', 'verebilirsin.', '

In [18]:
# frekans tablosu oluşturuyoruz
word_counts_per_comment = {unique_word: [0] * len(dataset['Comment']) for unique_word in vocabulary}

for index, comment in enumerate(dataset['Comment']):
    for word in comment:
        word_counts_per_comment[word][index] += 1

word_counts = pd.DataFrame(word_counts_per_comment)
word_counts.head()

Unnamed: 0,döktürüyor.,gülebileceği,western,tanrıyla,nefret,istiyorum.1963,sunulan,filimdi.,tablet,kopyası,...,olanaksız,sabırla,bezdirici,-belki,dövüşü,'güven,cekerdim,kasaba,kapatabilirsiniz,kesit
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [19]:
dataset_joined = pd.concat([dataset, word_counts], axis=1)

dataset_joined.head()

Unnamed: 0,Comment,Bool,döktürüyor.,gülebileceği,western,tanrıyla,nefret,istiyorum.1963,sunulan,filimdi.,...,olanaksız,sabırla,bezdirici,-belki,dövüşü,'güven,cekerdim,kasaba,kapatabilirsiniz,kesit
0,"[ben, bu, kadar, güzel, bir, film, ne, zamandı...",True,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,"[en, yakın, dostumun, ""eşşek, kadar, adam, old...",True,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,"[son, zamanlarda, seyrettiğim, en, kötü, film,...",False,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,"[yer, yer, samimi, ve, amatör, tadıyla, hafif,...",False,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,"[klasik, korku, içermeyen, kanlı, bir, film, b...",False,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [25]:
import numpy as np

positive_values = dataset_joined[dataset_joined['Bool'] == np.bool_(True)]
negative_values = dataset_joined[dataset_joined['Bool'] == np.bool_(False)]

positive_percentage = positive_values.shape[0] / len(dataset_joined)
negative_percentage = negative_values.shape[0] / len(dataset_joined)

n_words_per_positive_message = positive_values['Comment'].apply(len)
n_positive = n_words_per_positive_message.sum()

n_words_per_negative_message = negative_values['Comment'].apply(len)
n_negative = n_words_per_negative_message.sum()

n_vocabulary = len(vocabulary)

alpha = 1 # laplace smoothing

527


In [7]:
parameters_positive = {unique_word:0 for unique_word in vocabulary}
parameters_negative = {unique_word:0 for unique_word in vocabulary}

for word in vocabulary:
    n_word_given_positive = positive_values[word].sum()
    p_word_given_positive = (n_word_given_positive + alpha) / (n_positive + alpha*n_vocabulary)
    parameters_positive[word] = p_word_given_positive

    n_word_given_negative = negative_values[word].sum()
    p_word_given_negative = (n_word_given_negative + alpha) / (n_negative + alpha*n_vocabulary)
    parameters_negative[word] = p_word_given_negative

In [8]:
import re
import nltk
from stop_words import stop_words

WPT = nltk.WordPunctTokenizer()
# Yukarıdaki rowları normalize etme işlemine de bu method uygulanabilir
# bir ara implente et.
def norm_doc(single_doc):
    # TR: Dokümandan belirlenen özel karakterleri ve sayıları at
    # EN: Remove special characters and numbers
    single_doc = re.sub(" \d+", " ", single_doc)
    pattern = r"[{}]".format(",.;") 
    single_doc = re.sub(pattern, "", single_doc) 
    # TR: Dokümanı küçük harflere çevir
    # EN: Convert document to lowercase
    single_doc = single_doc.lower()
    single_doc = single_doc.strip()
    # TR: Dokümanı token'larına ayır
    # EN: Tokenize documents
    tokens = WPT.tokenize(single_doc)
    # TR: Stop-word listesindeki kelimeler hariç al
    # EN: Filter out the stop-words 
    filtered_tokens = [token for token in tokens if token not in stop_words]
    # TR: Dokümanı tekrar oluştur
    # EN: Reconstruct the document
    single_doc = ' '.join(filtered_tokens)
    return single_doc

def norm_values(perc_positive, perc_negative):
    sum = perc_positive + perc_negative
    norm_positive = perc_positive / sum
    norm_negative = perc_negative / sum
    
    return norm_positive, norm_negative

def classify(message):
    message = re.sub('\W', ' ', message)
    message = norm_doc(message).split()

    p_positive_given_message = positive_percentage
    p_negative_given_message = negative_percentage

    for word in message:
        if word in parameters_positive:
            print("positive ", word, " ", parameters_positive[word])
            p_positive_given_message *= parameters_positive[word]
            
        if word in parameters_negative:
            print("negative ", word, " ", parameters_negative[word])
            p_negative_given_message *= parameters_negative[word]
    
    confidence = norm_values(p_positive_given_message, p_negative_given_message)

    if p_negative_given_message < p_positive_given_message:
        return True, confidence[0], confidence[1]
    elif p_negative_given_message > p_positive_given_message:
        return False, confidence[0], confidence[1]

In [9]:
classify("")

positive  iğrenç   5.095151962907294e-05
negative  iğrenç   0.0001572388851763041


(False, 0.3589319370679246, 0.6410680629320753)