In [11]:
import numpy as np
import random
import csv

data = []

# Betöltés
with open('data.csv','r', encoding="utf-8") as f:
    csvreader = csv.DictReader(f)
    for item in csvreader:
        data.append([ item['DATE'], item['AUTHOR'], item['CONTENT'], item['CLASS'] ])

# A 'data' tömb elemei: ['dátum string', 'szerző', 'komment', 'osztály cimke ('0': nem spam, '1': spam)']
        
# Train/test szétválasztás
split = 0.7
data = np.asarray(data)
perm = np.random.permutation(len(data))

train = data[perm][0:int(len(data)*split)]
test = data[perm][int(len(data)*split):]

print('Train set: ', np.shape(train))
print('Test set: ', np.shape(test))

# Buta osztályozó
def dumb_classify(data):
    threshold = 0.3
    if random.random() > threshold:
        return '1'
    else:
        return '0'


# Használd a 'train' adatokat az osztályozó módszer kidolgozására, a 'test' adatokat kiértékelésére!
# Lehetőleg használj gépi tanulást!
# Dokumentáld az érdekesnek tartott kísérleteket is!

# Példa kiértékelés 'recall' számításával. 
# Kérdés: Milyen egyéb metrikát használnál kiértékelésre és miért? 

# Kibővítve

sum_positive = 0
# True Positive
found_positive = 0
sum_negative = 0
# True Negative
found_negative = 0

false_negative = 0
false_positive = 0

for datapoint in test:
    if datapoint[-1] == '1':
        sum_positive += 1
        if dumb_classify(datapoint) == '1':
            found_positive += 1
        else:
            false_negative += 1
    else:
        sum_negative += 1
        if dumb_classify(datapoint) == '0':
            found_negative += 1
        else:
            false_positive += 1
            
# A Recall megmutatja hogy az osztályozó mekkora eséllyel ismeri fel a releváns elemeket   
rnd_rec = found_positive / sum_positive
print('\nRecall:', rnd_rec)

# Egyéb metrika:

# Precision
# Ez a metrika mutatja hogy az osztályozó mely esetekben ismerte fel helyesen a relevánsnak talált elemeket
rnd_prec = found_positive / (found_positive + false_positive)
print('Precision:', rnd_prec)

# F1 score
# Ez mutatja hogy milyen jól teljesít osztályozó az összes elemet figyelembe véve
rnd_f1 = 2 * (rnd_prec * rnd_rec) / (rnd_prec + rnd_rec)
print('F1 score:', rnd_f1 )

Train set:  (1367, 4)
Test set:  (586, 4)

Recall: 0.7272727272727273
Precision: 0.5295508274231678
F1 score: 0.612859097127223


# Első kísérlet: SVM

In [13]:
# X és y előállítása
# X a tanuló adatokat tartalmazza
# A nekünk fontos adat a kommentek szövege (CONTENT)
# y a klasszifikáció, jelen esetben hogy spam-e vagy nem (CLASS)

train_X = []
train_y = []
test_X = []
test_y = []

def loader(dataset, A, b):
    for item in dataset:
        A.append(item[2])
        b.append(item[3])
    
loader(train, train_X, train_y)
loader(test, test_X, test_y)

# SVM

from sklearn import metrics, svm
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformer

# Pipeline segítségével összefűzhetjük a szükséges átalakításokat
# Jelen esetben a kommenteket fel kell bontani szavakra (tokenizálás) és ezeknek a szavaknak a vektorára van szükség
# Ezután megvizsgáljuk az egyes szavak gyakoriságát
# Az SVM ezek segítségével egy olyan modellt alkot meg ami azt vizsgálja, 
# hogy milyen szavak fordulnak elő gyakran a spam kommentekben

# A modell betanítása
def train_svm(kernel="linear"):
    model_pipeline = Pipeline([('cnts', CountVectorizer()),
                               ('tfidf', TfidfTransformer()),
                               ('clf', svm.SVC(kernel=kernel, random_state=42))])
    
    model_pipeline.fit(train_X, train_y)
    
    return model_pipeline

# A modell alkalmazása
# Itt a tanítóhalmazon betanított modellt alkalmazzuk a teszthalmazra
def test_svm(kernel="linear"):
    model = train_svm(kernel=kernel)
    predictions = model.predict(test_X)
    
    return predictions

# Metrikák
print(metrics.classification_report(test_y, test_svm("linear")))

             precision    recall  f1-score   support

          0       0.95      0.97      0.96       278
          1       0.97      0.95      0.96       308

avg / total       0.96      0.96      0.96       586

