## Generatív modellek: Naive Bayes (NB)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.utils import shuffle
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

import re

import warnings
warnings.filterwarnings('ignore')

### Adatok beolvasása
A spam.csv e-mail szövegeket tartalmaz, hozzájuk tartozóan pedig a bináris osztályt, mely szerint spam (kéretlen) vagy ham (kért) üzenetről van-e szó.

A modellezés célja olyan természetes nyelv felismerőt felállítani, amely képes eldönteni, kéretlen e-mail-t kaptunk-e.

In [None]:
df = pd.read_csv('spam.csv', encoding='latin')
print(df.shape)
df.head()

### Átalakítás-vizualizáció

In [None]:
df.drop([x for x in df.columns if 'Unnamed' in x], axis=1, inplace=True) # Unnamed oszlopok eldobása
df.columns = ['class', 'text'] # Oszlopnevek átalakítása

plt.figure(figsize=(12,12))
df.groupby('class').count().plot.bar(ylim=0)
plt.show()

### Töltsük le az angol nyelvben taláható felesleges szavakat, mint az "is", "at"
A stopszavak olyan szavak, amelyek nem hordoznak olyan jelentést, ami egyedi lenne az adott osztályra.

In [None]:
nltk.download('stopwords')

### Előfeldolgozás

In [None]:
stemmer = PorterStemmer() # Ugyanazon szavak más alakú előfordulását lecsökkenti, pl. "argue", "arguing", "argued" 
words = stopwords.words("english")

df['processedtext'] = df['text'].apply(lambda x: " ".join([stemmer.stem(i) for i in re.sub("[^a-zA-Z]", " ", x).split() if i not in words]).lower())

print(df.shape)
print(df.head(10))

### Train-test szétválasztás

In [None]:
target = df['class']

X_train, X_test, y_train, y_test = train_test_split(df['processedtext'], target, test_size=0.30, random_state=100)

print(df.shape); print(X_train.shape); print(X_test.shape)

### Szavak vektorizálása: a szavak előfordulását gyakorisági vektorokká alakítja

In [None]:
# TF: Term-frequency: normalizált gyakoriság az egész dokumentumban
# IDF: Inverse Document Frequency: Csökkenti azoknak a szavaknak a súlyát, amik dokumentum-szerte mindenhol előfordulnak
vectorizer_tfidf = TfidfVectorizer(stop_words='english', max_df=0.7)

train_tfIdf = vectorizer_tfidf.fit_transform(X_train.values.astype('U'))

test_tfIdf = vectorizer_tfidf.transform(X_test.values.astype('U'))

print(vectorizer_tfidf.get_feature_names()[:10])

print("Train dimenziók:", train_tfIdf.shape)
print("Test dimenziók:", test_tfIdf.shape)

### Osztályozó létrehozása, tanítása és predikció

In [None]:
nb_classifier = MultinomialNB()

nb_classifier.fit(train_tfIdf, y_train)

pred2 = nb_classifier.predict(test_tfIdf) 
print(pred2[:10])

### Metrika 

In [None]:
accuracy_tfidf = metrics.accuracy_score(y_test, pred2)
print("Accuracy:",accuracy_tfidf)

Conf_metrics_tfidf = metrics.confusion_matrix(y_test, pred2, labels=['ham', 'spam'])

In [None]:
def plot_conf_mtx(metrics_mtx):
    plt.figure(figsize=(5,5))
    confusion_matrix_df = metrics_mtx

    heatmap = sns.heatmap(confusion_matrix_df, annot=True, annot_kws={"size": 20}, fmt="d") # Korrelációs mátrix 
    heatmap.yaxis.set_ticklabels(heatmap.yaxis.get_ticklabels(), rotation=0, ha='right', fontsize = 14) 
    heatmap.xaxis.set_ticklabels(heatmap.xaxis.get_ticklabels(), rotation=45, ha='right',fontsize = 14)

    plt.ylabel('True label', fontsize = 14)
    plt.xlabel('Predicted label', fontsize = 14)
    plt.show()

plot_conf_mtx(Conf_metrics_tfidf)

### Próbáljuk ki ugyanezt az eljárást egy véletlen-erdővel (Random Forest)!
A véletlen erdő egy együttes tanulási eljárás, amely training közben hoz létre döntési fákat. Előnye, hogy kevés konfigurációval mélyebb belátást biztosít az adatokban rejlő kapcsolatokra.

In [None]:
classifier = RandomForestClassifier(n_estimators = 10, criterion = 'entropy', random_state = 100)

classifier.fit(train_tfIdf, y_train)

### RF osztályozó kiértékelése
Melyik teljesített jobban?

In [None]:
predRF = classifier.predict(test_tfIdf) 
print(predRF[:10])

# Számoljuk ki a pontosságot
accuracy_RF = metrics.accuracy_score(y_test, predRF)
print("Accuracy:", accuracy_RF)

Conf_metrics_RF = metrics.confusion_matrix(y_test, predRF, labels=['ham', 'spam'])
plot_conf_mtx(Conf_metrics_RF)