<h1><b>Ο αλγόριθμος Logistic Regression</b></h1>
<p align="justify">Στην άσκηση αυτή θα μελετήσετε τον αλγόριθμο <i>logistic regression</i>, κατασκευάζοντας ένα σύντομο πρόγραμμα. Στην άσκηση αυτή θα χρησιμοποιήσετε τη βιβλιοθήκη της <i>Python Scikit-Learn</i>. Για τη διευκόλυνσή σας παρέχονται οι δηλώσεις των βιβλιοθηκών που θα χρησιμοποιήσετε καθώς και εντολές με κενά. Συγκεκριμένα, θα κατασκευάσετε έναν <i>ταξινομητή Spam μηνυμάτων SMS</i>. Τα δεδομένα που θα χρησιμοποιήσετε για την εκπαίδευση και την επικύρωση του μοντέλου, καθώς και πληροφορίες για αυτά μπορούν να βρεθούν <a href="https://archive.ics.uci.edu/ml/datasets/sms+spam+collection"><i>εδώ</i></a>.</p>
<p align="justify">Καλείστε να αναπτύξετε ένα πρόγραμμα, το οποίο:</p>
<ul>
<li>Θα φορτώνει τα δεδομένα από το αρχείο <i>.csv</i>.</li>
<li>Θα διαχωρίζει με τυχαίο τρόπο τα δεδομένα που παρέχονται σε δεδομένα εκπαίδευσης <i>(training set)</i> και δεδομένα για τον υπολογισμό της ακρίβειας του μοντέλου <i>(test set)</i>.</li>
<li>Θα πραγματοποιεί προεπεξεργασία στα δεδομένα χρησιμοποιώντας τη μέθοδο <i>TfidVectorizer</i> της βιβλιοθήκης <i>Scikit-Learn</i>. Περισσότερες πληροφορίες για τη μέθοδο <i>TfidVectorizer</i>, που περιλαμβάνεται στις δηλώσεις του προγράμματος, μπορούν να βρεθούν <a href="https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html"><i>εδώ</i></a>. Να σημειωθεί πως η μέθοδος <i>TfidVectorizer</i> της <i>Scikit-Learn</i> αφαιρεί και τα σημεία στίξης, καθώς επεξεργάζεται το dataset.</li>
<li>Θα εκπαιδεύει το μοντέλο <i>logistic regression</i>.
<li>Θα υπολογίζει την ακρίβειά του πάνω στο <i>test set</i>.</li>
</ul>
<p align="justify">Για ποιους λόγους πιστεύετε ότι δεν είναι κατάλληλη η εφαρμογή της μεθόδου <i>linear regression</i> στο συγκεκριμένο πρόβλημα;</p>

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score

In [34]:
# read data / load csv file
df = pd.read_csv("./SMSSpamCollection", sep = '\t', header=None, names=['label','text'])
df = df.replace(['ham','spam'],[0, 1])
df

Unnamed: 0,label,text
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,1,This is the 2nd time we have tried 2 contact u...
5568,0,Will ü b going to esplanade fr home?
5569,0,"Pity, * was in mood for that. So...any other s..."
5570,0,The guy did some bitching but I acted like i'd...


In [57]:
N = len(df)
print(f"There distribution of spam (1) and non-spam (0) sms messages is:\nSpam (1): {df['label'].sum()} / {N}\nNon-spam (0): {N - df['label'].sum()} / {N}")

There distribution of spam (1) and non-spam (0) sms messages is:
Spam (1): 747 / 5572
Non-spam (0): 4825 / 5572


Όπως θα αναμέναμε οι δύο κλάσεις (spam και non-spam) δεν είναι balanced και τα δειγματικά στοιχεία του δείγματος που δεν είναι spam είναι πολλά περισσότερα από τα spam.

In [72]:
# split dataset
X, y = df['text'].to_numpy(), df['label'].to_numpy()
X_train_raw, X_test_raw, y_train_raw, y_test_raw = train_test_split(X, y, test_size=0.33)

In [73]:
# vectorize data
vectorizer = TfidfVectorizer()
Xtrain = vectorizer.fit_transform(X_train_raw)
Xtest = vectorizer.transform(X_test_raw)

print(f'X_train shape: {Xtrain.shape}\n'
      f'X_test shape: {Xtest.shape}')

X_train shape: (3733, 7082)
X_test shape: (1839, 7082)


In [74]:
# fit Logistic Regression model
clf = LogisticRegression()
clf.fit(Xtrain, y_train_raw)
preds = clf.predict(Xtest)

# calculate accurary based on test set
accuracy_score = clf.score(Xtest, y_test_raw)
print(f'The accuracy of the logistic regression model on the test set is {accuracy_score}')

The accuracy of the logistic regression model on the test set is 0.9755301794453507


Στο συγκεκριμένο πρόβλημα, προβλέπουμε μια ετικέτα (label) για την κλάση στην οποία ανήκει ένα sms message (spam ή non-spam), δηλαδή έχουμε binary classification και επομένως μια τεχνική παλινδρόμησης όπως η γραμμική παλινδρόμηση (linear regression) η οποία προβλέπει συνεχείς τιμές δεν έχει εφαρμογή. Αντίθετα, ένα μοντέλο logistic regression θα μας δώσει τιμές 0 και 1 ως έξοδο και όπως είδαμε μπορεί να τα πάει αρκετά καλά σε ένα πρόβλημα όπως αυτό δίνοντας accuracy score γύρω στο 97%.