# Η Βιβλιοθήκη SciKit-Learn

Είναι πλήρης βιβλιοθήκη Python για Μηχανική Μάθηση. Περιλαμβάνει:
* Αλγορίθμους Κατηγοριοποίησης (Classification)
* Αλγορίθμους Παλινδρόμησης (Regression)
* Αλγορίθμους Συσταδοποίησης (Clustering)
* Μεθόδους Απομείωσης Διαστασιμότητας και Επιλογής Μοντέλου
* Εργαλεία Προεπεξεργασίας Δεδομένων

Μερικά κλασικά datasets περιλαμβάνονται στη βιβλιοθήκη:
* **Iris** (Κατηγοριοποίηση, 3 κλάσεις)
* **Boston Housing** (Παλινδρόμηση, 13 Χαρακτηριστικά)
* **Diabetes** (Παλινδρόμηση)
* **Digits** (Κατηγοριοποίηση, 10 κλάσεις)
* **Breast Cancer** (Κατηγοριοποίηση, 2 Κλάσεις)
* **Wine** (Κατηγοριοποίηση, 3 κλάσεις)

Βρίσκονται στο module datasets του module sklearn:

In [1]:
from sklearn import datasets    # import the datasets
iris = datasets.load_iris()     # load "Iris" and store it in a variable iris
boston = datasets.load_boston() # load "Boston Housing" and store it in a variable boston
digits = datasets.load_digits() # load "Digits" and store it in a variable digits

Μπορούμε να προσβαίνουμε στα δεδομένα καθεαυτά με τα ακόλουθα πεδία του αντικειμένου που τα μοντελοποιούν:
* iris.data: "πίνακας **Χ**", ένα 2D numpy.ndarray
* iris.target: "διάνυσμα **y**", ένα 1D numpy.ndarray
* iris.DESCR: περιγραφή, Python <font color='blue'>str</font>
* iris.feature_names: ονόματα χαρακτηριστικών, Python <font color='blue'>list</font> από <font color='blue'>str</font>
* iris.target_names: ονόματα κατηγοριών, Python <font color='blue'>list</font> από <font color='blue'>str</font>

In [2]:
print(iris.target)
iris.DESCR

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]




### 1. Γεννήτριες Τυχαίων Δεδομένων

**Για παλινδρόμηση:** datasets.make_regression

Μερικά προαιρετικά ορίσματα:
* n_samples = πλήθος παραδειγμάτων εκπαίδευσης (default = 100)
* n_features = πλήθος χαρακτηριστικών (default = 100)
* n_targets = διάσταση τιμών y (default = 1)
* noise = τυπική απόκλιση Gaussian θορύβου (default = 0)
* random_state = seed τυχαιότητας (default = None)

Παράδειγμα:

In [3]:
X, y = datasets.make_regression()    # Returns a tuple (X, y)
print("X.shape = " + str(X.shape) + ", y.shape = " + str(y.shape))

X.shape = (100, 100), y.shape = (100,)


**Για κατηγοριοποίηση:** datasets.make_classification

Μερικά προαιρετικά ορίσματα:
* n_samples = πλήθος παραδειγμάτων εκπαίδευσης (default = 100)
* n_features = πλήθος χαρακτηριστικών (default = 2)
* n_classes = πλήθος διαφορετικών κλάσεων (default = 5)
* n_labels = πλήθος κλάσεων ανά παράδειγμα (default = 2)
* random_state = seed τυχαιότητας (default = None)

Επιστρέφει πλειάδα -- ζεύγος -- (**Χ**, **y**), όπου:
* To **y** είναι διδιάστατος numpy.ndarray πίνακας,
* Κάθε γραμμή του έχει "1" στη στήλη της κλάσης για το παράδειγμα εκπαίδευσης που αντιστοιχεί στη γραμμή.
* Εκτός αν οι κλάσεις είναι δύο, οπότε είναι μονοδιάστατο numpy.ndarray.

In [4]:
X, y = datasets.make_classification()    # Returns a tuple (X, y)
print("X.shape = " + str(X.shape) + ", y.shape = " + str(y.shape))

X.shape = (100, 20), y.shape = (100,)


### 2. Φόρτωση/Ανάγνωση Δεδομένων

Προσφέρεται η συνάρτηση load_svmlight_file του χώρου ονομάτων datasets στο module sklearn, για την ανάγνωση αρχείων δεδομένων σε μορφή LIBSVM (αραιή μορφή, στην οποία παραλείπονται τα features με τιμή 0). Η συνάρτηση επιστρέφει "αραιό" τύπο πίνακα που ορίζεται στη βιβλιοθήκη SciPy και μπορεί να μετατραπεί σε NumPy array εύκολα. Για παράδειγμα, το dataset "glass.scale" που είναι διαθέσιμο από το site της LIBSVM:

In [50]:
glass = datasets.load_svmlight_file("glass.scale")   # returns tuple of dense matrix and target array
# glass[0] is the features matrix
# glass[1] is the target values matrix

X = glass[0].toarray()   # convert to numpy array
y = glass[1]
print(X.shape)
print(y.shape)

(214, 9)
(214,)


### 3. Γραμμική Παλινδρόμηση

Υλοποιείται στο module linear_model:
* Η μέθοδος fit υλοποιεί τον υπολογισμό.
* Το **X** του training set δίνεται σαν λίστα από λίστες Python (ή σαν πίνακας numpy.ndarray).
* Οι τιμές-στόχος **y** δίνονται σαν λίστα Python (ή σαν numpy array -- μονοδιάστατο).

**Παράδειγμα**

In [6]:
from sklearn import linear_model                                                   # Includes Several methods
lreg = linear_model.LinearRegression(normalize = True)                             # Create linear regression object
lreg.fit([[35], [65], [90], [120], [160], [200]], [45, 50, 100, 170, 190, 260])    # Fit line to data
print(lreg.coef_)                                                                  # Read the coefficients 
print(lreg.intercept_)                                                             # Read intercept (constant term)

[1.36743772]
-16.863879003558793


**Πρόβλεψη** γίνεται με τη μέθοδο predict του αντικειμένου γραμμικής παλινδρόμησης, στην οποία δίνουμε σαν όρισμα έναν πίνακα με τα χαρακτηριστικά των παραδειγμάτων για τα οποία θέλουμε να προβλέψουμε το y.

In [7]:
lreg.predict([[35], [65], [90], [120], [160], [200]])    # Predict y-value for each of these examples

array([ 30.99644128,  72.01957295, 106.20551601, 147.22864769,
       201.92615658, 256.62366548])

**Υπολογισμός τετραγωνικής ρίζας μέσου τετραγωνικού σφάλματος:**

In [8]:
import numpy as np
np.sqrt(sum((lreg.predict([[35], [65], [90], [120], [160], [200]]) -[45, 50, 100, 170, 190, 260])**2)/6)

15.229560130856024

### 4. Ridge Regression

Είναι γραμμική παλινδρόμηση με *"ταχτοποίηση"*: τιμωρεί τις μεγάλες τιμές των συντελεστών του υπερεπιπέδου (εξαιρουμένης της σταθεράς), στη συνάρτηση σφάλματος. Ουσιαστικά, προσθέτουμε στη συνάρτηση του μέσου τετραγωνικού σφάλματος έναν επιπλέον όρο, που συνίσταται στο μέσο άθροισμα των τετραγώνων των παραμέτρων παλινδρόμησης, πολλαπλασιασμένο με μία μετα-παράμετρο **λ**.

Ορίσματα του Constructor:
* alpha: η τιμή του **λ** στον τύπο (default = 1.0)
* normalize: επιλογή ή όχι κανονικοποίησης (default = False)
* solver: επιλογή επιλυτή (default = 'auto')
* tol: ακρίβεια ελαχιστοποίησης σφάλματος (default = 0.001)
* max_iter: μέγιστο πλήθος επαναλήψεων (default = None)

In [27]:
from sklearn import linear_model
rreg = linear_model.Ridge()
rreg.fit([[35], [65], [90], [120], [160], [200]],
         [45, 50, 100, 170, 190, 260])
print(rreg.coef_)
print(rreg.intercept_)
rreg.predict([[35], [65], [90], [120], [160], [200]])

[1.36736473]
-16.855728341903472


array([ 31.00203726,  72.0229792 , 106.20709749, 147.22803943,
       201.92262869, 256.61721794])

**Επιλυτές:**
* solver='lsqr': Επαναληπτική Least Squares Μέθοδος της SciPy.
* solver='sparse_cg': Μέθοδος Conjugate Gradient.
* solver='sag': Στοχαστική Average Gradient, για μεγάλα datasets.
* solver='cholesky': Εξάγει τους συντελεστές με "κλειστό τύπο".
* solver='svd': Χρησιμοποιεί SVD για υπολογισμό των παραμέτρων.

### 5. "Σπάσιμο" Δεδομένων σε "Training" και "Test" Set

Με τη μέθοδο train_test_split του module sklearn.model_selection, που επιστρέφει όλα τα σύνολα δεδομένων σε πλειάδα:

In [28]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
iris = datasets.load_iris()                                             # Load dataset
X = iris.data; y = iris.target                                          # Get data matrices
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3)    # Split in Training and Test Sets

Το όρισμα test_size τίθεται στο ποσοστό του dataset που θα εξυπηρετήσει ως test set.

### 6. Λογιστική Παλινδρόμηση

Υλοποιείται από την κλάση LogisticRegression που βρίσκεται στο namespace linear_model του module sklearn:

In [29]:
from sklearn.linear_model import LogisticRegression    # Import the class definition
logr = LogisticRegression(C=1000.0, random_state=0)    # C is a regularization constant

<font color='red'>**Σημείωση:**</font> Η σταθερά C είναι για τον επιπλέον όρο *"ταχτοποίησης"* στον τύπο του λογιστικού σφάλματος, και είναι το "**λ**" που αναφέραμε στην περιγραφή του τύπου στο μάθημα.

In [30]:
logr.fit(Xtrain, ytrain)  # train the logistic predictor

LogisticRegression(C=1000.0, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l2', random_state=0,
          solver='liblinear', tol=0.0001, verbose=0, warm_start=False)

<font color='red'>**Σημείωση:**</font> Η λογιστική παλινδρόμηση χρησιμοποιεί αυτόματα *"One-vs-Rest"* μοντέλο για δεδομένα με περισσότερες των δύο κλάσεων.

H πρόβλεψη πραγματοποιείται με τη μέθοδο predict της κλάσης LogisticRegression (άρα, του αντικειμένου logr):

In [31]:
logr.predict(Xtest)    # predict on test examples

array([0, 1, 2, 1, 2, 2, 0, 2, 2, 1, 1, 0, 0, 1, 0, 1, 1, 2, 2, 0, 0, 1,
       1, 0, 1, 2, 1, 0, 2, 0, 0, 2, 0, 0, 1, 1, 2, 2, 0, 2, 2, 0, 0, 1,
       0])

Υπάρχει επίσης δυνατότητα υπολογισμού των πιθανοτήτων, με τη μέθοδο predict_proba:

In [32]:
logr.predict_proba(Xtest)    # predict on test examples

array([[7.77622065e-01, 2.22377935e-01, 3.60726702e-31],
       [4.98240858e-04, 9.99501759e-01, 4.98640839e-10],
       [4.33736052e-09, 3.88861661e-01, 6.11138334e-01],
       [7.95806619e-07, 9.97745496e-01, 2.25370800e-03],
       [1.50808217e-07, 1.22145744e-01, 8.77854106e-01],
       [5.24128418e-10, 3.36254289e-02, 9.66374571e-01],
       [9.37234683e-01, 6.27653173e-02, 6.11760814e-35],
       [1.73020871e-09, 2.53311956e-01, 7.46688042e-01],
       [1.12553316e-10, 2.52504580e-01, 7.47495420e-01],
       [2.78028853e-05, 9.99972194e-01, 2.77091547e-09],
       [7.20082249e-05, 9.99927991e-01, 5.89522491e-10],
       [9.17352386e-01, 8.26476141e-02, 3.52667221e-38],
       [7.37312563e-01, 2.62687437e-01, 1.85014368e-33],
       [2.63038856e-05, 9.99724975e-01, 2.48721269e-04],
       [8.84327436e-01, 1.15672564e-01, 1.09715686e-35],
       [1.36045812e-06, 9.99975639e-01, 2.30004433e-05],
       [8.01312033e-06, 9.99991985e-01, 1.55107804e-09],
       [6.30839436e-10, 8.12546

Και η δυνατότητα υπολογισμού του accuracy, με τη μέθοδο score:

In [33]:
logr.score(Xtest, ytest)    # accuracy on test set

0.9555555555555556

**Μερικά ορίσματα του constructor LogisticRegression:**
* C: συντελεστής *ταχτοποίησης* (regularization) παραμέτρων, default = 1.
* max_iter: μέγιστο πλήθος επαναλήψεων, default = 100.
* random_state: seed τυχαιότητας, default = None.
* solver: επιλογή επιλυτή, default = 'liblinear'
* tol: ελάχιστο βελτίωσης, default = 0.0001

**Επιλυτές:**
* solver = 'newton-cg': Newton Conjugate Gradient, ταχεία σύγκλιση.
* solver = 'lbgfs':     Για μεγαλύτερα datasets.
* solver = 'liblinear': Για σχετικά μικρά datasets.
* solber = 'sag':       Στοχαστική Average Gradient.

### 6. Μηχανές Διανυσμάτων Στήριξης (SVMs)

Υλοποιούνται από την κλάση SVC του namespace svm του module sklearn, που αποτελεί interface για τη βιβλιοθήκη LibSVM. Η χρήση της κλάσης είναι παρόμοια με της κλάσης LogisticRegression, όπου στα ορίσματα του constructor περιλαμβάνεται, μεταξύ άλλων, η επιλογή συνάρτησης πυρήνα (kernel).

In [34]:
from sklearn.svm import SVC  # import the module for SVMs
svm = SVC(kernel = 'linear', C = 1.0, random_state = 0)
svm.fit(Xtrain, ytrain)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=0, shrinking=True,
  tol=0.001, verbose=False)

Μπορούμε να λάβουμε μέτρηση της ακρίβειας (accuracy):

In [35]:
svm.score(Xtest, ytest)    # accuracy on the test set

0.9555555555555556

Επιπλέον, μπορούμε να λάβουμε πρόβλεψη, τα indices των support vectors στον πίνακα Xtrain, το πλήθος των support vectors ανά κλάση, και τα support vectors καθεαυτά:

In [36]:
svm.predict(Xtest)    # Prediction on test set

array([0, 1, 2, 1, 2, 2, 0, 2, 2, 1, 1, 0, 0, 1, 0, 1, 1, 2, 2, 0, 0, 1,
       1, 0, 1, 2, 1, 0, 2, 0, 0, 2, 0, 0, 1, 1, 2, 2, 0, 2, 2, 0, 0, 1,
       0])

In [37]:
svm.support_    # indices of support vector in Xtrain

array([ 27,  31,  70,   1,  18,  44,  55,  58,  59,  74,  90,  93, 102,
         2,   7,  10,  21,  29,  49,  60,  81,  83], dtype=int32)

In [38]:
svm.n_support_    # number of support vectors for each class

array([ 3, 10,  9], dtype=int32)

In [39]:
svm.support_vectors_    # the support vectors themselves

array([[5.1, 3.8, 1.9, 0.4],
       [5.1, 3.3, 1.7, 0.5],
       [4.5, 2.3, 1.3, 0.3],
       [5.1, 2.5, 3. , 1.1],
       [6.5, 2.8, 4.6, 1.5],
       [6. , 2.9, 4.5, 1.5],
       [6.3, 3.3, 4.7, 1.6],
       [6.1, 3. , 4.6, 1.4],
       [6.2, 2.2, 4.5, 1.5],
       [5.4, 3. , 4.5, 1.5],
       [6.7, 3. , 5. , 1.7],
       [6.7, 3.1, 4.7, 1.5],
       [6.3, 2.5, 4.9, 1.5],
       [6.1, 3. , 4.9, 1.8],
       [6.5, 3.2, 5.1, 2. ],
       [6.2, 2.8, 4.8, 1.8],
       [6.3, 2.8, 5.1, 1.5],
       [6. , 3. , 4.8, 1.8],
       [6. , 2.2, 5. , 1.5],
       [6.3, 2.5, 5. , 1.9],
       [5.9, 3. , 5.1, 1.8],
       [6.3, 2.7, 4.9, 1.8]])

**Μερικά ορίσματα του constructor:**
* kernel: συνάρτηση πυρήνας ('rbf', 'poly', 'linear', 'sigmoid')
* degree: βαθμός πολυωνυμικού πυρήνα, default = 3
* gamma: συντελεστής πολυωνυμικού πυρήνα, default = 1/(πλήθος features)
* tol: ακρίβεια βελτίωσης τερματισμού, default = 0.001
* max_iter: πλήθος επαναλήψεων, default = -1

### 7. k-Εγγύτεροι Γείτονες

Υλοποιείται από την κλάση KNeighborsClassifier, του namespace neighbors, στο module sklearn:

In [40]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 5, p = 2, metric = 'minkowski')
knn.fit(Xtrain, ytrain)
knn.predict(Xtest)

array([0, 1, 2, 1, 2, 2, 0, 2, 2, 1, 1, 0, 0, 1, 0, 1, 1, 2, 2, 0, 0, 1,
       1, 0, 1, 2, 1, 0, 2, 0, 0, 1, 0, 0, 1, 1, 2, 2, 0, 2, 2, 0, 0, 1,
       0])

In [41]:
knn.score(Xtest, ytest)

0.9333333333333333

**Ορίσματα Constructor:**
* n_neighbors: πλήθος (k) εγγύτερων γειτόνων
* metric: επιλογή απόστασης (συμβολοσειρά ή αντικείμενο DistanceMetric)
* p = 2: επιλέγει τον εκθέτη για την απόσταση Minkowski
* algorithm: αλγόριθμος υπολογισμού ('auto', 'kd_tree', 'ball_tree', 'brute')
* leaf_size: πλήθος φύλλων του δέντρου, default = 30
* weights: βάρη για τη συμμετοχή των γειτόνων (΄uniform', 'inverse', user-defined)

### 8. Νευρωνικά Δίκτυα

Υποστηρίζεται η μοντελοποίηση και εκπαίδευση πολυ-επίπεδων δικτύων (τύπου) Perceptron για κατηγοριοποίηση.
Υλοποιούνται από την κλάση MLPClassifier που βρίσκεται στο namespace neural_network του module sklearn. Ακολουθεί ένας πειραματισμός στην αυτόματη αναγνώριση χειρόγραφων ψηφίων που δίνονται από το (built-in) σύνολο δεδομένων digits.

In [42]:
import numpy as np
import sklearn.datasets as dsets
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier

digits = dsets.load_digits()
X = digits.data
y = digits.target

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3)    # Split in Training and Test Sets
mlp = MLPClassifier(solver = 'lbfgs', activation = 'relu', hidden_layer_sizes = (25,), random_state = 1)
mlp.fit(Xtrain, ytrain) 

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(25,), learning_rate='constant',
       learning_rate_init=0.001, max_iter=200, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=1, shuffle=True,
       solver='lbfgs', tol=0.0001, validation_fraction=0.1, verbose=False,
       warm_start=False)

** Μερικά Ορίσματα του constructor MLPClassifier: **
* solver: επιλογή επιλυτή για τον αλγόριθμο Backpropagation ('lbfgs', 'sgd', 'adam'), default = 'adam'.
* activation: είδος συνάρτησης ενεργοποίησης ('relu', 'logistic', 'tanh', 'identity'), default = 'relu'.
* hiddel_layer_sizes: πλειάδα με τα πλήθη κόμβων στα "κρυμμένα" επίπεδα του δικτύου.
* max_iter: μέγιστο πλήθος επαναλήψεων του Backpropagation, default = 2000.
* random_state: φύτρο τυχαίας κατάστασης, για την αρχικοποίηση των παραμέτρων.

In [43]:
prediction = mlp.predict(Xtest)
accuracy = np.where(prediction == ytest)[0].shape[0]/len(ytest)
print("Accuracy = " + str(accuracy))

Accuracy = 0.9629629629629629


** Πεδία της Κλάσης MLPClassifier: **
* classes_: array των διαφορετικών κατηγοριών.
* loss_: το τρέχον σφάλμα της συνάρτησης σφάλματος.
* coefs_: οι παράμετροι του δικτύου.
* intercepts_: το i-οστό στοιχείο αντιστοιχεί στο επίπεδο i.
* n_layers: πλήθος επιπέδων του δικτύου.

** Μέθοδοι της Κλάσης MLPClassifier: **
* fit(X, y): εκπαίδευση του δικτύου στα δεδομένα X, y.
* predict(X) πρόβλεψη στο για τα δεδομένα X.
* predict_log_proba(X): επιστρέφει log των πιθανοτήτων πρόβλεψης στο X.
* predict_proba(X): επιστρέφει πιθανότητες πρόβλεψης στο X.
* score(X, y[, sample_weight]): Επιστρέφει την ακρίβεια πρόβλεψης στο X,y.

In [26]:
mlp.score(Xtrain, ytrain)

1.0