# Εισαγωγή scikit-learn και dataset στο notebook

Αρχικά κάνουμε upgrade στις βιβλοθήκες που θα χρειαστούμε, αν δεν έχουμε ήδη κάνει. 
* Το επόμενο cell είναι για Google Colaboratory και Microsoft Azure. 
* Στο Kaggle πρέπει πρώτα να ενεργοποιήσετε τη [σύνδεση internet](https://storage.googleapis.com/kaggle-media/forum/internet_setting.png) ώστε να μπορεί το pip να κατεβάζει πακέτα. Ακολουθήστε τις οδηγίες (θα σας ζητήσει επαλήθευση με sms pin).

In [1]:
!pip install --upgrade pip #upgrade pip package installer
!pip install scikit-learn --upgrade #upgrade scikit-learn package
!pip install numpy --upgrade #upgrade numpy package
!pip install pandas --upgrade #--upgrade #upgrade pandas package

Requirement already up-to-date: pip in /usr/local/lib/python3.6/dist-packages (19.3.1)
Requirement already up-to-date: scikit-learn in /usr/local/lib/python3.6/dist-packages (0.21.3)
Requirement already up-to-date: numpy in /usr/local/lib/python3.6/dist-packages (1.17.3)
Requirement already up-to-date: pandas in /usr/local/lib/python3.6/dist-packages (0.25.3)


![UCI ML Logo](http://archive.ics.uci.edu/ml/assets/logo.gif "UCI Machine Learning Repository")

To [UCI ML Repository](http://archive.ics.uci.edu/ml/index.php) είναι το διασημότερο αποθετήριο datasets για Machine Learning. Το dataset με το οποίο θα δουλέψουμε είναι το [Breast Cancer Wisconsin Diagnostic Database](https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29). Το dataset περιλαμβάνει διάφορες πληροφορίες για όγκους σχετιζόμενους με τον καρκίνο του στήθους καθώς και ετικέτες για κάθε δείγμα (sample), αν το δείγμα αντιστοιχεί σε καλοήθη όγκο ή κακοήθη. Το σύνολο δεδομένων έχει 569 δείγματα για αντίστοιχους όγκους και περιλαμβάνει 30 χαρακτηριστικά (attributes) για κάθε δείγμα, όπως ακτίνα του όγκου, υφή, ομοιομορφία και περιοχή. Θα χρησιμοποιήσουμε αυτό το dataset και τα χαρακτηριστικά για να προβλέψουμε αν ένας όγκος είναι κακοήθης ή όχι.

Το Scikit-learn έχει για κάποια datasets, μεταξύ των οποίων και το breast cancer, έτοιμες συναρτήσεις για να τα φορτώνουμε χωρίς να χρειαστεί να διαβάσουμε text file. Τα datasets αποτελούν τα toy datasets του scikit-learn.

In [0]:
from sklearn.datasets import load_breast_cancer

# Load dataset
data = load_breast_cancer()

Η μεταβλητή "data" είναι ένα αντικείμενο Python που δουλεύει σαν dictionary.

| **key**              | **value**                                             | **type**     | **size**   |
| :------------------- | :---------------------------------------------------- | :----------- | :--------- |
| **'DESCR'**          | 'Breast Cancer Wisconsin (Diagnostic) Database...'    | str          |  1         | 
| **'data'**           | [[1.799, 1.038, 1.228,...]...]                        | float array  |  (569,30)  | 
| **'feature_names'**  | ['mean radius', 'mean texture', ...]                  | str array    | (30,)      |
| **'target'**         | [0, 0, 0, ..., 0, 0, 1]                               | int array    | (569,)     |
| **'target_names'**   | ['malignant', 'benign']                               | str array    | (2,)       |

Τα σημαντικά κλειδιά του λεξικού είναι οι ονομασίες των κατηγοριών εξόδου (target_names), οι κατηγορίες (ή κλάσεις ή ετικέτες) εξόδου (target), τα ονόματα των χαρακτηριστικών (feature_names) και τέλος τα ίδια τα χαρακτηριστικά (data). Στην πράξη χρειαζόμαστε μόνο τα χαρακτηριστικά (features) και τις ετικέτες τους (labels). Οι ονομασίες μας πληροφορούν για τη φυσική ερμηνεία των χαρακτηριστικών.

Δημιουργούμε νέες μεταβλητές για κάθε σημαντικό σύνολο πληροφορίας του dataset:

In [0]:
# Organize our data
label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']

In [7]:
# ποιες είναι οι κατηγορίες (ετικέτες) μας
print(feature_names)

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


In [8]:
# οι κατηγορίες όλων των 569 δειγμάτων 0: κακοήθης - malignant (Μ) 1: καλοήθης - benign (Β)
print(labels)
# οι κατηγορίες είναι ένα μονοδιάστατο array
print(labels.shape)
# μετράμε τη συχνότητα των δύο κλάσεων
import numpy as np
print("frequencies:", np.bincount(labels))
# Class distribution: 357 benign, 212 malignant

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 0 1 1 0 

In [9]:
# η κατηγορία του πρώτου δείγματος
print(labels[0])

0


Εφόσον το 0 είναι κακοήθης και το 1 καλοήθης, το πρώτο δείγμα αντιπροσωπεύει έναν κακοήθη όγκο.

In [10]:
# τα ονόματα των χαρακτηριστικών (features)
print(feature_names)

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


In [11]:
# το όνομα του πρώτου χαρακτηριστικού
print(feature_names[0])

mean radius


In [12]:
# οι διαστάσεις όλων των χαρακτηριστικών
# τα χαρακτηριστικά του πρώτου δείγματος (κακοήθες)
print(features.shape)
print(features[0])

(569, 30)
[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]


Στο συγκεκριμένο παράδειγμα λοιπόν, τo πρώτο δείγμα μας είναι κακοήθες με ακτίνα του όγκου  1.79900000e+01.

# Ασκηση 1

## Toy dataset #2: "Wine"

1. Εισάγετε τη συνάρτηση "load_wine" και αποθηκεύστε τα δεδομένα στο αντικείμενο data_2.
2. Οργανώστε τα δεδομένα σας στους πίνακες label_names_2, labels_2, feature_names_2, features_2 (Προσοχή στα ονόματα για να μην κάνετε overwrite τους πίνακες τους wisconsin)


* Ποιά είναι τα ονόματα των χαρακτηριστικών;
* Ποιές και πόσες είναι οι κατηγορίες των δειγμάτων;
* Πόσα είναι τα δείγματα;
* Ποιό είναι η τιμή της στάχτης (ash) του 10ου δείγματος;


In [0]:
from sklearn.datasets import load_wine

data2 = load_wine()
label_names2 = data2['target_names']
labels2 = data2['target']
feature_names2 = data2['feature_names']
features2 = data2['data']

In [15]:
print(feature_names2)
print(label_names2, hlabel_names2.sape)
print(feurates2.shape[0])
print(features2[9][2])

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
['class_0' 'class_1' 'class_2'] (3,)
178
2.27


Έχουμε φορτώσει το wisconsin breast cancer dataset, θα προχωρήσουμε στο να δημιουργήσουμε απλούς ταξινομητές για να προβλέπουμε αν οι όγκοι είναι καλοήθεις ή κακοήθεις.

# Train set, test set & αξιολόγηση (ορθότητα) ταξινομητών

Η αξιολόγηση των ταξινομητών γίνεται πάντα σε δεδομένα που δεν έχουν δει κατά την εκπαίδευση έτσι ώστε να αξιολογήσουμε τη δυνατότητα γενίκευσής τους. Συνεπώς, πρωτού φτιάξουμε το μοντέλο κάθε ταξινομητή χωρίζουμε τα δεδομένα μας τυχαία σε ένα σύνολο εκπαίδευσης (train set) και ένα σύνολο ελέγχου (test set).
Παρακάτω βλέπουμε ένα παράδειγμα διαχωρισμού του dataset με αναλογία 60-40:

![data split](https://i.ibb.co/x3V1FQ4/train-test.png)

Χρησιμοποιούμε το train set για να εκτιμούμε και να βελτιώνουμε το μοντέλο του ταξινομητή κατά την ανάπτυξή του. Δεν επιτρέπεται σε κανένα σημείο η χρήση των δεδομένων test για την εκπαίδευση του ταξινομητή.

![training](https://i.ibb.co/MMWjVkn/training.png)

Χρησιμοποιούμε μετά το test set για να αξιολογήσουμε στατιστικά την απόδοση του μοντέλου μας.

![testing](https://i.ibb.co/JsSDLpX/testing.png)

Το sklearn έχει τη συνάρτηση train_test_split() που ανακατεύει τυχαία τα δείγματα και τα διαχωρίζει σε train και test με βάση κάποιο ποσοστό που θα της δώσουμε.

In [0]:
from sklearn.model_selection import train_test_split

# Split our data
train, test, train_labels, test_labels = train_test_split(features, labels, test_size=0.33)

Θα δοκιμάσουμε πρώτα κάποιες πολύ απλές τακτικές ταξινόμησης. Η κλάση DummyClassifier δέχεται μια παράμετρο που καθορίζει την τακτική της ταξινόμησης ως εξής:
* “uniform”: προβλέπει τυχαία και ομοιόμορφα.
* “constant”: προβλέπει πάντα μία κατηγορία που τη διαλέγει ο χρήστης.
* “most_frequent”: προβλέπει πάντα την πιο συχνή κατηγορία στο training set.
* “stratified”: κάνει προβλέψεις διατηρώντας την κατανομή των κλάσεων στο training set.

In [18]:
from sklearn.dummy import DummyClassifier
dc_uniform = DummyClassifier(strategy="uniform")
dc_constant_0 = DummyClassifier(strategy="constant", constant=0)
dc_constant_1 = DummyClassifier(strategy="constant", constant=1)
dc_most_frequent = DummyClassifier(strategy="most_frequent")
dc_stratified = DummyClassifier(strategy="stratified")

#με τη μέθοδο fit "εκπαιδεύουμε" τον ταξινομητή στο σύνολο εκπαίδευσης (τα χαρακτηριστικά και τις ετικέτες τους)
model = dc_uniform.fit(train, train_labels)

#με τη μέθοδο predict παράγουμε προβλέψεις για τα δεδομένα ελέγχου (είσοδος τα χαρακτηριστικά μόνο)
preds = dc_uniform.predict(test)
print(preds)

[0 0 1 0 1 1 1 1 1 1 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1 1 1 0 0 0 0 1 1 0 0 0 1
 0 0 1 0 1 1 1 1 0 1 0 0 0 1 1 1 0 0 0 0 0 1 1 0 0 0 0 1 0 1 0 0 1 0 0 0 0
 1 0 1 0 0 1 0 0 1 0 1 1 0 1 0 1 1 1 1 1 1 0 0 0 0 1 0 1 1 0 1 0 1 1 1 1 0
 0 1 1 1 0 1 0 1 1 0 0 1 0 1 0 0 1 0 1 0 1 1 0 0 0 1 1 1 1 1 1 1 0 1 1 0 0
 1 1 1 1 1 1 0 1 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 0 0 0 1 1 0 0 0 1 0 0
 1 0 1]


Για την αξιολόγηση, το πιο απλό κριτήριο είναι να συγκρίνουμε το ποσοστό ομοιότητας των πίνακων preds και test_labels. Το κριτήριο αυτό ονομάζεται ορθότητα (accuracy). Αν το κάναμε manually, για κάθε στοιχείο (δείγμα) των πινάκων που είναι όμοιο (0 και 0 ή 1 και 1) αυξάνουμε έναν μετρητή. Στην περίπτωση που είναι ανόμοια δεν τον αυξάνουμε. Διαιρούμε την τελική τιμή του μετρητή με το πλήθος των στοιχείων του πίνακα.
Το προηγούμενο for loop μας το δίνει έτοιμο η συνάρτηση accuracy_score:

In [19]:
from sklearn.metrics import accuracy_score
print(accuracy_score(test_labels, preds))

# ο υπολογισμός του accuracy είναι επίσης -ακόμα πιο βολικά- και μέθοδος του αντικειμένου dummy classifier
print(dc_uniform.score(test, test_labels)) # σε κάθε κλήση της dc_uniform έχουμε ξανά τυχαίες προβλέψεις

0.5053191489361702
0.5372340425531915


Παρατηρούμε ότι αν τρέξουμε το πρoηγούμενο κελί διαδοχικές φορές, το δεύτερο accuracy αλλάζει γιατί καλούμε εκ νέου τον ταξινομητή να κάνει (τυχαίες) προβλέψεις.

Ας αποθηκεύσουμε την ορθότητα όλων των dummy classifiers σε ένα λεξικό και να την τυπώσουμε από την καλύτερη στη χειρότερη

In [20]:
wisconsin_accuracy = {}
wisconsin_accuracy['uniform (random)'] = dc_uniform.score(test, test_labels)
model = dc_constant_0.fit(train, train_labels)
wisconsin_accuracy['constant 0'] = dc_constant_0.score(test, test_labels)
model = dc_constant_1.fit(train, train_labels)
wisconsin_accuracy['constant 1'] = dc_constant_1.score(test, test_labels)
model = dc_most_frequent.fit(train, train_labels)
wisconsin_accuracy['most frequent label'] = dc_most_frequent.score(test, test_labels)
model = dc_stratified.fit(train, train_labels)
wisconsin_accuracy['stratified'] = dc_stratified.score(test, test_labels)

print("Classification Accuracy on the Wisconsin Breast Cancer Dataset (33% test set)\n")
sorted_accuracy = [(k, wisconsin_accuracy[k]) for k in sorted(wisconsin_accuracy, key=wisconsin_accuracy.get, reverse=True)]
for k, v in sorted_accuracy:
  print(k,v)

Classification Accuracy on the Wisconsin Breast Cancer Dataset (33% test set)

constant 1 0.6063829787234043
most frequent label 0.6063829787234043
stratified 0.5106382978723404
uniform (random) 0.4787234042553192
constant 0 0.39361702127659576


# Naive Bayes Classifier

![$P(A\mid B)={\frac {P(B\mid A)\,P(A)}{P(B)}}$](https://upload.wikimedia.org/wikipedia/commons/thumb/1/18/Bayes%27_Theorem_MMB_01.jpg/220px-Bayes%27_Theorem_MMB_01.jpg "A blue neon sign, showing the simple statement of Bayes’ theorem")

H βασική ιδέα λειτουργίας του ταξινομητή είναι α) ο γνωστός νόμος του Bayes $$P(A\mid B)={\frac {P(B\mid A)\,P(A)}{P(B)}}$$

και β) η (naive) υπόθεση ότι τα χαρακτηριστικά είναι όλα ανεξάρτητα μεταξύ τους (δεν ισχύει γενικά, αλλά ο ταξινομητής είναι πρακτικά καλός σε πολλές περιπτώσεις). Παράδειγμα: θα βρέξει σήμερα? Naive Bayes: "Θα το προβλέψω με βάση το παρελθόν θεωρώντας ότι τα χαρακτηριστικά θερμοκρασία, νεφοκάλυψη και ατμοσφαιρική πίεση είναι όλα ανεξάρτητα μεταξύ τους".

Με δεδομένα μια μεταβλητή κατηγορίας (κλάσης) $y$ και ένα εξαρτώμενο διάνυσμα χαρακτηριστικών $x_1$ μέχρι $x_n$, σύμφωνα με το θεώρημα του Bayes θα ισχύει 
$$P(y \mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots x_n \mid y)}{P(x_1, \dots, x_n)}$$
Ισχύει ότι $P(x_1, \dots, x_i, \dots, x_n \mid y) =  \prod_{i=1}^{n} P(x_i | y, x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_n)$ και κάνουμε την αφελή υπόθεση ότι το χαρακτηριστικό $x_i$ για κάθε $i$ εξαρτάται μόνο από την κλάση $y$ και όχι από οποιοδήποτε άλλο χαρακτηριστικό
$$P(x_i | y, x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_n) = P(x_i | y)$$
αυτό οδηγεί στην απλοποίηση
$$P(y \mid x_1, \dots, x_n) = \frac{P(y) \prod_{i=1}^{n} P(x_i \mid y)}{P(x_1, \dots, x_n)}$$
Με δεδομένη είσοδο, το $P(x_1, \dots, x_n)$ είναι σταθερό. Συνεπώς μπορούμε να χρησιμοποιήσουμε τον ακόλουθο κανόνα ταξινόμησης $$P(y \mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)$$
$$\Downarrow$$
$$\hat{y} = \arg\max_y P(y) \prod_{i=1}^{n} P(x_i \mid y)$$
Το $P(y)$ είναι η υπόθεσή μας και ισούται με τη σχετική συχνότητα της κλάσης $y$ στο training set. To $P(x_i \mid y)$ είναι η πιθανοφάνεια δηλαδή η πιθανότητα του δείγματος με δεδομένη την υπόθεσή μας και μπορεί επίσης να υπολογιστεί απλά από το training set. Οι διάφοροι Naive Bayes classifiers διαφοροποιούνται κυρίως από τις υποθέσεις που κάνουν ως προς την κατανομή $P(x_i \mid y)$. Η κλάση $\hat{y}$ που ανατίθεται σε ένα νέο δείγμα είναι αυτή που μεγιστοποιεί το δεξί μέλος της σχέσης.

## Ένα παράδειγμα NB με κατηγορικές μεταβλητές

Έστω ότι για 14 μέρες παρατηρήσαμε 4 μεταβλητές του καιρού (νεφοκάλυψη, θερμοκρασία, υγρασία και άνεμο) και το αν τελικά παίξαμε τέννις. Τα χαρακτηριστικά μας είναι κατηγορικά, παίρνουν δηλαδή διακριτές τιμές από ενα ορισμένο σύνολο τιμών.

| Day | Outlook  | Temperature | Humidity | Wind   | Play Tennis? |
|-----|----------|-------------|----------|--------|--------------|
| 1   | Sunny    | Hot         | High     | Weak   | No           |
| 2   | Sunny    | Hot         | High     | Strong | No           |
| 3   | Overcast | Hot         | High     | Weak   | Yes          |
| 4   | Rain     | Mild        | High     | Weak   | Yes          |
| 5   | Rain     | Cool        | Normal   | Weak   | Yes          |
| 6   | Rain     | Cool        | Normal   | Strong | No           |
| 7   | Overcast | Cool        | Normal   | Strong | Yes          |
| 8   | Sunny    | Mild        | High     | Weak   | No           |
| 9   | Sunny    | Cool        | Normal   | Weak   | Yes          |
| 10  | Rain     | Mild        | Normal   | Weak   | Yes          |
| 11  | Sunny    | Mild        | Normal   | Strong | Yes          |
| 12  | Overcast | Mild        | High     | Strong | Yes          |
| 13  | Overcast | Hot         | Normal   | Weak   | Yes          |
| 14  | Rain     | Mild        | High     | Strong | No           |

Το πρώτο βήμα είναι να γράψουμε 4 πίνακες αναφοράς ("look-up tables"), έναν για κάθε χαρακτηριστικό,  με την πιθανότητα να παιχτεί ή να μην παιχτεί τέννις σε σχέση με το χαρακτηριστικό. Έχουμε συνολικά 5 περιπτώσεις που δεν μπορέσαμε να παίξουμε και 9 που μπορέσαμε. Οι 4 πίνακες είναι οι ακόλουθοι:

| OUTLOOK  | Play = Yes | Play = No | Total |	| TEMPERATURE | Play = Yes | Play = No | Total |	| HUMIDITY | Play = Yes | Play = No | Total |	| WIND   | Play = Yes | Play = No | Total |
|----------|------------|-----------|-------|	|-------------|------------|-----------|-------|	|----------|------------|-----------|-------|	|--------|------------|-----------|-------|
| Sunny    | 2/9        | 3/5       | 5/14  |	| Hot         | 2/9        | 2/5       | 4/14  |	| High     | 3/9        | 4/5       | 7/14  |	| Strong | 3/9        | 3/5       | 6/14  |
| Overcast | 4/9        | 0/5       | 4/14  |	| Mild        | 4/9        | 2/5       | 6/14  |	| Normal   | 6/9        | 1/5       | 7/14  |	| Weak   | 6/9        | 2/5       | 8/14  |
| Rain     | 3/9        | 2/5       | 5/14  |	| Cool        | 3/9        | 1/5       | 4/14  |	| Cool     | 3/9        | 1/5       | 4/14  |	| Cool   | 3/9        | 1/5       | 4/14  |
και τέλος υπολογίζουμε την πιθανότητα να παίξουμε και να μην παίξουμε:

P(Play=Yes) = 9/14

P(Play=No) = 5/14

### Testing

Έστω ένα νέο δείγμα X = (Outlook=Sunny, Temperature=Cool, Humidity=High, Wind=Strong). Σε ποια κατηγορία ανήκει; (θα παίξουμε τέννις ή όχι).

Υπολογίζουμε πρώτα από τους πίνακες αναφοράς την "πιθανότητα" να παίξουμε

* P(Outlook=Sunny | Play=Yes) = 2/9
* P(Temperature=Cool | Play=Yes) = 3/9
* P(Humidity=High | Play=Yes) = 3/9
* P(Wind=Strong | Play=Yes) = 3/9
* P(Play=Yes) = 9/14

Σύμφωνα με τον κανόνα ταξινόμησης του NB η πιθανότητα να παίξουμε είναι ανάλογη του γινομένου των προηγούμενων 

P(X|Play=Yes)P(Play=Yes) = (2/9) \* (3/9) \* (3/9) \* (3/9) \* (9/14) = 0.0053

Υπολογίζουμε παρόμοια την "πιθανότητα" να μην παίξουμε

* P(Outlook=Sunny | Play=No) = 3/5
* P(Temperature=Cool | Play=No) = 1/5
* P(Humidity=High | Play=No) = 4/5
* P(Wind=Strong | Play=No) = 3/5
* P(Play=No) = 5/14

P(X|Play=No)P(Play=No) = (3/5) \* (1/5) \* (4/5) \* (3/5) \* (5/14) = 0.0206

Επειδή η ποσότητα 0.0206 είναι μεγαλύτερη από την 0.0053, η απόφαση του Naive Bayes είναι να μην παίξουμε τέννις. Οι ποσότητες αυτές (του αριθμητή) μας αρκούν για την απόφαση γιατί ο παρονομαστής είναι σταθερός. Για να πάρουμε τις πλήρεις πιθανότητες για το συγκεκριμένο δείγμα Χ υπολογίζουμε και τον παρονομαστή:

* P(X) = P(Outlook=Sunny) \* P(Temperature=Cool) \* P(Humidity=High) \* P(Wind=Strong)
* P(X) = (5/14) \* (4/14) \* (7/14) \* (6/14)
* P(X) = 0.02186

* P(Play=Yes | X) = 0.0053/0.02186 = 0.2424
* P(Play=No | X) = 0.0206/0.02186 = 0.9421

Θέλουμε να δοκιμάσουμε τον Naive Bayes στο Wisconsin. Εδώ όμως έχουμε συνεχείς μεταβλητές. Όπως είπαμε θα πρέπει να κάνουμε μια υπόθεση για την κατανομή $P(x_i \mid y)$. Θα θεωρήσουμε ότι η κατανομή κάθε χαρακτηριστικού ως προς κάθε κλάση ακολουθεί την κανονική κατανομή:
$$P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)$$
Ο συγκεκριμένος ταξινομητής είναι ο Gaussian Naive Bayes. Πρακτικά, με τα δεδομένα του training set, για κάθε κλάση υπολογίζουμε τη μέση τιμή $\mu_y$ και τη διακύμανση $\sigma^2_y$ κάθε χαρακτηριστικού για τη συγκεκριμένη κλάση. 

Ας δοκιμάσουμε τον Gaussian Naive Bayes στο Wisconsin:

In [21]:
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
# κάνουμε εκπαίδευση (fit) δηλαδή ουσιαστικά υπολογίζουμε μέση τιμή και διακύμανση για όλα τα χαρακτηριστικά και κλάσεις στο training set
model = gnb.fit(train, train_labels)
# η GaussianNB έχει builtin μέθοδο υπολογισμό accuracy. Αποθηκεύουμε την τιμή της στον πίνακά μας με τα αποτελέσματα από τα άλλα classifiers
wisconsin_accuracy['gaussian naive bayes'] = gnb.score(test, test_labels)
# και ξανατυπώνουμε τα sorted αποτελέσματα
print("Classification Accuracy on the Wisconsin Breast Cancer Dataset (33% test set)\n")
sorted_accuracy = [(k, wisconsin_accuracy[k]) for k in sorted(wisconsin_accuracy, key=wisconsin_accuracy.get, reverse=True)]
for k, v in sorted_accuracy:
  print(k,v)

Classification Accuracy on the Wisconsin Breast Cancer Dataset (33% test set)

gaussian naive bayes 0.9202127659574468
constant 1 0.6063829787234043
most frequent label 0.6063829787234043
stratified 0.5106382978723404
uniform (random) 0.4787234042553192
constant 0 0.39361702127659576


# Εισαγωγή dataset μέσω Pandas και CSV file

To scikit learn έχει διαθέσιμο για φόρτωση απευθείας με συναρτήσεις μόνο ένα μικρό αριθμό datasets. Στη γενική περίπτωση, η τυπική διαδικασία για εισαγωγή datasets που θα συναντήσουμε είναι να διαβάζουμε ένα delimited text file (τιμές που διαχωρίζονται με ένα delimiter δλδ comma -Comma Separated Values, CSV-, semicolon etc) και να το αποθηκεύουμε σε πίνακες χαρακτηριστικών και ετικετών (class labels). 

Θα κάνουμε την προηγούμενη διαδικασία manually διαβάζοντας το breast cancer από text file. Η σελίδα του UCI για το breast cancer είναι [αυτή](https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29), και το dataset μπορούμε να το αποθηκεύσουμε locally στο Desktop απο το φάκελο "Data Folder" και το αρχείο ["wdbc.data"](https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data). Το ανοίγουμε, δεξί κλικ και "Save as" (ή απευθείας "Save link as"). 

**ΠΡΟΣΟΧΗ: Ανάλογα το cloud οι διαδικασία εισαγωγής (και εξαγωγής) δεδομένων είναι διαφορετική.**

## 1. Google Colaboratory

Κάντε expand το αριστερό siebar, πηγαίνετε στο tab "Files" και στο UPLOAD διαλέγουμε το αρχείο "wbcd.data". Κάνουμε "ΟΚ" στο reminder ότι τα αρχεία θα διαγραφούν.

Το αρχείο "wdbc.data" πρέπει να βρίσκεται στο file system:

In [22]:
!ls

sample_data  wdbc.data


Εισάγουμε και διαβάζουμε το csv "wdbc.data" με την read_csv και option "header=None" γιατί η πρώτη γραμμή περιέχει δεδομένα και όχι ονόματα κολόνων και τυπώνουμε τις πρώτες πέντε γραμμές:

In [24]:
import pandas as pd

df = pd.read_csv("wdbc.data", header=None)
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31
0,842302,M,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,1.0950,0.9053,8.589,153.40,0.006399,0.04904,0.05373,0.01587,0.03003,0.006193,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,842517,M,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,0.5435,0.7339,3.398,74.08,0.005225,0.01308,0.01860,0.01340,0.01389,0.003532,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,84300903,M,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,0.7456,0.7869,4.585,94.03,0.006150,0.04006,0.03832,0.02058,0.02250,0.004571,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,84348301,M,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,0.4956,1.1560,3.445,27.23,0.009110,0.07458,0.05661,0.01867,0.05963,0.009208,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,84358402,M,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,0.7572,0.7813,5.438,94.44,0.011490,0.02461,0.05688,0.01885,0.01756,0.005115,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,926424,M,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,1.1760,1.2560,7.673,158.70,0.010300,0.02891,0.05198,0.02454,0.01114,0.004239,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,926682,M,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,0.7655,2.4630,5.203,99.04,0.005769,0.02423,0.03950,0.01678,0.01898,0.002498,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,926954,M,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,0.4564,1.0750,3.425,48.55,0.005903,0.03731,0.04730,0.01557,0.01318,0.003892,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,927241,M,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,0.7260,1.5950,5.772,86.22,0.006522,0.06158,0.07117,0.01664,0.02324,0.006185,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


## 2. Microsoft Azure

Ακολουθήστε αυτή τη διαδικασία για να εισάγετε δεδομένα από αρχείο CSV στο Microsof Azure:

Εντός του project όπου βρίσκεται το notebook σας κάντε "Upload" -> "From Computer" -> "Choose Files" διαλέξτε το αρχείο για ανέβασμα (στην περίπτωσή μας το "wdbc.data") και κλικ "Upload". Το αρχείο θα είναι ορατό μέσα στο project από το notebook.

Το αρχείο "wdbc.data" πρέπει να βρίσκεται στο file system:

In [0]:
!ls

Εισάγουμε και διαβάζουμε το csv "wdbc.data" με την read_csv και option "header=None" γιατί η πρώτη γραμμή περιέχει δεδομένα και όχι ονόματα κολόνων και τυπώνουμε τις πρώτες πέντε γραμμές:

In [0]:
import pandas as pd

df = pd.read_csv("wdbc.data", header=None)
df.head()

## 3. Kaggle

1. Διαλέξτε πάνω δεξιά "Add Data", μετά "Upload" και με "Select Files to Upload" (ή με drag'n'drop) ανεβάστε το αρχείο CSV (στην περίπτωσή μας το "wdbc.data"). 
2. Αριστερά, στο πεδίο "Title" εισάγετε τίτλο για το dataset. Βάλτε απλά "wdbc.data" (χωρίς τα εισαγωγικά) και πατήστε "Create".  Θα δημιουργηθεί ένα directory "wdbc.data" μέσα στο οποίο θα τοποθετηθεί το csv. (τυχόν κενά θα μετατραπούν σε minus sign, οι τελείες αφαιρούνται)
3. Στην επόμενη οθόνη θα λάβουμε ειδοποίηση ότι το αρχείο αυτό είναι ήδη διαθέσιμο στο repository του Kaggle. Θα το αγνοήσουμε πατώντας "Upload all files". 
4. Στην τελευταία οθόνη πατήστε "Confirm".

Το αρχείο CSV πρέπει να βρίσκεται στο file system, στο directory "input" εντός του directory που δημιουργήθηκε στο βήμα 2 και που είναι στο ίδιο ύψος με αυτό του notebook στο filesystem:

In [0]:
!ls ../input

Εισάγουμε και διαβάζουμε το csv "wdbc.data" μέσα από το directory "wdbcdata" με την read_csv και option "header=None" γιατί η πρώτη γραμμή περιέχει δεδομένα και όχι ονόματα κολόνων και τυπώνουμε τις πρώτες πέντε γραμμές:



In [0]:
import pandas as pd

df = pd.read_csv("../input/wdbcdata/wdbc.data", header=None)
df.head()

## 4. JetBrains Datalore

1. Πηγαίνετε στο "Tools"->"File Uploader"
2. Στο δεξί pane διαλέγετε "Upload" και διαλέγετε το αρχείο

In [0]:
import pandas as pd

df = pd.read_csv("wdbc.data", header=None)
df.head()

Αναλυτικές οδηγίες για upload δεδομένων στο IBM Watson Studio [εδώ](https://dataplatform.cloud.ibm.com/docs/content/analyze-data/load-and-access-data.html). Αναλυτικές οδηγίες για το IBM Cloud Object Storage και την Python [εδώ](https://dataplatform.cloud.ibm.com/docs/content/analyze-data/python_os.html).

# Μετατροπή δεδομένων σε numpy array

Στο "Data folder" του UCI εκτός του "wdbc.data.txt" έχει και το ["wdbc.names"](https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.names) με τις ονομασίες των features. Έχουμε 32 attributes, το πρώτο είναι το ID του δείγματος, το δεύτερο η διάγνωση ("Μ" για malignant και "B" για benign) και τέλος 30 real-valued χαρακτηριστικά εισόδου. Θα αποθηκεύσουμε τη δεύτερη κολώνα (διάγνωση) σε ένα dataframe "labels_df" και τα αριθμητικά features σε ένα dataframe "features_df". Το sample ID στην πρώτη κολώνα δεν μας ενδιαφέρει. Ακολουθούμε πάντα τη διαδικασία του διαχωρισμού σε διαφορετικά dataframes όταν τα attributes είναι διαφορετικών data types (όπως εδώ που έχουμε string για την κλάση και float για τα υπόλοιπα χαρακτηριστικά), γιατί αλλιώς δυσκολεύει η μετατροπή σε numpy array που θα κάνουμε στη συνέχεια.

In [25]:
labels_df = df.iloc[:, [1]] # τα labels είναι στη δεύτερη κολώνα
features_df = df.iloc[:, 2:] # τα features είναι όλες οι επόμενες κολονες
# και δεν μας ενδιαφέρουν τα ids στην πρώτη

# μετατρέπουμε το dataframe σε numpy array
np_features = features_df.values

print(np_features[0]) #τυπώνουμε το πρώτο δείγμα
print(np_features.shape) #τυπώνουμε τις διαστάσεις του πίνακα των χαρακτηριστικών
# επιβεβαιώνουμε ότι ο αρχικός πίνακας features ναι ίδιος με τον np_features
print(np.array_equal(features, np_features))
print(np_features - features)
# είναι ίδιοι πρακτικά, απλά ο np_features έχει λίγο μεγαλύτερο precision 

[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]
(569, 30)
False
[[ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  2.77555756e-17
   0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00 -1.38777878e-17]
 ...
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]]


Στο dataframe - κολώνα με τις κλάσεις "labels_df" πρέπει να μετατρέψουμε τα string 'M' και 'Β' σε 0 και 1 αντίστοιχα. Ορίζουμε ένα mapping και εφαρμόζουμε τη μέθοδο replace με το συγκεκριμένο mapping. 

Τέλος, αν εφαρμόσουμε μόνο τη μέθοδο "values" στο "labels_df" θα πάρουμε ένα np array δύο διαστάσεων (569, 1), ενώ θέλουμε να είναι μονοδιάστατος (569,). Για το λόγο αυτό εφαρμόζουμε επιπρόσθετα τη μέθοδο flatten(). Επιβεβαιώνουμε ότι ο αρχικός πίνακας labels είναι ίδιος με τον np_labels.

In [26]:
mapping = {'M': 0, 'B': 1}
labels_df = labels_df.replace(mapping)
# μετατρέπουμε το dataframe σε μονοδιάστατο array
np_labels = labels_df.values.flatten()

# επιβεβαιώνουμε ότι ο αρχικός πίνακας labels είναι ίδιος με τον np_labels
print(np_labels)
print(np_labels.shape)
print(np.array_equal(labels, np_labels))

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 0 1 1 0 