In [None]:
https://www.lorenzogovoni.com/naive-bayes/
https://www.andreaminini.com/ai/machine-learning/algoritmo-naive-bayes

# Naive Bayes

## Teorema di Bayes

Il teorema di Bayes calcola la probabilità di un evento, in base alla conoscenza preliminare delle evidenze correlate all’evento. 

In altre parole, il teorema di Bayes viene impiegato per calcolare la probabilità di un evento A dipendente da un evento B che è già accaduto.

Ovvero, dato un evento B già accaduto, da cui dipende evento A, il teorema di Bayes calcola la probabilità di A.


L’equazione del teorema di Bayes è la seguente:

$$P(A|B) = \frac{P(B|A) ⋅ P(A)} {P(B)}$$ 
P(A|B) si legge 'probabilità che avvenga A dato B'


### Esempio

Abbiamo due urne, esternamente identiche e piene di palline
 - una contiene 3 BIANCHE e 3 NERE, 
 - l’altra 6 BIANCHE e 3 NERE 
Se un bambino estrae da un'urna a caso una pallina NERA, qual è la probabilità che sia stata estratta dalla prima urna?

In questo caso l'evento A già accaduto è l'estrazione della pallina NERA.
Mentre l'estrazione dalla prima urna è l'evento B di cui vogliamo calcolare la probabilità

Soluzione
Definiamo:

 - A = estrazione dalla prima urna (dato di cui dobbiamo calcolare la probabilità)
 - B = pallina nera  (dato certo)
 - P(A|B) = probabilità che la pallina sia stata estratta dalla prima urna (A), posto che la pallina è nera (B) (per praticità è possibile leggere | come 'dato')

 - U1 = urna 1 (3 BIANCHE e 3 NERE)
 - U2 = urna 2 (6 BIANCHE e 3 NERE)
 - N = pallina NERA

Calcoliamo :

 - P(U1) = 1/2 (probabilità di scegliere la prima urna)
 - P(U2) = 1/2 (probabilità di scegliere la seconda urna)
 - P(N|U1) = 1/2  (probabilità di pescare una pallina nera scelta la prima urna)
 - P(N|U2) = 1/3  (probabilità di pescare una pallina nera scelta la seconda urna)
 
Decisamente più complicato è calcolare la probabilità di estrarre una pallina nera da una qualsiasi scatola.
Che corrisponde genericamente alla probabilità di scegliere la i-esima scatola, moltiplicata la probabilità di pescare una pallina nera sempre nella i-esima scatola. <br>
Genericamente :
$$ \sum_{i=0}^{n} P(U_i) · P(N|U_i) $$
Quindi, abbiamo che:
 - P(N) = [P(U1) · P(N|U1)] + [P(U2) · P(N|U2)] = (1/2 * 1/2) + (1/2 * 1/3) = 1/4 + 1/6 = 5/12 (probabilità di pescare una pallina nera da una scatola a caso)

Applicando il teorema di bayes abbiamo:

$$P(A|B) = P(U1|N) = \frac{P(N|U1) ⋅ P(U1)} {P(N)} = \frac{1/2 ⋅ 1/2} {5/12} = 1/4 ⋅ 12/5 = 6/10 = 60\% $$


## Naive Bayes

Naive Bayes è un algoritmo di apprendimento supervisionato adatto a risolvere problemi di classificazione binari (a due classi) e multi-classe.

La peculiarità principale dell’algoritmo, oltre ad avvalersi del teorema di Bayes, è che si basa sul fatto che tutte le caratteristiche non siano correlate l’una all’altra. La presenza o l’assenza di una caratteristica non influenzano la presenza o l’assenza di altre.

Detto in altre parole l'algoritmo Naive Bayes si chiama così perchè :
Naive => ingenuo in inglese, perchè non tiene conto dell'ordine delle parole
Bayes => perchè applica il teorema di bayes

Per queste sue caratteristiche l’algoritmo Naive Bayes è usato principalmente per la classificazione dei testi. Ovvero dato un dizionario di parole con ogniuna la sua probabilità, l’algoritmo Naive Bayes determina con quale percentuale di probabilità il testo dato è stato creato con quel dizionario.


### Esempio

Se analizziamo una serie di email provenienti da 5 persone diverse ed equiprobabili p1, p2, p3, p4 e p5, possiamo costruire facilmente un dizionario per ogni persona. <br>
Nel dizionario ovviamente ogni parola avrà probabilità uguale al numero di occorrenze della parola (in tutte le email di una persona), diviso il numero di parole totale (in tutte le mail della stessa persona). <br>

Per calcolare la probabilità che una data email sia stata scritta da una generica persona p basta moltiplicare le probabilità di ogni parola nell'email. Ovviamente le probabilità delle parole sono prese dal dizionario della persona p.




### creare esempio con sci kit learn
https://www.datacamp.com/community/tutorials/naive-bayes-scikit-learn
https://www.lorenzogovoni.com/naive-bayes/

In [16]:
#Import scikit-learn dataset library
from sklearn import datasets

#Load dataset
wine = datasets.load_wine()



In [18]:
# print the names of the 13 features
print("Features: ", wine.feature_names)

# print the label type of wine(class_0, class_1, class_2)
print("Labels: ", wine.target_names)

Features:  ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
Labels:  ['class_0' 'class_1' 'class_2']


In [19]:
# print data(feature)shape
wine.data.shape

(178, 13)

In [21]:
# print the wine data features (top 5 records)
print (wine.data[0:5])

[[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
  2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 1.120e+01 1.000e+02 2.650e+00 2.760e+00
  2.600e-01 1.280e+00 4.380e+00 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 1.860e+01 1.010e+02 2.800e+00 3.240e+00
  3.000e-01 2.810e+00 5.680e+00 1.030e+00 3.170e+00 1.185e+03]
 [1.437e+01 1.950e+00 2.500e+00 1.680e+01 1.130e+02 3.850e+00 3.490e+00
  2.400e-01 2.180e+00 7.800e+00 8.600e-01 3.450e+00 1.480e+03]
 [1.324e+01 2.590e+00 2.870e+00 2.100e+01 1.180e+02 2.800e+00 2.690e+00
  3.900e-01 1.820e+00 4.320e+00 1.040e+00 2.930e+00 7.350e+02]]


In [23]:
# print the wine labels (0:Class_0, 1:class_2, 2:class_2)
print (wine.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]


In [27]:
# Import train_test_split function
from sklearn.model_selection import train_test_split

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3,random_state=109) # 70% training and 30% test

print("X train",X_train.shape)
print("X test",X_test.shape)
print("y train",y_train.shape)
print("y test",y_test.shape)

X train (124, 13)
X test (54, 13)
y train (124,)
y test (54,)


In [28]:
#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB

#Create a Gaussian Classifier
gnb = GaussianNB()

#Train the model using the training sets
gnb.fit(X_train, y_train)

#Predict the response for test dataset
y_pred = gnb.predict(X_test)

In [29]:
#Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics

# Model Accuracy, how often is the classifier correct?
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9074074074074074


# Vantaggi e svantaggi del Naive Bayes

### Vantaggi
 - Non è solo un approccio semplice, ma anche un metodo rapido e accurato per la previsione.
 - Naive Bayes ha un costo di calcolo molto basso.
 - Può lavorare in modo efficiente su un set di dati di grandi dimensioni.
 - Funziona bene in caso di variabile di risposta discreta rispetto alla variabile continua.
 - Può essere utilizzato con problemi di previsione di più classi.
 - Funziona bene anche in caso di problemi di analisi del testo.
 - Quando l'assunzione di indipendenza è valida, un classificatore Naive Bayes ha prestazioni migliori rispetto ad altri modelli come la regressione logistica.

### Svantaggi
 - L'assunzione di caratteristiche indipendenti. In pratica, è quasi impossibile che il modello ottenga un insieme di predittori completamente indipendenti.
 - Se non è presente una tupla di addestramento di una particolare classe, la probabilità a posteriori è zero. In questo caso, il modello non è in grado di fare previsioni. Questo problema è noto come problema di probabilità/frequenza zero.

In [None]:
https://www.datacamp.com/community/tutorials/naive-bayes-scikit-learn