# Naive Bayes (NB)
---
## 1.1 Formulation mathématique

Naive Bayes est un modèle statistique génératif qui permet de prédire une valeur de sortie $y \in \mathcal{Y}$ à l'aide de données d'entrée $X$ en considérant toutes les variables comme indépendantes et identiquement distribuée (*hypothèse forte* $\mathcal{H}$), i.e.

$$
X = (X_i)_{i \in \mathbb{N}^*} \in \mathcal{X} = \mathbb{R}^n \quad \text{i.i.d.} \quad (\mathcal{H})
$$

Le *posterior* (valeur à estimer) est donnée par la formule de Bayes : 

$$
\boxed{
P(y \mid x)  = 
\frac{
\overbrace{P(x\mid y)}^{\text{likelihood}}
\;\;
\overbrace{P(y)}^{\text{prior}}
}{
\underbrace{P(x)}_{\text{constante } \in \mathbb{R}}
}
\propto P(x\mid y)P(y)
}
$$

De plus, d'après cette hypothèse forte (les *features* sont indépendantes conditionelement à la classe) :

$$
\mathcal{L}(x_i) = P(x|y) = \prod_{i = 1}^{n}P(x_i | y)
$$

On cherche donc $\hat{y} \in \mathcal{Y}$ tel que : 

$$
\begin{align}
    \hat{y} &= \text{arg}\max_{y}P(y | X)                                          \\
            &= \text{arg}\max_{y} \frac{P(x|y)P(y)}{P(x)}                          \\
            &= \text{arg}\max_{y}P(x|y)P(y)                                        \\
            &= \text{arg}\max_{y}P(y)\prod_{i = 1}^{n}P(x_i | y)                   \\
    \hat{y} &= \text{arg}\max_{y}[ \log(P(y)) + \sum_{i = 1}^{n}\log(P(x_i | y))]
\end{align}
$$

Avec : 

* $P(y)$ : **prior de classe**. En général, on prend une loi uniforme.
* $\mathcal{L}(x_i) = \prod_{i = 1}^{n}P(x_i | y)$ : **likelyhood** (vraisemblance). Dépend de la nature du problème.
* $P(y | X)$ : **posterior**. C'est la quantité que l'on cherche à estimer.

## 1.2 Types de Naive Bayes

Selon la nature des $x_i$, on a :

#### 1.2.1 Bernoulli Naive Bayes - *features* binaires 

* Les variables sont binaires, i.e. $x_i \in \{1;0\} \quad \forall i \in \mathbb{N}^*$
* $P(x_i = 1 | y) = \theta_{i}$
* $\mathcal{L(x_i)} = \prod_{i = 1}^{n} P(x_i | y) = \theta_{i}^{x_i}(1 - \theta_i)^{1 - x_i}$
* $P(y) = P(y = c) = \frac{N_c}{N}$. Avec $N$ le nombre total d'exemples et $N_c$ le nombre totale d'exemples dans la classe $c$.

#### 1.2.2 Multinomial Naive Bayes - traitement de texte

* $x_i \in \mathbb{N}$ : nombre d'occurences du mot $i$ dans le corpus (texte) (*bag of words*)
* $P(x_i | y = c ) = \theta_i$ avec $\sum_{i=1}^{d} \theta_i = 1$
* $\mathcal{L(x_i)} = \prod_{i = 1}^{n} P(x_i | y) = \prod_{i = 1}^{n} \frac{(\sum_{i=1}^{d})!}{\prod_{i=1}^{d}x_i!}\prod_{i=1}^{d}\theta_i^{x_i}$. En classification : $\prod_{i = 1}^{n} \frac{(\sum_{i=1}^{d})!}{\prod_{i=1}^{d}x_i!}\prod_{i=1}^{d}\theta_i^{x_i}$
* $P(y) = P(y = c) = \frac{N_c}{N}$. Avec $N$ le nombre total d'exemples et $N_c$ le nombre totale d'exemples dans la classe $c$.

#### 1.2.3 Gaussian Naive Bayes

* $x_i \in \mathbb{R}$ : valeurs continues
* $x | y \ \mathcal{N}(\mu, \Sigma)$. i.e. $\forall i \in \mathbb{N}^*, x_i | y  \sim \mathcal{N}(\mu_i, \sigma_i^2)$
* $\mathcal{L(x_i)} = \prod_{i = 1}^{n} P(x_i | y) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x_i - \mu_i)^2}{2\sigma_i^2}}$
* $P(y) = P(y = c) = \frac{N_c}{N}$. Avec $N$ le nombre total d'exemples et $N_c$ le nombre totale d'exemples dans la classe $c$.

## 2. Propositon d'implémentation de Naive Bayes
---

#### 2.2 Bernoulli Naive Bayes

#### 2.2 Multinomial Naive Bayes

On s'intéresse ici à la détection de spam. EN effet, ce problème comporte beaucoup de *features* peu corrélées, ce qui rend cette méthode très adaptée à la détection de spams. 

Import des librairies

In [1]:
import numpy as np
from collections import Counter

Implémentation de l'algorithme

In [2]:
class MultinomialNaiveBayes:
    def __init__(self, alpha=1.0):
        self.alpha = alpha

    def fit(self, X, y):
        self.classes = np.unique(y)
        n_features = X.shape[1]

        self.class_log_prior = {}
        self.feature_log_prob = {}

        for c in self.classes:
            X_c = X[y == c]

            # Prior P(y)
            self.class_log_prior[c] = np.log(X_c.shape[0] / X.shape[0])

            # Comptage des mots dans la classe
            word_counts = X_c.sum(axis=0)

            # Laplace smoothing
            smoothed = word_counts + self.alpha
            smoothed_total = smoothed.sum()

            # Probabilités conditionnelles P(x_i | y)
            self.feature_log_prob[c] = np.log(smoothed / smoothed_total)

    def predict(self, X):
        predictions = []

        for x in X:
            scores = {}
            for c in self.classes:
                scores[c] = self.class_log_prior[c] + np.sum(x * self.feature_log_prob[c])
            predictions.append(max(scores, key=scores.get))

        return np.array(predictions)


Initialisation d'un *dataset* simulé

In [3]:
def tokenize(text):
    return text.lower().split()

def vectorize(text):
    vec = np.zeros(len(vocab), dtype=int)
    counts = Counter(tokenize(text))
    for word, c in counts.items():
        vec[word_to_idx[word]] = c
    return vec

texts = [
    "buy cheap pills",
    "cheap pills now",
    "hello how are you",
    "let's have lunch",
    "buy now",
    "hello friend"
]

labels = ["spam", "spam", "ham", "ham", "spam", "ham"]

vocab = sorted(set(word for text in texts for word in tokenize(text)))
word_to_idx = {w: i for i, w in enumerate(vocab)}

X = np.array([vectorize(t) for t in texts])
y = np.array(labels)

Entraînement

In [4]:
model = MultinomialNaiveBayes(alpha=1.0)
model.fit(X, y)

test_texts = ["cheap lunch now", "hello how"]
X_test = np.array([vectorize(t) for t in test_texts])

print(model.predict(X_test))

['spam' 'ham']


#### 2.3 Gaussian Naive Bayes

## 3. Des exemples en Python
---

### 3.1 Bernoulli Naive Bayes
#### 3.1.1 Import des librairies

### 3.2 Multinomial Naive Bayes
#### 3.2.1 Import des librairies

### 3.3 Gaussian Naive Bayes
#### 3.3.1 Import des librairies

In [5]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#### 3.3.2 Initialisation / import des données

In [6]:
iris = load_iris()
X = iris.data
y = iris.target

#### 3.3.3 Séparation des données de test et d'entraînement

In [7]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

#### 3.3.4 Entraînement du modèle

In [8]:
model = GaussianNB()         # Initialisation du modèle
model.fit(X_train, y_train)  # Entraînement du modèle

0,1,2
,"priors  priors: array-like of shape (n_classes,), default=None Prior probabilities of the classes. If specified, the priors are not adjusted according to the data.",
,"var_smoothing  var_smoothing: float, default=1e-9 Portion of the largest variance of all features that is added to variances for calculation stability. .. versionadded:: 0.20",1e-09


#### 3.3.4 Prédictions

In [9]:
y_pred = model.predict(X_test)

#### 3.3.5 Evaluation des performances du modèle

In [10]:
print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nConfusion matrix:\n", confusion_matrix(y_test, y_pred))

Accuracy: 0.9777777777777777

Confusion matrix:
 [[19  0  0]
 [ 0 12  1]
 [ 0  0 13]]
