# Analyse Statistique Avancée pour le Classifieur Bag of Words

## Introduction

Ce notebook propose une analyse avancée de données textuelles pour le classifieur Bag of Words. Il inclut des statistiques descriptives, des visualisations de la distribution des classes, et des comparaisons de performances entre les méthodes Naïve Bayes et Réseaux de Neurones.

## Distribution des Classes

In [None]:

# Visualisation de la distribution des classes
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Exemple de dataframe de base (à remplacer par vos données)
df = pd.DataFrame({'target': y_train})  # Modifier si nécessaire
class_distribution = df['target'].value_counts()

plt.figure(figsize=(8, 6))
sns.barplot(x=class_distribution.index, y=class_distribution.values)
plt.xlabel('Classe')
plt.ylabel('Nombre d'échantillons')
plt.title('Distribution des Classes dans les Données d'Entraînement')
plt.show()
        

## Statistiques de Longueur des Documents

In [None]:

# Calcul et visualisation des statistiques de longueur des documents
doc_lengths = [len(doc.split()) for doc in X_train]

plt.figure(figsize=(10, 6))
plt.hist(doc_lengths, bins=30, color='purple', alpha=0.7)
plt.xlabel('Longueur des Documents (nombre de mots)')
plt.ylabel('Nombre de Documents')
plt.title('Distribution des Longueurs des Documents')
plt.show()

# Affichage de statistiques de base
import numpy as np
print(f'Longueur moyenne des documents : {np.mean(doc_lengths):.2f} mots')
print(f'Longueur minimale des documents : {np.min(doc_lengths)} mots')
print(f'Longueur maximale des documents : {np.max(doc_lengths)} mots')
        

## Exploration des Fréquences des Mots

In [None]:

# Calcul des fréquences des mots
from collections import Counter
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X_train_counts = vectorizer.fit_transform(X_train)
word_counts = Counter(dict(zip(vectorizer.get_feature_names_out(), X_train_counts.toarray().sum(axis=0))))

# Les mots les plus fréquents
most_common_words = word_counts.most_common(20)
words, counts = zip(*most_common_words)

plt.figure(figsize=(12, 6))
sns.barplot(x=list(words), y=list(counts))
plt.xticks(rotation=45)
plt.xlabel('Mots')
plt.ylabel('Fréquence')
plt.title('Mots les plus fréquents dans les Données')
plt.show()
        

## Matrice de Confusion Comparée

In [None]:

# Comparaison des matrices de confusion
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Exemple de prédictions (à remplacer par les prédictions réelles)
y_pred_nb = nb_model.predict(X_test)  # Naïve Bayes
y_pred_nn = nn_model.predict(X_test)  # Réseau de Neurones

# Matrice de confusion pour Naïve Bayes
cm_nb = confusion_matrix(y_test, y_pred_nb)
disp_nb = ConfusionMatrixDisplay(confusion_matrix=cm_nb)
disp_nb.plot()
plt.title('Matrice de Confusion - Naïve Bayes')
plt.show()

# Matrice de confusion pour le Réseau de Neurones
cm_nn = confusion_matrix(y_test, y_pred_nn)
disp_nn = ConfusionMatrixDisplay(confusion_matrix=cm_nn)
disp_nn.plot()
plt.title('Matrice de Confusion - Réseau de Neurones')
plt.show()
        

## Évaluation par Validation Croisée

In [None]:

# Validation croisée pour évaluer la performance moyenne
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.neural_network import MLPClassifier

# Naïve Bayes
nb_classifier = MultinomialNB()
nb_scores = cross_val_score(nb_classifier, X_train_counts, y_train, cv=5, scoring='f1_macro')
print(f'Score F1 moyen (Naïve Bayes) : {np.mean(nb_scores):.3f}')

# Réseau de Neurones (exemple simplifié)
nn_classifier = MLPClassifier(max_iter=100)  # Modifier selon les besoins
nn_scores = cross_val_score(nn_classifier, X_train_counts, y_train, cv=5, scoring='f1_macro')
print(f'Score F1 moyen (Réseau de Neurones) : {np.mean(nn_scores):.3f}')
        

## Conclusion

Ce notebook présente des statistiques avancées et des visualisations pour mieux comprendre la performance et les différences entre les méthodes Naïve Bayes et Réseau de Neurones pour la classification Bag of Words.