# Naive Bayes on IMDB data set

Een Naive Bayes-model is een eenvoudig maar krachtig machine learning-algoritme dat gebaseerd is op de Bayesiaanse waarschijnlijkheidstheorie. Het model maakt gebruik van de onafhankelijkheidsveronderstelling tussen de kenmerken (features) van de gegevenspunten. Hierdoor kan het snel en efficiënt grote hoeveelheden gegevens verwerken en voorspellingen doen.

### Werking van Naive Bayes:

1. Bayesiaanse Theorie: Het algoritme maakt gebruik van de Bayesiaanse regel om de kans te berekenen dat een gegeven invoer tot een bepaalde klasse behoort. Deze kans wordt bijgewerkt op basis van nieuwe informatie.

2. Onafhankelijkheidsveronderstelling: Naive Bayes veronderstelt dat de kenmerken van de gegevens onafhankelijk van elkaar zijn gegeven de klasse. Dit maakt de berekeningen eenvoudiger en sneller, maar kan in werkelijke datasets een beperking vormen omdat echte kenmerken vaak gecorreleerd zijn.

3. Classificatie: Het model wordt veel gebruikt voor classificatietaken, waarbij het de kans berekent dat een gegeven set kenmerken tot elke mogelijke klasse behoort, en de klasse kiest met de hoogste kans.

### Voordelen van Naive Bayes:

- Eenvoudig en snel: Het model is snel te trainen en te gebruiken, zelfs met een grote hoeveelheid gegevens.
- Weinig gegevens vereist: Het heeft minder gegevens nodig om betrouwbare voorspellingen te doen in vergelijking met complexere modellen.
- Goede prestaties bij goed gescheiden klassen: Wanneer de klassen goed gescheiden zijn, kan Naive Bayes zeer accuraat zijn.

### Nadelen van Naive Bayes:

- Onrealistische onafhankelijkheidsveronderstelling: De aanname van onafhankelijke kenmerken is vaak niet waar in echte datasets, wat de nauwkeurigheid kan beïnvloeden.
- Kan niet omgaan met ontbrekende gegevens: Het model vereist volledige gegevens voor elke voorspelling.
- Kwaliteit van voorspellingen: In vergelijking met complexere modellen kan Naive Bayes soms minder nauwkeurig zijn, vooral bij datasets met complexe afhankelijkheden tussen kenmerken.

### Gebruik van Naive Bayes:

- Tekstclassificatie: Het model wordt veel gebruikt voor het classificeren van documenten, bijvoorbeeld om spam-e-mails te detecteren.
- Sentimentanalyse: Voor het analyseren van de sentimenten in tekstuele gegevens.
- Medische diagnose: In eenvoudige medische diagnoseproblemen kan Naive Bayes worden toegepast om voorlopige diagnoses te stellen.

In [10]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
from keras import models
from keras import layers
import matplotlib.pyplot as plt

In [11]:
from keras.datasets import imdb

(X_train, y_train), (X_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=10000,
                                                      skip_top=0,
                                                      maxlen=None,
                                                      seed=42,
                                                      start_char=1,
                                                      oov_char=2,
                                                      index_from=3)

In [12]:
word_index = imdb.get_word_index()
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

decoded_review = ' '.join([reverse_word_index.get(i - 3, '?') for i in X_train[0]])
decoded_review

"? in panic in the streets richard widmark plays u s navy doctor who has his week ? interrupted with a corpse that contains plague as cop paul douglas properly points out the guy died from two bullets in the chest that's not the issue here the two of them become unwilling partners in an effort to find the killers and anyone else exposed to the disease br br as was pointed out by any number of people for some reason director ? kazan did not bother to cast the small parts with anyone that sounds like they're from ? having been to new orleans where the story takes place i can personally ? to that richard widmark and his wife barbara ? ? can be ? because as a navy doctor he could be assigned there but for those that are natives it doesn't work br br but with plague out there and the news being kept a secret the new orleans ? starts a ? of the city's underworld the dead guy came off a ship from europe and he had underworld connections a new orleans wise guy played by jack palance jumps to a

In [13]:
def vectorize_sequences(sequences, dimension=10000):
    # Maak een matrix van de vorm (len(sequences), dimension) met nullen
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.  # zet de juiste waarden in results[i] op 1
    return results

In [14]:
X_train = vectorize_sequences(X_train)
X_test = vectorize_sequences(X_test)

y_train = np.asarray(y_train).astype('float32')
y_test = np.asarray(y_test).astype('float32')

In [15]:
# Maak een model
from sklearn.naive_bayes import MultinomialNB
model = MultinomialNB()
model.fit(X_train, y_train)

In [16]:
# Model evalueren
score = model.score(X_test, y_test)
print(score)


0.83936


Een accuracy van 84% is een solide resultaat voor een Naive Bayes-model op de IMDb dataset. Naive Bayes-modellen zijn bekend om hun eenvoud en snelheid, maar ze maken een sterke aanname van onafhankelijkheid tussen kenmerken die in de praktijk vaak niet volledig klopt.