# Tekstclassificatie

Een veel voorkomende toepassing bij machine learning is het werken op tekstfragmenten.
Denk bijvoorbeeld aan chatbots, spam-mail detectie, automatische call-centers, ...
Dit wordt ook NLP of Natural Language Processing genoemd.
De moeilijkheid bij het werken met NLP is dat de betekenis van een woord vaak sterk afhankelijk is van de context van het stuk tekst.
Om met deze complexiteit om te gaan zijn geavanceerde machine learning technieken nodig zoals deep learning.
Dit komt later bij Machine Learning in meer detail aan bod.
De complexiteit kan echter sterk gereduceerd worden door te veronderstellen dat alle woorden in het tekstfragment onafhankelijk zijn van elkaar.
In de rest van deze notebook wordt gewerkt met het typische voorbeeld over spam-detectie op inkomende mails.

## Typisch voorbeeld: Spam detectie

Hieronder staat een typisch voorbeeld van een spam mail.

![spam-example](images\spam1.jpg)

Het doel is nu om deze mail te classificeren als spam of not spam (dit laatste wordt ook "ham" genoemd).
We zoeken dus de kans dat deze tekst spam is op basis van alle woorden die erin staat.
Hierdoor bekomen we de volgende vergelijking.

$P(\text{Spam}|w_1,w_2, \dots w_n) = \frac{P(w_1,w_2, \dots w_n|\text{Spam}) P(\text{Spam})}{P(w_1,w_2, \dots w_n)}$

Na toepassing van de Bayes rule kunnen we dit ook schrijven als:

$P(\text{Spam}|w_1,w_2, \dots w_n) = \frac{P(w_1|w_2, \dots w_n,\text{Spam})P(w_2|w_3, \dots w_n,\text{Spam})\dots P(\text{Spam})}{P(w_1,w_2, \dots w_n)}$

De kansen in de teller van de breuk geven de kansen weer om een bepaald woord te vinden op basis van de andere woorden in de tekst.
Dit is heel lastig te berekenen en zorgt voor een heel hoge complexiteit.
Hier komt echter de veronderstelling van onafhankelijkheid van de woorden in de tekst goed van pas om deze vergelijking te vereenvoudigen.
We bekomen namelijk:

$P(\text{Spam}|w_1,w_2, \dots w_n) = \frac{P(w_1|\text{Spam})P(w_2|\text{Spam})\dots P(w_n|\text{Spam})P(\text{Spam})}{P(w_1,w_2, \dots w_n)} = \frac{P(\text{Spam})\prod \limits_{i=1}^{n}P(w_i|\text{Spam})}{P(w_1,w_2, \dots w_n)}$

De noemer hierin zorgt ervoor dat de teller terug omgezet wordt naar een kans (met een waarde tussen 0 en 1).
Deze is echter onafhankelijk van de kans of het spam is of niet.
We hebben ook niet de exacte kans nodig maar moeten gewoon weten of de teller het grootst is als het spam is of niet.
Daarom kan de noemer dus weggelaten worden met als volgende resultaat.

$P(\text{Spam}|w_1,w_2, \dots w_n) \propto P(\text{Spam})\prod \limits_{i=1}^{n}P(w_i|\text{Spam})$

Stel dat we de volgende gegevens hebben over een dataset met 300 spam mails en 850 ham mails:

In [None]:
import pandas as pd

In [None]:
aantal_spam_mails = 300
aantal_ham_mails = 850

woord = ["customer", "advise", "Africa", "money", "number"]
spam_freq = [100,50, 120,60, 180]
spam_prob = [x/aantal_spam_mails for x in spam_freq]
ham_freq = [200, 70, 30, 450, 660]
ham_prob =  [x/aantal_ham_mails for x in ham_freq]

df = pd.DataFrame({"Woord": woord, "Spam frequentie": spam_freq, "Spam kans": spam_prob, "Ham frequentie": ham_freq, "Ham kans": ham_prob})
df

Beantwoord nu de volgende vragen:
* Wat is $P(\text{Spam})$, de kans dat een willekeurige mail spam is in de dataset?
* Doe een manuele classificatie van de zin "Africa advise money"

In [None]:


if(pTextIsSpam > pTextIsHam):
    print("Africa advise money is spam")
else:
    print("Africa advise money is ham")

**Hoe wordt er omgegaan met classificatie van woorden die niet in de dataset zaten?**

Indien een mail uit de testset een woord bevat die nooit gezien was in de trainingsset, dan kan deze mail niet geclassificeerd worden omdat de kans van het woord steeds 0 is.
Er zijn twee mogelijkheden om hiermee om te gaan. 
* Ofwel laat je die eruit vallen maar dan verlies je informatie.
* Ofwel geef je deze woorden toch een bepaalde kans.

Dit laatste kan gebeuren door middel van Laplacian Smoothing.
De formule hiervoor is: 

$P(w) = \frac{C(w) + \alpha}{N+\alpha V}$

met 
* P(w) de uiteindelijke kans van het woord
* C(w) het aantal mails waarin het woord voorkomt
* N het aantal spam-mails
* V het aantal verschillende woorden (features) in de dataset
* $\alpha$ een hyperparameter dat aangeeft hoeveel gewicht de ongeziene woorden moeten krijgen.
    * Kleine waarde $\rightarrow$ klein belang van ongeziene woorden $\rightarrow$ neiging tot overfitting
    * Grote waarde $\rightarrow$ groot belang van ongeziene woorden $\rightarrow$ neiging tot underfitting 
    
Het algemene concept van Laplacian smoothing is om voor ongeziene woorden een extra fictieve mail toe te voegen die enkel bestaat uit dit woord.
De $\alpha$ is dan hoeveel keer deze mail wordt toegevoegd.
Bereken voor een $\alpha=2$ opnieuw de kansen in het dataframe df.
Voeg hier ook een lijn aan toe voor woorden die niet in de dataset aanwezig zijn.

In [None]:
# bereken de geupdate matrix met de kansen

Voer nu opnieuw manuele classificatie uit voor de zin "Europe advise money" door gebruik te maken van Laplacian Smoothing.
Is deze zin Spam of Ham?

**Probleem van veel kansen te vermenigvuldigen**

Naast het probleem van ongeziene woorden, kan er nog een probleem optreden bij het werken met de kansberekeningen.
Aangezien kansen een waarde tussen 0 en 1 zijn kan het zijn dat er bij vermenigvuldiging van veel kansen een floating-point underflow optreed omdat het resultaat steeds kleiner en kleiner gaat worden.
Om dit tegen te gaan kan men gebruik maken van het logaritme van de kansen.
Dit wordt ook **log likelihood** genoemd en wordt berekend als volgt:

$log(P(\text{Spam}|w_1,w_2, \dots w_n)) \propto log(P(\text{Spam})) + \sum\limits_{i=1}^{n}log(P(w_i|\text{Spam}))$

De resulterende klasse is nog steeds de klasse met de hoogste log-likelihood.

Bereken de log-likelihood voor de zin "Europe advice money".

**Probleem van gelijkaardige woorden**

Daarnaast is het duidelijk dat elke vorm van geschreven tekst een groot aantal overbodige woorden betekenen. 
Dit zijn dan bijvoorbeeld woorden die in heel veel zinnen voorkomen zoals ik, hij, en, daar, ...
Deze woorden gaan geen informatie geven om de classificatie uit te voeren en kunnen dus ook genegeerd worden.
Daarnaast kan men ook de vraag stellen over vervoegingen van werkwoorden of meervouden een apart woord moeten zijn.

Over het algemeen gezien kunnen we de volgende stappen uitvoeren om de tekst bruikbaarder te maken:
* Html/xml/... tags verwijderen indien er zijn ([BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/))
* Cijfers/speciale symbolen verwijderen
* Alles omzetten naar lowercase
* Stopwoorden verwijderen ([nltk.corpus](https://www.geeksforgeeks.org/removing-stop-words-nltk-python/)) (vergeet niet de stopwords te downloaden indien nodig)
* Alle woorden herleiden naar hun stam ([nltk SnowballStemmer](https://www.nltk.org/_modules/nltk/stem/snowball.html))
* Verwijder te korte woorden

Deze stappen kunnen door middel van de volgende lijnen code uitgevoerd worden:

In [None]:
import opendatasets as od
od.download("https://www.kaggle.com/chandramoulinaidu/spam-classification-for-basic-nlp")

Nu dat de tekst in zijn meest bruikbare vorm staat kan de "bag of words" bepaald worden van de dataset.
Dit gaat alle unieke woorden in de volledige dataset gaan oplijsten en komt overeen met de feature vector.
Er zijn dan twee manieren om de classificatie uit te voeren.
* [Multi-variate Bernoulli Naive Bayes](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html): Kijk enkel of het woord in de bag-of-words voorkomt in de tekst of niet (0 of 1)
* [Multinomial Naive Bayes](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html): Tel hoeveel keer elk woord in de bag-of-words voorkomt in de tekst. [CountVectorizer](https://www.educative.io/edpresso/countvectorizer-in-python) of [TfidfTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html)

De TfidfTransformer is een speciale manier om de frequentie te berekenen, namelijk door het te vermenigvuldigen met het logaritme van het percentage van de observaties waarin het woord voorkomt.
Deze frequentie wordt de term frequency-inverse document frequency genoemd en zorgt ervoor dat woorden die veel voorkomen minder grote waarden krijgen dan woorden die zelden voorkomen. 

$\text{tfidf}_{i,j} = \text{tf}_{i,j} \times \log(\frac{N}{\text{df}_i})$

Op deze verwerkte data kan dan een classifier getrained worden zoals LogisticRegression, SVM of naive bayes.
Merk op dat de bovenstaande vormen van naive bayes niet de enige zijn.
Een derde interessante versie is de [ComplementNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.ComplementNB.html) methode. 
Deze gaat vooral goed presteren wanneer de dataset sterk uit balans is.
Meer informatie over alle mogelijke implementaties van Naive Bayes vind je [hier](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.naive_bayes)