# Ispezione dei dati

Cominciamo a ispezionare i dati che abbiamo a disposizione. 
In breve, si tratta di una collezione di messaggi di posta elettronica raccolti da varie fonti come mailing list e altre corpora pubbliche.

I messaggi sono raggruppati in cartelle a seconda che siano messaggi di **spam** or **ham**. Come sapete i messaggi di **spam** sono quelli indesiderati, mentre i messaggi di **ham** sono quelli legittimo (ossia, l'opposto di spam).

Vediamo ad esempio il contenuto di un messaggio di spam nella cartella `spam` (sottocartella di `dati`).

In [1]:
import spam
esempio_spam = "dati/spam/spam_00131"
## apri e stampa il contenuto del file `esempio_spam`
print(spam.contenuto_messaggio(esempio_spam))


Now you can have HUNDREDS of lenders compete for your loan!

FACT: Interest Rates are at their lowest point in 40 years!

You're eligible even with less than perfect credit !!

	* Refinancing
	* New Home Loans
	* Debt Consolidation
	* Debt Consultation
	* Auto Loans
	* Credit Cards
	* Student Loans
	* Second Mortgage
	* Home Equity

This Service is 100% FREE without any obligation.

Visit Our Web Site at:  http://61.129.68.19/user0201/index.asp?Afft=QM3


To Unsubscribe: http://61.129.68.19/light/watch.asp




Come possiamo intuire si tratta di un messaggio di spam che cerca di vendere un qualche tipo di finanziamento (presumibilmente non molto affidabile!).

Vediamo ora un esempio di messaggio di ham.

In [2]:
esempio_ham = "dati/easy_ham/ham_00098"
## apri e stampa il contenuto del file `esempio_ham`
print(spam.contenuto_messaggio(esempio_ham))

         |::::::::::::::::::::::::::::::::::::::::::::::::::|

                IT's Monday 520      02 September 2002

              |::::::::::::::::::::::::::::::::::::::::|



STUDENT LIFE BEGINS WITH LINUX
by
John Sterne

The launch last month of a marketing special interest group by the
Irish Linux Users Group (ILUG)  -  open source and marketing, it
seems, might not be mutually exclusive concepts  -  has already
sparked an interesting initiative at University College Cork.  When
the new academic year begins at UCC, every incoming student will
be offered a copy of Red Hat Linux 7.3.

ILUG member Braun Brelin proposed this promotion, when he ran a
training class for staff at the UCC computer science department.
Brelin, who is the director of technology at OpenApp, says that the
Linux offer could be extended to any or all of the other Irish
universities.

The user group is tapping into an international Red Hat programme
that aims to introduce students at all levels to the open sourc

In questo caso si tratta di un messaggio legittimo, che promuove uno "Linux User Group" presso qualche gruppo di studenti.

# Un po' di statistiche

Analizzeremo i dati a disposizione principalmente in termini di quali parole (**termini**) compaiono più frequentemente in qualunque posizione in un messaggio di spam piuttosto che di ham.

Per queste statistiche abbiamo a disposizione due tipi di strutture: la *matrice delle occorrenze* e la *tabella delle frequenze*. Vediamo un esempio di entrambe per l'analisi di tutti i messaggi nella cartella `spam`.

## Matrice delle occorrenze

Cominciamo dalla matrice delle occorrenze.

In [3]:
## lista di tutti i file con messaggi nella cartella `dati/spam`
lista_spam = spam.messaggi_in_cartella("dati/spam/")
## costruiamo la matrice delle occorrenze
mo_spam = spam.matrice_occorrenze_termini(lista_spam)
## stampiamone il contenuto di una piccola porzione
## visto che la matrice è molto grande
print(mo_spam.iloc[1:10, 70:75])

                      absmiddle  absolute  absolutely  absrsj  abstract
dati/spam/spam_00291          0         0           0       0         0
dati/spam/spam_00024          0         0           0       0         0
dati/spam/spam_00038          0         0           0       0         0
dati/spam/spam_00360          0         0           0       0         0
dati/spam/spam_00400          0         0           0       0         0
dati/spam/spam_00075          0         0           0       0         0
dati/spam/spam_00461          0         0           0       0         0
dati/spam/spam_00137          0         0           0       0         0
dati/spam/spam_00084          0         0           0       0         0


Questa piccola porzione della tabella lista 10 messaggi (uno per riga). Le 5 colonne corrispondono a 5 termini incontrati nei messaggi analizzati. I numeri indicano quante volte ciascun termine compare in un dato messaggio. I numeri sono tutti 0 perchè la matrice è molto *sparsa* &mdash; ossia molte parole compaiono solo in alcuni messaggi. Nel suo complesso però, la matrice riporta delle informazioni utili, come vedremo meglio analizzando la tabella delle frequenze.

## Tabella delle frequenze
Costruiamo la tabella delle frequenze per gli stessi messaggi.

In [4]:
tf_spam = spam.tabella_frequenze_termini(lista_spam)
## stampiamo una porzione della tabella
print(tf_spam[90:100])

             conteggio  frequenza   densita
accept              28      0.054  0.000157
acceptable           3      0.006  0.000017
acceptance           5      0.010  0.000028
accepted            25      0.046  0.000140
accepting            2      0.004  0.000011
accesories           1      0.002  0.000006
access             106      0.110  0.000594
accessible           6      0.012  0.000034
accessories          5      0.008  0.000028
accident             2      0.004  0.000011


Adesso le *righe* corrispondono ai termini. Per ogni termine la tabella riporta:

   * il **conteggio**: il numero di volte che il termine compare nei messaggi analizzati
   * la **frequenza**: la frazione dei messaggi contiene il termine (una o più volte)
   * la **densità**: la frazione di tutte le parole che sono uguali al termine

Nelle nostre statistiche useremo principalmente la *frequenza*, ma è interessante anche osservare altre proprietà e statistiche.

Vediamo quali sono i termini più frequenti nei messaggi di spam analizzati.

In [5]:
## i 10 termini più frequenti in `lista_spam`
print(tf_spam["frequenza"].sort_values(ascending=False)[:10])

http     0.828
com      0.654
html     0.552
www      0.544
email    0.504
click    0.488
href     0.468
list     0.456
free     0.454
body     0.444
Name: frequenza, dtype: float64


## Qualche esempio di ham
Costruiamo la tabella delle frequenze per un gruppo di messaggi di *ham* &mdash; ad esempio, quelli nella cartella `dati/easy_ham`.

In [6]:
lista_easy_ham = spam.messaggi_in_cartella("dati/easy_ham/")
tf_easy_ham = spam.tabella_frequenze_termini(lista_easy_ham)
print(tf_easy_ham[90:100])

               conteggio  frequenza   densita
academic              10     0.0032  0.000034
academics              1     0.0004  0.000003
academy                7     0.0012  0.000024
acadians               1     0.0004  0.000003
accel                  1     0.0004  0.000003
accelerate             5     0.0020  0.000017
accelerated            1     0.0004  0.000003
accelerating           4     0.0016  0.000013
acceleration          20     0.0020  0.000067
accelerations          1     0.0004  0.000003


In [7]:
## i 10 termini più frequenti in `lista_easy_ham`
print(tf_easy_ham["frequenza"].sort_values(ascending=False)[:10])

http        0.7432
com         0.6964
www         0.5504
list        0.3752
net         0.3484
listinfo    0.3456
date        0.3128
wrote       0.3080
just        0.3012
mailing     0.2944
Name: frequenza, dtype: float64


Come vediamo ci sono molti termini che compaiono in entrambe le top-10, ma con frequenze leggermente diverse.
Alcuni termini, come *http* e *com*, sono comuni semplicemente perché compaiono spesso in indirizzi di siti web, che sono comunemente presenti in ogni tipo di messaggio. Altri invece compaiono prevalentemente in un gruppo rispetto all'altro &mdash; come *mailing* e *listinfo* che indicano che molti dei messaggi di ham provengono da mailing list.

# Classificazione bayesiana

Supponiamo di incontrare un nuovo messaggio di posta elettronica, che vorremmo classificare automaticamente in **spam** or **ham**. La classificazione sarà basata su una stima empirica, e pertanto sarà espressa in termini di *probabilità*.

Precisamente, dato un messaggio $m$, vorremmo calcolare due probabilità:

$$p_S = P[ \text{spam} \mid m] \qquad \text{probabilità che }m\text{ sia spam}$$
$$p_H = P[ \text{ham} \mid m] \qquad \text{probabilità che }m\text{ sia ham}$$

Se siamo in grado di stimare entrambe le probabilità possiamo classificare $m$.
Se $p_S > p_H$ classifichiamo $m$ come spam; altrimenti lo classifichiamo come ham.

Per calcolare $P_S$ e $P_H$ applichiamo un risultato fondamentale di statistica detto "teorema di Bayes".
Vediamo l'applicazione del teorema per calcolare $P_S$:

$$p_S = P[ \text{spam} \mid m] = \frac{P[m \mid \text{spam}] \cdot P[\text{spam}]}{P[m]}$$

Il lato destro dell'equazione ci dice che $p_S$ equivale al prodotto di $P[m \mid \text{spam}]$ per $P[\text{spam}]$ diviso per $P[m]$:

   * Il termine $P[m \mid \text{spam}]$ si chiama **likelihood** e denota la probabilità di incontrare il testo di $m$ tra i messaggi di spam. Nel nostro caso possiamo stimare la likelihood sulla base delle frequenze. Per ogni termine che incontriamo in $m$ cerchiamo la sua frequenza tra tutti i messaggi di spam che abbiamo catalogato come dati. La likelihood è il prodotto di tutte queste frequenze.
   * Il termine $P[\text{spam}]$ si chiama **prior** perché denota la probabilità *a priori* che un messaggio sia spam. A priori significa prima di esaminare il contenuto del messaggio. In poche parole, il prior è una probabilità che ci dice più o meno quanto siano frequenti i messaggi di spam tra la posta che riceviamo.
   * Il risultato $p_S$ si chiama **posterior** perché denota la probabilità *a posteriori* &mdash; ossia dopo aver esaminato il contenuto del messaggio. Il posterior è il risultato dell'applicazione della formula.
   
Il denominatore $P[m]$ non dobbiamo calcolarlo: visto che ci interessa solo se $p_S$ è maggiore o minore di $p_H$, e entrambe le probabilità hanno lo stesso termine $P[m]$ al denominatore, possiamo semplicemente confrontare i numeratori.

## Un esempio di calcolo del posterior
Prendiamo un messaggio nuovo, dalla cartella `dati/spam_2`, e calcoliamo la probabilità che sia spam sulla base delle frequenze in `tf_spam` che abbiamo precedentemente calcolato. Ovviamente sappiamo già che stiamo classificando un messaggio di spam, ma questo ci permetto proprio di avere un'idea di come funzioni il calcolo e di che risultati possa dare.

Prima di tutto estraiamo tutti i termini che compaiono in un messaggio a caso in `spam_2`.

In [8]:
esempio_messaggio = "dati/spam_2/spam_00057"
## lista di tutti i termini in `esempio_messaggio` (le frequenze non ci interessano)
termini_messaggio = spam.tabella_frequenze_termini([esempio_messaggio]).index
print(termini_messaggio)

Index(['ability', 'addresses', 'banned', 'best', 'bgcolor', 'body', 'br',
       'britney', 'caught', 'click', 'com', 'content', 'don', 'email', 'face',
       'following', 'font', 'home', 'href', 'html', 'http', 'link', 'members',
       'mouth', 'ms', 'receive', 'removal', 'remove', 'removed', 'removeyou',
       'requests', 'respect', 'sans', 'screening', 'serif', 'simply', 'size',
       'spears', 'stolen', 'technical', 'text', 'tripod', 'type', 'uk',
       'video', 'videotape', 'want', 'wants', 'www'],
      dtype='object')


Per ogni termine in `termini_messaggio`, cerchiamo la sua frequenza in `tf_spam`.

In [9]:
## lista dei termini trovati sia in `esempio_messaggio` che in `tf_spam`
termini_comuni = [t for t in tf_spam.index if t in termini_messaggio]
## lista di frequenze dei termini comuni in tabella delle frequenze `tf_spam`
frequenze_comuni = tf_spam.loc[termini_comuni]["frequenza"]
print(frequenze_comuni)

ability      0.026
addresses    0.066
best         0.196
bgcolor      0.336
body         0.444
br           0.416
caught       0.002
click        0.488
com          0.654
content      0.394
don          0.234
email        0.504
face         0.364
following    0.130
font         0.426
home         0.164
href         0.468
html         0.552
http         0.828
link         0.232
members      0.050
mouth        0.006
ms           0.036
receive      0.298
removal      0.110
remove       0.340
removed      0.256
requests     0.044
respect      0.034
sans         0.186
screening    0.016
serif        0.182
simply       0.108
size         0.428
technical    0.022
text         0.414
type         0.418
uk           0.020
video        0.026
want         0.230
wants        0.012
www          0.544
Name: frequenza, dtype: float64


Infine prendiamo il prodotto degli elementi di `frequenze_comuni`.

In [10]:
likelihood_comuni = frequenze_comuni.product()

Adesso sorge un problema. Il prodotto `likelihood_comuni` comprende solo i termini del messaggio che sono anche presenti nella tabella delle frequenze. Come possiamo stimare la frequenza di altri termini del messaggio (che non abbiamo trovato nella tabella delle frequenze.

Strettamente parlando, la frequenza di questi altri termini è zero. Il problema è che questo renderebbe tutto il prodotto (la likelihood) pari a zero. D'altro canto assumere che la frequenza sia veramente zero significa ipotizzare che i nostri messaggi di esempio di spam siano così vari e completi da includere tutte le parole che possiamo trovare in messaggi di spam. Questo è chiaramente non realistico. 

La soluzione è molto semplice e si basa su un'approssimazione. Ogni volta che troviamo un termine nel messaggio che non abbiamo incontrato prima, vi assegniamo una likelihood molto piccola ma non zero. Ad esempio $10^{-6}$cioé un milionesimo.

Completiamo dunque il calcolo della probabilità $p_S$ per il nostro messaggio di esempio, usanto un prior molto generico di $0.5$.

In [11]:
## likelihood per termini mancanti
prob_mancante = 1e-6
## ** è l'operatore di elevamento a potenza in Python
likelihood_mancanti = prob_mancante ** (len(termini_messaggio) - len(termini_comuni))
## likelihood complessiva
likelihood = likelihood_comuni * likelihood_mancanti
## p_S * P[m]
prior = 0.5
p_S = likelihood * prior
print(p_S)

1.7421927562141306e-79


La probabilità è minuscola, ma quello che conta è il confronto con l'altra probabilità $p_H$!
Calcoliamola per lo stesso messaggio. I passaggi sono identici, con l'unica differenza che ora usiamo la tabella delle frequenze `tf_easy_ham` che si riferisce a messaggi di ham. 

Inoltre, teniamo presente che il `prior` era la probabilità a priori che un messaggio sia spam. Ora che stiamo calcolando la probabilità che un messaggio sia ham, il `prior` dev'essere la probabilità a priori che un messaggio sia ham. Siccome se un messaggio non è spam è necessariamente ham (classificazione binaria), il prior per l'ham è `1 - prior` dove `prior` è il valore del prior per spam.

In [12]:
## lista dei termini trovati sia in `esempio_messaggio` che in `tf_easy_ham`
termini_comuni = [t for t in tf_easy_ham.index if t in termini_messaggio]
## lista di frequenze dei termini comuni in tabella delle frequenze `tf_easy_ham`
frequenze_comuni = tf_easy_ham.loc[termini_comuni]["frequenza"]
## prodotto delle frequenze dei termini comuni
likelihood_comuni = frequenze_comuni.product()
## likelihood per termini mancanti
likelihood_mancanti = prob_mancante ** (len(termini_messaggio) - len(termini_comuni))
## likelihood complessiva
likelihood = likelihood_comuni * likelihood_mancanti
## p_H * P[m]
p_H = likelihood * (1 - prior)
print(p_H)

2.0321110416663504e-100


Siccome $p_S > p_H$ per `esempio_messaggio`, lo classifichiamo come spam. Questo è corretto visto che l'abbiamo proprio preso da una cartella con messaggi di spam!

## Automatizzare la classificazione

Nel modulo `spam` che abbiamo già usato ripetutamente, c'è anche una funzione `posterior` che calcola la probabilità a posteriori secondo i passaggi che abbiamo visto sopra.

Usiamola per ricalcolare $p_S$ e $p_H$ nell'esempio appena sopra.

In [13]:
p_S = spam.posterior(esempio_messaggio, tf_spam, prior, prob_mancante)
p_H = spam.posterior(esempio_messaggio, tf_easy_ham, 1-prior, prob_mancante)
print(p_S, p_H)

1.7421927562141306e-79 2.0321110416663504e-100


Correttamente abbiamo ottenuto gli stessi valori di prima.

Nel modulo `spam` c'è un'altra funzione, `probabilmente_spam` che calcola le due probabilità a posteriori $p_S$ e $p_H$ e restituisce `True` se $p_S > p_H$ e `False` altrimenti. In poche parole questa funzione è il nostro classificatore, che useremo negli esperimenti successivi. Vediamo come usarla sempre per lo stesso esempio.

In [14]:
print(spam.probabilmente_spam(esempio_messaggio, tf_spam, tf_easy_ham, prior, prob_mancante))

True


# Quanto è preciso il classificatore?

Ora che abbiamo tutte le funzioni per costruire e applicare i classificatori, vediamo quanto spesso essi producono una classificazione corretta.

Questi sono le raccolte di messagi a nostra disposizione.

In [15]:
## tre cartelle con messaggi di spam
lista_spam = spam.messaggi_in_cartella("dati/spam/")
lista_spam_2 = spam.messaggi_in_cartella("dati/spam_2/")
lista_lingspam_spam = spam.messaggi_in_cartella("dati/lingspam_spam/")
## quattro cartelle con messaggi di ham
lista_easy_ham = spam.messaggi_in_cartella("dati/easy_ham/")
lista_easy_ham_2 = spam.messaggi_in_cartella("dati/easy_ham_2/")
lista_hard_ham = spam.messaggi_in_cartella("dati/hard_ham/")
lista_lingspam_ham = spam.messaggi_in_cartella("dati/lingspam_ham/")

Usiamo:

   * `lista_spam` come esempi di messaggi di spam
   * `lista_easy_ham` come esempi di messaggi di ham
   * classifichiamo i messaggi in `lista_spam_2`
   
Visto che abbiamo già costruito le tabelle delle frequenze `tf_spam` e `tf_easy_ham` possiamo usare `probabilmente_spam` per classificare tutti i messaggi in `lista_spam_2` e vedere quanti sono classificati correttamente.


In [17]:
classificazione_spam_2 = [spam.probabilmente_spam(messaggio, tf_spam, tf_easy_ham, prior, prob_mancante) 
                          for messaggio in lista_spam_2]
## contiamo quanti sono stati classificati come spam
corretti = sum(classificazione_spam_2)
## la precisione è la percentuale dei messaggi classificati correttamente
print(corretti/len(classificazione_spam_2) * 100, "%")

74.23049391553329


Classificare correttamente il 74% dei messaggi è un buon risultato, considerando che il nostro filtro è molto primitivo e non ha accesso a un insieme di esempi così grande.

Adesso vediamo come va con la classificazione di messaggi di ham, ad esempio quelli in `lista_easy_ham_2`.

In [19]:
classificazione_easy_ham_2 = [spam.probabilmente_spam(messaggio, tf_spam, tf_easy_ham, 1-prior, prob_mancante) 
                              for messaggio in lista_easy_ham_2]
## contiamo quanti sono stati classificati come spam
scorretti = sum(classificazione_easy_ham_2)
## la precisione è la percentuale dei messaggi classificati correttamente
print((1 - (scorretti/len(classificazione_easy_ham_2))) * 100, "%")

98.71428571428571 %


Questo significa che meno del 2% di questi messaggi di ham sarebbero stati bloccati dal nostro filtro. Niente male!

Per concludere, definiamo una funzione che ci permetta di calcolare la precisione di un classificatore variandone facilmente i parametri.

In [24]:
def precisione(test_spam, test_ham, tf_spam, tf_ham, prior_spam, prob_mancante):
    ## classificazione dei messaggi in test_spam, che sono messaggi di spam
    classificazione_test_spam = [spam.probabilmente_spam(messaggio, tf_spam, tf_ham, prior_spam, prob_mancante)
                                for messaggio in test_spam]
    ## classificazione dei messaggi in test_ham, che sono messaggi di ham
    classificazione_test_ham = [spam.probabilmente_spam(messaggio, tf_spam, tf_ham, 1-prior_spam, prob_mancante)
                                for messaggio in test_ham]
    corretti_spam = sum(classificazione_test_spam)
    corretti_ham = len(classificazione_test_ham) - sum(classificazione_test_ham)
    ## precisione sui messaggi di spam
    precisione_spam = corretti_spam/len(classificazione_test_spam)
    ## precisione sui messaggi di ham
    precisione_ham = corretti_ham/len(classificazione_test_ham)
    ## precisione complessiva
    precisione = (corretti_spam + corretti_ham)/(len(classificazione_test_spam) + len(classificazione_test_ham))
    ## stampiamo le percentuali arrotondate all'unità
    print("Precisione su spam:", str(round(100*precisione_spam) + "%", 
          "Precisione su ham:", str(round(100*precisione_ham)) + "%", 
          "Precisione complessiva:", str(round(100*precisione))) + "%")

In [23]:
precisione(lista_spam_2, lista_easy_ham_2, tf_spam, tf_easy_ham, prior, prob_mancante)

Precisione su spam: 74.0 Precisione su ham: 99.0 Precisione complessiva: 86.0


# Sperimentiamo!

Adesso possiamo provare variazioni nelle nostre ipotesi (il prior e la probabilità che assegniamo a termini mancanti) e nei dati di esempio (le tabelle delle frequenze, che possiamo costruire per altri dataset). Ecco una lista di alcune variazioni che possiamo provare.

   * Fissiamo il prior a un valore inferiore a 0.5, così da dare una probabilità più alta a priori che un messaggio **non** sia spam.

  * Cambiamo la probabilità che assegniamo a termini mancanti in un valore più grande o più piccolo.

   * Costruiamo un classificatore che usi più dati di esempio. In questo caso ricordiamoci di evitare di usare certi esempi sia per calcolare le tabelle delle frequenze che per provare la classificazione. Questo sarebbe un esercizio artificiale visto che classifica gli stessi messaggi usati per calibrare il classificatore.

   * Mescoliamo messaggi da fonti diverse (**spam** e **lingspam** sono due corpora diversi) e vediamo se questo migliora o peggiora la precisione di clasificazione.

Puoi usare lo spazio qui sotto per ogni altro esperimento che vuoi provare.