# Bayes ingenuo

Este programa clasifica correos electrónicos como spam o ham utilizando el alrogítmo de bayes ingenuo.

setwd("C:/Users/Yosshua/Desktop/ITAM/VERANO_2021/ML/machine-learning-2021-2/supervisado/bayes_ingenuo")

In [1]:
usePackage <- function(p) 
{
  if (!is.element(p, installed.packages()[,1]))
    install.packages(p, repos = "https://cran.itam.mx/")
  suppressPackageStartupMessages(require(p, character.only = TRUE, quietly  = TRUE))
}

In [2]:
usePackage('R.utils')
usePackage('tm')
usePackage("tidyr")

## Descarga los datos 

In [3]:
download.mails <- function(url, dir_name, file_name){

  if (!file.exists(dir_name)) {
    dir.create(dir_name)  
  }
  
  download.file(url, destfile=file.path(dir_name, paste0(file_name,".tar.bz2")) )
  bunzip2(file.path(dir_name, paste0(file_name,".tar.bz2")))
  
  untar(file.path(dir_name, paste0(file_name,".tar")), exdir = dir_name)
  
  if (file.exists(file.path(dir_name, paste0(file_name,".tar")))) {
    file.remove(file.path(dir_name, paste0(file_name,".tar")))
  }
  
}

In [4]:
dir_name <- "data"
file_name <- "easy_ham_2"
url <- "http://spamassassin.apache.org/old/publiccorpus/20030228_easy_ham_2.tar.bz2"

download.mails(url, dir_name, file_name)


In [5]:
url <- "http://spamassassin.apache.org/old/publiccorpus/20030228_hard_ham.tar.bz2"
file_name <- "hard_ham"

download.mails(url, dir_name, file_name)

In [6]:
url <- "http://spamassassin.apache.org/old/publiccorpus/20030228_spam_2.tar.bz2"
file_name <- "spam_2"

download.mails(url, dir_name, file_name)

## Preprocesamiento de los correos electrónicos

In [7]:
# Hacemos una función que leea el mensaje del archivo que se le pase como parámetro
# asumimos que el archivo contiene un correo

lee_mensaje <- function(correo) {
  fd <- file(correo, open = "rt")
  lineas <- readLines(fd, warn=FALSE)
  close(fd)
  mensaje <- lineas[seq(which(lineas == "")[1] + 1, length(lineas), 1)]
  return (paste(mensaje, collapse = "\n"))
}

In [8]:
# Creamos variables con los directorios donde se encuentran los datos
dir_name <- "data"
trayectoria_spam     <- file.path(dir_name, "spam_2")
trayectoria_easyham  <- file.path(dir_name, "easy_ham_2")
trayectoria_hardham  <- file.path(dir_name, "hard_ham")
# spam_2: 1397 spam messages.
# easy_ham_2: 1400 non-spam messages. 
# hard_ham: 250 non-spam messages


### Spam

In [9]:
# Leemos el directorio donde se encuentran los correos clasificados como spam
archivos_correos_spam <- dir(trayectoria_spam)

# quitamos el guión llamado cmds
archivos_correos_spam <- archivos_correos_spam[which(archivos_correos_spam!="cmds")] #[1:250]

todo_spam <- sapply(archivos_correos_spam,
                   function(p) lee_mensaje(file.path(trayectoria_spam, p)))
                    
todo_spam <- enc2utf8(todo_spam)

### Easy ham

In [10]:
# Leemos el directorio donde se encuentran los correos clasificados como ham fácilmente identificables
archivos_correos_easy_ham <- dir(trayectoria_easyham)

# quitamos el guión llamado cmds
archivos_correos_easy_ham <- archivos_correos_easy_ham[which(archivos_correos_easy_ham!="cmds")] #[1:250]

todo_easy_ham <- sapply(archivos_correos_easy_ham,
                    function(p) lee_mensaje(file.path(trayectoria_easyham, p)))

todo_easy_ham <- enc2utf8(todo_easy_ham)

## Preparación de corpus y bolsa de palabras

In [11]:
obtiene_TermDocumentMatrix <- function (vector_correos) {
  control <- list(stopwords = TRUE,
                removePunctuation = TRUE,
                removeNumbers = TRUE,
                minDocFreq = 2)
  corpus <- Corpus(VectorSource(vector_correos))
  return(TermDocumentMatrix(corpus, control))
}

### Spam

In [12]:
spam_TDM <- obtiene_TermDocumentMatrix(todo_spam)

# Crea un data frame que provee el conjunto de caracteristicas de los datos de entrenamiento SPAM
matriz_spam <- as.matrix(spam_TDM)

conteos_spam <- rowSums(matriz_spam)
df_spam <- data.frame(cbind(names(conteos_spam),
                            as.numeric(conteos_spam)),
                      stringsAsFactors = FALSE)
names(df_spam) <- c("terminos", "frecuencia")
df_spam$frecuencia <- as.numeric(df_spam$frecuencia)
ocurrencias_spam <- sapply(1:nrow(matriz_spam),
                          function(i) # Obtiene la proporcion de documentos que contiene cada palabra
                          {
                            length(which(matriz_spam[i, ] > 0)) / ncol(matriz_spam)
                          })
densidad_spam <- df_spam$frecuencia/sum(df_spam$frecuencia,na.rm = TRUE)

df_spam <- transform(df_spam,
                     densidad = densidad_spam,
                     ocurrencias = ocurrencias_spam)

In [13]:
head(df_spam)

Unnamed: 0_level_0,terminos,frecuencia,densidad,ocurrencias
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>
1,abandoned,12,3.076907e-05,0.006442377
2,accept,89,0.000228204,0.050823193
3,address,815,0.002089733,0.243378669
4,agree,14,3.589725e-05,0.006442377
5,agreed,21,5.384588e-05,0.012884753
6,also,487,0.001248712,0.156048676


### Easy ham

In [14]:
easy_ham_TDM <- obtiene_TermDocumentMatrix(todo_easy_ham)

# Crea un data frame que provee el conjunto de caracteristicas de los datos de entrenamiento easy ham
matriz_easy_ham <- as.matrix(easy_ham_TDM)

conteos_easy_ham <- rowSums(matriz_easy_ham)
df_easy_ham <- data.frame(cbind(names(conteos_easy_ham),
                            as.numeric(conteos_easy_ham)),
                      stringsAsFactors = FALSE)
names(df_easy_ham) <- c("terminos", "frecuencia")
df_easy_ham$frecuencia <- as.numeric(df_easy_ham$frecuencia)
ocurrencias_easy_ham <- sapply(1:nrow(matriz_easy_ham),
                           function(i) # Obtiene la proporcion de documentos que contiene cada palabra
                           {
                             length(which(matriz_easy_ham[i, ] > 0)) / ncol(matriz_easy_ham)
                           })
densidad_easy_ham <- df_easy_ham$frecuencia/sum(df_easy_ham$frecuencia,na.rm = TRUE)

df_easy_ham <- transform(df_easy_ham,
                     densidad = densidad_easy_ham,
                     ocurrencias = ocurrencias_easy_ham)

In [15]:
head(df_easy_ham)

Unnamed: 0_level_0,terminos,frecuencia,densidad,ocurrencias
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>
1,actually,195,0.0009992826,0.11285714
2,adding,35,0.0001793584,0.02071429
3,addition,32,0.0001639848,0.02
4,additional,40,0.000204981,0.02285714
5,ages,16,8.199242e-05,0.01142857
6,ago,109,0.0005585733,0.06571429


## Cálculo de probabilidad a posteriori

In [16]:
a_posteriori <- function(trayectoria, df_entrenamiento, a_priori = 0.5, c = 1e-6)
{
  mensaje <- lee_mensaje(trayectoria)
  mensaje <- enc2utf8(mensaje)
  mensaje_TDM <- obtiene_TermDocumentMatrix(mensaje)
  conteos_mensaje <- rowSums(as.matrix(mensaje_TDM))
    
  # Encuentra palabras en data frame de entrenamiento
  mensaje_palabras_comunes <- intersect(names(conteos_mensaje), df_entrenamiento$terminos)
  index <- order(df_entrenamiento$densidad)
  nuevoDF <- df_entrenamiento[index,]  
  
  # Ahora sólo aplicamos la clasificación Bayes ingenuo
  if(length(mensaje_palabras_comunes) < 1)
  {
    #return(a_priori * c ^ (length(conteos_mensaje)))
    return( list( log(a_priori) + (length(conteos_mensaje)) *log(c), c("")))
  }
  else
  {    

    probabilidades_palabras_comunes <- nuevoDF$densidad[match(mensaje_palabras_comunes, nuevoDF$terminos)]
          
    # Obtenemos las palabras con mayor probabilidad de aparecer que están en el conjunto de entrenamiento y en el correo.
    # Y seleccionamos las 3 más significativas.
    ans <-   nuevoDF$terminos[match(mensaje_palabras_comunes, nuevoDF$terminos)]
    ans <-  ans[ max(1, length(ans)-2):length(ans) ]    
      
    #return(a_priori * prod(probabilidades_palabras_comunes) * c ^ (length(conteos_mensaje) - length(mensaje_palabras_comunes)))
    return (list(log(a_priori) + sum(log(probabilidades_palabras_comunes)) + log(c) * (length(conteos_mensaje) - length(mensaje_palabras_comunes)), 
                 ans))
    
  }
}

## Clasificación

In [17]:
#Regresa verdadero si es spam y falso en caso contrario.
clasifica_spam <- function(trayectoria, archivos) {

  hard_ham_spam_prueba <- sapply(archivos,
                             function(p) a_posteriori(file.path(trayectoria, p), df_entrenamiento = df_spam))
  hard_ham_ham_prueba <- sapply(archivos,
                            function(p) a_posteriori(file.path(trayectoria, p), df_entrenamiento = df_easy_ham))
                
                                
  return (list(ifelse(as.numeric(hard_ham_spam_prueba[1,]) > as.numeric(hard_ham_ham_prueba[1,]),
                 TRUE, FALSE), hard_ham_spam_prueba[2,], hard_ham_ham_prueba[2,]))
    
}

### Hard ham

In [18]:
# Leemos el directorio donde se encuentran los correos clasificados como ham dificilmente identificables
archivos_correos_hard_ham <- dir(trayectoria_hardham)

# quitamos el guión llamado cmds
archivos_correos_hard_ham <- archivos_correos_hard_ham[which(archivos_correos_hard_ham!="cmds")]

In [19]:
# Clasificamos los diferentes conjuntos
hard_ham_res <- clasifica_spam(trayectoria_hardham, archivos_correos_hard_ham)
easy_ham_res <- clasifica_spam(trayectoria_easyham, archivos_correos_easy_ham)
spam_res     <- clasifica_spam(trayectoria_spam,    archivos_correos_spam)

## Resultados

In [20]:
# Nombres de correos que fueron mal clasificados

# Todos los archivos de hard ham son correos normales
hard_ham_res_1 <- unlist(hard_ham_res[1], use.names = FALSE)
print("Nombres de hard ham mal clasificados")
archivos_correos_hard_ham[hard_ham_res_1]

# Todos los archivos de easy_ham son correos normales
easy_ham_res_1 <- unlist(easy_ham_res[1], use.names = FALSE)
print("Nombres de easy ham mal clasificados")
archivos_correos_easy_ham[easy_ham_res_1]

# Todos los archivos de esta ruta son spam
spam_res_1 <- unlist(spam_res[1], use.names = FALSE)
print("Nombres de spam mal clasificados")
archivos_correos_spam[!spam_res_1]


[1] "Nombres de hard ham mal clasificados"


[1] "Nombres de easy ham mal clasificados"


[1] "Nombres de spam mal clasificados"


In [21]:
# Palabras con mayor probabilidad en los correos mal clasificados 

hard_ham_res_2 <- unlist(hard_ham_res[2], FALSE, use.names = FALSE)
print("Palabras principales de hard ham mal clasificados")
hard_ham_res_2[hard_ham_res_1]

easy_ham_res_2 <- unlist(easy_ham_res[2], FALSE, use.names = FALSE)
print("Palabras principales de easy ham mal clasificados")
easy_ham_res_2[easy_ham_res_1]

spam_res_2 <- unlist(spam_res[2], FALSE, use.names = FALSE)
print("Palabras principales de spam mal clasificados")
spam_res_2[!spam_res_1]


[1] "Palabras principales de hard ham mal clasificados"


[1] "Palabras principales de easy ham mal clasificados"


[1] "Palabras principales de spam mal clasificados"


In [22]:
summary(hard_ham_res_1)
summary(easy_ham_res_1)
summary(spam_res_1)


   Mode   FALSE    TRUE 
logical     116     134 

   Mode   FALSE    TRUE 
logical    1399       1 

   Mode   FALSE    TRUE 
logical      21    1376 

# Análisis

Dados los resultados obtenidos, el modelo clasifica bien los correos en la medida de lo posible, ya 
que el porcentaje de precisión se encuentra por arriba del 90%.
Sin embargo, cuando los correos se vuelven más complejos e incluyen elementos como html, como es el caso del conjunto hard ham, el
modelo comienza a disminuir la eficacia de su clasificación.