#Detección de Spam a través de modelos de Machine Learning

##1.Introducción

En esta práctica que veremos a continuación, trataremos de realizar todos los pasos que se han de aplicar a la hora de afrontar un problema de clasificación y predicción con modelos de Machine Learning.

En este caso en concreto vamos a tratar de solventar un problema común en la ciberseguridad como es el Spam.
Como muchos de vosotros ya sabréis, el spam es considerado una forma de intrusión no deseada a través de canales de comunicación online, como puede ser el correo electrónico, sms, redes sociales, etc.

Para ello vamos a implementar varios modelos de Machine Learning que a partir de una serie de datos y el aprendizaje de los mismos, logrará clasificar los mensajes que recibamos en Spam o no y predecir unos posibles casos.

Esta práctica se deberá realizar en el lenguaje de programación Phyton y constará de cinco apartados ordenados, algunos más guiados y algunos que requerirán de trabajo autónomo para realizarlo.

El entorno de desarrollo será Google Colab, un servicio de Google en el cuál podremos ejecutar nuestro código de forma interpretada e independiente (por celdas).


<br><br><br><br>


**1.** Instalación de entornos, dependencias y base de datos.

**2.** Procesamiento de los datos, familiarización con la base de datos.

**3.** Preparación del dataset para entrenarlo.

**4.** Selección de modelos y entrenamiento.

**5.** Comparativa y evaluación de los modelos.

<br>

Dicho todo esto, mucha suerte con la realización de la misma y... !bienvenido al fascinante mundo del Machine Learning!






## 1. Instalación de entornos, dependencias y base de datos.

Primero de todo, vamos a descargar la base de datos para poder utilizar los datos que nos proporciona. En este caso usaremos una base de datos de uso público que descargaremos de forma local y exportaremos a Google Colab.

Como habrá visto, Google Colab es un entorno en que puedes subir a archivos y acceder a ellos como si estubieran en local, poniendo directamente la ruta en el que se encuentras dentro del entorno.

*Tip: para saber la ruta de un fichero subido en colab basta con seleccionar los tres puntos del fichero y en opciones seleccionar copiar ruta del fichero.*

La base de datos la puedes descargar del siguiente link que enlaza con un github:

https://github.com/NStugard/Intro-to-Machine-Learning/blob/main/spam.csv

Una vez descargada súbela a google colab antes de seguir.

A continuación veamos con que entornos y librerías vamos a trabajar:

**NumPy:**  Proporciona estructuras de datos eficientes, como los arrays multidimensionales (ndarrays), junto con una amplia variedad de funciones matemáticas y operaciones de álgebra lineal.  
Utilizaremos NumPy para manipular los datos en forma de matrices numéricas. Por ejemplo, cuando preprocesemos los datos de texto y los convirtamos en características numéricas para alimentar nuestros modelos de Machine Learning.

**Pandas:** Utilizaremos Pandas para cargar, limpiar y explorar los datos de texto que utilizaremos en nuestra tarea de detección de spam. El DataFrame de Pandas nos permitirá cargar fácilmente los datos de un archivo CSV (dataset) y realizar operaciones de limpieza y preprocesamiento de los mismos.

**Scikit-learn (también conocido como sklearn):** es una biblioteca de aprendizaje automático de código abierto y una de las herramientas más utilizadas y populares para el aprendizaje automático en Python. Proporciona una amplia variedad de algoritmos de aprendizaje supervisado y no supervisado.






In [None]:
#Importamos todas las librerías necesarias para realizar la práctica

import pandas as pd #cargar y gestionar dataset
import numpy as np #calculos con el dataset
import matplotlib.pyplot as plt #gráficos

#StopWords
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('punkt')
nltk.download('stopwords')

#modelos de Mahine Learning
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer #transformar en valor numérico
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

#redes neuronales
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, GlobalAveragePooling1D
from tensorflow.keras.layers import Conv1D, MaxPooling1D, Flatten, Dense, Embedding


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## 2. Procesamiento de los datos, familiarización con la base de datos

Una vez tenemos instaladas todas las dependencias necesarias ya podemos empezar a trabajar con la base de datos.

La base de datos con la que vamos a trabajar consta de dos columnas, "Category" y "Message". Hemos de tener en cuenta que esta base de datos es inglesa y por tanto todos los mensajes que contiene estan en ese idioma.

La mejor forma de conocer una base de datos con la que vamos a trabajar es familiarizarse con ella trasteando un poco y viendo que atributos y tipos de datos tiene.

A continuación busca información sobre como cargar y visualizar una base de datos en pandas para que puedas observar de mejor forma como estan organizados los datos.

In [None]:
#Prueba a cargar y visualizar los datos, puedes obtener gráficos sobre el mismo dataset para entender mejor como se distribuyen los mismos.
#Cargar dataset

#Visualizar dataset

#Descripción del dataset y su información

#Agrupar por categorías y ver resultado



## 3. Preparación del dataset para entrenarlo

Una vez hemos trasteado con la base de datos a nivel básico y tenemos una idea de que contiene podemos empezar a trabajar con ella.
Este proceso es muy importante para que el resultado final del modelo sea preciso, ya que son los datos de los que se alimentará para aprender y poder clasificar correctamente los mensajes.

Llegado a este punto, ¿que se te ocurre que sería relevante comprobar para que los datos no contengan ruido que molesta a nuestro modelo?

En este apartado, igual que en el anterior, te orientaré con las comprobaciones que siempre se han de hacer si o si, pero te animo a que pienses y pruebes las dudas que te surjan aparte de los que planteamos aquí.

Alerta Spoiler: espero que hayas pensado por ti mismo algunas opciones, procedemos a explicar las que llevaremos a cabo.

En el caso de los datasets lo primero es garantizar que los valores que le pasemos a nuestros modelos sean de tipo numérico (mas adelante lo tendremos en cuenta). Un caso que hemos de mirar es que el dataset no tenga filas o columnas nulas, y en caso de tenerlas eliminarlas porque serían ruido y molestarían a nuestro modelo.

Además podemos comprobar ciertas cosas del dataset, como si contiene muchas filas repetidas, las palabras más comunes en un mensaje de spam o no spam, el tamaño de los mensajes según su categoría, valores válidos para cada columna,etc.

In [None]:
#Vamos a descubrir que esconde nuestra base de datos, posibles problemas y soluciones

#Comprobamos que no hayan valores nulos dentro del dataset

#Comprobamos que los valores del dataset son válidos (ej: categoría solo puede ser "spam" o "ham")

#En caso de que hayan valores nulos, como los eliminaríamos?

#Comprobamos si hay filas duplicadas (¿hace falta?)

#Longitud de mensajes según categoría (podemos hacer histograma)

#Conteo de palabras mas comunes en spam y ham, que ocurre?




Ya habrás visto llegado a este punto que las palabras más comunes en ambas categorías coinciden, y es que existen en todos los lenguajes muchas palabras que se usan muy por encima de la media.

Por ese motivose crearon la llamada stopwords, una lista de palabras que contiene esas palabras y que en nuestro caso nos será útil de eliminar de nuestro mensajes porque generarán más ruido que información útil.

Curiosidad:
En este repositorio puedes ver un ejemplo de stopwords en varios idiomas incluyendo español y catalán: https://github.com/Alir3z4/stop-words/tree/master



In [None]:
#Eliminamos las stopwords de nuestros mensajes. TIP: mirar las dependencias para ver las librerías que usaremos.

#Podemos comprobar una ve eliminadas la diferencia entre antes y ahora.


Antes de pasar a entrenar el modelo (ánimos, ya queda poco para llegar al final) queda una parte muy importante, y es que como mencionamos antes, nuestros modelos de Machine Learning no van a poder entender datos que no sean numéricos, por tanto queda transformar nuestro dataset en datos numéricos.

En nuestro caso tenemos 2 columnas, "Category" y "Messages".
Por parte de category os recomiendo que simplemente creéis una nueva columna en el dataset con 1 o 0, según si es spam (1) o si no lo es (0).

Para la otra columna, hemos de encontrar algo que le sea útil a nuestro programa para clasificar el mensaje en spam o no.

Para ello usaremos CountVectorizer (visualizar las dependencias del principio). Esta herramienta nos servirá para transformar nuestros mensajes de texto en matrices que mostrarán la cantidad de veces que esta cada palabra a en el total y expresará el numero.

Con esto le pasaremos "vectores" de numeros con la cantidad de veces que se usa cada numero, a continuación te pongo un ejemplo que te ayudará a verlo con más claridad.


###Ejemplo

<div style="background-color: #f0f0f0; border: 1px solid #ccc; padding: 10px;">


   - Conjunto de entrenamiento:

          ['hola mundo', 'hola a todos', 'bienvenidos al mundo']


   - Vocabulario construido:
     ```
     ['hola', 'mundo', 'todos', 'bienvenidos']
     ```
  
- Test:

      ['hola amigos','bienvenidos al universo']

- Después de aplicar este paso
     ```
     [[1, 0, 0, 0],
      [0, 0, 0, 1]]
     ```
    

   - Explicación de los resultados:
     - En el primer documento de prueba "hola amigos", la palabra "hola" está presente en el vocabulario, pero "amigos" no lo está. Entonces, obtenemos [1, 0, 0, 0].
     - En el segundo documento de prueba "bienvenidos al universo", las palabras "bienvenidos" y "universo" están presentes en el vocabulario, pero "al" no lo está. Entonces, obtenemos [0, 0, 0, 1].

</div>

Por último en este apartado solo queda splitear el dataset en conjunto de entrenamiento y test, para ello solo es necesario llamar a una función correctamente de las que hemos importado en las dependencias.

Busca información sobre cual puede ser y como llamarla.

Una vez hecho el split, convierte el x_test y el x_train en arrays con la función toarray()





In [None]:
#Creación nueva columna llamada Spam con 1 o 0 según la categoría

#Spliteamos el dataset en train, test (mirar parámetro test_size)

#Transformación de los mensajes a valor numérico

#Función toarray()



##4. Selección de modelos y entrenamiento.

Felicidades guerrer@, has superado la parte más tediosa de la práctica y has demostrado de lo que eres capaz, ahora queda la parte más "divertida" de ella, vamos a probar los modelos de Machine Learning y ver si conseguimos detectar ese irritante spam que tanto odiamos.

Vamos a intentar entrenar varios modelos y analizar que porcentaje de accuracy (acierto) nos dan.

Empezemos por el primero, el modelo de Naive-Bayes.

####  **4.1 Naive-Bayes**

Busca información sobre como entrenar un modelo de Naive-Bayes con sklearn y implementalo.

Además ya puedes probar textos tuyos para comprobar si el modelo acierta en la detección y por último puedes intentar saber que accuracy tiene el modelo.


In [None]:
#Entrena el modelo Naive-Bayes

#Pruebas de detección propias (recuerda pasar el texto por el transform)

#Evalua el modelo obteniendo algunas métricas (almenos el accuracy para saber si acierta)


####  **4.2 KNN**
Realiza lo mismo del punto 4.1 pero con el knn, busca información sobre este modelo y trata de optimizarlo si es posible.

In [None]:
#Entrena el modelo KNN

#Pruebas de detección propias (recuerda pasar el texto por el transform)

#Evalua el modelo obteniendo algunas métricas (almenos el accuracy para saber si acierta)


####  **4.3 Decision Tree**
Realiza lo mismo del punto 4.1 pero con el decision tree, busca información sobre este modelo y trata de implementarlo.

In [None]:
#Entrena el modelo decision tree

#Pruebas de detección propias (recuerda pasar el texto por el transform)

#Evalua el modelo obteniendo algunas métricas (almenos el accuracy para saber si acierta)


####  **4.4 Regresión logística**
Realiza lo mismo del punto 4.1 pero con un modelo de regresión logística, busca información sobre este modelo y trata de implementarlo.

In [None]:
#Entrena el modelo de regresión logística

#Pruebas de detección propias (recuerda pasar el texto por el transform)

#Evalua el modelo obteniendo algunas métricas (almenos el accuracy para saber si acierta)


Para finalizar con la práctica y visualizar los resultados, vamos a intentar crear un gráfico que nos muestre las accuracy de los 4 modelos (puedes ponerlo de forma manual si no tienes guardados los resultados) para ver que modelo es mejor y por cuanta diferencia.

In [None]:
#Graficar el resultado del accuracy de los diferentes modelos

Felicidades! Has llegado al final de la práctica 1, eso es todo por hoy.
Espero que hayas aprendido y te resulte útil la práctica para más adelante, el mundo de la IA es inmenso y esta cada vez más presente en un campo como el de la ciberseguridad, quizás vuestros caminos estén destinados a encontrarse... de nuevo.

#PARTE 2: RED NEURONAL

En esta segunda parte vamos a entrenar unas redes neuronales para comprobar que también son muy útiles para este tipo de problemas y que así puedas probarte a ti mismo con este tipo de algoritmos de IA.

Para ello vamos a implementar una red neuronal secuancial y una de tipo CNN (convolucional).

En este apartado te voy a dejar mas libre para que puedas experimentar libremente con sus parámetros y te inspires de documentación oficial o ejemplos para realizarla.

No obstante te voy a poner unos ejemplos de parámetros que deberían funcionarte de cara a la ejecución.

Recuerda que puedes usar los conjuntos de datos de entrenamiento que tienes en la parte de arriba para no tener que rehacer nada de lo trabajo anteriormente, la idea es la misma pero la herramienta no.





In [None]:
#Construimos modelo secuancial de red neuronal
#Parametros útiles -> embedding - dense - globalaveragepooling1D

#Compilamos modelo

#Entrenamos modelo

#Evaluamos modelo


In [None]:
#Probamos modelo

In [None]:
#Construimos modelo CNN secuencial de red neuronal

#Compilamos modelo

#Entrenamos modelo

#Evaluamos modelo

Ahora ya sabes como funciona una red neuronal y has podido trabajar con ella, y lo más importante de todo, has acabado la práctica! Por fin eres libre.

<img src="https://pm1.aminoapps.com/6179/c84551f948f5256713347021a4769e05692e35e6_00.jpg" width="150">
