# Colección de SMS Spam

---

Este es un corpus de texto de más de 5,500 mensajes SMS en inglés con aproximadamente el 13% etiquetados como spam. El archivo de texto contiene un mensaje por línea con dos columnas: la etiqueta ("ham" o "spam") y el texto crudo del mensaje. Los mensajes etiquetados como "ham" son mensajes no spam que se pueden considerar legítimos.


Fuente del conjunto de datos. Este corpus fue creado por Tiago A. Almeida y José María Gómez Hidalgo.

> Almeida, T.A., Gómez Hidalgo, J.M., Yamakami, A. Contribuciones al Estudio del Filtrado de SMS Spam: Nueva Colección y Resultados. Actas del Simposio ACM de 2011 sobre Ingeniería de Documentos (DOCENG'11), Mountain View, CA, EE.UU., 2011.

>Gómez Hidalgo, J.M., Almeida, T.A., Yamakami, A. Sobre la Validez de una Nueva Colección de SMS Spam. Actas de la 11ª Conferencia Internacional IEEE sobre Aprendizaje Automático y Aplicaciones (ICMLA'12), Boca Raton, FL, EE.UU., 2012.

> Almeida, T.A., Gómez Hidalgo, J.M., Silva, T.P. Hacia el Filtrado de SMS Spam: Resultados bajo un Nuevo Conjunto de Datos. Revista Internacional de Ciencia de la Seguridad de la Información (IJISS), 2(1), 1-18, 2013.

## Objetivos

- 🗺️ Explorar: ¿Cuáles son las palabras más comunes en los mensajes de spam frente a los mensajes normales?

- 📊 Visualizar: Crea una nube de palabras que visualice las palabras más comunes en el conjunto de datos.

- 🔎 Analizar: ¿Qué palabra tiene más probabilidades de indicar que un mensaje es spam?

## Contexto

Una empresa de telecomunicaciones que está lanzando una nueva aplicación de mensajería. Desafortunadamente, los filtros de spam anteriores que han utilizado están desactualizados y ya no son efectivos. Te han preguntado si puedes usar los nuevos datos que han proporcionado para distinguir con precisión entre mensajes de spam y mensajes regulares. También te han dicho que es esencial que los mensajes regulares rara vez, o nunca, se categorizen como spam.

> prepara un informe que sea accesible para una audiencia amplia. Debe esbozar tu motivación, pasos, hallazgos y conclusiones.


## Metodologia

### Datos

| variable | clase  | descripción                                                     |
| -------- | ------ | --------------------------------------------------------------- |
| 0        | String | Cadena de texto que identifica si el mensaje es 'ham' o 'spam'. |
| 1        | String | Cadena de texto que representa el mensaje.                      |


### Tools


In [27]:
# LIBS
import numpy as np 
import plotly.express as px 
import pandas as pd 

In [14]:
spam = pd.read_csv('SMSSpamCollection.csv', header=None)

spam = spam.rename(columns={0: 'TYPE', 1: 'MSG'})

spam.head(10)

Unnamed: 0,TYPE,MSG
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
5,spam,FreeMsg Hey there darling it's been 3 week's n...
6,ham,Even my brother is not like to speak with me. ...
7,ham,As per your request 'Melle Melle (Oru Minnamin...
8,spam,WINNER!! As a valued network customer you have...
9,spam,Had your mobile 11 months or more? U R entitle...


## Paso 1. Exploracion inicial

In [53]:
# Porcion de msg de spam y legitimos
porcion = round(spam['TYPE'].value_counts() / spam.shape[0], 4) * 100

spam.loc[:, 'MSG_LEN'] = spam.apply(
    lambda row: len(row['MSG']),
    axis=1
)

porcion = pd.DataFrame(porcion)

porcion = porcion.reset_index()

In [54]:
fig = px.pie(
    porcion, 
    values='count',
    names='TYPE',
    title="Porcion de mensajes Legitimos vs Spam"
    )

fig.show()