# Filtado de mensajes spam

## Descripción del problema real

La recepción de publicidad no deseada a traves mensajes de texto usando SMS (Short Message Service) es un problema que afecta a muchos usuarios de teléfonos móviles. El problema radica en que los usuarios deben pagar por los mesajes recibidos, y por este motivo resulta muy importante que las compañías prestadoras del servicio puedan filtrar mensajes indeseados antes de enviarlos a su destinatario final. Los mensajes tienen una longitud máxima de 160 caracteres, por lo que el texto resulta poco para realizar la clasificación, en comparación con textos más largos (como los emails). Adicionalmente, los errores de digitación dificultan el proceso de detección automática.

## Descripción del problema en términos de los datos

Se tiene una muestra contiene 5574 mensajes en inglés, no codificados y clasificados como legítimos (ham) o spam (http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/). La información está almacenada en el archivo `datos/spam-sms.zip`.El problema en términos de los datos consiste en clasificar si un mensaje SMS es legítico o spam, a partir del análisis de las palabras que contiente, partiendo del supuesto de que ciertas palabras que son más frecuentes dependiendo del tipo de mensaje. Esto implica que en la fase de preparación de los datos se deben extraer las palabras que contiene cada mensaje para poder realizar el análsis.

## Aproximaciones posibles

En este caso, se desea comparar los resultados de un modelo de redes neuronales artificiales y otras técnicas estadísticas para realizar la clasificación.

## Requerimientos

Usted debe:

* Preprocesar los datos para representarlos usando bag-of-words.


* Construir un modelo de regresión logística como punto base para la comparación con otros modelos más complejos.


* Construir un modelo de redes neuronales artificiales. Asimismo, debe determinar el número de neuronas en la capa o capas ocultas.


* Utiizar una técnica como crossvalidation u otra similar para establecer la robustez del modelo.


* Presentar métricas de desempeño para establecer las bondades y falencias de cada clasificador.

## Lectura de Datos

Se hace una lectura simple de la base de datos proporcionada por el profesor para el desarrollo del ejercicio.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

df = pd.read_csv(
    #"https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/sms-spam.csv",
    'datos/sms-spam.csv',
    sep = ',',
    thousands = None,
    decimal = '.',
    encoding='latin-1')

df.head()

Unnamed: 0,type,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


## Stemmer

Con esta funcion eliminan los afijos morfológicos de las palabras, dejando solo la raíz de la palabra..

In [2]:
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()

df['stemmed'] = df.text.apply(lambda x: ' '.join([stemmer.stem(w) for w in x.split() ]))

df.head(10)

Unnamed: 0,type,text,stemmed
0,ham,"Go until jurong point, crazy.. Available only ...","Go until jurong point, crazy.. avail onli in b..."
1,ham,Ok lar... Joking wif u oni...,Ok lar... joke wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,free entri in 2 a wkli comp to win FA cup fina...
3,ham,U dun say so early hor... U c already then say...,U dun say so earli hor... U c alreadi then say...
4,ham,"Nah I don't think he goes to usf, he lives aro...","nah I don't think he goe to usf, he live aroun..."
5,spam,FreeMsg Hey there darling it's been 3 week's n...,freemsg hey there darl it' been 3 week' now an...
6,ham,Even my brother is not like to speak with me. ...,even my brother is not like to speak with me. ...
7,ham,As per your request 'Melle Melle (Oru Minnamin...,As per your request 'mell mell (oru minnaminun...
8,spam,WINNER!! As a valued network customer you have...,winner!! As a valu network custom you have bee...
9,spam,Had your mobile 11 months or more? U R entitle...,had your mobil 11 month or more? U R entitl to...


## Matriz de Terminos de Documento

Luego generamos una matriz, donde cada columna va a representar la presencia de la palabra en el mensaje, donde cada columna representa una palabra de todas las palabras distintas que hay en el set de datos.

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer(
    analyzer='word',        # a nivel de palabra
    lowercase=True,         # convierte a minúsculas
    stop_words='english',   # stop_words en inglés
    binary=True,            # Los valores distintos de cero son fijados en 1
    min_df=5                # ignora palabras con baja freq
)


##
## Aplica la función al texto
##
dtm = count_vect.fit_transform(df.stemmed)

##
## Las filas contienen los mensajes
## y las clomunas los términos
##
dtm.shape

(5574, 1540)

In [4]:

##
## Palabras aprendidas de los mensajes de texto
##
vocabulary = count_vect.get_feature_names()
len(vocabulary)

1540

In [5]:
##
## Recupera los mensajes de la dtm
##
def dtm2words(dtm, vocabulary, index):
    as_list = dtm[index,:].toarray().tolist()
    docs = []
    for i in index:
        k = [vocabulary[iword] for iword, ifreq in enumerate(as_list[i]) if ifreq > 0]
        docs += [k]
    return docs

for i, x in enumerate(dtm2words(dtm, vocabulary, [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])):
    print('Org: ', df.text[i])
    print('Mod: ', ' '.join(x))
    print('')

Org:  Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...
Mod:  avail bugi cine got great la onli point wat world

Org:  Ok lar... Joking wif u oni...
Mod:  joke lar ok wif

Org:  Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's
Mod:  appli comp cup entri final free question rate receiv std text txt win wkli

Org:  U dun say so early hor... U c already then say...
Mod:  alreadi dun earli say

Org:  Nah I don't think he goes to usf, he lives around here though
Mod:  don goe live nah think usf

Org:  FreeMsg Hey there darling it's been 3 week's now and no word back! I'd like some fun you up for it still? Tb ok! XxX std chgs to send, Â£1.50 to rcv
Mod:  50 darl freemsg fun hey like ok send std week word xxx

Org:  Even my brother is not like to speak with me. They treat me like aids patent.
Mod:  brother like speak treat

Or

## Conjunto de Datos

In [6]:
df['type'][df['type']=='spam'] = 1
df['type'][df['type']=='ham'] = 0
X  = dtm
y= np.array(df.type,dtype='int64')
print("Tamaño X:",X.shape)
print("Tamaño y:",y.shape)

Tamaño X: (5574, 1540)
Tamaño y: (5574,)


In [7]:
y

array([0, 0, 1, ..., 0, 0, 0], dtype=int64)

## Naive Bayes

Este ejemplo fue tomado de la pagina de cursos del profesor

In [8]:
## Entrena el modelo
##
##
## Se importa la libreria
##
import numpy as np
from sklearn.naive_bayes import BernoulliNB

##
## Se crea un clasificador Naive Bayes (NB)
##
clf = BernoulliNB()

##
## Se entrena el clasificador
##
from sklearn.model_selection import cross_val_score
scores = cross_val_score(clf, X, y, cv=5,scoring = 'precision')
print('Precision Promedio:',np.mean(scores))

Precision Promedio: 0.9796719707127352


## Regresión Logística

### Ajuste de Parametros

Para la busqueda de los mejores parametros se utiliza la funcion GridSearchCV de Sklearn, la cual dado un dominio de los parametros hace una busqueda exhaustiva de la combinación de parametros que me genere el mejor valor de una metrica escogida usando validación cruzada, la cual en este caso es $Precisión$

In [8]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
import sklearn.neural_network

parametros = {"penalty": ['l1', 'l2'],
              "C": [0.001,0.01,0.1,1,10,100], 
              #"solver": ['lbfgs', 'liblinear', 'sag', 'saga']

             }
regresion = LogisticRegression()
clf = GridSearchCV(regresion, parametros,cv=5,scoring='precision')
clf.fit(X,y)
print("Mejores Parametros Encontrados")
print(clf.best_params_)



  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision'

Mejores Parametros Encontrados
{'C': 0.01, 'penalty': 'l2'}


## Entrenamiento y Validación

Para la validación de este modelo se utiliza la metrica de $Precisión$, ya que en este caso los $Falsos Positivos$ son criticos, ya que podriamos estar filtrando mensajes que no son spam, y esto es una perdida de información delicada.

In [10]:
from sklearn import linear_model
import numpy as np
regresion =  LogisticRegression(C=clf.best_params_['C'],penalty =clf.best_params_['penalty'] )

from sklearn.model_selection import cross_val_score
scores = cross_val_score(regresion, X, y, cv=5,scoring = 'precision')
print("Precision: ",np.mean(scores))

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
regresion= regresion.fit(X_train,y_train)
y_predict = regresion.predict(X_test)
print(confusion_matrix(y_test,y_predict))

Precision:  1.0
[[1198    0]
 [ 147   49]]




## Redes Neuronales

### Busqueda de Arquitectura

Por cuestiones de computo se procede primero a realizar la busqueda de la arquitectura de red neuronal que mejor se comporta, para luego encontrarle los mejores parametros a la arquitectura encontrada.

In [16]:
from sklearn.model_selection import GridSearchCV
import sklearn.neural_network
parametros = {"hidden_layer_sizes": [(6,),(7,),(8,),(10,)]}
red = sklearn.neural_network.MLPRegressor()
clf = GridSearchCV(red, parametros,cv=5)
clf.fit(X,y)
print("Mejores Parametros Encontrados")
print(clf.best_params_)

Mejores Parametros Encontrados
{'hidden_layer_sizes': (8,)}


### Busqueda de Parametros

Con base en la arquitectura encontrada en el paso anterior se procede a hacer la busqueda de los mejores parametros para dicha arquitectura.

In [17]:
from sklearn.model_selection import GridSearchCV
import sklearn.neural_network

parametros = {"hidden_layer_sizes": [(8,)],
              "activation": ["identity", "logistic", "tanh", "relu"], 
              "solver": ["lbfgs", "sgd", "adam"], 
              "alpha": [0.00005,0.0005,0.1],
               'learning_rate':['constant', 'invscaling', 'adaptive'],
            #'max_iter':[200,1000],
            #'tol':[0.00001,0.0001,0.001,0.01,0.1,1,10],
            #'momentum':[0.1,0.2,0.4,0.6,0.8,1]}
             }
red = sklearn.neural_network.MLPClassifier()
clf = GridSearchCV(red, parametros,cv=5,scoring='precision')
clf.fit(X,y)
print("Mejores Parametros Encontrados")
print(clf.best_params_)



  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


Mejores Parametros Encontrados
{'activation': 'logistic', 'alpha': 0.1, 'hidden_layer_sizes': (8,), 'learning_rate': 'constant', 'solver': 'adam'}




### Entrenamiento y Validación

Para la validación de este modelo se utiliza la metrica de $Precisión$, ya que en este caso los $Falsos Positivos$ son criticos, ya que podriamos estar filtrando mensajes que no son spam, y esto es una perdida de información delicada.

In [12]:
import sklearn.neural_network
import numpy as np
neural_net =  sklearn.neural_network.MLPClassifier(
                # hidden_layer_sizes = clf.best_params_['hidden_layer_sizes'],  # Una capa oculta con una neurona
                #activation = clf.best_params_['activation'],    #  {‘identity’, ‘logistic’, ‘tanh’, ‘relu’}
                # solver = clf.best_params_['solver'],             #  {‘lbfgs’, ‘sgd’, ‘adam’}
                # alpha = clf.best_params_['alpha'],                #
                # learning_rate = clf.best_params_['learning_rate'], 
    hidden_layer_sizes = (8,),  # Una capa oculta con una neurona
                activation = 'logistic',    #  {‘identity’, ‘logistic’, ‘tanh’, ‘relu’}
                 solver = 'adam',             #  {‘lbfgs’, ‘sgd’, ‘adam’}
                 alpha = 0.1,                #
                 learning_rate = 'constant', # La tasa no se adapta automáticamente

)

from sklearn.model_selection import cross_val_score
scores = cross_val_score(neural_net, X, y, cv=5,scoring = 'precision')
print("Precision: ",np.mean(scores))

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
neural_net = neural_net.fit(X_train,y_train)
y_predict = neural_net.predict(X_test)
print(confusion_matrix(y_test,y_predict))




Precision:  0.9939481879016763
[[1195    3]
 [  26  170]]




# Conclusiones

En este ejercicio como metrica de validación se escogio la $Precisión$ en donde podemos ver que la regresión logística tuvo una precision exacta, y donde la arquitectura de la red neuronal tuvo una precision del 0.99

$$ Presición = \frac{Verdaderos Positivo}{Verdaderos Positivos + Falsos Positivos}$$

$$Precisión_{Logistic Regression} = 1 $$

$$Precision_{Neural Net} = 0.99 $$


Esto nos diría que la regresion logistica tiende a comportarse mejor que la red neuronal, pero esto solo nos dice que se comporta mejor para la detección de etiquetas positivas, osea los mensajes no considerados como spam, pero si miramos otras metricas de validación con base en la matriz de confusión.


$$Neural Net $$


\begin{equation*}
\begin{bmatrix}
Verdaderos Positivos & Falsos Positivos\\
1195 & 3\\
26 & 170 \\
Verdaderos Negativos & Falsos Negativos\\
\end{bmatrix}
\end{equation*}


$$Logistic Regression $$


\begin{equation*}
\begin{bmatrix}
Positivos & Falsos Positivos\\
1198 & 0\\
 147 & 49 \\
Negativos & Falsos Negativos\\
\end{bmatrix}
\end{equation*}


Como la exactitud

$$ Exactitud = \frac{Verdaderos}{Total de Predicciones} $$




$$ Exactitud_{Logistic Regression} = 0.89 $$

$$ Exactitud_{Neural Net} = 0.97   $$


En donde podemos ver que en terminos generales la red neuronal se comporta mucho mejor que la regresion logistica, pero para terminos de deteccion de positivos, y no ir a incurrir en una perdida de información delicada, es mejor utilizar una regresión logística para la predicción.

