Filtrado de spam en mensajes de texto (SMS) usando sckkit-learn
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/predictive-analytics/blob/master/06-NaiveBayes-IPy-SMS-spam.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/predictive-analytics/blob/master/06-NaiveBayes-IPy-SMS-spam.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/predictive-analytics/blob/master/readme.md)

In [1]:
#
# Lee el archivo. La función readlines() retorna una 
# una lista de strings donde cada string es una linea
# del archivo original.
#
sms_raw = open('data/sms_spam.csv').readlines()
#
# Elimina las comillas dobles al principio y al final
#
lines = []
for line in sms_raw:
    lines.append(line[1:-2]) 
sms_raw = lines
#
# Convierte cada linea en una lista de strings, 
# partiendo la línea original por las comas.
# 
sms_raw = [x.split('","') for x in sms_raw]
#
# Elimina la primera fila que corresponde a los
# encabezamientos
#
sms_raw = sms_raw[1:]
#
# Imprime los primeros cinco registros
#
sms_raw[0:5]
#

[['ham',
  'Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...'],
 ['ham', 'Ok lar... Joking wif u oni...'],
 ['spam',
  "Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's"],
 ['ham', 'U dun say so early hor... U c already then say...'],
 ['ham', "Nah I don't think he goes to usf, he lives around here though"]]

In [2]:
#
# Separa el texto y el tipo de mensaje
# 
sms_raw_type = [x[0] for x in sms_raw]
sms_raw_text = [x[1] for x in sms_raw]

In [3]:
#
# Se crea una función que mimifica 
# la función table() de R
#
def table(x):
    return {y:x.count(y) for y in set(x)}

In [4]:
#
# cuenta la cantidad de ham y spam
#
table(sms_raw_type)

{'ham': 4827, 'spam': 747}

In [5]:
def prop_table(x):
    L = len(x)
    return {y:x.count(y)/L for y in set(x)}

In [6]:
#
# Se convierte el conteo en probabilidades.
#
prop_table(sms_raw_type)

{'ham': 0.8659849300322928, 'spam': 0.1340150699677072}

In [7]:
#
# Matriz de términos del documento
#
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer(analyzer='word',        # a nivel de palabra
                             lowercase=True,         # convierte a minúsculas
                             stop_words='english',   # stop_words en inglés
                             min_df=5)               # ignora palabras con freq < 5
#
# Aplica la función al texto
#
sms_dtm = count_vect.fit_transform(sms_raw_text)
#
# Las filas contienen los mensajes
# y las clomunas los términos
#
sms_dtm.shape

(5574, 1603)

In [8]:
#
# Convierte la frecuencia a 0s y 1s
#
sms_dtm.data[sms_dtm.data > 1] = 1

In [9]:
#
# Creación de los conjuntos de entrenamiento y prueba.
#
sms_dtm_train    = sms_dtm[0:4168, ]
sms_dtm_test     = sms_dtm[4169:]
sms_train_labels = sms_raw_type[0:4168]
sms_test_labels  = sms_raw_type[4169:]

In [10]:
#
# Distribución del tipo de mensaje en el 
# conjunto de entrenamiento
#
prop_table(sms_train_labels)

{'ham': 0.8646833013435701, 'spam': 0.13531669865642995}

In [11]:
#
# Distribución del tipo de mensaje en el 
# conjunto de prueba
#
prop_table(sms_test_labels)

{'ham': 0.8697508896797153, 'spam': 0.1302491103202847}

In [12]:
#
# Entrena el modelo
#
from sklearn.neighbors import KNeighborsClassifier
kNN = KNeighborsClassifier(n_neighbors=21)
kNN.fit(sms_dtm_train, sms_train_labels)
kNN

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=21, p=2,
           weights='uniform')

In [13]:
#
# Se pronostica para los datos de prueba.
#
sms_test_pred = kNN.predict(sms_dtm_test)
sms_test_pred

array(['ham', 'ham', 'ham', ..., 'ham', 'ham', 'ham'], dtype='<U4')

In [14]:
#
# Métricas de desempeño
#
# Note que en R la respuesta fue:
#
#                sms_test_pred
# sms_test_labels  ham spam
#            ham  1200    9
#           spam    20  161
#
# ¿puede explicar por qué?
#Q
from sklearn.metrics import confusion_matrix
confusion_matrix(y_true = sms_test_labels, 
                 y_pred = sms_test_pred)

array([[1222,    0],
       [ 178,    5]])

---

Filtrado de spam en mensajes de texto (SMS) usando sckkit-learn
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/predictive-analytics/blob/master/06-NaiveBayes-IPy-SMS-spam.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/predictive-analytics/blob/master/06-NaiveBayes-IPy-SMS-spam.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/predictive-analytics/blob/master/readme.md)