Filtrado de spam en mensajes de texto (SMS) usando sckkit-learn
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/04-NaiveBayes-SMS-spam.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-predictive-analytics/blob/master/04-
NaiveBayes-SMS-spam.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/readme.md)

In [1]:
##
## Lee el archivo. 
##
import pandas as pd
data = pd.read_csv('data/sms_spam.csv')

##
## Verifica la lectura de los datos
##
data.describe()

Unnamed: 0,type,text
count,5574,5574
unique,2,5160
top,ham,"Sorry, I'll call later"
freq,4827,30


In [2]:
##
## Imprime los primeros cinco registros
##
data[0:5]

Unnamed: 0,type,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [3]:
##
## Se crea una función que mimifica 
## la función table() de R
##
def table(x, y=None):
    if not isinstance(x, list):
        x = x.values.tolist()
    if y is not None and not isinstance(y, list):
        y = y.values.tolist()
    if y is None:
        return {a:x.count(a) for a in set(x)}
    return {a:{b:a.count(b) for b in a} for a in set(x)}

## Cuenta la cantidad de ham y spam
table(data.type)

{'ham': 4827, 'spam': 747}

In [4]:
##
## Matriz de términos del documento
##
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

count_vect = CountVectorizer(analyzer='word',        # a nivel de palabra
                             lowercase=True,         # convierte a minúsculas
                             stop_words='english',   # stop_words en inglés
                             min_df=5)               # ignora palabras con baja freq

##
## Aplica la función al texto
##
data_dtm = count_vect.fit_transform(data.text)

##
## Las filas contienen los mensajes
## y las clomunas los términos
##
data_dtm.shape

(5574, 1603)

In [5]:
##
## Palabras aprendidas de los mensajes de texto
##
vocabulary = count_vect.get_feature_names()
len(vocabulary)

1603

In [6]:
##
## Primeras palabras del vocabulario
##
vocabulary[0:10]

['00',
 '000',
 '02',
 '03',
 '04',
 '06',
 '0800',
 '08000839402',
 '08000930705',
 '0870']

In [7]:
##
## Recupera los mensajes de la dtm
##
def dtm2words(dtm, vocabulary, index):
    as_list = dtm[index,:].toarray().tolist()
    docs = []
    for i in index:
        k = [vocabulary[iword] for iword, ifreq in enumerate(as_list[i]) if ifreq > 0]
        docs += [k]
    return docs
    
for x in dtm2words(data_dtm, vocabulary, [0, 1, 2, 3]):
    print(' '.join(x))

available bugis cine crazy got great la point wat world
joking lar ok wif
apply comp cup entry final free question rate receive std text txt win wkly
dun early say


In [8]:
## Convierte la frecuencia a 0s y 1s
#_sms_dtm = sms_dtm.toarray().tolist()
#_sms_dtm = [[min(y, 1) for y in x] for x in _sms_dtm]

#s = sms_dtm.data[sms_dtm.data > 1]
#s
#sms_dtm.shape

In [9]:
##
## Creación de los conjuntos de entrenamiento y prueba.
##
X_train      = data_dtm[0:4168, ]
X_test       = data_dtm[4169:,]
y_train_true = data.type[0:4168]
y_test_true  = data.type[4169:]

In [11]:
##
## Entrena el modelo
##
from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=21)
clf.fit(X_train, y_train_true)
clf

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=21, p=2,
           weights='uniform')

In [12]:
##
## Se pronostica para los datos de prueba.
##
y_test_pred = clf.predict(X_test)
y_test_pred

array(['ham', 'ham', 'ham', ..., 'ham', 'ham', 'ham'], dtype=object)

In [13]:
##
## Métricas de desempeño
##
## Note que en R la respuesta fue:
##
##                  sms_test_pred
##   sms_test_labels  ham spam
##              ham  1200    9
##             spam    20  161
##
## ¿puede explicar por qué?
##
from sklearn.metrics import confusion_matrix
confusion_matrix(y_true = y_test_true, 
                 y_pred = y_test_pred)

array([[1222,    0],
       [ 171,   12]])

---

Filtrado de spam en mensajes de texto (SMS) usando sckkit-learn
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/04-NaiveBayes-SMS-spam.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-predictive-analytics/blob/master/04-
NaiveBayes-SMS-spam.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/readme.md)