### Recomendación: 

Leer atentamente todo el documento, analizar cada linea de codigo, presentar las soluciones en cada item donde dice "Su Tarea".

Al finalizar, debe exportar este archivo, con las modificaciones que haya hecho, a un archivo html o pdf, y es ese archivo el que debe enviar.


# Ejercicio ejemplo guiado - Aprendizaje de Maquinas

Muchos servicios de correo proveen un filtro para diferenciar entre correos spam y no-spam con alta precisión. En esta parte del ejercicio usted construirá su propio filtro de spam. Debe entrenar un sistema para clasificar si un correo dado $x$, es spam $(y=1)$ o no-spam $(y=0)$. En particular, se requiere convertir cada correo en un vector de características $x ∈ R^n$. En las siguientes partes del ejercicio se le indicaran los pasos que debe seguir para construir tal vector de características a partir de un correo. 
Para este ejercicio usted usara la base de datos publica SpamAssasin, y se empleara solo el cuerpo del correo, excluyendo la cabecera.
Antes de iniciar cualquier proceso de aprendizaje automático, es bueno mirar un ejemplo del conjunto de correos. Por ejemplo la siguiente figura muestra el contenido de un correo que contiene URL, una dirección correo electrónico, números y cantidades de dinero en dolares.

<img src="eximg/img1.png" width="600">


Aunque muchos correos contienen información similar, nunca se presenta con el mismo formato. Por lo tanto, un método que se usa a menudo es normalizar estos valores de tal forma que todas las URLs se tratan de la misma forma, todos los números igual, etc. Por ejemplo, se puede reemplazar cualquier URL por un string único "httpaddr", para indicar que en esa parte hay una URL. Hacer esto permite que el clasificador tome la decisión basado en si hay cualquier URL en el correo, en lugar de una URL especifica. 


Antes de continuar es necesario instalar la siguiente librería en su entorno de anaconda. Esto permitirá facilitar el proceso de normalizar los correos electrónicos. 

"Natural Language Toolkit": Una librería de procesamiento de lenguaje natural "Natural Language Tool Kit - NTLK". Documentación extendida se puede encontrar en https://www.nltk.org/

La instalacion se puede usar uno de los siguientes metodos (intentar primero con conda) desde la ventana de comandos de Anaconda Promt o en linux desde la terminal.

``` python
conda install -c anaconda nltk 

pip install nltk

```




## Normalizar correos electronicos

Se lleva a cabo el siguiente proceso, no necesariamente en el orden descrito a continuación. Su tarea es analizar el código fuente e identificar donde se lleva a cabo cada paso:
1. pasar a minúsculas: Todo el email es convertido a minúsculas, de tal forma que "IndIcaTE" se trata igual que "indicate").
2. Normalizar todas las URLs: donde haya una URL se reemplaza por el texto  “httpaddr”.
3. Normalizar direcciones de correo: Cada que haya una dirección de correo se reemplaza por el texto  “emailaddr”.
4. Normalizar números: Cada vez que haya un numero o secuencia de dígitos, se reemplaza por la palabra “number”.
5. Normalizar el signo $ \$ $: en este caso particular se reemplaza el signo $ \$ $ por la palabra “dollar”, pues los correos son en Inglés.
6. Reducir a raíz: Las palabras son reemplazadas por su raiz, por ejemplo: “discount”, “discounts”, “discounted” y “discounting” todas se reemplazan por  “discount”.

Para este proceso se usa el algoritmo propuesto en el siguiente articulo:
Porter, 1980, An algorithm for suffix stripping, Program, Vol. 14,  no. 3, pp 130-137

ver ejemplo en 
https://www.datacamp.com/community/tutorials/stemming-lemmatization-python

<img src="eximg/img2.png" width="400">

7. Un proceso necesario pero que no se realiza en este ejemplo es eliminar aquellas secuencias que no son palabras por ejemplo “UBJjjsPPj” o “vvvsssdd” no son palabras y deberían eliminarse. Tampoco se han eliminado tags de HTML, algo común en los correos electrónicos.

El siguiente paso es definir el codigo en python que nos permite realizar el proceso descrito anteriormente. En las siguientes celdas se tienen definidas algunas funciones. 

1. processEmail(): que recibe un nombre de un archivo y retorna una lista de palabras ya procesadas. ............. 
2. stemSentence(): ....

Consultar que son expresiones regulares



In [None]:
import numpy as np
import re
from nltk.stem import PorterStemmer
from nltk.tokenize import sent_tokenize, word_tokenize 


#######################################################################################
#esta funcion permite:
#    
# 
#
def stemSentence(sentence): 
    porter = PorterStemmer()
    # ?
    print(sentence)
    token_words=word_tokenize(sentence) 
    print(token_words)
    stem_sentence=[] 
    for word in token_words:
        #?
        if len(word)>1:
            #?
            word=word.lower()            
            stem_sentence.append(porter.stem(word)) 
             
    return stem_sentence
########################################################################################
def processEmail(file_name):
    # ?
    print('Procesando: ', file_name)
    hf = open(file_name,'r')
    lines=hf.read() 
    hf.close()
    # ?
    lines=lines.replace('\n',' ')
    lines=lines.replace('\r',' ')
    lines=lines.replace('\t',' ')
    lines=lines.replace('-',' ')    
    
    #?
    lines=re.sub(r'[0-9]+','number',lines)
    # ?
    lines=lines.replace('$','dollar')
    # ?
    lines = re.sub('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+','httpaddr',lines)
    # ?
    lines =  re.sub('[^\s]+@[^\s]+','emailaddr', lines) 
    # ?
    lines=re.sub(r'[@/#.:&*+=\[\]?!(){},\'\'">_<;%]+','',lines)
    # ?
    lines = ' '.join(lines.split())
    
    #
    # usar la funcion stemSentence()
    lines = stemSentence(lines)
    
    print('Proceso finalizado....')
    return lines
########################################################################################


## Su tarea:
realizar un analisis de las funciones que se implementan en la celda anterior y redactar su explicación aqui

stemSentence(sentence)................



processEmail(file_name)..............


#presionar ctrl enter ..

In [None]:
#hacer uso de las funciones descritas anteriormente
#preprocesar correo electronico
#Ver por ejemplo cual es el resultado de procesar los archivos 
#emailSample1.txt, emailSample2.txt
#spamSample1.txt y spamSample2.txt 
#que están en la carpeta exam2Data. 

#

file_name='exData/spamSample1.txt'
palabras = processEmail(file_name)
print('Resultado:\n')
print(' '.join(palabras))
#investigar que hace la funcion  ' '.join() usada en la linea anterior

#
#guardar el resultado en un archivo de texto
#verificar con un editor de texto que se haya guardado correctamente
#el archivo resultado1.txt

np.savetxt('resultado1.txt', [' '.join(palabras)], delimiter=" ", fmt="%s") 



### Su tarea:
Copiar y pegar el contenido de la celda anterior en otra celda para ilustar los resultados con otros correos de  ejemplo

### Vocabulario
Después del preproceso anterior, el resultado es una lista de palabras para cada correo electrónico. El siguiente paso es seleccionar cual de esas palabras nos gustaría usar en nuestro clasificador y cuales debemos dejar por fuera. 

Para este ejercicio se han seleccionado solo una lista de las palabras mas frecuentes, y se le ha llamado }
"Vocabulario". Dado que hay palabras que ocurren de forma muy esporádica en ciertos correos, estas pueden causar valores atípicos y que nuestro modelo quede sobre entrenado o tenga problemas de convergencia, por lo tanto no se tendrán en cuenta.  La lista completa de palabras la encuentra en el archivo vocab.txt, en la carpeta exam2Data. Ésta lista fue generada al seleccionar las palabras que ocurren por lo menos 100 veces en la base de datos total, lo que resulta en una lista de 1.899 palabras. En aplicaciones prácticas un vocabulario puede contar con 10.000 o 50.000 palabras. 

Hay varias formas de convertir datos de texto a datos numéricos.  Por ejemplo, dado el vocabulario, es posible mapear cada palabra en el correo electrónico preprocesado en una lista que contiene un índice. Este índice o numero representa la palabra del vocabulario que aparece en el correo. Ver el siguiente ejemplo para mayor claridad.

<img src="exam2img/img3.png" width="600">

En la parte superior se tiene el correo electrónico preprocesado, en la parte inferior izquierda se tiene una pequeña muestra del vocabulario con índices asociados, es decir, cada palabra se le asocia un numero en orden de aparición (iniciando en 1 y terminando en 1899). Al lado inferior derecho tenemos el correo mapeado con índices, donde cada palabra se ha reemplazado por el índice o número correspondiente según como aparece en el vocabulario.   Por ejemplo, la palabra anyon esta en la posición 86 en el vocabulario, entonces se usa el numero 86 para mapear la primer palabra del correo. Igual se hace con know, que corresponde a la palabra 916, entonces “anyon know” se mapea como [86 916]. 



In [5]:
#se define una funcion que permite leer el archivo de texto donde se encuentra el vocabulario
#######################################################################################
def leerVocab():
    #leer vocabulario
    index=[]
    word=[]
    hf = open('exam2Data/vocab.txt','r')
    vocab=hf.readlines() 
    hf.close()
    for line in vocab:
        i,w=line.strip('\n').split('\t')
        index.append(int(i))
        word.append(w)
    #retornar lista de indices y palabras    
    return index,word

## Su tarea 

Implementar el código necesario para realizar este mapeo, es decir, convertir una lista de palabras del correo preprocesado a una lista de índices. Esta lista de indices la puede guardar en la variable mapeo_indices que ya esta inicializada en el codigo a continuación.

En este ejercicio hace uso de la función leerVocab(), que hace el trabajo de leer el archivo y retornar dos listas, una con los índices y otra con las palabras del vocabulario. 

index,vocab=leerVocab()


In [6]:
file_name='exam2Data/spamSample1.txt'
palabras = processEmail(file_name)

#cargar lista del vocabulario
index,vocab=leerVocab()

mapeo_indices=[]
#################
#su codigo va aqui

###

print(mapeo_indices)
############################
#guardar el resultado, este archivo es el que usted debe subir, verificar su contenido antes de subirlo
np.savetxt('resultado1.txt', mapeo_indices, delimiter=" ", fmt="%s") 


Procesando:  exam2Data/spamSample2.txt
Proceso finalizado....
[]


### Extraer características de los correos electrónicos

Su trabajo es implementar la etapa para extraer características, este proceso permite convertir cada correo electrónico en un vector $x ∈ R^n$. Para este ejercicio, usted usara $n$ = número de palabras en el vocabulario, es decir $n=1899$. Específicamente, la característica puede tomar solo dos valores $x_i ∈ {0, 1}$ para un correo corresponde a determinar si la $i$-ésima palabra del vocabulario está también en el correo. Es decir, $x_i=1$ si la $i$-esima palabra SI esta en el correo, $x_i=0$ si la i-ésima palabra NO está presente en el correo. Un vector de características para un correo electrónico se debería ver como se muestra en la siguiente figura. 

<img src="exam2img/img4.png" width="100">

## Tip:## 

Usted puede usar la funcionalidad intersección de numpy. Se aplica sobre dos conjuntos representados en arrays o listas, y calcula la intersección entre los dos conjuntos:
Considere las listas 

```python
x=['a','b','c','d','e','f','g','h','i']                                                                       
y=['a','a','c','f','i']                                                                                   
c1,c2,c3=np.intersect1d(x,y,return_indices=True)
```
En c1 retorna los elementos comunes entre las dos listas, en c2 un array de índices de la primer lista que también se encuentran en la segunda, y en c3 un array de índices de elementos de la segunda lista que también están en la primer lista. Verificar el resultado, usted puede extender la lista x, o la lista y, observar el resultado.

También puede usar la instrucción in que sirve para preguntar si un elemento está en una lista o arreglo:

```python
'a' in x
True

'z' in x
False
```


## Su tarea
Implementar el codigo que permita generar un vector de caracteristicas para cada correo. A continuación se presenta el código base:

In [79]:
#cargar un correo y procesarlo
file_name='exam2Data/spamSample1.txt'
palabras = processEmail(file_name)

#cargar lista del vocabulario
index,vocab=leerVocab()

#generar un vector de 1 x 1899 y guardarlo en un archivo de texto, puede usar la variable vector
#guardar el resultado
#verificar su contenido antes de subirlo
vector = np.zeros(1899) #vector con solo ceros
### su codigo va aqui


###
np.savetxt('resultado1.txt', vector, delimiter=" ", fmt="%s") 


Procesando:  exam2Data/spamSample1.txt
Proceso finalizado....


### Entrenar su sistema de clasificación de spam
Una vez usted haya completado la etapa de extraer características, el siguiente paso es cargar la base de datos que ya ha sido preprocesada, usando el mismo algoritmo descrito previamente, y a la cual ya se le han extraído las características. Los datos se encuentran en los archivos <b>spamTrain.data </b > que contiene 4000 ejemplos de correo spam y no spam, y <b>spamTest.data</b> que contiene 1000 ejemplos para evaluar su sistema. Cada ejemplo en los conjuntos anteriores corresponde a un vector de 1899 características. Los archivos contienen una columna adicional con la etiqueta del ejemplo.

## Su tarea

Implementar el codigo en python para cargar los archivos de entrenamiento y prueba. Separar los datos las variables: en X_train, y_train, donde X_train corresponde a las primeras 1899 columnas de los datos en el archivo y y_train corresponde a la ultima. Tambien generar X_test, y_test a partir del archivo de prueba que tiene una estructura similar.

El resultado son 4 variables
1. X_train, y_train : corresponde a los datos de entrenamiento
2. X_test, y_test : corresponde a los datos de prueba

 

## Su tarea

1. Consultar que significan las siguientes medidas: $accuracy$, $recall$ y $precision$. Consultar que es la matriz de confusión y que mide en un sistema de clasificación. Que son Verdaderos Negativos, Verdaderos Positivos, Falsos Negativos y Falsos Positivos?

2. Enrenar por lo menos dos clasificadores diferentes: Seleccionar por ejemplo un KNN, clasificador usando regresión logistica o maquinas de soporte vectorial, y debe realizar el proceso de entrenamiento ajustando los parámetros de tal forma que el desempeño de cada clasificador sea lo mejor posible.

### Tip:
Pueden usar: $accuracy$, $recall$ y $precision$ 

Para calcular la matriz de confusion:

```python
from sklearn.metrics import confusion_matrix
y_true = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]  #etiquetas verdaderas
y_pred = [0, 0, 1, 1, 0, 1, 1, 1, 1, 0]  #etiquetas que predice el clasificador
cm = confusion_matrix(y_true, y_pred) 
print(cm)
```

Tambien pueden usar la función  "classification_report":

```python
from sklearn.metrics import classification_report
y_true = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
y_pred = [0, 0, 1, 1, 0, 1, 1, 1, 1, 0]
target_names = ['class 0', 'class 1']
print(classification_report(y_true, y_pred, target_names=target_names))
```
Ver la documentacón : 

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html



Una vez entrenando el modelo, usted puede guardarlo y cargarlo de nuevo, no es necesario entrenar cada vez que quiera evaluarlo, pues el proceso de ajuste de parámetros toma tiempo. 


```python
import pickle
#clasificador
from sklearn.linear_model import LogisticRegression
clf =  LogisticRegression()

#Codigo para cargar los datos
#
#

#Codigo para entrenar el clasificador usando X_train, y_train
#
#

#Codigo para evaluar el clasificador usando X_test, y_test
#
#


```

Suponga que usted tiene un clasificador ya entrenado y lo tiene en la variable clf, entonces puede guardarlo en un archivo binario y cargarlo de nuevo de la siguiente forma:

```python
#guardar el clasificador clf
pickle.dump(clf, open( "mi_clasficador.p", "wb" ) )

#borrar la variable 
del clf #el clasificador ya no existe

#cargarlo de nuevo
clf = pickle.load( open( "mi_clasficador.p", "rb" ) )

#puede volver a utilizarlo
```

### Usar los correos de ejemplo
Una vez tenga su sistema entrenado, usted puede probar si funciona y puede clasificar correctamente un correo electrónico. En la carpeta exam2Data hay 4 ejemplos:  emailSample1.txt, emailSample2.txt, spamSample1.txt y spamSample2.txt

Usted debe implementar el código necesario para evaluarlos. 




### Su Tarea
Guardar en archivos de texto algunos de sus propios correos que tenga en idioma inglés, tratar que no incluya tags HTML, únicamente texto plano, y probar su sistema de clasificación. 


In [78]:
#evaluar su clasificador de forma individual con correos ejemplo
### su codigo va aqui 


### ver el ejemplo a continuacion para evaluar un solo ejemplo

In [77]:
#suponga que usted tiene un clasficador que ha sido entrenado sobre 100 datos, y
#con 30 variables:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

X = np.random.randn(100,30)              #datos
y = (2*np.random.rand(100)).astype(int) #vector aleatorio de 0 y 1
X.shape
clf.fit(X,y)


LogisticRegression()

In [76]:
#Suponga que quiere evaluarlo con un solo patron, es decir un solo vector de caracteristicas
x_test = np.random.randn(30)

#evaluar para tener una predicción
#es necesario aplicar reshape para que se entienda que es un solo vector 
#de 30 caracteristicas y no 30 ejemplos de una sola caracteristica

c=clf.predict(x_test.reshape(1, -1))
print(c)

[0]
