# Tarea 4
### Autor: Guillermo Fonseca
### Fecha: 06/09/2020
### Asignatura: REDES NEURONALESAVANZADAS DE APRENDIZAJE PROFUNDO IMA543

![imagen.png](attachment:imagen.png)

![imagen.png](attachment:imagen.png)

# Método
Se programa la clase n-gramas de parámetro *n_order*, para devolver una funcion *tokenize*.
En la tokenizacion se eliminan stopwords y puntuación.
Se utiliza la vectorización *TfidfVectorizer* de la librería *sklearn*, y se crea el modelo en base al tokenizador.

Luego se programa la clase de discriminador lineal para clasificación binaria *LDA*, con un atributo *threshold* que es el hiperparametro del objeto, además se implementa los métodos *fit* y *score*, el primero para ajustar el objeto a datos y el segundo para entregar un puntaje de precisión en base a la matriz de confusión.
Se decidió realizar el discriminador lineal, heredando propiedades de *BaseEstimator* de la librería *sklearn*, para poder utilizar el método *cross_val_score*, de la misma librería.

Por último, se cargan los datos de *sms-spam* de la librería *nlpia*, se inicia el discriminador lineal con un threshold de $0.5$ y se realizan las siguientes acciones para ordenes de n-gramas (n_order) de 2 y 3 :
- Se crea el tokenizador de orden *n_order*
- Se crea el vectorizador TfidfVectorizer en base al tokenizador
- Se vectoriza la base de datos con el vectorizador
- Se obtiene el vector de etiquetas que distingue mensajes spam de no spam
- Se divide la base de datos en vectores de entrenamiento y de test
- Se ajusta el modelo en base a los vectores de entrenamiento
- Se observa la puntuacion para el set de entrenamiento y para el set de test
- Se calcula la precision en base a la validacion cruzada

In [1]:
from nltk.util import ngrams
from nltk.tokenize.casual import casual_tokenize

import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('english')

puntuacion = set((',', '.', '--', '-', '¡', '!', '¿', '?', ':', ';', '``', "''", '(', ')', '[', ']', '«',
                  '»', '/', '—', '_', '..', '+', '…', '‘', '’', '–', '%', '“', '”', '″', '"', '·', '|',
                  '<', '>', '=', '*', '°'))

class n_gram_tokenizer:
    def __init__(self, n_order=2, delete_stopwords=1, delete_puntuacion=1):
        self.n_order = n_order
        # Eliminar stopwords?
        self.delete_stopwords = delete_stopwords
        # Eliminar puntuacion?
        self.delete_puntuacion = delete_puntuacion
    
    def tokenize(self, document):
        tokens = casual_tokenize(document.lower())
        
        # Eliminamos stopwords
        if self.delete_stopwords:
            tokens = [x for x in tokens if x not in stopwords]
        # Eliminamos puntuacion
        if self.delete_puntuacion:
            tokens = [x for x in tokens if x not in puntuacion]
        
        #lista de ngramas, en cada ngrama hay una tupla que contiene sus tokens
        n_grams = list(ngrams(tokens, self.n_order))
        n_grams = [" ".join(x) for x in n_grams]
    
        return n_grams

[nltk_data] Downloading package stopwords to
[nltk_data]     D:\Users\Memo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
# Definimos la funcion para analisis de discriminacion lineal (LDA)
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import confusion_matrix
from sklearn.base import BaseEstimator

class claseLDA(BaseEstimator):
    '''
    Discriminador lineal para clasificacion binaria
    '''
    def __init__(self, threshold=0.5, recta=np.array(0,)):
        self.threshold = threshold
        self.recta = recta

    def fit(self, X, y):
        '''
        Funcion que calcula la recta que une los centroides,
        Entradas:
            vector: array en el que sus filas son vectores, a los cuales se les calculará dos centroides
            label : array de booleanos, que categoriza a cada vector
        Salida:
            recta : array con dimension igual a los vectores a categorizar
            '''
        #Calculamos los centroides en las dimensiones de los tokens de entrenamiento
        centroid = X[y].mean(axis=0)
        n_centroid = X[~y].mean(axis=0)

        #vector recta, que une los dos centroides
        recta = centroid - n_centroid

        self.recta = recta

        return self
    
    def score(self, vector, y, show_print=0):
        '''
        Funcion que calcula la matriz de confusion y la precision del metodo LDA 
        Entradas:
            recta : la recta que discrimina los vectores
            vector: array en el que sus filas son vectores, los cuales se discriminarán
            label : array de booleanos, que categoriza a cada vector, se usa para discernir 
                    falsas discriminaciones (FP, FN)
            threshold: tolerancia de discriminacion
        Salida:
            acc : precision del metodo
            '''
        score = vector.dot(self.recta)

        lda_score = MinMaxScaler().fit_transform(score.reshape(-1,1))
        
        #Si el score es mayor al threshold, entonces se discrimina
        threshold = self.threshold
        predict = (lda_score > threshold).astype(int).reshape(-1,)

        label = y.astype(int)

        if (show_print == 1):
            print('Suma de elementos verdaderos originales' ,sum(label))
            print('Suma de elementos verdaderos predichos ' ,sum(predict))
            print('Suma de elementos verdadero totales    ', len(label))

        tn, fp, fn, tp = confusion_matrix(label, predict).ravel()

        acc = (tp + tn)/(tp+tn+fp+fn)
        
        if (show_print == 1):
            print(f"Verdaderos Positivos: {tp} son spam y se clasificaron como spam")
            print(f"Verdaderos Negativos: {tn} no son spam y se clasificaron como no spam")
            print(f"Falsos     Negativos: {fn} son spam y se clasificaron como no spam")
            print(f"Falsos     Positivos: {fp} no son spam y se clasificaron como spam")
            print(f"Con una precision de {acc} \n")
        return acc

In [3]:
from nlpia.data.loaders import get_data
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import ShuffleSplit

# Se carga los datos sms
sms = get_data('sms-spam')

# Vector para probar diferentes n-gramas
ngrams_orders = [2, 3]

# Creamos el estimadorLDA, con hiperparametro "threshold"
estimadorLDA = claseLDA(0.5)

  [datetime.datetime, pd.datetime, pd.Timestamp])
  MIN_TIMESTAMP = pd.Timestamp(pd.datetime(1677, 9, 22, 0, 12, 44), tz='utc')
  np = pd.np
  np = pd.np
INFO:nlpia.constants:Starting logger in nlpia.constants...
  np = pd.np
  np = pd.np
INFO:nlpia.loaders:No BIGDATA index found in d:\program files\python37\lib\site-packages\nlpia\data\bigdata_info.csv so copy d:\program files\python37\lib\site-packages\nlpia\data\bigdata_info.latest.csv to d:\program files\python37\lib\site-packages\nlpia\data\bigdata_info.csv if you want to "freeze" it.
INFO:nlpia.futil:Reading CSV with `read_csv(*('d:\\program files\\python37\\lib\\site-packages\\nlpia\\data\\mavis-batey-greetings.csv',), **{'low_memory': False})`...
INFO:nlpia.futil:Reading CSV with `read_csv(*('d:\\program files\\python37\\lib\\site-packages\\nlpia\\data\\sms-spam.csv',), **{'low_memory': False})`...
INFO:nlpia.futil:Reading CSV with `read_csv(*('d:\\program files\\python37\\lib\\site-packages\\nlpia\\data\\sms-spam.csv',), **{'n

### Eliminando stopwords y puntuacion

In [4]:
for n_order in ngrams_orders:
    print(f"*** PARA N-GRAMAS DE ORDEN = {n_order}***")
    
    # Se crea el tokenizaro de n-gramas
    #, delete_stopwords=0, delete_puntuacion=0
    tokenizacion = n_gram_tokenizer(n_order=n_order).tokenize

    # Se crea modelo de vectorizador en base al tokenizador
    tfidf_model = TfidfVectorizer(tokenizer=tokenizacion)

    # Se vectoriza
    # sus filas son los documentos y sus columnas cada token del corpus, cada valor representara el valor de TF-IDF
    tfidf_docs = tfidf_model.fit_transform(raw_documents=sms.text).toarray()

    # Iniciaremos un vector para mostrar con True or False, para ver si un documento es spam o no.
    spam_labels = sms.spam.astype(bool).values
    
    # Separamos el conjunto de datos en un set de entrenamiento y otro set de test
    vector_train, vector_test, label_train, label_test = train_test_split(tfidf_docs, 
                                                                          spam_labels, 
                                                                          test_size=0.3, 
                                                                          random_state=5)
    
    # Ajustamos el estimador al set de entrenamiento
    estimadorLDA.fit(vector_train, label_train)
    
    # Vemos el score para el set de entrenamiento y para el set de test
    estimadorLDA.score(vector_train, label_train, show_print=1)
    estimadorLDA.score(vector_test, label_test, show_print=1)
    
    # Se calcula la validacion cruzada
    cv = ShuffleSplit(n_splits=5, test_size=0.3, random_state=0)
    scores = cross_val_score(estimadorLDA, tfidf_docs, spam_labels, cv=cv)
    
    print("Precision de validacion cruzada: %0.2f (+/- %0.2f) \n" % (scores.mean(), scores.std() * 2))

*** PARA N-GRAMAS DE ORDEN = 2***
Suma de elementos verdaderos originales 443
Suma de elementos verdaderos predichos  135
Suma de elementos verdadero totales     3385
Verdaderos Positivos: 134 son spam y se clasificaron como spam
Verdaderos Negativos: 2941 no son spam y se clasificaron como no spam
Falsos     Negativos: 309 son spam y se clasificaron como no spam
Falsos     Positivos: 1 no son spam y se clasificaron como spam
Con una precision de 0.9084194977843427 

Suma de elementos verdaderos originales 195
Suma de elementos verdaderos predichos  46
Suma de elementos verdadero totales     1452
Verdaderos Positivos: 46 son spam y se clasificaron como spam
Verdaderos Negativos: 1257 no son spam y se clasificaron como no spam
Falsos     Negativos: 149 son spam y se clasificaron como no spam
Falsos     Positivos: 0 no son spam y se clasificaron como spam
Con una precision de 0.8973829201101928 

Precision de validacion cruzada: 0.91 (+/- 0.01) 

*** PARA N-GRAMAS DE ORDEN = 3***
Suma de

### No eliminando stopwords y puntuacion

In [5]:
for n_order in ngrams_orders:
    print(f"*** PARA N-GRAMAS DE ORDEN = {n_order}***")
    
    # Se crea el tokenizaro de n-gramas
    #, delete_stopwords=0, delete_puntuacion=0
    tokenizacion = n_gram_tokenizer(n_order=n_order, delete_stopwords=0, delete_puntuacion=0).tokenize

    # Se crea modelo de vectorizador en base al tokenizador
    tfidf_model = TfidfVectorizer(tokenizer=tokenizacion)

    # Se vectoriza
    # sus filas son los documentos y sus columnas cada token del corpus, cada valor representara el valor de TF-IDF
    tfidf_docs = tfidf_model.fit_transform(raw_documents=sms.text).toarray()

    # Iniciaremos un vector para mostrar con True or False, para ver si un documento es spam o no.
    spam_labels = sms.spam.astype(bool).values
    
    # Separamos el conjunto de datos en un set de entrenamiento y otro set de test
    vector_train, vector_test, label_train, label_test = train_test_split(tfidf_docs, 
                                                                          spam_labels, 
                                                                          test_size=0.3, 
                                                                          random_state=5)
    
    # Ajustamos el estimador al set de entrenamiento
    estimadorLDA.fit(vector_train, label_train)
    
    # Vemos el score para el set de entrenamiento y para el set de test
    estimadorLDA.score(vector_train, label_train, show_print=1)
    estimadorLDA.score(vector_test, label_test, show_print=1)
    
    # Se calcula la validacion cruzada
    cv = ShuffleSplit(n_splits=5, test_size=0.3, random_state=0)
    scores = cross_val_score(estimadorLDA, tfidf_docs, spam_labels, cv=cv)
    
    print("Precision de validacion cruzada: %0.2f (+/- %0.2f) \n" % (scores.mean(), scores.std() * 2))

*** PARA N-GRAMAS DE ORDEN = 2***
Suma de elementos verdaderos originales 443
Suma de elementos verdaderos predichos  124
Suma de elementos verdadero totales     3385
Verdaderos Positivos: 124 son spam y se clasificaron como spam
Verdaderos Negativos: 2942 no son spam y se clasificaron como no spam
Falsos     Negativos: 319 son spam y se clasificaron como no spam
Falsos     Positivos: 0 no son spam y se clasificaron como spam
Con una precision de 0.9057607090103398 

Suma de elementos verdaderos originales 195
Suma de elementos verdaderos predichos  28
Suma de elementos verdadero totales     1452
Verdaderos Positivos: 28 son spam y se clasificaron como spam
Verdaderos Negativos: 1257 no son spam y se clasificaron como no spam
Falsos     Negativos: 167 son spam y se clasificaron como no spam
Falsos     Positivos: 0 no son spam y se clasificaron como spam
Con una precision de 0.8849862258953168 

Precision de validacion cruzada: 0.89 (+/- 0.01) 

*** PARA N-GRAMAS DE ORDEN = 3***
Suma de

## Resultados obtenidos en clases
![imagen.png](attachment:imagen.png)
# Comparacion
Se puede observar que en clases obtenemos un *accuracy* mucho mayor, sin embargo, el metodo se entreno con todo el set y se realizo la puntuación con este mismo set.
En ese sentido, para *n-gramas* de orden 3, y eliminando *stop-words*, obtuvimos una puntuación de **0.9116691285081241**, que es la que más se acerca.
Sin embargo, al no realizarse una validacion cruzada, la puntuacion obtenida en clases puede estar sesgada.

# Conclusion

Podemos observar que para n-gramas de orden 3, obtenemos puntuaciones de precisión (para tamaño de set de test de 0.3) mayores que para n-gramas de orden 2.

Sin embargo, la validación cruzada muestra que se obtiene la misma puntuación para ambos métodos (y la misma desviación).

Se observa que la eliminación de *stop words* y *puntuacion* de los tokens, aumenta la precisión del método.

Por último, se observa que el método es relativamente bueno clasificando mensajes no-spam, pero falla clasificando mensajes spam.

Se piensa que se puede deber al hiperparámetro de *threshold*