# Bag Of Word
En este notebook definimos una serie de funciones para representar cadenas de texto como vectores numéricos con la finalidad de poder usarlos como entradas de una red neuronal artificial. Todas las funciones están extraidas de https://medium.com/@tech_fort/classifying-text-with-neural-networks-and-mimir-in-javascript-94c9de20c0ac y son una traducción de javascript (el lenguaje del artículo) a python.

In [89]:
from nltk.tokenize import RegexpTokenizer

## tokenizer
Extrae todas las palabras de una frase eliminando signos de puntuación

In [90]:
tokenizer = RegexpTokenizer(r'\w+')

In [91]:
sentence_data = "Del salón en el ángulo oscuro, de su dueño tal vez olvidada"
nltk_tokens = tokenizer.tokenize(sentence_data)
print (nltk_tokens)

['Del', 'salón', 'en', 'el', 'ángulo', 'oscuro', 'de', 'su', 'dueño', 'tal', 'vez', 'olvidada']


## Tokenize
A partir de una cadena de texto, construye un array cuyos elementos son las palabras y símbolos del texto

In [92]:
def tokenize(text):
    return tokenizer.tokenize(text.lower())


## ExtractDictionary
A partir de una cadena o de un array de cadena extrae, por un lado un diccionario (en el sentido python) cuyas claves son las palabras de la/s cadena/s y cuyos valores las ocurrencias de las mismas en el conjunto de todas las cadenas, y por otro lado un array con las palabra, es decir con las claves del diccionario.

In [93]:
def extractDictionary(input_text):
    dictionary = {}
    keys = []
    
    text_array = input_text if isinstance(input_text, list) else [input_text]
    for text in text_array:
        words = tokenize(text)
        for word in words:
            try:
                
                dictionary[word] += 1
            except KeyError:                            
                dictionary[word] = 1
                keys.append(word)    
    return {
        'words': keys,
        'dictionary': dictionary
    }

## BOW
BOW es Bag Of Words, es decir, saco de palabras. Esta función genera a partir de una cadena de texto y un diccionario un vector numérico de dimensión el nº de palabras del diccionario, cada elemento representa una palabra del diccionario que se pasa en el segundo argumento según su orden y el valor es el nº de veces que la palabra ocurre en el texto que se da como primer argumento.

In [114]:
# vocabulary es un diccionario
def bow(text, vocabulary):
    dictionary = extractDictionary([text])['dictionary']
    vector = []
    
    for word in vocabulary['words']:
        try:
            vector.append(dictionary[word])
        except KeyError:
            vector.append(0)
    
    return vector
    

# TF
Text frequency. Devuelve la frecuencia relativa de la aparición de una palabra en un texto

In [95]:
def tf(word, text):
    _input = word.lower()
    _dict = extractDictionary(text)['dictionary']
    return _dict[_input] / len(tokenize(text))
    

# wordInDocsCount

A esta función se le ofrece como entrada una palabra y un array de textos. Devuelve el número de veces que aparece la palabra en la totalidad de textos del array.

In [96]:
def wordInDocsCount(word, textlist):
    sum = 0
    for text in textlist:
        sum += 1 if word in tokenize(text) else 0
    
    return sum

# IDF
Devuelve el logaritmo en base 2 del cociente entre la longitud del array de textos y el resultado de sumar 1 a wordInDocCount. Mejor ver el propio código, es más claro que este comentario.

In [97]:
from math import log
def idf(word, textlist):
    return log(len(textlist)/ (1 + wordInDocsCount(word, textlist)))


In [98]:
idf("erase", ["erase un hombre", "una nariz", "sayón y escriba"])

0.4054651081081644

# TFIDF
Es la multiplicación de la función tf con la función idf

In [99]:
def tfidf(word, text, textlist):
    return tf(word, text) * idf(word, textlist)

# vec_result
Construye un vector de dimensión el nº de clases y de valores 0 salvo el elemento de índice `res` que es 1

In [100]:
def vec_result(res, num_classes):
    vect = []
    vect = [0] * num_classes # vector de dimensión num_classes relleno de 0's
    vect[res] = 1
    return vect

# maxarg
Devuelve la posición del elemento máximo de un array

In [101]:
def maxarg(array):
    return array.index(max(array)) 
    

# Pruebas

In [115]:
d = extractDictionary("erase un hombre a una nariz pegado, erase una nariz superlativa")
b = bow("erase un hombre a una nariz pegado, erase", d)
print(d)
print(b)

{'words': ['erase', 'un', 'hombre', 'a', 'una', 'nariz', 'pegado', 'superlativa'], 'dictionary': {'erase': 2, 'un': 1, 'hombre': 1, 'a': 1, 'una': 2, 'nariz': 2, 'pegado': 1, 'superlativa': 1}}
[2, 1, 1, 1, 1, 1, 1, 0]
