#Document-Term-Matrix, TFIDF

El índice 0 sí existe pero no está reservado para ninguna palabra... al menos en Tokenizer de keras: https://keras.io/api/preprocessing/text/ 

#Ejemplo:

In [1]:
import numpy as np

from keras.preprocessing.text import Tokenizer  

Definamos 10 documentos, 5 positivos y 5 negativos:

In [2]:
docs = [ 'Muy bien hecho lo hecho',
        'Excelente trabajo muchacho',
        'Sigue como hasta ahora',
        'Lo hiciste muy bien',
        'Que siga el buen ánimo',
        'Pésimo trabajo',
        'Que mal desempeño',
        'Muy mal hecho',
        'Que trabajo tan pobre',
        'No está bien']

In [3]:
for d in docs:
  print(d)

Muy bien hecho lo hecho
Excelente trabajo muchacho
Sigue como hasta ahora
Lo hiciste muy bien
Que siga el buen ánimo
Pésimo trabajo
Que mal desempeño
Muy mal hecho
Que trabajo tan pobre
No está bien


Definamos sus clases:

In [4]:
labels = np.array([1,1,1,1,1, 0,0,0,0,0])

En este ejemplo indexemos las palabras de nuestro vocabulario/diccionario. Recuerda que el tamaño del diccionario debe ser mayor o igual al total de palabras. Es mejor que vocab_size sea mayor al total de palabras, más vale que sobre y no que falte:

Se estima que vocab_Size debe ser al menos 1.3 veces mayor al total de palabras para evitar colisiones.

Por ejemplo con vocab_size=20 se tendrían varias colisiones en este ejemplo ya que la conatidad de palabras es de 24...

In [5]:
t = Tokenizer()  # Tokenizador.. apliquémoslos primeramente con sus opciones predeterminadas...

In [6]:
t.fit_on_texts(docs)

El index_docs nos dice cuántas veces aparece cada palabra (índice) en todos los documentos:

In [7]:
t.index_docs

defaultdict(int,
            {1: 3,
             2: 3,
             3: 2,
             4: 3,
             5: 3,
             6: 2,
             7: 2,
             8: 1,
             9: 1,
             10: 1,
             11: 1,
             12: 1,
             13: 1,
             14: 1,
             15: 1,
             16: 1,
             17: 1,
             18: 1,
             19: 1,
             20: 1,
             21: 1,
             22: 1,
             23: 1,
             24: 1})

A su vez que podemos obtener la correspondencia entre el índice y la palabra de nuestro diccionario/vocabulario:

In [8]:
t.index_word

{1: 'muy',
 2: 'bien',
 3: 'hecho',
 4: 'trabajo',
 5: 'que',
 6: 'lo',
 7: 'mal',
 8: 'excelente',
 9: 'muchacho',
 10: 'sigue',
 11: 'como',
 12: 'hasta',
 13: 'ahora',
 14: 'hiciste',
 15: 'siga',
 16: 'el',
 17: 'buen',
 18: 'ánimo',
 19: 'pésimo',
 20: 'desempeño',
 21: 'tan',
 22: 'pobre',
 23: 'no',
 24: 'está'}

Aplicamos el criterio de que nuestro diccionario tenga al menos 1.3 * (palabras diferentes) para evitar colisiones... 

In [9]:
print(len(t.word_index))

24


In [10]:
vocab_size2 = int(np.ceil((len(t.word_index) +1) * 1.3))   # tamaño del diccionario/vocabulario .
print(vocab_size2)

33


In [None]:
encoded_docs2 = t.texts_to_sequences(docs)  # obtenemos la representación de cada documento inicial 
#en relación al índice que le corresponde en el diccionario que obtuvimos previamente... 
# esto lo usaremos más adelante en el curso.
print(encoded_docs2)

[[1, 2, 3, 6, 3], [8, 4, 9], [10, 11, 12, 13], [6, 14, 1, 2], [5, 15, 16, 17, 18], [19, 4], [5, 7, 20], [1, 7, 3], [5, 4, 21, 22], [23, 24, 2]]


### O bien, como opción 2 de Tokenizer, podemos aplicar algunos criterios de flitrado y permite clasificar aquellas palabras nuevas que puedan aparecer en futuros documentos como "#" (oov:out-of-vocabulary). si previamente realizaste el proceso de filtrado, este paso ya no sería necesario, aunque sí conviene usar en general la opción oov_token:

In [11]:
tokens = Tokenizer(num_words=vocab_size2, filters='!"#$%&()*+,-./:;<=>?...', lower=True, split=' ', oov_token='#')

In [12]:
tokens.fit_on_texts(docs)

Generamos de nuevo el diccionario de palabra con su índice, esperando quede mejor habiendo eliminado posibles caracteres especiales y dando cabida a palabras nuevas desconocidas:

In [13]:
print(tokens.word_index)

{'#': 1, 'muy': 2, 'bien': 3, 'hecho': 4, 'trabajo': 5, 'que': 6, 'lo': 7, 'mal': 8, 'excelente': 9, 'muchacho': 10, 'sigue': 11, 'como': 12, 'hasta': 13, 'ahora': 14, 'hiciste': 15, 'siga': 16, 'el': 17, 'buen': 18, 'ánimo': 19, 'pésimo': 20, 'desempeño': 21, 'tan': 22, 'pobre': 23, 'no': 24, 'está': 25}


Podemos tener el diccionario de palabra con índice:

In [14]:
tokens.word_index

{'#': 1,
 'ahora': 14,
 'bien': 3,
 'buen': 18,
 'como': 12,
 'desempeño': 21,
 'el': 17,
 'está': 25,
 'excelente': 9,
 'hasta': 13,
 'hecho': 4,
 'hiciste': 15,
 'lo': 7,
 'mal': 8,
 'muchacho': 10,
 'muy': 2,
 'no': 24,
 'pobre': 23,
 'pésimo': 20,
 'que': 6,
 'siga': 16,
 'sigue': 11,
 'tan': 22,
 'trabajo': 5,
 'ánimo': 19}

O bien, si queremos solamente el índice de una palabra del diccionario:

In [15]:
tokens.word_index['siga']

16

O bien, de índice con palabra:

In [16]:
tokens.index_word

{1: '#',
 2: 'muy',
 3: 'bien',
 4: 'hecho',
 5: 'trabajo',
 6: 'que',
 7: 'lo',
 8: 'mal',
 9: 'excelente',
 10: 'muchacho',
 11: 'sigue',
 12: 'como',
 13: 'hasta',
 14: 'ahora',
 15: 'hiciste',
 16: 'siga',
 17: 'el',
 18: 'buen',
 19: 'ánimo',
 20: 'pésimo',
 21: 'desempeño',
 22: 'tan',
 23: 'pobre',
 24: 'no',
 25: 'está'}

O bien, solo la palabra de un índice particular:

In [17]:
tokens.index_word[25]

'está'

#Ahora veamos como obtener la DTM a través de la TF-IDF, TF, count o binary:

In [24]:
tm = tokens.texts_to_matrix(docs, mode='count')  # Opciones: binary, count, freq, tf-idf.

In [25]:
#print(tm.size)  # imprime el producto de rows*cols: en este caso num_of_words + index_of_# + index_of_0. 
print(tm.shape)  # 10 documents y 27 índices/tokens/palabras en el diccionario/vocabulario.

(10, 33)


In [26]:
tm[0:2]    #... observa que se trata de una matriz dispersa (sparse)... en general este será el caso.

array([[0., 0., 1., 1., 2., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0.]])