# 20 News Groups Benchmark
## Data Pre-processing

In [1]:
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences

Using TensorFlow backend.


In [2]:
from utils import *

In [3]:
MAX_SEQUENCE_LENGTH = 200

### Tokenizing

In [4]:
# load dataset
x_data, labels, labelToName = get20News()

numClasses = len(labelToName)

# Lista di tuple ordinate per il numero di label [ (0, ''), (1, ''), .. ]
labelToNameSortedByLabel = sorted(labelToName.items(), key=lambda kv: kv[0])
namesInLabelOrder = [item[1] for item in labelToNameSortedByLabel]

tokenizer = Tokenizer()
tokenizer.fit_on_texts(x_data)

print('Trovati %s token univoci per il dataset di training.' % len(tokenizer.word_index))

100%|██████████| 18846/18846 [12:03<00:00, 26.03it/s] 


Trovati 107196 token univoci per il dataset di training.


### Truncating & Padding
tutti i dati di input hanno la stessa dimensione e lunghezza in fase di modellazione e di training

In [5]:
# ottengo la sequenza delle parole in un 
# determinato file sostituendole con i rispettivi token
#
# esempio:
#    texts = ['a a a', 'b b', 'c']
#    tokenizer.word_index
#       Out[1]: {'a': 1, 'b': 2, 'c': 3}
#    tokenizer.texts_to_sequences(texts)
#       Out[6]: [[1, 1, 1], [2, 2], [3]]

encoded_documents = tokenizer.texts_to_sequences(x_data)

# trasforma le sequenze in array 2D (lunghezza_sequenza, MAX_SEQUENCE_LENGTH)
x_encoded_data = pad_sequences(encoded_documents, maxlen=MAX_SEQUENCE_LENGTH, padding='post')

### Train & Test Split

In [6]:
x_train,y_train, x_test,y_test, test_indices = train_test_split(x_encoded_data,labels,test_size=0.2)

In [7]:
print('forma del tensore dati di training:', x_train.shape)
print('forma del tensore dati di test:', x_test.shape)

forma del tensore dati di training: (14636, 200)
forma del tensore dati di test: (3660, 200)


### Saving pre-processed data for future use

In [8]:
savePkl('x_train',x_train)
savePkl('y_train',y_train)

savePkl('x_test',x_test)
savePkl('y_test',y_test)

savePkl('word_index',tokenizer.word_index)
savePkl('test_indicies',test_indices)
savePkl('labels',labels)
savePkl('namesInLabelOrder',namesInLabelOrder)

## End