# Ładowanie i przygotowanie zbioru danych IMDB

In [1]:
# ładowanie
from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) # 10k najczęstszych słów

In [2]:
# funkcja przygotowująca zbiór danych
import numpy as np
def vectorize_sequences(sequences, dimension=10000):
    """Kodowanie sekwencji wartości całkowitoliczbowych do postaci macierzy wartości binarnych."""
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.0
    return results

In [3]:
# przygotowywanie zbioru danych
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

# przygotowanie zbiorów walidacyjnych
x_val = x_train[:10000]
partial_x_train = x_train[10000:]

y_val = y_train[:10000]
partial_y_train = y_train[10000:]

# Budowanie i kompilowanie sieci neuronów

In [4]:
from keras import models
from keras import layers

# budowanie
model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

# kompilowanie
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])
# binary_crossentropy sprawdza się najlpeiej przy zwracaniu wartości prawdopodobieństwa
# można też użyć mean_squared_error - błąd średniokwadratowy

# Trenowanie modelu

In [5]:
history = model.fit(partial_x_train, partial_y_train, epochs=4, batch_size=512)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


# Wyświetlanie wyniku

In [12]:
results = model.evaluate(x_test, y_test)
results



[0.7699334621429443, 0.8528800010681152]

# Przewidywanie prawdopodobieństwa

In [13]:
model.predict(x_test)

array([[7.3263049e-03],
       [1.0000000e+00],
       [8.3799446e-01],
       ...,
       [5.1623583e-04],
       [4.0316582e-03],
       [6.4609301e-01]], dtype=float32)