# Klasifikacija teksta

Osim u obradi slika, konvolutivne neuronske mreže mogu se koristiti i u obradi teksta. Sledeći primer se odnosi na jednu takvu primenu u kojoj se 1D konvolutivne mreže koriste za klasifikaciju filmskih pregleda na pozitivne i negativne. 

 <img src='assets/1CovNets_for_NLP.png'>

U osnovi ovog pristupa je sledeća ideja. Pojedinačne reči teksta je potrebno prikazati kao vektore, a zatim konvolucijskim prozorima posmatrati njihove okoline. Na taj način može da se nauči o kontekstu pojave reči i njenoj semantici. Mi smo do sada videli već neke načine za predstavljanje reči, na primer, koristili smo Tf-Idf reprezentacije. U ovom primeru ćemo pustiti da sama mapira reči u vektore odgovarajućih dužina. Ta pojava se zove ugnježdavanje (engl. embedding).  

Prvo ćemo učitati sve neophodne biblioteke.

In [1]:
import tensorflow as tf
from tensorflow import keras

In [2]:
from tensorflow.keras.datasets import imdb

In [3]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Embedding, Conv1D, MaxPool1D, GlobalMaxPool1D
from tensorflow.keras.optimizers import RMSprop
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.optimizers import SGD, RMSprop
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint, TensorBoard
from tensorflow.keras import backend as K
from tensorflow.keras.preprocessing import sequence

In [4]:
from matplotlib import pyplot as plt
import numpy as np

In [5]:
np.random.seed(7)

## Korak 1: Učitavanje skupa podataka

Za učitavanje podataka iskoristićemo podršku Keras biblioteke. Skup podataka sa kojim radimo se zove `imdb`. Prilikom učitavanja ovog skupa potrebno je da parametrom `max_features` navedemo koliko ćemo najviše reči posmatrati u kolekciji pregleda. Na ovaj način će se zadržati samo one reči pregleda koje pripadaju skupu od `max_features` najfrekventnijih reči.

## Korak 2: Priprema podataka

Da bismo sve preglede mogli da obrađujemo na isti način, moramo usaglasiti i njihove dužine. Mi ćemo se ograničiti na prvih 400 reči pregleda. Ukoliko je tekst duži od 400 reči, doći će do odsecanja sadržaja. Ukoliko je tekst kraći od 400 reči, dopunićemo ga nulama. Funkcija koja ima ovo ponašanje i koju ćemo iskoristiti u radu je `pad_sequence` koja pripada skupu `keras.preprocessing`  funkcija za pripremu sekvencijalnih podataka.

## Korak 3: Pravljenje modela

Na početku naše mreže naći će se `Embedding` sloj. Ovaj sloj svakoj reči treba da pridruži reprezentaciju dužine 128. Prvi argument predstavlja veličinu vokabulara, drugi željenu dužinu ugnježdenih reprezentacija i treći maksimalnu dužinu pojedinačnih sekvenci. <img src='assets/embeddings.png'>



U ostatku mreže će se smenjivati 1D konvolutivni i 1D agregacioni slojevi uz izmenu da su korišćeni kerneli jednodimenzioni.  <img src='assets/1D_convolution.png'>

Na kraju mreže će se naći jedan gusti sloj sa jednom izlaznom jedinicom. 

## Korak 4: Evaluacija modela

Mrežu ćemo evaluirati na test skupu.

## Korak 5: Čuvanje modela

Čuvanje Keras modela obuhvata čuvanje informacija o arhitekturi, parametrima, konfiguraciju treniranja i stanja optimizatora tako da se nesmetano može nastaviti sa radom. Modeli se čuvaju u HDF5 formatu koji se koristi za čuvanje velikih količina numeričkih podataka. Za izdvajanje informacija iz ovakvih datoteka možemo koristiti funkcionalnosti biblioteke h5py. Nju možemo instalirati komandom `conda install -c anaconda h5py` u skladu sa [zvaničnim smernicama](https://anaconda.org/anaconda/h5py). Više o samoj biblioteci može se pronaći i na [zvaničnoj stranici](https://www.h5py.org/). 

Mi ćemo u radu koristiti Keras podršku dostupnu kroz `load_model` funkcionalnosti. Funkcijom `save` se čuva model, a funkcijom `load_model` učitava postojeći. 

In [6]:
from tensorflow.keras.models import load_model