# Clasificación de Text
Créditos: https://keras.rstudio.com/articles/tutorial_basic_text_classification.html


El siguiente tutorial consisten en clasificar reseñas de peliculas como  positivas o negativas utilizando el texto de la reseña. Este es un ejemplo de clasificacion binaria, un tipo de problema de aprendizaje automatico importante y apliamente aplicable.

Se utilizara el conjunto de datos IMDB que contiene el texto de 50,000 reseñas de peliculas de la base de datos de internet. Estas se dividen en 25,000 reseñas para el entrenamiento y 25,000 reseñas para la validacion. Los conjuntos de entrenamiento y validacion son equilibrados, lo que significa que contiene el mismo numero de reseñas positivas y negativas.


In [4]:
#Librerias necesarias

library(keras)#necesario usar la funcion install_kereas() para instalar kerear, si no funcinoa intalar r studio en conda
library(dplyr)
library(ggplot2)
library(purrr)
library(tensorflow)

### Descargar conjuntos de datos IMDB

El conjunto de datos IMDP vine con la libreria keras. Ya se ha procesados de manera tal que las reseñas (secuencias de palabras) se han convertido en secuencias de enteros, donde cada entero representa un palabra especifica en un diccionario.

El siguiente codigo descarga eñ conjunto de datos IMDB (o usa una copia en cache si ya se ha descargado).

In [5]:
imdb<-dataset_imdb(num_words = 10000)

c(train_data, train_labels) %<-% imdb$train
c(test_data, test_labels) %<-% imdb$test

El argumento num_words = 10000 mantiene las 10,000 palabras mas frecuentes en los datos de entrenamiento. Las plabras raras se descartan para mantener manejable el tamaño de los datos.

Convenientemente, el conjunto de datos viene con un indice que asigna palabras a enteros, que deben descargarse por separado.

In [8]:
word_index<-dataset_imdb_word_index()
head(word_index,3)

### Exploracion de datos 

Tomemos un poco de tiempo para entender el formato de los datos. El conjunto de datos viene preprocesado: cada ejemplo es un conjunto de enteros que representan las palabras de la reseña de la pelicula. Cada etiqueta es un valor entero de 0 o 1, donde 0 es una reseña negativa y 1 es una reseña positiva.

In [10]:
paste0("Training entries: ", length(train_data), ", labels: ", length(train_labels))

Los textos de la reseñas se han tranformado en numeros enteros, donde cada numero entero representa una palabra especifica en un diccionario. Asi es como se ve la primera reseña


In [11]:
train_data[[1]]

Las reseñas de peliculas pueden tener diferentes longitudes. El siguiente codigo muestra el numero de palabras en la primera y segunda reseña. Dado que las entradas a una red neuronal deben tener la misma lingitud, se tiene que resolver esto mas adelante.

In [12]:
sapply(train_data[1:2],length)

### Convertir enteros a palabras

Puede se util saber como convertir enteros de nuevo a texto. Ya se sabe que word_index tiene el catalogo de palabra. Si se crea un data.frame a partir de el, se puede usar en ambas direcciones.

In [13]:
word_index_df<-data.frame(
  word = names(word_index),
  idx = unlist(word_index,use.names = FALSE),
  stringsAsFactors = FALSE
)

Los primeros índices son reservados

In [15]:
word_index_df <- word_index_df%>%
  mutate(idx = idx + 3)%>%
  add_row(word = "<PAD>", idx = 0)%>%
  add_row(word = "<START>", idx = 1)%>%
  add_row(word = "<UNK>", idx = 2)%>%
  add_row(word = "<UNUSED>", idx = 3)%>%
  arrange(idx)

decode_review <- function(text){
  paste(map(text, function(number) word_index_df %>%
              filter(idx == number) %>%
              select(word) %>% 
              pull()),
        collapse = " ")
}

Ahora se puede usar la funcion decode_view para mostrar el texto para la primera reseña

In [16]:
decode_review(train_data[[1]])

### Prepacion de datos

Las reseña, los arreglos de enteros, deben transformarse a tensores antes de alimentar la red neuronal. Esta convension se puede realizar de dos maneras. Codificando en caliente las matrices para transformarlas en vector de 0's y 1's. Por ejemplo, se secuencia [3,5] se tranformaria en un vector de dimension 10,000 que son todos ceros, excepto los indices 3 y 5, que son unos. 

Entonces, se hace esta la primera capa de la red, una capa densa, que pueda manejar datos de vectores de punto flotante. Sin embargo, este enfoque requiere mucha memoria y requiere un matriz de tamaño num_words * num_reviews(reseñas). De manera alternativa, se puede rellenar los areglos de enteros de maenra que tengan la misma longitud, y luego crear un tensor de tamaño num_examples * max_length. Se puede usar una cada de inclusion capaz de manejar esta forma como la primera capa en la red.

Dedibo a que las reseñas deben dener la misma longitud, se utilizara la funcion pad_sequences para estanzarizar las longitudes

In [19]:
train_data<-pad_sequences(
  train_data,
  value = word_index_df%>%filter(word == "<PAD>")%>%select(idx)%>%pull(),
  padding =  "post",
  maxlen = 256
)

### Construccion del modelo

La red neuronal se crea apilando capas, esto requiere dos decisiones arquitectonicas principales: ¿cuántas capas usar en el modelo? ¿cuántas unidades ocultas usar para cada capa?
 
En este emjemplo, los datos de entrada consisten en una matriz de indices de palabras. Las etiquetas para predecir si son 0 o 1. 

Construyamos un modelo para este problema.
La forma de entrada es un contenceo de palabras usado para la reseña de la pelicual (10,000 palabras).

In [20]:
vocab_size<-10000

model<-keras_model_sequential()

model%>%
  layer_embedding(input_dim = vocab_size, output_dim = 16)%>%
  layer_global_average_pooling_1d()%>%
  layer_dense(units = 16, activation = "relu")%>%
  layer_dense(units = 1, activation = "sigmoid")

model%>%summary()

Model: "sequential"
________________________________________________________________________________
Layer (type)                        Output Shape                    Param #     
embedding (Embedding)               (None, None, 16)                160000      
________________________________________________________________________________
global_average_pooling1d (GlobalAve (None, 16)                      0           
________________________________________________________________________________
dense (Dense)                       (None, 16)                      272         
________________________________________________________________________________
dense_1 (Dense)                     (None, 1)                       17          
Total params: 160,289
Trainable params: 160,289
Non-trainable params: 0
________________________________________________________________________________


Las capas se apilan de manera secuencial para construir el clasificador:

La primer capa es una cama embebida. Esta capa toma el vocabulario codificado con enteros y busca el vector de incrustacion para ca indice de palabras. Estos vectores se aprender a medida que el modelo entrena.
Los vectores agregan una dimension a la matriz de salida. Las dimensiones resultanes son: (tach, sequence, embedding).


In [22]:
model %>% compile(
  optimizer = 'adam',
  loss = 'binary_crossentropy',
  metrics = list('accuracy')
)

### Crear un conjunto de validación

In [23]:
x_val <- train_data[1:10000, ]
partial_x_train <- train_data[10001:nrow(train_data), ]

y_val <- train_labels[1:10000]
partial_y_train <- train_labels[10001:length(train_labels)]

### Entrenamos el modelo

In [24]:
history <- model %>% fit(
  partial_x_train,
  partial_y_train,
  epochs = 40,
  batch_size = 512,
  validation_data = list(x_val, y_val),
  verbose=1
)

### Evaluar el modelo

In [None]:
results <- model %>% evaluate(test_data, test_labels)
results


predictions<-model%>%predict(test_data)

cbind(round(predictions,5),test_labels)
