# Proyecto 5: Análisis de sentimiento en reviews de películas con keras

Vamos a utilizar la biblioteca Keras de Deep Learning para realizar la misma clasificación que hicimos en el proyecto 5.

## Dataset

En primer lugar, carguemos las reviews para comenzar a procesarlas. En este caso no tenemos un archivo `.csv`, sino un directorio estructurado de la siguiente forma: 
```
movie_reviews/
  neg/
  pos/
```
`sklearn` nos provee de la función `load_files` que permite recorrer este tipo de estructuras. 

In [None]:
import warnings
warnings.filterwarnings("ignore")
import sklearn
from sklearn.datasets import load_files
moviedir = r'./dataset/movie_reviews' 
movie_reviews = load_files(moviedir, shuffle=True)

Ahora en la variable `movies` tendremos guardadas las reviews (`movies.data`) y su sentimiento (`movies.target`).
Veamos cuantas reviews tenemos en total:

In [None]:
print("Tenemos {} reviews, con clases {},".format(len(movie_reviews.data), movie_reviews.target_names))

Analizando la estructura de los documentos, veamos como luce una muestra de `movies.data`:

In [None]:
movie_reviews.data[0][:500]

Y ahora, con la propiedad `target` podemos ver la categoría asociada a esta review

In [None]:
movie_reviews.target[0]

En este caso es un 0, es decir `neg`.

## Separando en conjuntos de entrenamiento y de testeo

Antes de comenzar con el entrenamiento de los modelos probando distintos algoritmos para encontrar los mejores modelos, vamos a separar el conjunto de reviews en training y testing. 

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    movie_reviews.data, movie_reviews.target, test_size = 0.20, stratify=movie_reviews.target, random_state = 12)

## Preprocesamiento

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
vect = CountVectorizer(max_features=10000)

Es importante destacar que el `fit` debe hacerse sobre el conjunto de `train` y no sobre el total, ya que `CountVectorizer` tiene en cuenta los términos existentes, por lo que si usamos el conjunto de test podrían aparecer nuevos términos que no contemplamos. Una vez que usamos el `fit` con el conjunto de entrenamiento podemos aplicar la transformación al conjunto de `test`. 

In [None]:
X_train = vect.fit_transform(X_train)
X_test = vect.transform(X_test)

### Dimensión de la matriz de términos
Una vez vectorizados los documentos veamos qué forma tiene la matriz resultante

In [None]:
X_train.shape
max_features = X_train.shape[1]

## Entrená una red neuronal con Keras


In [None]:
#Importar la librería Sequential y layers


In [None]:
# Constuir el modelo con 3 capas. 
# Qué función de activación eligirían para cada capa?

model = Sequential()
model.add(layers.Dense(16, activation=COMPLETAR, input_shape=(max_features,)))
model.add(layers.Dense(16, activation=COMPLETAR))
model.add(layers.Dense(1, activation=COMPLETAR))
model.summary()
model.compile(optimizer='rmsprop', loss=COMPLETAR, metrics=['accuracy'])


In [None]:
#Elegir el batch_size
model.fit(X_train,y_train,batch_size=COMPLETAR,epochs=10,verbose=1,validation_split=0.2)


## Matriz de confusión 
Una forma de ver fácilmente el resultado de un clasificador es utilizando una matriz de confusión. A continuación
se presenta una función para visualizar una matriz de confusión utilizando `matplotlib`.

In [None]:
from sklearn.metrics import classification_report, accuracy_score
y_pred = model.predict_classes(COMPLETAR)

from keras.utils import np_utils
y_pred_vec = np_utils.to_categorical(y_pred)

print(classification_report(COMPLETAR, y_pred_vec[:,1]))
print(accuracy_score(COMPLETAR, y_pred_vec[:,1]))

#### - Ejercicio: repetir modificando el número de muestras que se usa para entrenar


#### - DESAFÍO

Aplicación de redes neuronales para el precio de las casas
https://www.kaggle.com/diegosiebra/neural-network-model-for-house-prices-keras

* Qué función de pérdida usa?
* Qué función de activación se usa en la última capa? Por qué creen que hacen esto?
