# Dataset

In [1]:
import pandas as pd
pd.set_option('display.max_colwidth', None)

df = pd.read_csv("https://raw.githubusercontent.com/eduardofc/data/main/amazon_sports.csv")
df['review_body'] = df['review_body'].str.replace("[^a-zA-Zñáéíóú .,]", "", regex=True)
df['review_body'] = df['review_body'].str.lower()
df.head()

Unnamed: 0,stars,review_body,review_title,product_category
0,1,nunca llego el pedido y el vendedor pasa de todo no contestan,No llego nunca,sports
1,1,"no sé como es, porque debería haber llegado ayer día de marzo, y hoy por la noche sigo esperando que llegue el frontal. y me habéis mandado el formulario de opinión. pues de momento mala no ha cumplido con la fecha de entrega.",Todavía no ha llegado,sports
2,1,"guantes cómodos, no lo niego, pero de mala calidad. yo creo que en caso de caída no valdrian para mucho, dos meses de uso y se están rajando.",Guantes de baja calidad,sports
3,1,hasta hoy no he visto el producto. el pedido hace ya casi mes. y notifico que he usado prime para está compra.,Muy Mala experiencia,sports
4,1,"no puedo valorarla porque, después de casi una semana, aún no he recibido mi pedido. pienso que amazon tendría que valorar las compañías de transporte con que trabaja, porque es indignante que pague mi cuota prime y nunca reciba mi pedido el día que toca",Paquete perdido?,sports


In [2]:
df = df[df.stars!=3]
df['good_product'] = (df.stars>3).astype(int)
df.groupby('good_product').size()

good_product
0    4989
1    5372
dtype: int64

# Text Classification

In [3]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split




In [4]:
X = df.review_body.values
y = df.good_product

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=33)

print(len(X_train))
print(len(X_test))

8288
2073


In [5]:
# tokenizer

vocab_size = 5000

tokenizer = Tokenizer(num_words=vocab_size, oov_token='<OOV>')
tokenizer.fit_on_texts(X_train)

In [6]:
tokenized_train = tokenizer.texts_to_sequences(X_train)
tokenized_test = tokenizer.texts_to_sequences(X_test)

In [7]:
# padding

max_length = 50

padded_train = pad_sequences(tokenized_train, maxlen=max_length)
padded_test = pad_sequences(tokenized_test, maxlen=max_length)

In [8]:
padded_train

array([[   8,    1,    3, ...,   47, 2120,  270],
       [   0,    0,    0, ...,   16,   35, 1514],
       [   0,    0,    0, ...,  831,   31,   32],
       ...,
       [   0,    0,    0, ...,   43,  138,  270],
       [   0,    0,    0, ...,  623,   39,   53],
       [   0,    0,    0, ...,  687,    3, 1765]])

# Models

In [9]:
import tensorflow.keras as keras
import numpy as np
from time import time

from keras import Sequential
from keras.layers import *
from keras.optimizers import Adam

In [13]:
def compile_model(model):
    model.compile(
        loss='binary_crossentropy',
        optimizer='adam',
        metrics='accuracy'
    )
#     model.summary()

def fit_model(model):
    model.fit(
        padded_train, y_train,
        epochs=20,
        batch_size=100,
        validation_data=(padded_test, y_test)
    )

## Model 1: MLP

In [14]:
keras.utils.set_random_seed(812)

model = Sequential([
    Flatten(input_shape=(max_length,)),
    Dense(128, activation='relu'),
    Dense(54, activation='relu'),
    Dense(1, activation='sigmoid')
])
compile_model(model)

In [15]:
fit_model(model)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## Model 2: MLP + Embeddings

In [18]:
keras.utils.set_random_seed(812)

embd_size=20

model = Sequential([
    Embedding(
        input_dim=vocab_size,
        output_dim=embd_size,
        input_length=max_length
    ), 
    Flatten(),
    Dense(1, activation='sigmoid')
])
compile_model(model)

In [19]:
fit_model(model)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## Model 3: CNN + Embeddings

In [27]:
keras.utils.set_random_seed(812)

embd_size = 20
ks = 5
n_filters = 64

model = Sequential([
    Embedding(
        input_dim=vocab_size,
        output_dim=embd_size,
        input_length=max_length
    ), 
    Conv1D(kernel_size=ks, filters=n_filters),
    GlobalAveragePooling1D(),
    Dense(6, activation='relu'),
    Dense(1, activation='sigmoid')
])
compile_model(model)

In [28]:
fit_model(model)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## Model 4: (Bi)-LSTM + Embeddings

In [32]:
keras.utils.set_random_seed(812)

embd_size = 20
lstm_dim = 32

model = Sequential([
    Embedding(
        input_dim=vocab_size,
        output_dim=embd_size,
        input_length=max_length
    ), 
#     LSTM(lstm_dim),
    Bidirectional(LSTM(lstm_dim)),
    Dense(1, activation='sigmoid')
])
compile_model(model)

In [33]:
fit_model(model)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## Model 5: quitar overfitting

In [35]:
keras.utils.set_random_seed(812)

embd_size = 20
lstm_dim = 32

model = Sequential([
    Embedding(
        input_dim=vocab_size,
        output_dim=embd_size,
        input_length=max_length
    ), 
    Dropout(.5),
    LSTM(lstm_dim),    
    Dropout(.5),
    BatchNormalization(),
    Dense(6, activation='relu'),
    Dense(1, activation='sigmoid')
])
compile_model(model)

In [37]:
fit_model(model)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


# Tamaño del dataset

In [38]:
import pandas as pd
pd.set_option('display.max_colwidth', None)

df1 = pd.read_csv("https://raw.githubusercontent.com/eduardofc/data/main/amazon_sports.csv")
df2 = pd.read_csv("https://raw.githubusercontent.com/eduardofc/data/main/amazon_home.csv")
df3 = pd.read_csv("https://raw.githubusercontent.com/eduardofc/data/main/amazon_electronics.csv")

df = pd.concat([df1, df2, df3])

df['review_body'] = df['review_body'].str.replace("[^a-zA-Zñáéíóú .,]", "", regex=True)
df['review_body'] = df['review_body'].str.lower()
df.head()

Unnamed: 0,stars,review_body,review_title,product_category
0,1,nunca llego el pedido y el vendedor pasa de todo no contestan,No llego nunca,sports
1,1,"no sé como es, porque debería haber llegado ayer día de marzo, y hoy por la noche sigo esperando que llegue el frontal. y me habéis mandado el formulario de opinión. pues de momento mala no ha cumplido con la fecha de entrega.",Todavía no ha llegado,sports
2,1,"guantes cómodos, no lo niego, pero de mala calidad. yo creo que en caso de caída no valdrian para mucho, dos meses de uso y se están rajando.",Guantes de baja calidad,sports
3,1,hasta hoy no he visto el producto. el pedido hace ya casi mes. y notifico que he usado prime para está compra.,Muy Mala experiencia,sports
4,1,"no puedo valorarla porque, después de casi una semana, aún no he recibido mi pedido. pienso que amazon tendría que valorar las compañías de transporte con que trabaja, porque es indignante que pague mi cuota prime y nunca reciba mi pedido el día que toca",Paquete perdido?,sports


In [39]:
df = df[df.stars!=3]
df['good_product'] = (df.stars>3).astype(int)
df.groupby('good_product').size()

good_product
0    20512
1    19817
dtype: int64

In [40]:
X = df.review_body.values
y = df.good_product

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=33)

print(len(X_train))
print(len(X_test))

32263
8066


In [41]:
# tokenizer

vocab_size = 5000

tokenizer = Tokenizer(num_words=vocab_size, oov_token='<OOV>')
tokenizer.fit_on_texts(X_train)

In [42]:
tokenized_train = tokenizer.texts_to_sequences(X_train)
tokenized_test = tokenizer.texts_to_sequences(X_test)

In [43]:
# padding

max_length = 50

padded_train = pad_sequences(tokenized_train, maxlen=max_length)
padded_test = pad_sequences(tokenized_test, maxlen=max_length)

In [44]:
keras.utils.set_random_seed(812)

embd_size = 20
lstm_dim = 32

model = Sequential([
    Embedding(
        input_dim=vocab_size,
        output_dim=embd_size,
        input_length=max_length
    ), 
    Dropout(.5),
    LSTM(lstm_dim),    
    Dropout(.5),
    BatchNormalization(),
    Dense(6, activation='relu'),
    Dense(1, activation='sigmoid')
])
compile_model(model)

In [45]:
fit_model(model)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
