codes/zoom_app_reviews_star_calculation.py

# -*- coding: utf-8 -*-
"""Zoom_App_Reviews_Star_Calculation.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1ZxENbcGa6UffcAc4LqehvMmcGxT7JDOP

# Libraries
"""

import numpy as np
import pandas as pd

"""# Dataset"""

from google.colab import drive
drive.mount('/content/drive')

dataset = pd.read_csv('/content/drive/MyDrive/SQA/Project Works/Datasets/Zoom_Reviews.csv', delimiter = ',', nrows=751)

dataset.shape

dataset.head()

from sklearn.utils import shuffle
df = shuffle(dataset)

df.head()

"""# Data Processing"""

X_data = []
Y_data = []
for i in range(2,len(df)):
  try:
    X_data.append(df['Reveiws'].iloc[i])
    Y_data.append(df['Rating'].iloc[i])
  except Exception as e:
    print(e)
    pass

X_data

Y_data

import re
import nltk

nltk.download('stopwords')

from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
ps = PorterStemmer()

all_stopwords = stopwords.words('english')
all_stopwords.remove('not')

corpus=[]

for i in range(0, len(X_data)):
  review = re.sub('[^a-zA-Z]', ' ', str(X_data[i]))
  review = review.lower()
  review = review.split()
  review = [ps.stem(word) for word in review if not word in set(all_stopwords)]
  review = ' '.join(review)
  corpus.append(review)

corpus

len(corpus)

import pickle
pickle_out = open("/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/X_Zoom.pickle", "wb")
pickle.dump(X_data, pickle_out, protocol=4) # protocol=4 is used for new version of pickle which can serialize more than 4GB data
pickle_out.close()

pickle_out = open("/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/Y_Zoom.pickle", "wb")
pickle.dump(Y_data, pickle_out, protocol=4) # protocol=4 is used for new version of pickle which can serialize more than 4GB data
pickle_out.close()

import pickle

pickle_in = open("/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/X_Zoom.pickle", "rb")
X = pickle.load(pickle_in)

pickle_in = open("/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/Y_Zoom.pickle", "rb")
Y = pickle.load(pickle_in)

len(X)

len(Y)

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
tokens_model = Tokenizer(num_words = 64)

tokens_model.fit_on_texts(X)

seq = tokens_model.texts_to_sequences(X)

word_index = tokens_model.word_index
print(tokens_model.word_index)

len(word_index)

print(seq)

max_length = 47

from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
X = pad_sequences(seq, maxlen=max_length)
Y = np.asarray(Y)

X.shape

Y.shape

Y = Y - 1

Y

"""# Performance Analysis (Model #1)"""

model = tf.keras.models.load_model('/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/Models/model-v3-10-performance-0.62-2.03.hdf5')

records = model.evaluate(X, Y)

predictions = model.predict(X) # predict output for all test data

scores = tf.nn.softmax(predictions)
Y_pred = []
for score in scores:
  Y_pred.append(np.argmax(score))
Y_pred = np.array(Y_pred) # predicted labels

Y_pred

Y_pred = Y_pred + 1

Y_pred

print('Average Star Rating: ', sum(Y_pred)/len(Y_pred))

print('Actual Average Star Rating: ', sum(Y+1)/len(Y))

"""# Performance Analysis (Model #2)"""

model = tf.keras.models.load_model('/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/Model_2/model-15-performance-0.43-1.33.h5')

records = model.evaluate(X, Y)

predictions = model.predict(X) # predict output for all test data

scores = tf.nn.softmax(predictions)
Y_pred = []
for score in scores:
  Y_pred.append(np.argmax(score))
Y_pred = np.array(Y_pred) # predicted labels

Y_pred = Y_pred + 1

print('Average Star Rating: ', sum(Y_pred)/len(Y_pred))

"""# Performance Analysis (Model #3)"""

import pickle

pickle_in = open("/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/X_Zoom.pickle", "rb")
X = pickle.load(pickle_in)

pickle_in = open("/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/Y_Zoom.pickle", "rb")
Y = pickle.load(pickle_in)

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
tokens_model = Tokenizer(num_words = 64)

tokens_model.fit_on_texts(X)

seq = tokens_model.texts_to_sequences(X)
word_index = tokens_model.word_index
max_length = 36

from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
X = pad_sequences(seq, maxlen=max_length)
Y = np.asarray(Y)

Y = Y - 1

model = tf.keras.models.load_model('/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/Model_3/model-15-performance-0.71-0.82.h5')

records = model.evaluate(X, Y)

predictions = model.predict(X) # predict output for all test data

scores = tf.nn.softmax(predictions)
Y_pred = []
for score in scores:
  Y_pred.append(np.argmax(score))
Y_pred = np.array(Y_pred) # predicted labels
Y_pred = Y_pred + 1
print('Average Star Rating: ', sum(Y_pred)/len(Y_pred))

"""# Performance Analysis (Model #4)"""

import pickle

pickle_in = open("/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/X_Zoom.pickle", "rb")
X = pickle.load(pickle_in)

pickle_in = open("/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/Y_Zoom.pickle", "rb")
Y = pickle.load(pickle_in)

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
tokens_model = Tokenizer(num_words = 64)

tokens_model.fit_on_texts(X)
seq = tokens_model.texts_to_sequences(X)
word_index = tokens_model.word_index
max_length = 48

from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
X = pad_sequences(seq, maxlen=max_length)
Y = np.asarray(Y)

Y = Y - 1

model = tf.keras.models.load_model('/content/drive/MyDrive/SQA/Project Works/Datasets/Pickle Data/Model_4/model-v2-04-performance-0.54-1.16.hdf5')

records = model.evaluate(X, Y)

predictions = model.predict(X) # predict output for all test data

scores = tf.nn.softmax(predictions)
Y_pred = []
for score in scores:
  Y_pred.append(np.argmax(score))
Y_pred = np.array(Y_pred) # predicted labels
Y_pred = Y_pred + 1
print('Average Star Rating: ', sum(Y_pred)/len(Y_pred))