# Recommender by product similarity



In [1]:
sc

In [1]:
from os import path

ROOT_DIR = "./"
DATA_DIR = path.join(ROOT_DIR, 'data')
MODEL_DIR = path.join(ROOT_DIR, 'model')

## 1. Data cleaning 

In [10]:
""" 
Read metadata from JSON file to SparkDataframe
"""

path = os.path.join(DATA_DIR, 'movie-meta')
data = spark.read.json(path)
# data.show()

In [11]:
"""
Kiểm tra dữ liệu trùng lặp 
Xóa dữ liệu trùng lặp
"""
# print(data.count())
# print(data.select('asin').distinct().count())
# print(data.distinct().count())

data = data.dropDuplicates(['asin'])
# data.show()

In [7]:
"""
Data bao gồm nhiều fields với các định dạng khác nhau bao gồm cả nested array 
"""
data.printSchema()

root
 |-- asin: string (nullable = true)
 |-- brand: string (nullable = true)
 |-- category: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- description: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- title: string (nullable = true)



In [12]:
"""
Lọc ra các fields có tiềm năng với dữ liệu tương đối đầy đủ :
- Loại bỏ các fields bị lost ở nhiều dòng
- Loại mỏ các fields không mang nhiều ý nghĩa 

Sau khi kiểm tra chỉ giữ lại: asin, (title?), description, category  
"""

import pyspark.sql.functions as f
from pyspark.sql.functions import concat, col, lit, udf

join_udf = udf(lambda x: " ".join(x))

data = data.withColumn("category", join_udf("category"))\
    .withColumn("description", join_udf("description"))

data.show()

+----------+----------------+--------------------+--------------------+--------------------+
|      asin|           brand|            category|         description|               title|
+----------+----------------+--------------------+--------------------+--------------------+
|0607987162|                |  Movies & TV Movies|Precipice of Surv...|Precipice Of Surv...|
|0764009303|Graham Theakston|Movies & TV Genre...|The incredible tr...|      Seeing Red VHS|
|0783218923|    Tony Randall|Movies & TV Studi...|PLEASE READ!!! TH...|    Brass Bottle VHS|
|0783225911|      John Wayne|Movies & TV John ...|John Wayne classi...|     Rooster Cogburn|
|084237597X|                |Movies & TV Genre...|The third episode...|A Life and Seth S...|
|0965020495|            None|Movies & TV Genre...|                    |The Twelve Fold P...|
|0984615210|                |  Movies & TV Movies|Ronan Tynan live ...|Ronan Tynan More ...|
|1575672219|                |Movies & TV Genre...|<DIV>When a space...

In [13]:
data_used = data.select('asin', 'category', 'description')\
    .dropna('any')\
    .withColumn('info', concat(data.category, lit(' '), data.description))
data_used = data_used.select('asin', 'info')
data_used.show(truncate=0)

+----------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [14]:
"""
Clean text: 
    - Xóa các ký tự đặc biệt 
    - Chỉ giữ lại các ký tự chữ cái trong bảng chữ cái tiếng Anh 
"""
import re

clean_udf = udf(lambda s: re.sub(r"[^a-zA-Z]+", ' ', s.lower()))

data_used = data_used.withColumn("info", clean_udf(col("info")).alias("info"))
data_used.select('info').show(truncate = 0)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

## 2. Data preprocessing 

In [15]:
"""
Tokenization
"""
from pyspark.ml.feature import Tokenizer, StopWordsRemover

tokenizer = Tokenizer(inputCol='info', outputCol='tokens')

data_used = tokenizer.transform(data_used)
data_used.select('tokens').show(truncate = 0)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [16]:
"""
Remove stop words
Need define more stopwords in movie data context
"""

remover = StopWordsRemover(inputCol='tokens', outputCol='no_sw', caseSensitive=False)

data_used = remover.transform(data_used)
data_used.select('no_sw').show(truncate=False)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [18]:
"""
Remove token with len < 3: những token có chiều dài < 3 nói chung ko mang ý nghĩa
"""

from pyspark.sql.types import ArrayType, StringType

filter_length_udf = udf(lambda row: [x for x in row if len(x) >= 3], ArrayType(StringType()))
data_used = data_used.withColumn('len_filted', filter_length_udf(col('no_sw')))

In [19]:
"""
Stemming:
Stemming is to remove morphological affixes from words, leaving only the word stem
"""

from nltk.stem.snowball import SnowballStemmer
from pyspark.sql.types import ArrayType, StringType

stemmer = SnowballStemmer(language='english')
stemmer_udf = udf(lambda tokens: [stemmer.stem(token) for token in tokens], ArrayType(StringType()))

data_used = data_used.withColumn('stems', stemmer_udf('len_filted'))
data_used.select('stems').show(truncate=0)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [22]:
"""
Kết quả sau khi thực hiện preprocessing:
"""

data_used.printSchema()

print("Sample result: ")
data_used.sample(0.000025).collect()

root
 |-- asin: string (nullable = true)
 |-- info: string (nullable = true)
 |-- tokens: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- no_sw: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- len_filted: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- stems: array (nullable = true)
 |    |-- element: string (containsNull = true)

Sample result: 


[Row(asin='B0051WTLCU', info='movies tv abc news nightline for the most part eva cassidy s musical career never happened until her music happened to be heard in another country years after her death br br dave marash reports on the extraordinary story of eva cassidy whose music has enjoyed even greater popularity since her death br br airdate i when sold by amazon com this product will be manufactured on demand using dvd r recordable media amazon com s standard return policy will apply i ', tokens=['movies', 'tv', 'abc', 'news', 'nightline', 'for', 'the', 'most', 'part', 'eva', 'cassidy', 's', 'musical', 'career', 'never', 'happened', 'until', 'her', 'music', 'happened', 'to', 'be', 'heard', 'in', 'another', 'country', 'years', 'after', 'her', 'death', 'br', 'br', 'dave', 'marash', 'reports', 'on', 'the', 'extraordinary', 'story', 'of', 'eva', 'cassidy', 'whose', 'music', 'has', 'enjoyed', 'even', 'greater', 'popularity', 'since', 'her', 'death', 'br', 'br', 'airdate', 'i', 'when', 'so

## 3. Feature engineering

Sau khi thực hiện tiền xử lý dữ liệu, data của chúng ta gồm các sản phẩm, mỗi sản phẩm đặc trưng bởi mã asin và một list các token dã làm sạch và chuẩn hóa (dùng làm feature).

Cần vector hóa feature để từ đó tính độ tương tự giữa 2 sản phẩm bằng cách tính độ tương tự giữa 2 vector tương ứng của chúng

Phương pháp vectorize được sử dụng là tf-idf 

tf-idf được thực hiện như sau: 
-----(thêm lý thuyết tf idf) 


In [24]:
"""
Vectorize the feature using tf-idf
 > Chọn numFeatures cao sẽ cho kết quả cao tuy nhiên làm tăng khối lượng tính toán)
 > PP hashingTF cho phép giảm số chiều của feature vector bằng giải thuật hashing, điểm yếu là: 
     >> Số chiều càng giảm thì độ mất mát thông tin càng nghiêm trọng
     >> hashingTF không có tính chất local-sensitive
     
 > Vector gốc có tới nhiều chục ngàn chiều, ta chỉ giữ lại 256 
 > Trong phần tuning sẽ điều chỉnh thông số này và sử dụng giải thuật khác có tc local-sensitive
"""

from pyspark.ml.feature import HashingTF, IDF
hashingTF = HashingTF(inputCol='stems', outputCol="tf", binary=True, numFeatures=256)
tf = hashingTF.transform(data_used)

idf = IDF(inputCol="tf", outputCol="feature").fit(tf)
tf_idf = idf.transform(tf)

data_vector = tf_idf.select('asin', 'feature')
data_vector.show(truncate = 0)

+----------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [26]:
"""
Chuyển feature vector ở dạng SparseVector trong pyspark về dạng DenseVector và lưu trữ dưới dạng list trong python
    > để có thể lưu lại dữ liệu json sử dụng về sau
"""

from pyspark.sql.types import *

vector_udf = udf(lambda vector: vector.toArray().tolist(),ArrayType(DoubleType()))

data_vector = data_vector.withColumn('feature_array', vector_udf('feature'))
data_vector.show(truncate=0)

+----------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [27]:
""" Store the ratings data as zipped json """

target = os.path.join(MODEL_DIR, 'tfidf_256')

data_vector.select('asin', 'feature_array').write.json(target, mode='overwrite', compression='gzip')

## 4. Apply model to find similarity for limited resources: 

Có hơn 180,000 movies, nếu tính all-pair similarities thì sẽ tạo ra ~ 32,400,000,000 (280000x280000 dense matrix) => hơn 324GB => Không khả thi 

Giải pháp: đối với mỗi movie: so sánh với toàn bộ movies, chọn ra 1 tập hợp (vd: 20) movies có gtri similar cao nhất để lưu lại 

In [2]:
# Read data from file 
from os import path

ROOT_DIR = "./"
DATA_DIR = path.join(ROOT_DIR, 'data')
MODEL_DIR = path.join(ROOT_DIR, 'model')

path = os.path.join(MODEL_DIR, 'tfidf_256')
data_ifidf = spark.read.json(path)
data_ifidf.show(truncate=0)

+----------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [5]:
"""
Tính độ tương tự giữa các vector đặc trưng bằng độ đo cosine 
"""

from numpy.linalg import norm
import numpy as np

data_ifidf_rdd = data_ifidf.rdd

def sim_movies(asin, num):
    """
    Tính độ tương tự cosine giữa movie có mã 'asin' với tất cả movie còn lại
    Return list of top (num) of movies có độ giống nhau cao nhất 
    """
    ftarget = np.array(data_ifidf.where(data_ifidf.asin==asin).first()[1])
    sim_rdd = data_ifidf_rdd\
        .map(lambda row: (row[0], np.array(row[1]).T @ ftarget / (norm(np.array(row[1]))*norm(ftarget))))\
        .top(num, key=lambda x: x[1])
    return sim_rdd       

# TEST 
sim_movies('0001421409', 10)

[('0001421409', 1.0000000000000002),
 ('B000NOK0MQ', 0.5011254208489352),
 ('B001U1L9L2', 0.4980222920305747),
 ('B002DZX97G', 0.4962163095550182),
 ('B000F2BNW2', 0.4960952729001744),
 ('B012TIKF4G', 0.494887523020208),
 ('097033821X', 0.49412362493603984),
 ('B002AS45SS', 0.4932568574566782),
 ('B0013GS3WW', 0.49300660800387486),
 ('B000BS4RMS', 0.4921432179096331)]

## 5. Evaluation / Testing

Thử đánh giá mô hình một cách đơn giản bằng cách suggest cho 1 movie cụ thể, vd: 0001517791 Praise Aerobics VHS thuộc đề tài thể dục thể thao.

Kết quả thu được khả quan vì các movie được recommend cũng cùng có đề tài tương tự và nhìn décription thấy cũng hợp lý 

In [15]:
test_movie = '0001517791'
movie_if = data.where(data.asin == test_movie).collect()[0]

print("The movie %s information: "%test_movie)
print(movie_if)

The movie 0001517791 information: 
Row(asin='0001517791', brand='', category='Movies & TV Genre for Featured Categories Exercise & Fitness', description='Praise Aerobics - A low-intensity/high-intesity low impact aerobic workout.', title='Praise Aerobics VHS')


In [39]:
sim_list = [r[0] for r in sim_movies(test_movie,10)]
sim_list

suggestion = data.where(data.asin.isin(sim_list)).select('title', 'description')

print("If you like \"%s\", you may also like: \n" %movie_if['title'])
print(suggestion.show(truncate=0))

If you like "Praise Aerobics VHS", you may also like: 

+---------------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------------------------+
|title                                                                      |description                                                                                                                   |
+---------------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------------------------+
|It's Your Body                                                             |Two 45-Minute workouts: Low Impact & High Impact                                                                              |
|Aerobicise 2000 - A Workout For The Next Generation VHS                    |A contemporary workout of low and high impact a

## Below is for more resources



from pyspark.sql.functions import monotonically_increasing_id

data_tf_idf_withId = tf_idf.select('asin', 'feature')\
    .withColumn('id', monotonically_increasing_id())

data_tf_idf_withId.show()

""" 
Compute the similarities
Chọn threshold =0.5 để giảm khối lượng tính toán
Tính trên RowMatrix để có thể tính theo threshold tuy nhiên ko đáp ứng distributed 
"""

from pyspark.mllib.linalg.distributed import IndexedRow, IndexedRowMatrix, BlockMatrix
from pyspark.mllib.linalg import Vectors

rows = data_tf_idf_withId.rdd.map(lambda row: IndexedRow(row.id, row.feature.toArray()))

mat = IndexedRowMatrix(rows).toBlockMatrix().transpose().toIndexedRowMatrix().toRowMatrix()
sim = mat.columnSimilarities(0.5)
print("Done")

# 6. Nhận xét

- Mô hình dựa trên description của sản phẩm mà yếu tố này không được đảm bảo vì có nhiều phim trong bộ data có phần description không thực sự nói về nội dung của phim, hoặc rất sơ sài hoặc thiếu
- Mô hình chưa được tối ưu