In [1]:
import pandas as pd
import matplotlib.pyplot as plt 
import os

pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)

PATH_PREFIX = ""
DATA_DIR = "data"

In [2]:
mv = pd.read_parquet(os.path.join(PATH_PREFIX, DATA_DIR, 'movies.parquet'))
mv.head()

Unnamed: 0,title,description,pa,te_zien_tot,genre,land,taal,ondertitels,speelduur,regisseur,distributeur,min_age,duration_min,director_norm,title_norm,primary_genre
0,El perro que no calla,Sebastián is een dertiger met een hond en een ...,Alle leeftijden,20 december 2021,drama,Argentinië,Spaans,Nederlands,73 min.,Ana Katz,Periscoop Film,0,73,ana katz,el perro que no calla,drama
1,Hoogtijdagen,Op het schiereiland Kola zijn de sporen van de...,Alle leeftijden,20 december 2021,documentaire,Nederland,Russisch,Nederlands,90 min.,Ben van Lieshout,Cinema Delicatessen,0,90,ben van lieshout,hoogtijdagen,documentaire
2,Oliver Sacks: His Own Life,Een paar weken na het afronden van zijn memoir...,Alle leeftijden,13 december 2021,documentaire,Verenigde Staten,Engels,Nederlands,94 min.,Ric Burns,Periscoop Film,0,94,ric burns,oliver sacks: his own life,documentaire
3,Lapsis,De komst van een nieuwe vorm van bankieren zet...,Mogelijk schadelijk tot 16 jaar,13 december 2021,"drama, mysterie, sciencefiction",Verenigde Staten,Engels,Nederlands,108 min.,Noah Hutton,De Filmfreak,16,108,noah hutton,lapsis,drama
4,Sweat,Wanneer fitnesscoach en influencer Sylwia Zaja...,Mogelijk schadelijk tot 16 jaar,13 december 2021,drama,Polen,Pools,Nederlands,105 min.,Magnus von Horn,Imagine Filmdistributie Nederland,16,105,magnus von horn,sweat,drama


In [3]:
# get stopwords from this project https://github.com/Alir3z4/python-stop-words
# otherwise proceed without
def get_stopwords(file_name):
    try:
        with open(os.path.join(PATH_PREFIX,"data",file_name)) as f:
            stopwords_nl_str = f.read()

        return stopwords_nl_str.split("\n")
    except:
        print("No stopwords file found. Proceeding without stopwords")
        return []

stopwords_nl = get_stopwords("dutch.txt")

In [4]:
mv_desc=mv[['description']]
mv_desc.head()

Unnamed: 0,description
0,Sebastián is een dertiger met een hond en een ...
1,Op het schiereiland Kola zijn de sporen van de...
2,Een paar weken na het afronden van zijn memoir...
3,De komst van een nieuwe vorm van bankieren zet...
4,Wanneer fitnesscoach en influencer Sylwia Zaja...


In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf  = TfidfVectorizer(stop_words=stopwords_nl)#ToDo remove dutch stop-words passing them as stop_words
tfidf_matrix = tfidf.fit_transform(mv.description) 

In [6]:
# see the vocabulary
#print(tfidf.get_feature_names())

In [7]:
# description conwerted to TFIDF features
tfidf_matrix

<93x3135 sparse matrix of type '<class 'numpy.float64'>'
	with 5151 stored elements in Compressed Sparse Row format>

In [8]:
# let's take a film and find similar films using cosine distance between their vectors
name = 'Wong Kar Wai'
mv[mv.regisseur.str.contains(name)]

Unnamed: 0,title,description,pa,te_zien_tot,genre,land,taal,ondertitels,speelduur,regisseur,distributeur,min_age,duration_min,director_norm,title_norm,primary_genre
9,In the Mood for Love,Tony Leung en Maggie Cheung ontmoeten elkaar i...,Alle leeftijden,6 december 2021,"drama, romantiek",Hongkong,Kantonees,Nederlands,98 min.,Wong Kar Wai,Cinéart Nederland,0,98,wong kar wai,in the mood for love,drama
10,2046,Na het succes van In the Mood for Love (2000) ...,Mogelijk schadelijk tot 12 jaar,6 december 2021,"drama, romantiek, sciencefiction",Hong Kong,"Kantonees, Japans, Mandarijn",Nederlands,129 min.,Wong Kar Wai,Cinéart Nederland,12,129,wong kar wai,2046,drama
11,Chungking Express,Regisseur Wong Kar Wai smeedt het grotestadsle...,Mogelijk schadelijk tot 12 jaar,6 december 2021,"crime, drama, komedie",Hongkong,Kantonees,Nederlands,102 min.,Wong Kar Wai,Cinéart Nederland,12,102,wong kar wai,chungking express,crime
12,Fallen Angels,Ook het vervolg op Chungking Express is een st...,Mogelijk schadelijk tot 16 jaar,6 december 2021,"crime, drama, komedie",Hongkong,Kantonees,Nederlands,99 min.,Wong Kar Wai,Cinéart Nederland,16,99,wong kar wai,fallen angels,crime
13,Happy Together,Hongkong-supersterren Tony Leung en Leslie Che...,Mogelijk schadelijk tot 12 jaar,6 december 2021,"drama, romantiek",Hong Kong,"Mandarijn, Spaans, Kantonees",Nederlands,96 min.,Wong Kar Wai,Cinéart Nederland,12,96,wong kar wai,happy together,drama
14,The Hand,Een mysterieuze courtisane verleent haar nieuw...,Alle leeftijden,6 december 2021,"drama, romantiek",Hong Kong,Mandarijn,Nederlands,56 min.,Wong Kar Wai,Cinéart Nederland,0,56,wong kar wai,the hand,drama


In [9]:
# let's take the first WKW film:
my_film = mv[mv.regisseur.str.contains(name)][:1]
display(my_film)
my_film_index  =my_film.index


Unnamed: 0,title,description,pa,te_zien_tot,genre,land,taal,ondertitels,speelduur,regisseur,distributeur,min_age,duration_min,director_norm,title_norm,primary_genre
9,In the Mood for Love,Tony Leung en Maggie Cheung ontmoeten elkaar i...,Alle leeftijden,6 december 2021,"drama, romantiek",Hongkong,Kantonees,Nederlands,98 min.,Wong Kar Wai,Cinéart Nederland,0,98,wong kar wai,in the mood for love,drama


In [10]:
my_film_vector = tfidf_matrix[my_film_index]

In [11]:
from sklearn.metrics.pairwise import cosine_similarity

In [12]:
distances = cosine_similarity(my_film_vector, tfidf_matrix)
distances.T.shape

In [14]:
# Top 5 films recommended based on the choice of my_film
mv['similarity'] = distances.T
mv.sort_values('similarity', ascending=False).head(5)

Unnamed: 0,title,description,pa,te_zien_tot,genre,land,taal,ondertitels,speelduur,regisseur,distributeur,min_age,duration_min,director_norm,title_norm,primary_genre,similarity
9,In the Mood for Love,Tony Leung en Maggie Cheung ontmoeten elkaar i...,Alle leeftijden,6 december 2021,"drama, romantiek",Hongkong,Kantonees,Nederlands,98 min.,Wong Kar Wai,Cinéart Nederland,0,98,wong kar wai,in the mood for love,drama,1.0
10,2046,Na het succes van In the Mood for Love (2000) ...,Mogelijk schadelijk tot 12 jaar,6 december 2021,"drama, romantiek, sciencefiction",Hong Kong,"Kantonees, Japans, Mandarijn",Nederlands,129 min.,Wong Kar Wai,Cinéart Nederland,12,129,wong kar wai,2046,drama,0.193363
13,Happy Together,Hongkong-supersterren Tony Leung en Leslie Che...,Mogelijk schadelijk tot 12 jaar,6 december 2021,"drama, romantiek",Hong Kong,"Mandarijn, Spaans, Kantonees",Nederlands,96 min.,Wong Kar Wai,Cinéart Nederland,12,96,wong kar wai,happy together,drama,0.137076
45,Flowers of Shanghai,Filmmaker Hou Hsiao-hsien zoomt in op het emot...,Mogelijk schadelijk tot 16 jaar,8 november 2021,drama,Taiwan en Japan,Kantonees,Nederlands,113 min.,Hou Hsiao-hsien,EYE Filmmuseum,16,113,hou hsiao-hsien,flowers of shanghai,drama,0.080232
11,Chungking Express,Regisseur Wong Kar Wai smeedt het grotestadsle...,Mogelijk schadelijk tot 12 jaar,6 december 2021,"crime, drama, komedie",Hongkong,Kantonees,Nederlands,102 min.,Wong Kar Wai,Cinéart Nederland,12,102,wong kar wai,chungking express,crime,0.078249
