# Recommender System 

## Doelen


#### Algoritme 1: item-based filtering

Per stad willen we de beste bedrijven aanbevelen die voor de gebruikers het meest relevant zijn. Een recommandatie zal worden gedaan met behulp van item-based filtering zoals het aantal sterren dat een bedrijf gemiddeld krijgt. Er zal uiteindelijk een top tien van beste bedrijven worden aanbevolen.


#### Algoritme 2: content-based filtering

Content-based filtering wordt gebruikt om de verschillende soorten bedrijven te filteren. Dit filteren zal gebeuren op basis van 'categories' en deels user ratings. Het filteren van bedrijven kan op veel verschillende manieren gedaan worden. Wij hebben gekozen om het zo algemeen mogelijk te houden.


# Deel 1: data analyse

##### 1:  Laad de data in

In [25]:
# algemeen
import pandas as pd
import json

# voor het vinden van alle categorieën en attributes
import glob
import itertools

# import de items voor het recommender systeem zelf
from pandas import Series, DataFrame
import numpy as np

# voor de grafiek
import matplotlib.patches as mpatches

# for NLP
import spacy
nlp = spacy.load('en_core_web_md')

# voor aanbevelingen
import operator

def load_jsons(data_path, file):
    """ helper function to load '.json' files (they're not proper jsons) """
    file_path = data_path + file
    with open(file_path) as jsons:
        lines = [json.loads(json_line) for json_line in jsons]
    return pd.DataFrame(lines)

#### 2: voorbeeld van een stad in de data

In [28]:
data_path = './data/clarkson/'
review_file = 'review.json'
business_file = 'business.json'
user_file = 'user.json'
tip_file = 'tip.json'
checkin_file = 'checkin.json'

reviews = load_jsons(data_path, review_file)
businesses = load_jsons(data_path, business_file)
users = load_jsons(data_path, user_file)
tips = load_jsons(data_path, tip_file)
checkins = load_jsons(data_path, checkin_file)

In [29]:
print()
print("------------ Review Table ------------")
display(reviews.head())
print()
print("------------ Business Table ------------")
display(businesses.head())
print()
print("------------ User Table ------------")
display(users.head())
print()
print("------------ Tips Table ------------")
display(tips.head())
print()
print("------------ Check-in Table ------------")
display(checkins.head())


------------ Review Table ------------


Unnamed: 0,review_id,user_id,business_id,stars,useful,funny,cool,text,date
0,H-4iwfPkxe5v5p2rtzUonQ,XuCbLgo9j1q5dDh9251vkg,AtOE7tSrJn1HXnU9YoUbPQ,2.0,2,2,2,"When interviewing for a job, they say the inte...",2011-02-25 16:49:13
1,7Q0tmeJv-IdtpIFl6bgSWg,fkMiipV4j_DG5nSoBnZvbg,AtOE7tSrJn1HXnU9YoUbPQ,3.0,1,0,1,I had a few minutes in my lunch hour to spare ...,2011-11-06 23:32:02
2,NGgax4OKfiNwjm_4hrqXGQ,MgYq6LXVz2-UFPLjFSl6jA,AtOE7tSrJn1HXnU9YoUbPQ,4.0,0,0,0,"Lunch...Fresh. Ordered a sandwich, fresh bread...",2017-02-03 18:07:31
3,Bmqoc7VC55p1CTywIt5hHA,cPd5M0RSDmHxrqf_WYPi4A,AtOE7tSrJn1HXnU9YoUbPQ,4.0,0,0,0,I work nearby and this place is a great option...,2018-01-19 21:08:46
4,E7IumF-cuw3C9XWGO7R7Qw,W5SoL5UhYBta28oZuhSjyQ,pRfL5hxA10iFCYEvEV8AQw,2.0,0,0,0,This is an okay place to go with the mates but...,2015-11-06 02:49:01



------------ Business Table ------------


Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
0,AtOE7tSrJn1HXnU9YoUbPQ,Der Brotkorb the European Bakery Cafe,10 Woodchester Mall,Clarkson,ON,L5K 1R8,43.52734,-79.676598,3.0,4,1,"{'WiFi': 'u'no'', 'HasTV': 'False', 'BikeParki...",Restaurants,
1,pRfL5hxA10iFCYEvEV8AQw,McDonald's,1829 Lakeshore Boulevard W,Clarkson,ON,L5J 1J6,43.516246,-79.625759,2.5,3,1,"{'NoiseLevel': 'u'average'', 'RestaurantsAttir...","Fast Food, Burgers, Restaurants","{'Monday': '6:0-0:0', 'Tuesday': '6:0-0:0', 'W..."
2,8HycRNzRmhwEkZiMD8X9kw,Fionn MacCool's Irish Pub,970 Southdown Road,Clarkson,ON,L5J 2Y4,43.51025,-79.630191,2.5,13,1,"{'RestaurantsReservations': 'True', 'BikeParki...","Beer, Wine & Spirits, British, Nightlife, Food...","{'Monday': '11:0-0:0', 'Tuesday': '11:0-0:0', ..."



------------ User Table ------------


Unnamed: 0,user_id,name,review_count,yelping_since,useful,funny,cool,elite,friends,fans,...,compliment_more,compliment_profile,compliment_cute,compliment_list,compliment_note,compliment_plain,compliment_cool,compliment_funny,compliment_writer,compliment_photos
0,gS4QCL6j_umAyfJXBGAZJQ,Maheen,400,2011-08-15 15:55:30,728,199,401,20112012201320142015201620172018,"SMn0noNhAb9_nzb5at4mIQ, qHwj63QRTu_rWWGMNuoQlg...",24,...,4,3,2,5,25,31,40,40,26,0
1,XuCbLgo9j1q5dDh9251vkg,Jonathan,241,2011-02-03 19:03:37,512,211,220,201120122013201420152016,"Qaf3EUJCwJ1Jg8lfbsY6Dw, FCCLvXYIxPaRPWWJUzajeg...",11,...,2,1,0,0,29,30,34,34,14,2
2,Jb13QyXGi0zD4ZtSTBQwpQ,Alex,302,2013-10-10 11:14:49,388,182,192,201620172018,"t_m1a0KzG960Vh5wgHo9YQ, Yj3zqXhYcB1qKQrw51YPoQ...",22,...,1,0,1,0,11,11,6,6,14,3
3,fkMiipV4j_DG5nSoBnZvbg,Martin,553,2011-03-02 19:46:15,1339,324,885,2012201320142015201620172018,"7JpPvfDAE_14vA1xgFOFjw, Z_0phc_GF_oU9cHXuOGRgA...",109,...,9,2,2,0,136,320,251,251,92,107
4,NZfuLlP0I87gQGVWNFUFRA,Christina,220,2013-02-22 08:17:16,257,80,49,,"e3im4jT74L811sAYtW544A, IrpBDdqzLCuXPZTHWzcjIw...",5,...,1,0,1,0,3,7,2,2,0,0



------------ Tips Table ------------


Unnamed: 0,user_id,business_id,text,date,compliment_count
0,fkMiipV4j_DG5nSoBnZvbg,AtOE7tSrJn1HXnU9YoUbPQ,Mmmmm homemade mustard.,2012-08-10 17:06:17,0
1,fkMiipV4j_DG5nSoBnZvbg,AtOE7tSrJn1HXnU9YoUbPQ,Mmmmmm perogies. HOME MADE!!,2012-03-30 16:28:32,0
2,fkMiipV4j_DG5nSoBnZvbg,AtOE7tSrJn1HXnU9YoUbPQ,It's the soup!!!!!,2012-03-09 17:27:15,0
3,sya4uhCAC9cCakEUjyEfKw,8HycRNzRmhwEkZiMD8X9kw,Brand new menu!! Some amazing new additions!,2016-10-20 22:38:46,0



------------ Check-in Table ------------


Unnamed: 0,business_id,date
0,8HycRNzRmhwEkZiMD8X9kw,"2011-12-15 22:52:58, 2011-12-16 19:12:47, 2011..."
1,AtOE7tSrJn1HXnU9YoUbPQ,"2012-03-09 17:27:15, 2012-03-30 16:28:33, 2012..."
2,pRfL5hxA10iFCYEvEV8AQw,"2014-06-01 14:06:25, 2016-07-27 19:58:13, 2016..."


#### 3: category filtering 
##### 3.1: itereer over alle files in de ./data directory

Pak uit elke stad in ./data de business-file. Hieruit worden alle categorieën aan een algemene lijst toegevoegd.

In [30]:
# de files
files = glob.glob("./data/*/")

lists = []

# stop alle categorieën in een lijst
for data_path in files:
    businesses = load_jsons(data_path, 'business.json')
    lists.append(businesses.categories.values)

##### 3.2: split alle lijsten in 'lists' op de komma's 

Gebruik daarna itertools om alle aparte lijsten samen te voegen tot 1. Verwijder ook de None values. Door er op het laatst een set van te maken, worden meteen alle dubbele categorieën eruit gefilterd.

In [5]:
categories = set([x.strip() for x in set(itertools.chain.from_iterable([y.split(',') for x in lists for y in x if y]))])

In [6]:
# print(categories)
print(len(categories))

1300


#### 4: Attribute filtering 
##### 4.1: itereer over alle files in de ./data directory

Pak uit elke stad in ./data de business-file. Doordat attributes dictionaries zijn, pak alleen de keys wanneer de dict niet None is. Voeg hierna alle lijsten van attributes toe aan een algemene lijst.

In [7]:
# de files
files = glob.glob("./data/*/")

lists = []

# stop alle categorieën in een lijst
for data_path in files:
    businesses = load_jsons(data_path, 'business.json')
    for x in range(len(businesses.attributes.values)):
        if businesses.attributes.values[x]:
            lists.append(list(businesses.attributes.values[x].keys()))


##### 3.2: voeg alle kleinere lijsten uit de grote lijst samen

Maak er een set van om alle dubbele eruit te filteren

In [8]:
attributes = set(itertools.chain.from_iterable(lists))

# print(attributes)
print(len(attributes))

39


# Deel 2: De algoritmes

## Algoritme 1: item-based filtering

### Bedrijven en hun ratings

##### Utility matrix

Om een begin te kunnen maken aan het item-based algoritme, moet er eerst een tabel op worden gesteld die gebruiks hun ratings voor bedrijven laat zien. Dit kan door de "Review Table" te gebruiken:


In [31]:
print()
print("------------ Review Table ------------")
display(reviews)
print()


------------ Review Table ------------


Unnamed: 0,review_id,user_id,business_id,stars,useful,funny,cool,text,date
0,H-4iwfPkxe5v5p2rtzUonQ,XuCbLgo9j1q5dDh9251vkg,AtOE7tSrJn1HXnU9YoUbPQ,2.0,2,2,2,"When interviewing for a job, they say the inte...",2011-02-25 16:49:13
1,7Q0tmeJv-IdtpIFl6bgSWg,fkMiipV4j_DG5nSoBnZvbg,AtOE7tSrJn1HXnU9YoUbPQ,3.0,1,0,1,I had a few minutes in my lunch hour to spare ...,2011-11-06 23:32:02
2,NGgax4OKfiNwjm_4hrqXGQ,MgYq6LXVz2-UFPLjFSl6jA,AtOE7tSrJn1HXnU9YoUbPQ,4.0,0,0,0,"Lunch...Fresh. Ordered a sandwich, fresh bread...",2017-02-03 18:07:31
3,Bmqoc7VC55p1CTywIt5hHA,cPd5M0RSDmHxrqf_WYPi4A,AtOE7tSrJn1HXnU9YoUbPQ,4.0,0,0,0,I work nearby and this place is a great option...,2018-01-19 21:08:46
4,E7IumF-cuw3C9XWGO7R7Qw,W5SoL5UhYBta28oZuhSjyQ,pRfL5hxA10iFCYEvEV8AQw,2.0,0,0,0,This is an okay place to go with the mates but...,2015-11-06 02:49:01
5,oACdDlpQoBZ2HlV8TSJPiw,W5SoL5UhYBta28oZuhSjyQ,pRfL5hxA10iFCYEvEV8AQw,5.0,0,0,0,"This McDonald's is really nice, like it is pim...",2015-07-27 16:07:23
6,enMhUMBC1fr6OJX5GT1v2w,FsxmSCzD4BGBK6PTIQvKug,pRfL5hxA10iFCYEvEV8AQw,1.0,0,0,0,"Hello fellow foodies , last night at 9pm I had...",2018-09-26 14:11:18
7,ONagKuSf2XrkE81T9NbpvQ,Jb13QyXGi0zD4ZtSTBQwpQ,pRfL5hxA10iFCYEvEV8AQw,4.0,1,1,1,"A lot better than it's given credit for, this ...",2017-08-14 00:11:33
8,EBipq_x0nNhcQPmCA5fVwg,NZfuLlP0I87gQGVWNFUFRA,8HycRNzRmhwEkZiMD8X9kw,5.0,4,1,1,I absolutely love this bar. No matter the loc...,2013-03-20 15:02:22
9,l3kaP9zeOg1kw4xknywj5A,ZxtU74SJMRoB8ZQXWwNtRQ,8HycRNzRmhwEkZiMD8X9kw,5.0,0,0,0,Delicious food. Diverse menu. Competitive pr...,2017-12-05 19:38:59





In [32]:
items = reviews[['user_id','business_id','stars']]

def get_rating(ratings, userId, movieId):
    lijst = ratings.loc[(ratings['user_id'] == userId) & (ratings['business_id'] == movieId), ['stars']].values
    if lijst:
        return lijst[0][0]
    else:
        return np.nan

def pivot_ratings(ratings):
    """ takes a rating table as input and computes the utility matrix """
    return ratings.pivot_table(index='business_id', columns='user_id', values='stars',  aggfunc='mean')

# test
utility_matrix = pivot_ratings(items)


utility_matrix.columns = [x for x in range(len(utility_matrix.columns))]
utility_matrix.index = [x for x in range(len(utility_matrix.index))]


## Plotten

#### Scatter Matrix
De scatter matrix laat per user en bedrijf zien welke users wel bedrijf een rating heeft gegeven. Voor de snelheid van het programma is al eerder een relatief kleine stad ingeladen. Deze stad heeft 3 bedrijven.

In [11]:
def plot_scatter_matrix(matrix, colors = ['#e41a1c', '#377eb8', '#4eae4b', '#994fa1', '#ff8101', '#000000', '#999999'], figsize = (8,8)):
    # setup plot
    max_val = matrix.max(axis = 1).max()
    min_val = matrix.min(axis = 1).min()
    fmatrix = matrix.fillna(min_val - 1)
    elements = fmatrix.shape[0]
    axarr = pd.plotting.scatter_matrix(fmatrix, s = 180.0, c = colors[:elements], figsize=figsize, alpha = 1.0, diagonal = '')
    m = fmatrix.shape[1]
    max_val = matrix.max(axis = 1).max()
    min_val = matrix.min(axis = 1).min()
    
    # set axes for all subplots
    for i in range(m):
        for j in range(m):
            axarr[i,j].set_xlim(min_val - 0.5, max_val + 0.5)
            axarr[i,j].set_ylim(min_val - 0.5, max_val + 0.5)

    # set labels for subplots
    labels = fmatrix.index 
    axarr[0,0].legend([mpatches.Circle((0,0),1,fc=c) for c in colors], labels, loc = 'lower left');

plot_scatter_matrix(utility_matrix)

## Similarity

#### Cosine Similarity
De cosine similarity gebruikt de voorgaande data om de similarity te berekenen tussen items.

In [12]:
def cosine_similarity(matrix, id1, id2):
    """Compute cosine similarity between two rows."""    

    # selecteer alleen rijen zonder NaN
    items = matrix.loc[id1].notna() & matrix.loc[id2].notna()

    if not items.any():
        return np.nan
    
    # Localiseer de id's in items
    rij1 = matrix.loc[id1][items]
    rij2 = matrix.loc[id2][items]

    # checks voor speciale situaties, anders doorgaan naar de formule
    # als ze gelijk zijn return 1
    if rij1.equals(rij2):
        return 1.0
    
    # als een van de twee rijen uit alleen maar 0-waardes bestaa return None
    check = [True if x == 0 else False for x in rij1.values ]
    if pd.Series(check).all() == True:
        return np.nan
    
    check = [True if x == 0 else False for x in rij2.values ]
    if pd.Series(check).all() == True:
        return np.nan
    
    # de teller
    teller= np.sum([rij1.values[x] * rij2.values[x] for x in range(len(rij1))])
  
    # de noemer
    noemer= (np.sqrt(np.sum([rij1.values[x]**2 for x in range(len(rij1))]))*
            np.sqrt(np.sum([rij2.values[x]**2 for x in range(len(rij1))])))
    
    return teller/noemer


def create_similarity_matrix_cosine(matrix):
    """creates the similarity matrix based on cosine distance"""
    
    # Maak de matrix en zet de index en colommen
    similarity_matrix = pd.DataFrame(0, index=matrix.index, columns=matrix.index, dtype=float)
    
    # Vul de rows met de juiste waardes berekend in de "cosine_similarity"-functie
    for y in matrix.index:
        for x in matrix.index:
            similarity_matrix.xs(y)[x] = cosine_similarity(matrix, x, y) 
     
    return similarity_matrix

similarity = create_similarity_matrix_cosine(utility_matrix)
display(similarity)

Unnamed: 0,0,1,2
0,1.0,,
1,,1.0,
2,,,1.0


## Evaluatie item-based filtering 

Het gebruik van user based similarity heeft weinig zin, door een groot gebrek aan reviews van users.

# Algoritme 2: filtering op eigenschappen

## Werking

#### 1: Category filtering
Ten eerste is er een lijst opgesteld van woorden waarop gegroepeerd kan worden. Er zitten, zoals ontdekt is in een bovenstaande cel, 1300 verschillende categorieën in de dataset. Door deze te groeperen in meer algemene groepen kan er een filtering plaatsvinden op basis van die categorieën.

#### 2: Similarity
Hierna wordt er een similarity matrix opgesteld, die zoekt naar de top 20 hoogste similarities in die set. Op basis van deze uitkomsten worden de meest relevante businesses gevonden.

###### voorbeeld: Food
De volgende lijst is opgesteld om alle categorieën die te maken hebben met de term "Food" samen te vatten:

{ 'Live/Raw Food', 'Bagels', 'Fish & Chips','Wraps', 'Steakhouses', 'Personal Chefs', 'Cheese Tasting Classes','Seafood', 'Buffets', 'Chocolatiers & Shops', 'Pub Food','Meat Shops', 'Gelato', 'Milkshake Bars','Food Tours', 'Shaved Ice','Fruits & Veggies', 'Desserts', 'Sandwiches', 'Hot Dogs', 'Food Delivery Services', 'Diners', 'Pizza', 'Chicken Wings','Pita',' Cheese Shops','Food Banks', 'Rotisserie Chicken’, 'Custom Cakes', 'Barbeque','Tapas Bars','Food Stands', 'Do-It-Yourself Food','Cupcakes', 'Bed & Breakfast', 'Pumpkin Patches', 'Local Fish Stores', 'Food Court',, 'Imported Food', 'Tacos', 'Comfort Food', 'Specialty Food', 'Sushi Bars', 'Vitamins & Supplements', 'Falafel','Sugaring', 'Honey', 'Seafood Markets', 'Cheesesteaks', 'Poke', 'Noodles', 'Sugar Shacks', 'Fast Food','Churros','Soul Food', 'Soup', 'Pretzels', 'Ice Cream & Frozen Yogurt','Bistros','Pasta Shops', 'International Grocery','Dim Sum', 'Food', 'Ramen', 'Patisserie/Cake Shop’, 'Bakeries', 'Breakfast & Brunch’, 'Bubble Tea', 'Restaurant Supplies', 'Eatertainment','Tasting Classes', 'Ethical Grocery’,  'Game Meat'}

Aan de hand van deze lijst kunnen items die geen van deze categorieën bevatten weg worden gehaald, omdat deze niet relevant zijn voor de gebruiker.

### Laad eerst een grotere dataset in

In [33]:
data_path = './data/sainte-anne-de-bellevue/'
review_file = 'review.json'
business_file = 'business.json'
user_file = 'user.json'
tip_file = 'tip.json'
checkin_file = 'checkin.json'

reviews = load_jsons(data_path, review_file)
businesses = load_jsons(data_path, business_file)
users = load_jsons(data_path, user_file)
tips = load_jsons(data_path, tip_file)
checkins = load_jsons(data_path, checkin_file)

## Filtering op categorie

In [34]:
# Maak de "food" lijst
food_items = [ 'Live/Raw Food','Restaurants' ,'Bagels', 'Fish & Chips','Wraps', 'Steakhouses', 'Personal Chefs', 
              'Cheese Tasting Classes','Seafood', 'Buffets', 'Chocolatiers & Shops', 'Pub Food','Meat Shops', 
              'Gelato', 'Milkshake Bars','Food Tours', 'Shaved Ice','Fruits & Veggies', 'Desserts', 'Sandwiches', 
              'Hot Dogs', 'Food Delivery Services', 'Diners', 'Pizza', 'Chicken Wings','Pita',' Cheese Shops',
              'Food Banks', 'Rotisserie Chicken', 'Custom Cakes', 'Barbeque','Tapas Bars','Food Stands', 
              'Do-It-Yourself Food','Cupcakes', 'Bed & Breakfast', 'Pumpkin Patches', 'Local Fish Stores', 
              'Food Court', 'Imported Food', 'Tacos', 'Comfort Food', 'Specialty Food', 'Sushi Bars', 
              'Vitamins & Supplements', 'Falafel','Sugaring', 'Honey', 'Seafood Markets', 'Cheesesteaks', 
              'Poke', 'Noodles', 'Sugar Shacks', 'Fast Food','Churros','Soul Food', 'Soup', 'Pretzels', 
              'Ice Cream & Frozen Yogurt','Bistros','Pasta Shops', 'International Grocery','Dim Sum', 'Food', 
              'Ramen', 'Patisserie/Cake Shop', 'Bakeries', 'Breakfast & Brunch', 'Bubble Tea', 
              'Restaurant Supplies', 'Eatertainment','Tasting Classes', 'Ethical Grocery', 'Game Meat']

#ga na voor de items in de business categories of tenminste 1 item in de lijst valt:

## filter de NaN's uit de categorieën, omdat deze niet vergelijkbaar zijn
filtered = businesses.dropna(subset=['categories'])
business_name_categories = filtered


# pak alle indexes van de businesses die wel onder de categorie "Food" vallen
indexes = []
teller = 0
for categories in business_name_categories.categories:

    checklist = []
    categories = categories.split(',')

    for item in categories:
        item = item.strip()

        if item in food_items:
            checklist.append(item)
    if len(checklist) >= 1:
        indexes.append(teller)
    teller +=1 

indexes = list(set(indexes))
business_name_categories.index = [x for x in range(len(business_name_categories))]

# alle bedrijven binnen de categorie
true_items = business_name_categories.loc[business_name_categories.index.isin(indexes)]
display(true_items[['name','categories']])

Unnamed: 0,name,categories
0,Arcade Basile,"Amusement Parks, Restaurants, Active Life, Bre..."
1,Olé Tapas,"Food, International Grocery, Restaurants, Tapa..."
2,Il Lago,"Restaurants, Italian"
3,Café Twigs,"Restaurants, Cafes, French"
4,Marco Bar & Grill,"Restaurants, Pizza, Seafood, Italian"
5,Klondike,"Steakhouses, Restaurants, International, Italian"
6,Resto Pub Bord'Eaux,"Gastropubs, Restaurants, Nightlife, Canadian (..."
7,Bistro Boaboa,"Restaurants, Korean"
8,Tandoori Bellevue,"Indian, Restaurants"
9,Cunninghams,"Irish Pub, Bars, Restaurants, Nightlife"


## Filtering op similarity

Maak een dataframe aan die elke business vergelijkt op categories

In [35]:
filtered = true_items.dropna(subset=['categories'])
items = filtered['categories'].values.tolist()
names = filtered.name.values

lijst = [nlp(x).similarity(nlp(y))  for x in items for y in items]

values = []
teller = 0
for x in range(len(items)):
    lijst2 = [lijst[teller:(teller+y)] for y in range(len(items)+1)]
    teller+=len(items)
    for x in lijst2:
        if len(x) == len(items):
            values.append(x)

df_nlp_similarity = pd.DataFrame(data = values,index=names, columns=names)
display(df_nlp_similarity)

Unnamed: 0,Arcade Basile,Olé Tapas,Il Lago,Café Twigs,Marco Bar & Grill,Klondike,Resto Pub Bord'Eaux,Bistro Boaboa,Tandoori Bellevue,Cunninghams,La Fondue du Prince,Dundees Deli & Bar,Restaurant Chalet Thai,Violet Angel,Au Bout de l'Isle,Stoolies Coffee House,Surcouf,Peter's Cape Cod,Bellevue Resto-Grill
Arcade Basile,1.0,0.88364,0.798827,0.852903,0.870811,0.857322,0.875708,0.76143,0.772764,0.848408,0.85789,0.876336,0.765893,0.842563,0.929188,0.749518,0.8074,0.803174,0.877858
Olé Tapas,0.88364,1.0,0.862252,0.901517,0.902107,0.909587,0.893693,0.837349,0.838504,0.903721,0.860708,0.919794,0.845407,0.829622,0.903327,0.756051,0.868158,0.897753,0.93453
Il Lago,0.798827,0.862252,1.0,0.906585,0.930362,0.904705,0.828518,0.889011,0.872873,0.876567,0.861598,0.846857,0.884317,0.809588,0.822831,0.736212,0.934882,0.85868,0.886101
Café Twigs,0.852903,0.901517,0.906585,1.0,0.892576,0.889476,0.914091,0.866709,0.86256,0.913429,0.891877,0.891952,0.860567,0.844311,0.881512,0.78428,0.950113,0.845878,0.917109
Marco Bar & Grill,0.870811,0.902107,0.930362,0.892576,1.0,0.943797,0.857747,0.841319,0.832546,0.868588,0.917579,0.92571,0.860245,0.859551,0.91182,0.734081,0.886868,0.916709,0.928093
Klondike,0.857322,0.909587,0.904705,0.889476,0.943797,1.0,0.874739,0.828481,0.825382,0.861157,0.896804,0.898926,0.836875,0.84884,0.879585,0.758327,0.877371,0.858358,0.912903
Resto Pub Bord'Eaux,0.875708,0.893693,0.828518,0.914091,0.857747,0.874739,1.0,0.814241,0.81497,0.925109,0.851767,0.898645,0.809345,0.92489,0.868732,0.892258,0.844478,0.810062,0.929436
Bistro Boaboa,0.76143,0.837349,0.889011,0.866709,0.841319,0.828481,0.814241,1.0,0.874804,0.83593,0.851724,0.803918,0.911032,0.776066,0.781108,0.734503,0.882299,0.827474,0.854751
Tandoori Bellevue,0.772764,0.838504,0.872873,0.86256,0.832546,0.825382,0.81497,0.874804,1.0,0.843216,0.828969,0.787409,0.876312,0.772267,0.775018,0.726254,0.862563,0.806457,0.84927
Cunninghams,0.848408,0.903721,0.876567,0.913429,0.868588,0.861157,0.925109,0.83593,0.843216,1.0,0.840215,0.907165,0.86132,0.805095,0.862268,0.741383,0.881433,0.85408,0.934725


# Drie aanbevelingsmanieren

## Aanbevelen waarbij een user geen enkele rating heeft gegeven

#### Op basis van gemiddelde rating
Wanneer een user geen enkele rating heeft gegeven aan een bedrijf (binnen een bepaalde categorie of algemeen), wordt de aanbeveling gedaan op gemiddelde rating van een bedrijf.

In [36]:
# Geef alle namen van de top 20 bedrijven met de hoogste gemiddelde rating
# Als bedrijven dezelfde rating hebben, plaats het bedrijf met het meeste aantal reviews hoger
rating_based_recommended = [x for x in true_items.sort_values(['stars','review_count'], ascending=False).head(20)['name']]
print('Aanbevolen bedrijven: ',rating_based_recommended)

Aanbevolen bedrijven:  ['Surcouf', 'Tandoori Bellevue', 'Café Twigs', 'Violet Angel', 'Restaurant Chalet Thai', "Resto Pub Bord'Eaux", 'Bistro Boaboa', 'Olé Tapas', 'Cunninghams', "Au Bout de l'Isle", 'La Fondue du Prince', 'Arcade Basile', 'Marco Bar & Grill', 'Bellevue Resto-Grill', 'Stoolies Coffee House', 'Klondike', "Peter's Cape Cod", 'Il Lago', 'Dundees Deli & Bar']


## Aanbevelen op basis van eerdere positieve waardering

#### Positieve gebruiker
Voor een gebruiker die een positieve rating heeft gegeven aan een bedrijf, geef de top 20 bedrijven terug die de hoogste similarity hebben. Bewaar vervolgens voor de lijst met gefilterde ratings alleen de user_id en naam van de business.

In [37]:
# maak een tabel met alleen de user_id, business_id en de stars
user_star_business = reviews[['user_id','business_id','stars']]

# een rating is positief als de waarde hoger is dan de gemiddelde rating van alle ratings
average_rating = user_star_business['stars'].mean()
user_star_business.loc[user_star_business['stars'] > average_rating]

# verander de business_id naar de daadwerkelijke naam van de business, en sla die naam en de user_id op
naming = businesses[['business_id','name']]
lijst = [naming.loc[naming['business_id'] == x , 'name'].values for x in [x for x in user_star_business['business_id']]]

user_star_business['company name'] = [x[0] for x in lijst]
business_user = user_star_business[['company name','user_id']]
business_user

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if sys.path[0] == '':


Unnamed: 0,company name,user_id
0,Arcade Basile,MYr_7OhQNfDW5W4EfrrIxQ
1,Olé Tapas,oTXacfmCLz9mev6KORIfEQ
2,Arcade Basile,DN8GeqNTMLrD5QSy2zPkCw
3,Olé Tapas,11TSdzlObGP51nyDgPxXaw
4,Olé Tapas,QDNbKtGO_I_m6lOUhVH9gw
...,...,...
209,Bellevue Resto-Grill,x459culD4Wy_auLcAoQgrw
210,Bellevue Resto-Grill,hO4etmRGC-en7UCuR-POzA
211,Bellevue Resto-Grill,gxKcF4vfQc8B_4reEtKXEA
212,Bellevue Resto-Grill,R0lfYlL4NbE8i8ZzW19muA


#### Voorbeeld user recommendation
Nu we een dataframe hebben met alle users die een bepaald bedrijf gerelateerd aan eten een hoger dan gemiddelde rating hebben gegeven, geven we een voorbeeld voor hoe een dergelijke aanbeveling werkt. Laten we uit gaan van de items met index 0 van de voorgaande tabel. Dit is het restaurant "Arcade Basile", gerate door user "MYr_7OhQNfDW5W4EfrrIxQ".

In [38]:
# pak ten eerste het bedrijf
company = business_user['company name'][0]

# pak alle bijbehorende waardes en similarities
companies = df_nlp_similarity.loc[df_nlp_similarity.index == company]

# pak vervolgens alle similarities
values = [x for x in df_nlp_similarity[company]]

# sorteer alle similarities en geef de top 20 items terug
company_similarity_dict = sorted(dict(zip(companies,values)).items(), key=operator.itemgetter(1), reverse= True)

recommended = [x[0] for x in company_similarity_dict[1:21]]
print('Aanbevolen bedrijven: ', recommended)

Aanbevolen bedrijven:  ["Au Bout de l'Isle", 'Olé Tapas', 'Bellevue Resto-Grill', 'Dundees Deli & Bar', "Resto Pub Bord'Eaux", 'Marco Bar & Grill', 'La Fondue du Prince', 'Klondike', 'Café Twigs', 'Cunninghams', 'Violet Angel', 'Surcouf', "Peter's Cape Cod", 'Il Lago', 'Tandoori Bellevue', 'Restaurant Chalet Thai', 'Bistro Boaboa', 'Stoolies Coffee House']


## Aanbevelen waarbij een user meerdere (positieve) ratings heeft gegeven

#### Meerdere waarderingen
In het geval dat een gebruiker meer dan 1 positieve rating heeft gegeven, moeten over al de similarities van die meerdere bedrijven heen worden gezocht naar de top 20 hoogste similarities. Als voorbeeld nemen we weer dezelfde gebruiker als bij de vorige aanbevelingsmanier: user "MYr_7OhQNfDW5W4EfrrIxQ". 

In [39]:
# Pak alle bedrijven die de gebruiker een positieve rating heeft gegeven
target_user = business_user.loc[business_user['user_id'] == "MYr_7OhQNfDW5W4EfrrIxQ"]

print()
print(" Alle bedrijven die user MYr_7OhQNfDW5W4EfrrIxQ positief heeft gerate: ")
display(target_user)

# maak een lijst voor alle target companies, en voor alle bedrijven en similarities in een andere lijst
target_companies = []
alle = []
for company in target_user['company name']:
    if company in df_nlp_similarity.index.values:
        target_companies.append(company)
        
        companies = df_nlp_similarity.loc[df_nlp_similarity.index == company]

        # pak vervolgens alle similarities
        values = [x for x in df_nlp_similarity[company]]

        # sorteer alle similarities en voeg ze toe aan de "alle"-lijst
        company_similarity_dict = sorted(dict(zip(companies,values)).items(), key=operator.itemgetter(1), reverse= True)
        for x in company_similarity_dict[1:]:
            alle.append(x)
            
# maak een lijst met alle unieke bedrijfsnamen erin
names = set([x[0] for x in alle])

recommended = []

# pak eerst alle bedrijven die in alle similaritylijsten voorkomen, en pak degene met de hoogste similarity daarvan
for name in names:
    name_filtering = []
    for item in alle:
        if item[0] == name:
            name_filtering.append(item)
    for x in name_filtering:
        if len(name_filtering) == len(target_companies):

            recommended.append(sorted(name_filtering, key=lambda tup: tup[1], reverse=True)[0])

recommended = [x[0] for x in sorted(set(recommended), key=lambda tup: tup[1], reverse=True)]

# als alle bedrijven in de lijst zitten, beveel deze lijst aan
if len(recommended) == len(names):
    print('Aanbevolen bedrijven: ',recommended)

# als die niet het geval is voeg de rest van de bedrijven toe op volgorde van de hoogste similarity
if len(recommended) != len(names): 
    
    other = []
    
    # pak nu alle bedrijven die niet in alle similaritylijsten voorkomen
    for name in names:
        name_filtering = []
        for item in alle:
            if item[0] == name:
                name_filtering.append(item)
        for x in name_filtering:
            if len(name_filtering) < len(target_companies):

                other.append(sorted(name_filtering, key=lambda tup: tup[1], reverse=True)[0])

    # voeg de twee aanbevolen lijsten samen
    recommended = recommended + [x[0] for x in sorted(set(other), key=lambda tup: tup[1], reverse=True)]
    
    # haal als laatste filter wel alle bedrijven zelf uit de lijst, omdat die tot nu toe nog wel ook aanbevolen worden
    for name in target_user['company name'].values:
        if name in recommended:
            recommended.remove(name)

# beveel de top 20 bedrijven aan
print('Aanbevolen bedrijven: ',recommended[:20])



 Alle bedrijven die user MYr_7OhQNfDW5W4EfrrIxQ positief heeft gerate: 


Unnamed: 0,company name,user_id
0,Arcade Basile,MYr_7OhQNfDW5W4EfrrIxQ
42,Klondike,MYr_7OhQNfDW5W4EfrrIxQ
54,Cunninghams,MYr_7OhQNfDW5W4EfrrIxQ
197,Annies Sur-Le-Lac,MYr_7OhQNfDW5W4EfrrIxQ


Aanbevolen bedrijven:  ['Marco Bar & Grill', 'Bellevue Resto-Grill', "Au Bout de l'Isle", "Resto Pub Bord'Eaux", 'Café Twigs', 'Olé Tapas', 'Dundees Deli & Bar', 'Il Lago', 'La Fondue du Prince', 'Surcouf', 'Restaurant Chalet Thai', "Peter's Cape Cod", 'Violet Angel', 'Tandoori Bellevue', 'Bistro Boaboa', 'Stoolies Coffee House']


## Evaluatie content-based filtering

Zoals te zien is, zijn er 20 bedrijven aanbevolen, waarbij de similarity met de target business steeds lager wordt. Het is dus mogelijk om op basis van eigenschappen van de bedrijven aanbevelingen te doen.

# Deel 3: Evaluatie

Voor de evaluatie hebben wij besloten recall, precision en accuracy te gebruiken. Om dit te kunnen doen moeten we de categories van de aanbevolen bedrijven weten. Om dit te berekenen hebben wij de volgende items nodig:

- True positives: aanbevolen bedrijven die overeenkomende categorieën hebben met het target bedrijf
- True negatives: niet aanbevolen bedrijven die ook geen overeenkomende categorieën hebben met het target bedrijf
- False positives: aanbevolen bedrijven die geen overeenkomende categorieën hebben met het target bedrijf
- False negatives: niet aanbevolen bedrijven die ook overeenkomende categorieën hebben met het target bedrijf

In [40]:
# pak alle categorieën van alle aanbevolen bedrijven
categories = [businesses.loc[businesses['name'] == x, 'categories'].values for x in recommended]

evaluation_table = pd.DataFrame({'name':recommended,'categories':categories})
display(evaluation_table)

# alle bedrijven buiten de categorie
false_items = business_name_categories.loc[~business_name_categories.index.isin(indexes)]
display(false_items)

Unnamed: 0,name,categories
0,Marco Bar & Grill,"[Restaurants, Pizza, Seafood, Italian]"
1,Bellevue Resto-Grill,"[Seafood, Bars, Mediterranean, Nightlife, Rest..."
2,Au Bout de l'Isle,"[Soup, Breakfast & Brunch, Sandwiches, Restaur..."
3,Resto Pub Bord'Eaux,"[Gastropubs, Restaurants, Nightlife, Canadian ..."
4,Café Twigs,"[Restaurants, Cafes, French]"
5,Olé Tapas,"[Food, International Grocery, Restaurants, Tap..."
6,Dundees Deli & Bar,"[Bars, Nightlife, Restaurants, Delis, Sandwich..."
7,Il Lago,"[Restaurants, Italian]"
8,La Fondue du Prince,"[Restaurants, Fondue, Barbeque, Chinese, French]"
9,Surcouf,"[Restaurants, French]"


Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
11,SuzCEfZ0y9wCqFm9zV0ODg,Spa Concept Manon Lemay,117 Rue Sainte-Anne,Sainte-Anne-de-Bellevue,QC,H9X 1M3,45.404089,-73.952886,5.0,5,1,"{'ByAppointmentOnly': 'False', 'RestaurantsPri...","Day Spas, Reflexology, Hair Removal, Laser Hai...","{'Tuesday': '9:0-17:0', 'Wednesday': '9:0-21:0..."
15,USh0UhokK00y5kkSlNvKnA,Montreal Printing,91 St Anne Street,Sainte-Anne-de-Bellevue,QC,H9X 1L9,45.403566,-73.951237,3.5,3,1,,"Mass Media, Local Services, Printing Services,...","{'Monday': '9:0-17:0', 'Tuesday': '9:0-17:0', ..."
18,Ng04_qtFBIz0BHnYYd63yw,Zoo Ecomuseum,21125 Chemin Sainte-Marie,Sainte-Anne-de-Bellevue,QC,H9X 3Y7,45.425548,-73.934785,3.5,14,1,"{'GoodForKids': 'True', 'BusinessParking': '{'...","Museums, Active Life, Arts & Entertainment, Zoos","{'Monday': '9:0-17:0', 'Tuesday': '9:0-17:0', ..."
19,jbJSFF0GcL3tfdyPASW1JA,Ville de Sainte-Anne-de-Bellevue,,Sainte-Anne-de-Bellevue,QC,H9X 1M2,45.403962,-73.952575,4.5,3,1,,"Local Flavor, Public Services & Government, La...",
22,RWUKT_N6PTyWEsiWQ5VBXg,Annies Sur-Le-Lac,76 Rue Sainte-Anne,Sainte-Anne-De-Bellevue,QC,H9X 1L8,45.403179,-73.950927,3.0,6,1,"{'RestaurantsGoodForGroups': 'True', 'BikePark...","Bars, Nightlife","{'Tuesday': '11:30-3:0', 'Wednesday': '11:30-3..."


Nu we een dataframe hebben met alle businesses en hun categories, kunnen we de precision, recall en accuracy uitrekenen met de volgende formules:

- precision = true positives / true positives + false positives
- recall = true positives / true positives + false negatives
- accuracy = (True Positives + True Negatives) /(True Positives + True Negatives + False Positives + False Negatives)