In [1]:
import io
from surprise import Dataset
from surprise import KNNWithMeans
from surprise import get_dataset_dir
from collections import defaultdict

k=4
similarFilms = 5
userID = input("Enter user ID: ")

data = Dataset.load_builtin('ml-100k')
trainset = data.build_full_trainset()
simOptions = {'name':'cosine','min_support':similarFilms}

alg=KNNWithMeans(k=k, min_k=k, sim_options = simOptions)
alg.fit(trainset)

testSet = trainset.build_anti_testset()
testSet = filter(lambda x: x[0] == userID, testSet)
predictions = alg.test(testSet)
topN = defaultdict(list)

for uid, iid, _, est, _ in predictions:
    topN[uid].append((iid, round(est, 3)))

for uid, userRnk in topN.items():
    userRnk.sort(key=lambda x: x[1], reverse=True)
    topN[uid] = userRnk[:similarFilms]

file = get_dataset_dir() + '/ml-100k/ml-100k/u.item'
data = {}
rowFormat = "{:^4} {:<95} {:^1}"

with open(file, 'r') as f:
    for line in f:
        line = line.split('|')
        data[line[0]] = (line[1], line[2])

print(f'User {userID}:')
films = []
for movieID, rating in topN[userID]:
    print(rowFormat.format(movieID,str(data[movieID]),rating))
    films.append(data[movieID][0])


Enter user ID: 18
Computing the cosine similarity matrix...
Done computing similarity matrix.
User 18:
272  ('Good Will Hunting (1997)', '01-Jan-1997')                                                     5
1367 ('Faust (1994)', '01-Jan-1994')                                                                 5
1449 ('Pather Panchali (1955)', '22-Mar-1996')                                                       5
1512 ('World of Apu, The (Apur Sansar) (1959)', '05-Apr-1996')                                       5
606  ('All About Eve (1950)', '01-Jan-1950')                                                         4.963


In [2]:
from SPARQLWrapper import SPARQLWrapper, JSON
from IPython.display import display, HTML
import pandas as pd
import requests
import re

sparql = SPARQLWrapper("https://query.wikidata.org/sparql", agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36')
API_ENDPOINT = "https://www.wikidata.org/w/api.php"

In [3]:
def Sparql(sparql, film):
    print(film)
    queryString = """
SELECT ?characterLabel ?actorLabel
WHERE {
wd:"""+film+""" p:P161 [
ps:P161 ?actor;
pq:P453 ?character
];
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
    """
    sparql.setQuery(queryString)
    sparql.setReturnFormat(JSON)
    results = sparql.query().convert()
    results_df = pd.io.json.json_normalize(results['results']['bindings'])
    return results_df

In [4]:
print("список героев рекомендованного фильма с указанием актеров, сыгравших эти роли")

список героев рекомендованного фильма с указанием актеров, сыгравших эти роли


In [6]:
# просматриваем каждый фильм в списке рекомндаций
for f in films:
    film = re.sub('\([0-9]{4}\)', "", f) # убираем год
    name1, name2 = '', ''
    #если есть дополнительное название, которое идет в скобках, мы его находим
    match = re.search('\([ a-zA-Z0-9]*\)', film)
    if match:
        # разделяем названия
        name1 = re.sub('\('+match[0]+'\)', '', film)
        name2 = re.sub('[()]', '', match[0])
    else:
        name1 = film
    #пробуем искать по первому названию, если все ок, то идем дальше, если нет, то ищем по второму названию
    try:
        params = {'action' : 'wbsearchentities','format' : 'json','language' : 'en','search': name1}
        res = requests.get(API_ENDPOINT, params = params)
    except:
        params = {'action' : 'wbsearchentities','format' : 'json','language' : 'en','search': name2}
        res = requests.get(API_ENDPOINT, params = params)
    print(film,":")
    #проверяем нашлелся ли фильм
    if res.json()['search']:
        results_df = Sparql(sparql, res.json()['search'][0]['id'])
        #проверяем нашлись ли сценаристы с наградами
        if len(results_df.columns) <= 0:
            print("Нет результатов\n")
        else:
            results_df = results_df.reindex(columns=['characterLabel.value', 'actorLabel.value'], fill_value='no data')
            display(HTML(results_df[['characterLabel.value', 'filmLabel.value']].to_html()))
    else:
        print("Фильм не найден\n")

Good Will Hunting  :
Q193835
Нет результатов

Faust  :
Q29478
Нет результатов

Pather Panchali  :
Q622380
Нет результатов

World of Apu, The (Apur Sansar)  :
Q622376
Нет результатов

All About Eve  :
Q200299
Нет результатов

