# Рейтинговая рекомендательная система
_______

План работы:
 - Загрузим **датасет из файла movies_metadata_fixed.csv**. 
 - Датасет находится в «сыром» виде, поэтому сделаем **предобработку данных**. Другими словами, подготовим все необходимые колонки из датасета и приведем в удобный формат.
 - Напишем функции, которые будут оценивать каждый фильм по некоторой **формуле**. Формул будет несколько,поэтому сможем сравнить разные рейтинги, оценить разницу и выбрать лучший вариант.
 _____

In [7]:
import warnings
warnings.filterwarnings('ignore')

In [8]:
import pandas as pd

Библиотека **Ast** и пакет **Literal_eval** пригодятся для извлечения информации из «сырых» форматов данных

In [1]:
from ast import literal_eval

In [10]:
#pwd
path = ''
df = pd.read_csv(path + 'movies_metadata_fixed.csv')
df.head(3)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45463 entries, 0 to 45462
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45463 non-null  bool   
 1   belongs_to_collection  4491 non-null   object 
 2   budget                 45463 non-null  int64  
 3   genres                 45463 non-null  object 
 4   homepage               7779 non-null   object 
 5   id                     45463 non-null  int64  
 6   imdb_id                45446 non-null  object 
 7   original_language      45452 non-null  object 
 8   original_title         45463 non-null  object 
 9   overview               44509 non-null  object 
 10  popularity             45463 non-null  float64
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

Здесь интересуют несколько переменных: жанр(genres), год выпуска(year), средний рейтинг фильма(vote_average) и количество оценок фильма(vote_count).

____

### Жанры

In [12]:
df['genres'].head(3)

0    [{'id': 16, 'name': 'Animation'}, {'id': 35, '...
1    [{'id': 12, 'name': 'Adventure'}, {'id': 14, '...
2    [{'id': 10749, 'name': 'Romance'}, {'id': 35, ...
Name: genres, dtype: object

Преобразуем это поле в обычный список. Здесь пригодится пакет literal_eval, который может обрабатывать подобные строки.

In [13]:
literal_eval(df['genres'].iloc[0])

[{'id': 16, 'name': 'Animation'},
 {'id': 35, 'name': 'Comedy'},
 {'id': 10751, 'name': 'Family'}]

На выходе **Literal_eval** всё тот же список словарей, но теперь он не в виде строки, а в виде объектов языка Python.

Чтобы получить список жанров из такой структуры, нужно обратиться к полю **name** в каждом элементе списка словарей.

In [14]:
[i['name'] for i in literal_eval(df['genres'].iloc[0])]

['Animation', 'Comedy', 'Family']

Теперь так же преобразуем поле **genres** целиком

In [15]:
df['genres'] = df['genres'].fillna('[]')\
                                     .apply(literal_eval)\
                                     .apply(lambda x: [i['name'] for i in x] if isinstance(x, list) else [])

In [16]:
df['genres'].head()

0     [Animation, Comedy, Family]
1    [Adventure, Fantasy, Family]
2               [Romance, Comedy]
3        [Comedy, Drama, Romance]
4                        [Comedy]
Name: genres, dtype: object

Выясним, фильмы каких жанров содержатся в датасете. 

In [17]:
import functools
available_genres = functools.reduce(lambda x,y: set(x).union(set(y)), df.genres.tolist())
available_genres

{'Action',
 'Adventure',
 'Animation',
 'Comedy',
 'Crime',
 'Documentary',
 'Drama',
 'Family',
 'Fantasy',
 'Foreign',
 'History',
 'Horror',
 'Music',
 'Mystery',
 'Romance',
 'Science Fiction',
 'TV Movie',
 'Thriller',
 'War',
 'Western'}

___


###  Год выпуска

In [18]:
df['year'] = pd.to_datetime(df['release_date']).dt.year
df[['release_date', 'year']].sample(3)

Unnamed: 0,release_date,year
13920,2002-10-11,2002.0
3151,1992-12-16,1992.0
27441,2009-04-01,2009.0


___

### Оценки пользователей

In [19]:
display(df[['vote_count', 'vote_average']].head(3))
df[['vote_count', 'vote_average']].dtypes

Unnamed: 0,vote_count,vote_average
0,5415,7.7
1,2413,6.9
2,92,6.5


vote_count        int64
vote_average    float64
dtype: object

Их типы int64 и float64. Все в порядке.

____

### Формула ранжирования

Перед тем как перейти к созданию формул, оставим только необходимые для работы поля в датасете, а другие удалим за ненадобностью.

In [20]:
df[df['vote_count'].notnull()].head()


Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count,year
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[Animation, Comedy, Family]",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,373554033,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415,1995.0
1,False,,65000000,"[Adventure, Fantasy, Family]",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,262797249,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413,1995.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[Romance, Comedy]",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92,1995.0
3,False,,16000000,"[Comedy, Drama, Romance]",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,81452156,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34,1995.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,[Comedy],,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,76578911,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173,1995.0


In [21]:
def process_dataset(df): 
    # Удаление фильмов, для которых отсутствует информация о среднем рейтинге и кол-ве проголосовавших пользователей. 
    ok_rows = (df['vote_count'].notnull()) & \
              (df['vote_average'].notnull())
    rank_dataset = df[ok_rows]
    
    # Оставим в нашем датасете только колонки: 'title', 'year', 'vote_count', 'vote_average', 'genres'
    usecols_ = ['title', 'year', 'vote_count', 'vote_average', 'genres']
    rank_df = df[usecols_]
    
    return rank_df

In [22]:
df  = process_dataset(df.copy())
df.head()

Unnamed: 0,title,year,vote_count,vote_average,genres
0,Toy Story,1995.0,5415,7.7,"[Animation, Comedy, Family]"
1,Jumanji,1995.0,2413,6.9,"[Adventure, Fantasy, Family]"
2,Grumpier Old Men,1995.0,92,6.5,"[Romance, Comedy]"
3,Waiting to Exhale,1995.0,34,6.1,"[Comedy, Drama, Romance]"
4,Father of the Bride Part II,1995.0,173,5.7,[Comedy]


Теперь приступаем к разработке рекомендательной системы. 

Главный элемент для систем неперсональных рекомендаций — это формула для составления рейтинга фильма. Запрограммируем несколько вариантов такой формулы и отсортируем все фильмы по показателю рейтинга. 

In [23]:
def simple_formula(x):
    """
    Films are ranked by vote_average
    """
    R = x['vote_average']
    return R

def recommend_simple(input_films, n_items):
    rank = input_films.copy()
    rank['formula'] = rank.apply(lambda x: simple_formula(x), axis=1)
    rank = rank.sort_values('formula', ascending=False)
    return rank.head(n_items).reset_index(drop=True)

recommend_simple(df, 10)

Unnamed: 0,title,year,vote_count,vote_average,genres,formula
0,Zig Zag Story,1983.0,1,10.0,"[Drama, Comedy]",10.0
1,Tall Story,1960.0,1,10.0,[Comedy],10.0
2,Birch Interval,1976.0,1,10.0,[Drama],10.0
3,Mad at the Moon,1992.0,1,10.0,[],10.0
4,The White Shadow,1924.0,1,10.0,[],10.0
5,Forever,2006.0,1,10.0,[Documentary],10.0
6,Chilly Scenes of Winter,1979.0,1,10.0,"[Comedy, Drama, Romance]",10.0
7,The Great Kidnapping,1973.0,1,10.0,[Crime],10.0
8,Backyard Dogs,2001.0,1,10.0,"[Action, Comedy]",10.0
9,"Oh, Bomb!",1964.0,1,10.0,"[Music, Comedy, Action, Crime]",10.0


In [24]:
def better_formula(x):
    v = x['vote_count']  #извлекаем количество оценивших vote_count
    R = x['vote_average']  #извлекаем среднюю оценку vote_average
    return v * R  #возвращаем их произведение, это самый простой способ учесть количество

def recommend_better(input_films, n_items):
    rank = input_films.copy()
    rank['formula'] = rank.apply(lambda x: better_formula(x), axis=1)
    rank = rank.sort_values('formula', ascending=False)
    return rank.head(n_items).reset_index(drop=True)

recommend_better(df, 10)

Unnamed: 0,title,year,vote_count,vote_average,genres,formula
0,Inception,2010.0,14075,8.1,"[Action, Thriller, Science Fiction, Mystery, A...",114007.5
1,The Dark Knight,2008.0,12269,8.3,"[Drama, Action, Crime, Thriller]",101832.7
2,Interstellar,2014.0,11187,8.1,"[Adventure, Drama, Science Fiction]",90614.7
3,The Avengers,2012.0,12000,7.4,"[Science Fiction, Action, Adventure]",88800.0
4,Avatar,2009.0,12114,7.2,"[Action, Adventure, Fantasy, Science Fiction]",87220.8
5,Deadpool,2016.0,11444,7.4,"[Action, Adventure, Comedy]",84685.6
6,Fight Club,1999.0,9678,8.3,[Drama],80327.4
7,Django Unchained,2012.0,10297,7.8,"[Drama, Western]",80316.6
8,Guardians of the Galaxy,2014.0,10014,7.9,"[Action, Science Fiction, Adventure]",79110.6
9,Pulp Fiction,1994.0,8670,8.3,"[Thriller, Crime]",71961.0


Видим, что результат стал гораздо лучше, в топе рейтинга находятся довольно известные и популярные фильмы. 
Попробуем учесть и среднее арифметическое, и текущую оценку одновременно путем взвешенного среднего. Это такое среднее, которое учитывает важность отдельных элементов в формуле. В нашем случае, чем больше людей (vote_count) оставили оценку фильму, тем важнее эта информация для общего рейтинга. 

In [25]:
def the_best_formula(x, Q, C):
    v = float(x['vote_count'])
    R = x['vote_average']
    return (v/(v+Q) * R) + (Q/(Q+v) * C)  # взвешенное среднее

def recommend_best(input_films, n_items):
    rank = input_films.copy()
    
    C = rank['vote_average'].mean()
    Q = rank['vote_count'].quantile(0.95)
    print("Minimum number of votes: {}. Average overall rating: {}".format(int(Q),C))
    
    rank['formula'] = rank.apply(lambda x: the_best_formula(x, Q, C), axis=1)
    rank = rank.sort_values('formula', ascending=False)
    return rank.head(n_items).reset_index(drop=True)

recommend_best(df, 10)

Minimum number of votes: 433. Average overall rating: 5.618217011635541


Unnamed: 0,title,year,vote_count,vote_average,genres,formula
0,The Shawshank Redemption,1994.0,8358,8.5,"[Drama, Crime]",8.357778
1,The Godfather,1972.0,6024,8.5,"[Drama, Crime]",8.306376
2,The Dark Knight,2008.0,12269,8.3,"[Drama, Action, Crime, Thriller]",8.208397
3,Fight Club,1999.0,9678,8.3,[Drama],8.184925
4,Pulp Fiction,1994.0,8670,8.3,"[Thriller, Crime]",8.172184
5,Forrest Gump,1994.0,8147,8.2,"[Comedy, Drama, Romance]",8.06945
6,Schindler's List,1993.0,4436,8.3,"[Drama, History, War]",8.061058
7,Whiplash,2014.0,4376,8.3,[Drama],8.058077
8,Spirited Away,2001.0,3968,8.3,"[Fantasy, Adventure, Animation, Family]",8.035654
9,The Empire Strikes Back,1980.0,5998,8.2,"[Adventure, Action, Science Fiction]",8.025831


Немного изменим формулу, чтобы учитывать жанр фильма и год выпуска. Формула должна принимать дополнительный параметр **Жанр**, если фильм содержит все жанры, которые выбирает пользователь. Только тогда фильм попадает в финальный рекомендованный рейтинг.

In [26]:
def recommend_by_genre(input_films, n_items, genres):
    rank = input_films.copy()
    
    C = rank.vote_average.mean()
    Q = rank.vote_count.quantile(0.95)
    print("Minimum number of votes: {}. Average overall rating: {}".format(int(Q),C))
    rank['formula'] = rank.apply(lambda x: the_best_formula(x, Q, C), axis=1)
    rank = rank.sort_values('formula', ascending=False)
    
    rank['contains_genre'] = [all(y in x for y in genres) for x in rank.genres]
    rank = rank[rank.contains_genre == True]
    rank = rank.drop('contains_genre', axis=1)

    return rank.head(n_items).reset_index(drop=True)

In [27]:
recommend_by_genre(df, 10, genres=['Adventure', 'Science Fiction'])

Minimum number of votes: 433. Average overall rating: 5.618217011635541


Unnamed: 0,title,year,vote_count,vote_average,genres,formula
0,The Empire Strikes Back,1980.0,5998,8.2,"[Adventure, Action, Science Fiction]",8.025831
1,Inception,2010.0,14075,8.1,"[Action, Thriller, Science Fiction, Mystery, A...",8.02578
2,Interstellar,2014.0,11187,8.1,"[Adventure, Drama, Science Fiction]",8.007335
3,Star Wars,1977.0,6778,8.1,"[Adventure, Action, Science Fiction]",7.950685
4,Back to the Future,1985.0,6239,8.0,"[Adventure, Comedy, Science Fiction, Family]",7.845126
5,Guardians of the Galaxy,2014.0,10014,7.9,"[Action, Science Fiction, Adventure]",7.805238
6,Return of the Jedi,1983.0,4763,7.9,"[Adventure, Action, Science Fiction]",7.709489
7,2001: A Space Odyssey,1968.0,3075,7.9,"[Science Fiction, Mystery, Adventure]",7.617842
8,The Martian,2015.0,7442,7.6,"[Drama, Adventure, Science Fiction]",7.490819
9,Captain America: The Winter Soldier,2014.0,5881,7.6,"[Action, Adventure, Science Fiction]",7.463831


Теперь можно выбирать произвольные жанры фильмов.
То же самое сделаем с параметром **год выпуска фильма**. У формулы появляется ещё один параметр, если фильм был выпущен в указанный год или позже, тогда он попадает в финальную выдачу.

In [28]:
def recommend_by_genre_and_year(input_films, n_items, min_votes, genres, not_older_than):
    
    #добавим условное ограничение по году
    rank = input_films.copy()
    
    C = rank.vote_average.mean()
    Q = rank.vote_count.quantile(0.95)
    print("Minimum number of votes: {}. Average overall rating: {}".format(int(Q),C))
    rank['formula'] = rank.apply(lambda x: the_best_formula(x, Q, C), axis=1)
    rank = rank.sort_values('formula', ascending=False)
    
    rank['contains_genre'] = [all(_ in x for _ in genres) for x in rank.genres]
    rank = rank[rank.contains_genre == True]
    rank = rank.drop('contains_genre', axis=1)

    rank = rank[rank['year'] >= not_older_than]
    
    return rank.head(n_items).reset_index(drop=True)

In [29]:
recommend_by_genre_and_year(df, 15, 150, genres=['Adventure', 'Science Fiction'], not_older_than=2015)

Minimum number of votes: 433. Average overall rating: 5.618217011635541


Unnamed: 0,title,year,vote_count,vote_average,genres,formula
0,The Martian,2015.0,7442,7.6,"[Drama, Adventure, Science Fiction]",7.490819
1,Guardians of the Galaxy Vol. 2,2017.0,4858,7.6,"[Action, Adventure, Comedy, Science Fiction]",7.437507
2,Star Wars: The Force Awakens,2015.0,7993,7.5,"[Action, Adventure, Science Fiction, Fantasy]",7.403107
3,Rogue One: A Star Wars Story,2016.0,5111,7.4,"[Action, Adventure, Science Fiction]",7.260572
4,Mad Max: Fury Road,2015.0,9629,7.3,"[Action, Adventure, Science Fiction, Thriller]",7.227484
5,Avengers: Age of Ultron,2015.0,6908,7.3,"[Action, Adventure, Science Fiction]",7.200608
6,Captain America: Civil War,2016.0,7462,7.1,"[Adventure, Action, Science Fiction]",7.018572
7,Doctor Strange,2016.0,5880,7.1,"[Action, Adventure, Fantasy, Science Fiction]",6.99817
8,Okja,2017.0,795,7.7,"[Adventure, Drama, Fantasy, Science Fiction]",6.964964
9,Ant-Man,2015.0,6029,7.0,"[Science Fiction, Action, Adventure]",6.907231


# Итоги

Разработана простая рекомендательная система. Она строится на предположении, что фильмы, которые нравятся большинству, понравятся и пользователю.