### **Краткое описание данных**

- Все файлы представлены в формате CSV с кодировкой UTF-8 и содержат заголовки.
- Пользователи, фильмы и теги имеют уникальные идентификаторы, которые согласованы между файлами.
- Предоставлено 4 файла csv формата

### **Импорт необходимых библиотек**

In [1]:
%timeit from movielens_analysis import Tags, Links, Movies, Ratings
from movielens_analysis import Tags, Links, Movies, Ratings

The slowest run took 18.77 times longer than the fastest. This could mean that an intermediate result is being cached.
912 ns ± 1.33 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [1]:
base_path = "data-folder/"
filepath_tag = base_path + "tags.csv"
filepath_links = base_path + "links.csv"
filepath_movies = base_path + "movies.csv"
filepath_ratings = base_path + "ratings.csv"

### **Исследование файла tags.csv**
Файл содержит теги, присвоенные пользователями фильмам.

Формат: userId, movieId, tag, timestamp.
Каждая строка представляет собой тег, который пользователь присвоил фильму:
- userId — уникальный идентификатор пользователя.
- movieId — уникальный идентификатор фильма.
- tag — тег, представляющий собой слово или короткую фразу.
- timestamp — время, когда был присвоен тег (в формате секунд с 1 января 1970 года).

Размерность файла: 3684строк х 4столбца

In [3]:
%timeit tags = Tags(filepath_tag)
tags = Tags(filepath_tag)

The slowest run took 5.05 times longer than the fastest. This could mean that an intermediate result is being cached.
17.6 ms ± 10 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


##### Посмотрим на топ 10 тегов с самым большим количеством слов
Заметим, что теги не просто описывают фильмы, а отражают мнения и предпочтения зрителей, а также их желание поделиться подробной информацией о фильме

Несмотря на первый тег (16 слов), люди стараются описывать фильм менее 10 словами

In [4]:
%timeit tags.most_words(10)
print(f"Most words: \n{tags.most_words(10)}")

The slowest run took 4.81 times longer than the fastest. This could mean that an intermediate result is being cached.
1.2 ms ± 608 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Most words: 
{'Something for everyone in this one... saw it without and plan on seeing it with kids!': 16, 'the catholic church is the most corrupt organization in history': 10, 'villain nonexistent or not needed for good story': 8, 'It was melodramatic and kind of dumb': 7, '06 Oscar Nominated Best Movie - Animation': 7, 'Oscar (Best Music - Original Score)': 6, 'Oscar (Best Effects - Visual Effects)': 6, 'stop using useless characters for filler': 6, 'stupid is as stupid does': 5, 'based on a true story': 5}


##### Посмотрим на топ 10 самых длинных тегов
Заметим, что далеко не всегад теги, где много слов, являются одними из самых длинных тегов. Также используются различные символы в тегах, например (, ), :


In [5]:
%timeit tags.longest(10)
print(f"Longest: \n{tags.longest(10)}")

119 µs ± 6.33 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Longest: 
['Something for everyone in this one... saw it without and plan on seeing it with kids!', 'the catholic church is the most corrupt organization in history', 'villain nonexistent or not needed for good story', 'r:disturbing violent content including rape', '06 Oscar Nominated Best Movie - Animation', 'stop using useless characters for filler', 'Academy award (Best Supporting Actress)', 'Oscar (Best Effects - Visual Effects)', 'r:sustained strong stylized violence', 'It was melodramatic and kind of dumb']


##### Посмотрим на пересечение прошлых топ 10
Пересеклись 6 тегов из 10, что подтверждает наше предположение из прошлого наблюдения

In [6]:
%timeit tags.most_words_and_longest(10)
print(f"Most words and longest: \n{tags.most_words_and_longest(10)}")

558 µs ± 36.4 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Most words and longest: 
['06 Oscar Nominated Best Movie - Animation', 'Something for everyone in this one... saw it without and plan on seeing it with kids!', 'It was melodramatic and kind of dumb', 'stop using useless characters for filler', 'villain nonexistent or not needed for good story', 'Oscar (Best Effects - Visual Effects)', 'the catholic church is the most corrupt organization in history']


##### Посмотрим на топ 5 популярных тегов
**1. In Netflix queue(131)** — Этот тег показывает, что зрители активно добавляют фильмы в свои списки на Netflix, ожидая их просмотра в будущем.

**2. Atmospheric(41)** — Тег указывает на фильмы с уникальной атмосферой, которые привлекают зрителей благодаря визуальному стилю или настроению.

**3. Funny(24)** — Популярность этого тега подтверждает интерес зрителей к комедиям, которые вызывают смех и доставляют удовольствие.

**4. Superhero(24)** — Этот тег подтверждает высокий интерес к фильмам о супергероях, который продолжает доминировать среди зрителей.

**5. Surreal(24)** — Тег свидетельствует о росте интереса к фильмам, которые нарушают привычные представления о реальности и предлагают необычные сюжеты.

In [7]:
%timeit tags.most_popular(5)
print(f"Most popular: \n{tags.most_popular(5)}")

888 µs ± 74.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Most popular: 
{'In Netflix queue': 131, 'atmospheric': 41, 'funny': 24, 'superhero': 24, 'surreal': 24}


##### Посмотрим на теги, содержащие слово comedy
Теги, связанные с комедией, показывают её разнообразие.
- **"black comedy"** и **"dark comedy"** указывает на интерес к темному юмору. 
- **"Avant-garde romantic comedy"** и **"off-beat comedy"** привлекают зрителей, ищущих необычные подходы. 
- **"Comedy"** и **"best comedy"** подтверждают общий интерес к жанру. 
- **"British comedy"** и **"romantic comedy"** отражают любовь к классическому и романтическому юмору. 

В целом, комедия остается востребованным жанром с множеством поджанров.

In [8]:
%timeit tags.tags_with('comedy')
print(f"Tags with 'comedy': \n{tags.tags_with('comedy')}")

102 µs ± 3.37 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Tags with 'comedy': 
['Black comedy', 'Comedy', 'avant-garde romantic comedy', 'best comedy', 'black comedy', 'british comedy', 'comedy', 'dark comedy', 'off-beat comedy', 'romantic comedy', 'stand-up comedy']


### **Исследование файла links.csv**
Файл links.csv из набора данных MovieLens содержит внешние идентификаторы, которые связывают фильмы MovieLens с их соответствующими записями на IMDb и TMDb. 

Каждая строка представляет один фильм и включает следующие столбцы:

- movieId: Идентификатор фильма в MovieLens. Например, для фильма "История игрушек" (1995) movieId равен 1, что соответствует ссылке <https://movielens.org/movies/1>.
- imdbId: Идентификатор фильма на IMDb. Например, для "Истории игрушек" (1995) imdbId равен tt0114709, что соответствует ссылке <http://www.imdb.com/title/tt0114709/>.
- tmdbId: Идентификатор фильма на TMDb. Например, для "Истории игрушек" (1995) tmdbId равен 862, что соответствует ссылке <https://www.themoviedb.org/movie/862>.

Размерность файла: 9743строк х 3столбца

In [9]:
%timeit links = Links(filepath_links)
links = Links(filepath_links)

11.8 ms ± 966 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Все последующие выводы для класса Links будут сделаны на выборке в **50 элементов**.

##### Посмотрим топ 10 режиссеров и сколько фильмов они сняли

In [None]:
%timeit links.top_directors(10)
print(f"Top 10 directors:\n{links.top_directors(10)}")


Top 10 directors:
{'Steve Oedekerk': 1, 'Ang Lee': 1, 'Martin Scorsese': 1, 'Renny Harlin': 1, 'Oliver Stone': 1, 'Simon Wells': 1, 'Mel Brooks': 1, 'Rob Reiner': 1, 'Martin Campbell': 1, 'Peter Hyams': 1}


Можно заметить, что все режиссеры сняли ровно по 1 фильму.

##### Посмотрим фильмы с самыми большими затратами
Заметим, что съемки самого дорогого фильма обошлись в 98000000$

In [42]:
%timeit most_exp = links.most_expensive(10) 
most_exp = links.most_expensive(10) 
print(f"Most expensive movies:\n{most_exp}")

Most expensive movies:
{'Cutthroat Island (1995)': 98000000.0, 'Jumanji (1995)': 65000000.0, 'American President, The (1995)': 62000000.0, 'GoldenEye (1995)': 60000000.0, 'Heat (1995)': 60000000.0, 'Sabrina (1995)': 58000000.0, 'Casino (1995)': 52000000.0, 'Nixon (1995)': 44000000.0, 'Sudden Death (1995)': 35000000.0, 'Ace Ventura: When Nature Calls (1995)': 30000000.0}


Таким образом, создание фильмов в 1995 году было весьма дорогостоящим предприятием.

##### Посмотрим на топ 10 прибыльных фильмов

In [None]:
%timeit links.most_profitable(10)
print(f"Most profitable movies:\n{links.most_profitable(10)}")


Most profitable movies:
{'Toy Story (1995)': 364436586.0, 'GoldenEye (1995)': 292194034.0, 'Jumanji (1995)': 197821940.0, 'Ace Ventura: When Nature Calls (1995)': 182385533.0, 'Heat (1995)': 127436818.0, 'Sense and Sensibility (1995)': 118582776.0, 'Waiting to Exhale (1995)': 65452156.0, 'Casino (1995)': 64112375.0, 'Father of the Bride Part II (1995)': 46594107.0, 'Grumpier Old Men (1995)': 46518503.0}


Данные показывают, что "Toy Story" является самым прибыльным фильмом 1995 года, что говорит о важности анимации в киноиндустрии. 

##### Посмотрим на топ 10 фильмов по их продолжительности

Заметим, что самый долгий фильм не превышает 192 минуты. Это означает, что ни один из фильмов в рассматриваемой выборке или базе данных не длится более 3 часов и 12 минут. 

In [None]:
%timeit links.longest(10)    
print(f"Most longest movies:\n{links.longest(10)}")

Most longest movies:
{'Nixon (1995)': 192, 'Casino (1995)': 178, 'Heat (1995)': 170, 'Sense and Sensibility (1995)': 136, 'GoldenEye (1995)': 130, 'Sabrina (1995)': 127, 'Cutthroat Island (1995)': 124, 'Waiting to Exhale (1995)': 124, 'American President, The (1995)': 114, 'Sudden Death (1995)': 111}


##### Посмотрим на топ 10 фильмов по стоимости в минуту

Данные показывают стоимость производства фильмов в расчете на одну минуту экранного времени. "Cutthroat Island (1995)" выделяется как самый дорогой фильм в данном списке, с расходом почти 800 тысяч долларов за минуту, в то время как остальные фильмы имеют значительно меньшую стоимость за минуту, что говорит о его масштабности.

In [49]:
%timeit links.top_cost_per_minute(10)
print(f"Movies based on the cost per minute of their runtime:\n{links.top_cost_per_minute(10)}")

Movies based on the cost per minute of their runtime:
{'Cutthroat Island (1995)': 790322.58, 'Jumanji (1995)': 625000.0, 'American President, The (1995)': 543859.65, 'GoldenEye (1995)': 461538.46, 'Sabrina (1995)': 456692.91, 'Toy Story (1995)': 370370.37, 'Heat (1995)': 352941.18, 'Dracula: Dead and Loving It (1995)': 340909.09, 'Ace Ventura: When Nature Calls (1995)': 333333.33, 'Sudden Death (1995)': 315315.32}


### **Исследование файла movies.csv**

Файл содержит теги, присвоенные пользователями фильмам.

Формат: movieId, title, genres.

Каждая строка представляет собой:

- movieId — уникальный идентификатор фильма.
- title — название фильма с годом его выпуска.
- genres — список жанров в формате genre1|genre2|e.t.c.

Размерность файла: 9743 строк х 3 столбца

### **Исследование работы класса Movies**

Создадим экземпляр класса movies, указав файл с данными в качестве аргумента.

In [18]:
%timeit movies = Movies(filepath_movies)
movies = Movies(filepath_movies)

4.4 ms ± 183 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


##### Посмотрим, сколько фильмов выпускалось в определенные года

Создадим два списка movies_max и movies_min, первый будет содержать первые 10 фильмов словаря с максимальным количеством фильмов, снятых за год, второй - последние 10 фильмов с минимальным количеством фильмов.

In [20]:
%timeit movies_by_years = movies.dist_by_release()
movies_by_years = movies.dist_by_release()
movies_max = [item for item in movies_by_years.items()][:10]
movies_min = [item for item in movies_by_years.items()][-10:]
print(f"Years with the highest number of films made:\n{movies_max}")
print(f"Years with the lowest number of films made:\n{movies_min}")

2.1 ms ± 159 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
Years with the highest number of films made:
[('2002', 310), ('2006', 295), ('2001', 294), ('2007', 283), ('2000', 283), ('2009', 282), ('2004', 279), ('2003', 279), ('2014', 277), ('1996', 276)]
Years with the lowest number of films made:
[('1916', 4), ('1920', 2), ('1922', 1), ('1921', 1), ('1919', 1), ('1917', 1), ('1915', 1), ('1908', 1), ('1903', 1), ('1902', 1)]


На основе этих данным можно сделать вывод о том, что существует огромная разница в объемах производства между ранним кинематографом и современным. В начале 20-го века было снято очень мало фильмов, в то время как в начале 21-го века объемы производства возросли в сотни раз. 

Также эти два списка наглядно **показывают, как киноиндустрия выросла и развилась со временем**. От единичных экспериментов до массового производства.

##### Посмотрим как много фильмов снимается в определенных жанрах

Вызовем метод dist_by_genres() и результат его работы сохраним в словарь genres_counts. На основе полученного словаря создадим два списка: 10 жанров с максимальным количеством снятых фильмов, и список 9 жанров с минимальным количеством снятых фильмов по ним. 

In [21]:
%timeit genres_counts = movies.dist_by_genres()
genres_counts = movies.dist_by_genres()
genres_max_counts = [item for item in genres_counts.items()][:10]
genres_min_counts = [item for item in genres_counts.items()][-9:-1]
print(f"Genres with the hiest number of films made:\n{genres_max_counts}")
print(f"Genres with the lowest number of films made:\n{genres_min_counts}")

6.17 ms ± 154 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
Genres with the hiest number of films made:
[('Drama', 4361), ('Comedy', 3756), ('Thriller', 1894), ('Action', 1828), ('Romance', 1596), ('Adventure', 1263), ('Crime', 1199), ('Sci-Fi', 980), ('Horror', 978), ('Fantasy', 779)]
Genres with the lowest number of films made:
[('Animation', 611), ('Mystery', 573), ('Documentary', 440), ('War', 382), ('Musical', 334), ('Western', 167), ('Imax', 158), ('Film-Noir', 87)]


Различие между двумя списками наглядно показывает, какие жанры доминируют в киноиндустрии, а какие занимают более нишевую позицию. Драма и комедия - это самые распространенные жанры.

##### Посмотрим конкретные фильмы и сколько у них жанров

Давайте посмотрим топ 10 фильмов, у которых наибольшее количество жанров.

In [23]:
%timeit many_genres = movies.most_genres(10)
many_genres = movies.most_genres(10)
print("Titles: Number of genres")
for item in many_genres.items():
    print(f"'{item[0]}': {item[1]}")

4.41 ms ± 327 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
Titles: Number of genres
'Rubber (2010)': 10
'Patlabor: The Movie (Kidô keisatsu patorebâ: The Movie) (1989)': 8
'Mulan (1998)': 7
'Who Framed Roger Rabbit? (1988)': 7
'Osmosis Jones (2001)': 7
'Interstate 60 (2002)': 7
'Robots (2005)': 7
'Pulse (2006)': 7
'Aqua Teen Hunger Force Colon Movie Film for Theaters (2007)': 7
'Enchanted (2007)': 7


В списке есть как популярные фильмы (например, "Mulan", "Who Framed Roger Rabbit?"), так и менее известные (например, "Rubber", "Osmosis Jones"). Это указывает, что многожанровость не является признаком популярности фильмов.

### **Исследование файла ratings.csv**

- userId - уникальный ID пользователя 
- movieId - уникальный ID фильма
- rating - оценки. Выставляются по 5-звездочной шкале с шагом в ползвезды (0,5 звезды - 5,0 звезды).
- timestamp - временные метки. Представляют собой секунды с полуночи по всемирному координированному времени (UTC) 1 января 1970 года.

Размерность файла: 100837строк х 4столбца

In [None]:
%timeit ratings = Ratings(filepath_ratings)
ratings = Ratings(filepath_ratings)

67.4 ms ± 3.87 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


##### Обычно при оценивании фильмов люди не бывают на 100% уверены, что фильм идеальный или ужасный. Поэтому большая часть оценок должна быть чем-то средним. Проверим это

In [None]:
%timeit Ratings.Movies.dist_by_rating(ratings)
Ratings.Movies.dist_by_rating(ratings)

31.3 ms ± 1.21 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{0.5: 1370,
 1.0: 2811,
 1.5: 1791,
 2.0: 7551,
 2.5: 5550,
 3.0: 20047,
 3.5: 13136,
 4.0: 26818,
 4.5: 8551,
 5.0: 13211}

Действительно, большая часть выставленных оценок лежит в пределах 3.0-4.0

Проверим какие фильмы оценили наибольшее количество раз

In [None]:
%timeit Ratings.Movies.top_by_num_of_ratings(ratings, 20)
Ratings.Movies.top_by_num_of_ratings(ratings, 20)

61.3 ms ± 1.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'Forrest Gump (1994)': 329,
 'Shawshank Redemption, The (1994)': 317,
 'Pulp Fiction (1994)': 307,
 'Silence of the Lambs, The (1991)': 279,
 'Matrix, The (1999)': 278,
 'Star Wars: Episode IV - A New Hope (1977)': 251,
 'Jurassic Park (1993)': 238,
 'Braveheart (1995)': 237,
 'Terminator 2: Judgment Day (1991)': 224,
 "Schindler's List (1993)": 220,
 'Fight Club (1999)': 218,
 'Toy Story (1995)': 215,
 'Star Wars: Episode V - The Empire Strikes Back (1980)': 211,
 'Usual Suspects, The (1995)': 204,
 'American Beauty (1999)': 204,
 'Seven (a.k.a. Se7en) (1995)': 203,
 'Independence Day (a.k.a. ID4) (1996)': 202,
 'Apollo 13 (1995)': 201,
 'Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)': 200,
 'Lord of the Rings: The Fellowship of the Ring, The (2001)': 198}

Фильм вышедший в 21 веке попался только на 20-м месте топа. Может быть до 21 века и количество оценок было большим?

In [None]:
%timeit Ratings.Movies.dist_by_year(ratings)
Ratings.Movies.dist_by_year(ratings)

77.3 ms ± 2.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{1996: 6040,
 1997: 1916,
 1998: 507,
 1999: 2439,
 2000: 10061,
 2001: 3922,
 2002: 3478,
 2003: 4014,
 2004: 3279,
 2005: 5813,
 2006: 4059,
 2007: 7114,
 2008: 4351,
 2009: 4158,
 2010: 2300,
 2011: 1690,
 2012: 4657,
 2013: 1664,
 2014: 1439,
 2015: 6616,
 2016: 6702,
 2017: 8199,
 2018: 6418}

В целом самое большое количество оценок было в 2000 году. В 1996 году большое количество оценок может быть связано с близкой к этому году 1994. Предыдущий топ фильмов возглавляли 3 фильма вышедших именно в этот год

Оценим среднее и медиану по рейтингу

In [None]:
%timeit Ratings.Movies.top_by_ratings(ratings, 1000, metric="average")
Ratings.Movies.top_by_ratings(ratings, 1000, metric="average")

109 ms ± 5.72 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'The Jinx: The Life and Deaths of Robert Durst (2015)': 5.0,
 'Galaxy of Terror (Quest) (1981)': 5.0,
 'Alien Contamination (1980)': 5.0,
 "I'm the One That I Want (2000)": 5.0,
 'Lesson Faust (1994)': 5.0,
 'Assignment, The (1997)': 5.0,
 'Mephisto (1981)': 5.0,
 'Black Mirror': 5.0,
 'Dylan Moran: Monster (2004)': 5.0,
 'Bill Hicks: Revelations (1993)': 5.0,
 'My Sassy Girl (Yeopgijeogin geunyeo) (2001)': 5.0,
 'Strictly Sexual (2008)': 5.0,
 'Story of Women (Affaire de femmes, Une) (1988)': 5.0,
 'Passenger, The (Professione: reporter) (1975)': 5.0,
 'Marriage of Maria Braun, The (Ehe der Maria Braun, Die) (1979)': 5.0,
 'Lamerica (1994)': 5.0,
 'Entertaining Angels: The Dorothy Day Story (1996)': 5.0,
 'Siam Sunset (1999)': 5.0,
 'Little Murders (1971)': 5.0,
 'Tales of Manhattan (1942)': 5.0,
 'Calcium Kid, The (2004)': 5.0,
 'Go for Zucker! (Alles auf Zucker!) (2004)': 5.0,
 'Chump at Oxford, A (1940)': 5.0,
 'Ugly Duckling and Me!, The (2006)': 5.0,
 'Breed, The (2006)': 5.0,
 

In [None]:
%timeit Ratings.Movies.top_by_ratings(ratings, 1000, metric="median")
Ratings.Movies.top_by_ratings(ratings, 1000, metric="median")

106 ms ± 2.84 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


{'The Jinx: The Life and Deaths of Robert Durst (2015)': 5.0,
 'Galaxy of Terror (Quest) (1981)': 5.0,
 'Alien Contamination (1980)': 5.0,
 'Troll 2 (1990)': 5.0,
 "I'm the One That I Want (2000)": 5.0,
 'Chorus Line, A (1985)': 5.0,
 "Guess Who's Coming to Dinner (1967)": 5.0,
 'Children of the Corn IV: The Gathering (1996)': 5.0,
 'Band of Brothers (2001)': 5.0,
 'Lesson Faust (1994)': 5.0,
 'Assignment, The (1997)': 5.0,
 'Mephisto (1981)': 5.0,
 'Trial, The (Procès, Le) (1962)': 5.0,
 'Black Mirror: White Christmas (2014)': 5.0,
 'Black Mirror': 5.0,
 'Dylan Moran: Monster (2004)': 5.0,
 'Bill Hicks: Revelations (1993)': 5.0,
 'My Sassy Girl (Yeopgijeogin geunyeo) (2001)': 5.0,
 'Strictly Sexual (2008)': 5.0,
 'Secrets & Lies (1996)': 5.0,
 'Story of Women (Affaire de femmes, Une) (1988)': 5.0,
 'Passenger, The (Professione: reporter) (1975)': 5.0,
 'Marriage of Maria Braun, The (Ehe der Maria Braun, Die) (1979)': 5.0,
 "Man Bites Dog (C'est arrivé près de chez vous) (1992)": 5.0,


Очень многие фильмы по этим метрикам получили оценку 5.0. Посмотрим на разброс рейтингов и какие фильмы вызывают самые разные ощущения у критиков

In [None]:
%timeit Ratings.Movies.top_controversial(ratings, 100)
Ratings.Movies.top_controversial(ratings, 100)

138 ms ± 3.01 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{"Ivan's Childhood (a.k.a. My Name is Ivan) (Ivanovo detstvo) (1962)": 5.06,
 'Fanny and Alexander (Fanny och Alexander) (1982)': 5.06,
 'Troll 2 (1990)': 4.5,
 'Lassie (1994)': 4.0,
 'Zed & Two Noughts, A (1985)': 4.0,
 'Kwaidan (Kaidan) (1964)': 4.0,
 'Emma (2009)': 4.0,
 'Play Time (a.k.a. Playtime) (1967)': 3.72,
 'Room, The (2003)': 3.56,
 'Peeping Tom (1960)': 3.5,
 'Opera (1987)': 3.5,
 'Immortals (2011)': 3.39,
 'Skin I Live In, The (La piel que habito) (2011)': 3.38,
 'Host, The (2013)': 3.38,
 'Phantasm II (1988)': 3.17,
 'Holiday (1938)': 3.17,
 'Exorcist III, The (1990)': 3.12,
 'Clonus Horror, The (1979)': 3.06,
 'The Purge: Election Year (2016)': 3.06,
 "To Grandmother's House We Go (1992)": 3.06,
 'Despicable Me 3 (2017)': 3.06,
 'Garfield: A Tail of Two Kitties (2006)': 3.06,
 'I, Frankenstein (2014)': 3.06,
 'Room in Rome (Habitación en Roma) (2010)': 3.06,
 'Babylon 5': 3.06,
 'Young Adult (2011)': 3.06,
 'The Cloverfield Paradox (2018)': 3.06,
 'Wolfman, The (2010)':

Топ возглавляют фильмы 20 века. Такой разброс в рейтинге может быть вызван разными ценностями у поколений

Перейдем к пользователям. Кто поставил больше всех оценок?

In [None]:
%timeit Ratings.Users.top_by_num_of_ratings(ratings, 10)
Ratings.Users.top_by_num_of_ratings(ratings, 10)

10.5 ms ± 333 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{'414': 2698,
 '599': 2478,
 '474': 2108,
 '448': 1864,
 '274': 1346,
 '610': 1302,
 '68': 1260,
 '380': 1218,
 '606': 1115,
 '288': 1055}

2698 фильмов у самого активного критика. Посмотрим на средние оценки

In [None]:
%timeit Ratings.Users.top_by_ratings(ratings, 100, metric="average")
Ratings.Users.top_by_ratings(ratings, 100, metric="average")

62.2 ms ± 1.36 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'53': 5.0,
 '251': 4.87,
 '515': 4.85,
 '25': 4.81,
 '30': 4.74,
 '523': 4.69,
 '348': 4.67,
 '171': 4.63,
 '452': 4.56,
 '43': 4.55,
 '122': 4.55,
 '371': 4.55,
 '441': 4.52,
 '400': 4.51,
 '52': 4.48,
 '538': 4.47,
 '168': 4.46,
 '417': 4.46,
 '543': 4.45,
 '106': 4.44,
 '319': 4.43,
 '601': 4.43,
 '413': 4.41,
 '475': 4.41,
 '188': 4.4,
 '12': 4.39,
 '276': 4.39,
 '154': 4.38,
 '533': 4.38,
 '581': 4.38,
 '1': 4.37,
 '69': 4.37,
 '586': 4.37,
 '59': 4.36,
 '128': 4.36,
 '544': 4.36,
 '253': 4.35,
 '459': 4.35,
 '553': 4.34,
 '585': 4.34,
 '519': 4.33,
 '70': 4.32,
 '336': 4.32,
 '435': 4.32,
 '300': 4.3,
 '93': 4.29,
 '532': 4.28,
 '74': 4.27,
 '49': 4.26,
 '80': 4.26,
 '224': 4.26,
 '291': 4.26,
 '164': 4.25,
 '169': 4.25,
 '246': 4.25,
 '398': 4.25,
 '162': 4.24,
 '209': 4.24,
 '362': 4.24,
 '494': 4.23,
 '250': 4.22,
 '17': 4.21,
 '337': 4.21,
 '340': 4.21,
 '573': 4.21,
 '79': 4.2,
 '227': 4.2,
 '252': 4.2,
 '258': 4.2,
 '460': 4.2,
 '595': 4.2,
 '97': 4.19,
 '364': 4.19,
 '526

Пользователь с ID 53 был очень оптимистичен при оценке фильмов и возглавил этот топ. В целом средние оценки у топ 100 критиков болье 4.0

In [None]:
%timeit Ratings.Users.top_by_ratings(ratings, 100, metric="median")
Ratings.Users.top_by_ratings(ratings, 100, metric="median")

127 ms ± 2.85 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'1': 5.0,
 '25': 5.0,
 '30': 5.0,
 '43': 5.0,
 '52': 5.0,
 '53': 5.0,
 '59': 5.0,
 '69': 5.0,
 '77': 5.0,
 '106': 5.0,
 '154': 5.0,
 '164': 5.0,
 '171': 5.0,
 '188': 5.0,
 '224': 5.0,
 '236': 5.0,
 '251': 5.0,
 '258': 5.0,
 '267': 5.0,
 '276': 5.0,
 '348': 5.0,
 '393': 5.0,
 '413': 5.0,
 '417': 5.0,
 '441': 5.0,
 '452': 5.0,
 '494': 5.0,
 '515': 5.0,
 '523': 5.0,
 '533': 5.0,
 '543': 5.0,
 '544': 5.0,
 '598': 5.0,
 '12': 4.75,
 '49': 4.5,
 '70': 4.5,
 '72': 4.5,
 '88': 4.5,
 '122': 4.5,
 '168': 4.5,
 '169': 4.5,
 '178': 4.5,
 '209': 4.5,
 '210': 4.5,
 '221': 4.5,
 '246': 4.5,
 '250': 4.5,
 '253': 4.5,
 '295': 4.5,
 '296': 4.5,
 '319': 4.5,
 '336': 4.5,
 '371': 4.5,
 '398': 4.5,
 '399': 4.5,
 '400': 4.5,
 '421': 4.5,
 '435': 4.5,
 '459': 4.5,
 '460': 4.5,
 '475': 4.5,
 '495': 4.5,
 '505': 4.5,
 '537': 4.5,
 '538': 4.5,
 '548': 4.5,
 '553': 4.5,
 '573': 4.5,
 '578': 4.5,
 '581': 4.5,
 '585': 4.5,
 '586': 4.5,
 '594': 4.5,
 '601': 4.5,
 '138': 4.25,
 '327': 4.25,
 '2': 4.0,
 '4': 4.0,
 '

В медианных значениях оценка 5.0 встречается чаще

Посмотрим на дисперсию рейтингов

In [None]:
%timeit Ratings.Users.top_controversial(ratings, 100)
Ratings.Users.top_controversial(ratings, 100)

157 ms ± 2.44 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'3': 4.26,
 '461': 3.1,
 '55': 3.09,
 '259': 2.94,
 '329': 2.92,
 '502': 2.76,
 '175': 2.75,
 '598': 2.7,
 '393': 2.61,
 '138': 2.44,
 '160': 2.39,
 '22': 2.36,
 '418': 2.25,
 '308': 2.23,
 '360': 2.23,
 '287': 2.21,
 '255': 2.2,
 '338': 2.18,
 '295': 2.16,
 '535': 2.16,
 '112': 2.12,
 '396': 2.05,
 '153': 2.04,
 '191': 2.03,
 '266': 2.03,
 '358': 2.03,
 '207': 2.02,
 '416': 2.01,
 '147': 1.97,
 '467': 1.97,
 '310': 1.9,
 '549': 1.87,
 '576': 1.84,
 '594': 1.84,
 '34': 1.82,
 '373': 1.81,
 '517': 1.81,
 '85': 1.8,
 '536': 1.79,
 '423': 1.78,
 '542': 1.78,
 '127': 1.77,
 '236': 1.77,
 '485': 1.77,
 '500': 1.77,
 '7': 1.76,
 '143': 1.74,
 '126': 1.73,
 '4': 1.72,
 '77': 1.69,
 '344': 1.69,
 '399': 1.68,
 '296': 1.67,
 '76': 1.66,
 '406': 1.66,
 '543': 1.65,
 '258': 1.64,
 '297': 1.63,
 '83': 1.62,
 '136': 1.62,
 '149': 1.61,
 '268': 1.61,
 '75': 1.6,
 '554': 1.6,
 '9': 1.58,
 '328': 1.58,
 '335': 1.58,
 '528': 1.58,
 '413': 1.57,
 '313': 1.56,
 '51': 1.54,
 '311': 1.54,
 '224': 1.53,
 '

Наибольшая оценка у пользователя с ID 3. Следующие критики из топа отстают по данной метрике на 1.16 и более