# Предисловие

В маленьком, почти забытом городе, скрытом среди зелёных холмов и туманных лесов, располагался старинный киноархив. Его стены хранили не только плёнки и постеры, но и много историй — тех, что зрители давно забыли, и тех, что продолжали жить среди деревянных полок с пожелтевшими коробками. Архивом управлял Артур — старый киноман, чьи глаза помнили не только каждый кадр из всех фильмов, что когда-либо выходили, но и редкие моменты, когда в их сюжетах скрывались настоящие чудеса.

Артур был как библиотека на ногах, только вместо книг — фильмы. Он мог часами рассказывать о незаслуженно забытых картинах, о режиссёрах, чьи имена стерлись из истории, о том, как свет в кинозале менялся, когда на экране появлялся новый талант. Но, несмотря на свою страсть, у него был один большой секрет: иногда ему хотелось забыть о фильмах, которые не должны были быть. Они появлялись в списках случайных номеров, и их существование оставалось загадкой. Но в этот день всё изменилось.

Макс, молодой помощник Артура, только что вернулся из командировки. Он был увлечённым студентом, который, по словам Артура, «еще не знал, что такое настоящий кинематограф». Открыв одну из старых коробок с фильмами, Макс наткнулся на странный список — это были фильмы, которые никогда не должны были попасть в архив. В их названиях не было ничего знакомого, а кодировка этих фильмов была такой, что Артур, даже с его обширными знаниями, не мог бы с уверенностью сказать, что это за фильмы.

— Артур, посмотри, что я нашёл! — Макс не смог сдержать эмоций, положив перед старым киноманом коробку с загадочными названиями. — Это список фильмов, которых не должно было быть.

Артур вздохнул, откинулся в кресле и прикрыл глаза:

— Это точно не из моего архива... Но давай-ка попробуем понять, что это за фильмы. Для этого нам нужно разобраться с данными, которые их окружают. Точно знаю, что с этим можно что-то сделать.

# Глава 1: Затерянные фильмы

— Артур, смотри! Эти фильмы… Я нигде не могу найти их в интернете. Может, это какие-то забытые шедевры?

— Или просто выдумка, — отозвался старик, но в его глазах появилось любопытство.

— Давай проверим в базе MovieLens! — предложил Макс.

#### Исследуем данные

In [None]:
from movielens_analysis import Movies, Links, Ratings, Tags  

%timeit movies = Movies('ml-latest-small/movies.csv')
%timeit ratings = Ratings('ml-latest-small/ratings.csv')
%timeit links = Links('ml-latest-small/links.csv')
%timeit tags = Tags('ml-latest-small/tags.csv')

movies = Movies('ml-latest-small/movies.csv')
ratings = Ratings('ml-latest-small/ratings.csv')
links = Links('ml-latest-small/links.csv')
tags = Tags('ml-latest-small/tags.csv')

2.72 ms ± 43.1 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
1.23 ms ± 3.91 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
3.26 ms ± 22.5 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


# Глава 2: Следы в истории

Макс загрузил данные и стал изучать, когда были выпущены фильмы.

— Давай посмотрим, в какие годы выходило больше всего фильмов, — предложил он.

In [2]:
%timeit release_distribution = movies.dist_by_release()
release_distribution = movies.dist_by_release()
print("release_distribution")
display(release_distribution)


692 μs ± 7.71 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
release_distribution


OrderedDict([(1995, 224),
             (1994, 184),
             (1996, 181),
             (1993, 101),
             (1992, 23),
             (1990, 15),
             (1991, 15),
             (1989, 14),
             (1986, 9),
             (1982, 8),
             (1940, 8),
             (1957, 8),
             (1987, 8),
             (1980, 8),
             (1981, 7),
             (1988, 7),
             (1979, 7),
             (1955, 6),
             (1959, 6),
             (1968, 6),
             (1997, 6),
             (1939, 6),
             (1985, 6),
             (1967, 5),
             (1965, 5),
             (1951, 5),
             (1958, 5),
             (1944, 5),
             (1941, 5),
             (1975, 5),
             (1971, 5),
             (1984, 5),
             (1964, 4),
             (1973, 4),
             (1954, 4),
             (1934, 4),
             (1960, 4),
             (1963, 4),
             (1950, 4),
             (1974, 4),
             (1983, 4),
    

— Интересно, пик пришёлся на 90-е! Но что насчёт жанров? — задумался Артур.

In [3]:
%timeit genre_distribution = movies.dist_by_genres()
genres = movies.dist_by_genres()
print("genres")
display(genres)

556 μs ± 3.61 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
genres


OrderedDict([('Drama', 507),
             ('Comedy', 365),
             ('Romance', 208),
             ('Thriller', 179),
             ('Action', 158),
             ('Adventure', 126),
             ('Crime', 122),
             ('Children', 100),
             ('Fantasy', 69),
             ('Sci-Fi', 69),
             ('Mystery', 58),
             ('Musical', 53),
             ('Horror', 51),
             ('War', 48),
             ('Animation', 37),
             ('Documentary', 25),
             ('Western', 23),
             ('Film-Noir', 18),
             ('IMAX', 3)])

— Какие фильмы включают больше всего жанров? — спросил Макс.

In [4]:
%timeit top_movies_by_genres = movies.most_genres(5)
top_movies_by_genres = movies.most_genres(5)
print("Фильмы с наибольшим количеством жанров")
display(top_movies_by_genres)

442 μs ± 1.77 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Фильмы с наибольшим количеством жанров


OrderedDict([('Strange Days (1995)', 6),
             ('Lion King, The (1994)', 6),
             ('Getaway, The (1994)', 6),
             ('Super Mario Bros. (1993)', 6),
             ('Beauty and the Beast (1991)', 6)])

# Глава 3: Рейтинг как улика

Погружаясь глубже, друзья решили изучить, какие фильмы пользователи оценивали чаще всего.

In [None]:
ratings_analysis = Ratings.Movies(ratings.data, 'ml-latest-small/movies.csv')

%timeit ratings_by_year = ratings_analysis.dist_by_year()
ratings_by_year = ratings_analysis.dist_by_year()
print("Сортировка по годам")
display(ratings_by_year)


266 μs ± 1.12 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Сортировка по годам


OrderedDict([(1996, 282),
             (1999, 66),
             (2000, 221),
             (2001, 52),
             (2005, 91),
             (2006, 3),
             (2007, 1),
             (2011, 33),
             (2015, 22)])

— Ух ты, какие фильмы получили больше всего оценок? — спросил Макс.

In [None]:
%timeit top_rated_movies = ratings_analysis.top_by_num_of_ratings(5)
top_rated_movies = ratings_analysis.top_by_num_of_ratings(5)
print("Фильмы с наибольшим количеством оценок")
display(top_rated_movies)

120 μs ± 264 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Фильмы с наибольшим количеством оценок


{'Pulp Fiction (1994)': 4,
 "Schindler's List (1993)": 4,
 'Batman (1989)': 4,
 'Fargo (1996)': 4,
 'Aladdin (1992)': 4}

— А теперь глянем на самые спорные фильмы, — предложил Артур.

In [None]:
%timeit top_controversial_movies = ratings_analysis.top_controversial(5)
top_controversial_movies = ratings_analysis.top_controversial(5)
print("Фильмы с самым разным мнением зрителей")
display(top_controversial_movies)

273 μs ± 6.32 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Фильмы с самым разным мнением зрителей


{'Bambi (1942)': 10.125,
 'My Fair Lady (1964)': 10.125,
 'Good Will Hunting (1997)': 6.125,
 'Courage Under Fire (1996)': 6.125,
 "Schindler's List (1993)": 4.5625}

— Давай посмотрим, как эти фильмы оценивают, — предложил Макс.

In [None]:

ratings_analysis = Ratings('ml-latest-small/ratings.csv')
movies_analysis = Ratings.Movies(ratings_analysis.data, 'ml-latest-small/movies.csv')

%timeit ratings_by_value = movies_analysis.dist_by_rating()
ratings_by_value = movies_analysis.dist_by_rating()

print("Распределение по рейтингам")
display(ratings_by_value)


73.1 μs ± 300 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Распределение по рейтингам


OrderedDict([(0.5, 21),
             (1.0, 29),
             (1.5, 8),
             (2.0, 48),
             (2.5, 5),
             (3.0, 200),
             (3.5, 13),
             (4.0, 225),
             (4.5, 22),
             (5.0, 200)])

— Артур, давай посмотрим, какие фильмы по-настоящему самые лучшие, — предложил Макс, крутя колесо мыши.

— А как будем смотреть? Средний рейтинг или медиану? — поинтересовался старик.

— Давай оба варианта проверим, интересно, как они отличаются, — ответил Макс, с любопытством вглядываясь в экран.

— Хорошая идея, — кивнул Артур, — посмотрим, что нам покажет статистика.

In [None]:

ratings_analysis = Ratings('ml-latest-small/ratings.csv')
movies_analysis = Ratings.Movies(ratings_analysis.data, 'ml-latest-small/movies.csv')


%timeit top_rated_movies = movies_analysis.top_by_ratings(5, 'average')
top_rated_movies = movies_analysis.top_by_ratings(5, 'average')
print("Топ фильмов по среднему рейтингу")
display(top_rated_movies)


%timeit top_rated_movies_median = movies_analysis.top_by_ratings(5, 'median')
top_rated_movies_median = movies_analysis.top_by_ratings(5, 'median')
print("Топ фильмов по медианному рейтингу")
display(top_rated_movies_median)


547 μs ± 6.79 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Топ фильмов по среднему рейтингу


OrderedDict([('Bottle Rocket (1996)', 5.0),
             ('Canadian Bacon (1995)', 5.0),
             ('Star Wars: Episode IV - A New Hope (1977)', 5.0),
             ('James and the Giant Peach (1996)', 5.0),
             ('Citizen Kane (1941)', 5.0)])

570 μs ± 951 ns per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Топ фильмов по медианному рейтингу


OrderedDict([('Bottle Rocket (1996)', 5.0),
             ('Canadian Bacon (1995)', 5.0),
             ('Star Wars: Episode IV - A New Hope (1977)', 5.0),
             ('Tommy Boy (1995)', 5.0),
             ('Forrest Gump (1994)', 5.0)])

# Глава 4: След ведёт в Голливуд

— Может, посмотрим, какие режиссёры сняли больше всего фильмов? — предложил Макс.

In [None]:
%timeit top_directors = links.top_directors(5)
top_directors = links.top_directors(5)
print("Самые продуктивные режиссёры")
display(top_directors)

— Интересно, сколько стоили самые дорогие фильмы? — спросил Артур.

In [None]:
%timeit most_expensive_movies = links.most_expensive(5)
most_expensive_movies = links.most_expensive(5)
print("Самые дорогие фильмы")
display(most_expensive_movies)

— А какие из них были самыми прибыльными? — добавил Макс.

In [None]:
%timeit most_profitable_movies = links.most_profitable(5)
most_profitable_movies = links.most_profitable(5)
print("Самые прибыльные фильмы")
display(most_profitable_movies)

— А что насчёт тегов? Какие самые популярные? — спросил Макс.

In [27]:
%timeit popular_tags = tags.most_popular(5)
popular_tags = tags.most_popular(5)
print("Самые популярные теги")
display(popular_tags)

139 μs ± 454 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Самые популярные теги


{'funny': 15,
 'sci-fi': 14,
 'twist ending': 12,
 'dark comedy': 12,
 'atmospheric': 10}

— О, а давай про научную фантастику? — засмеялся Макс

In [28]:
word = "sci-fi"
%timeit tags_with_word = tags.tags_with(word)
tags_with_word = tags.tags_with(word)
print("Фильмы с тегом 'sci-fi'")
display(tags_with_word)

84.9 μs ± 1.46 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Фильмы с тегом 'sci-fi'


['Sci-Fi', 'classic sci-fi', 'sci-fi']

— Макс, а какие теги у нас самые многословные? — спросил Артур, поднимая бровь.

— Давай проверим, — ответил Макс, не отрываясь от экрана. — Интересно, какие теги будут лидировать по количеству слов.

In [None]:

tags_analysis = Tags('ml-latest-small/tags.csv')

%timeit most_words_tags = tags_analysis.most_words(5)
most_words_tags = tags_analysis.most_words(5)

print("Теги с наибольшим количеством слов")
display(most_words_tags)

148 μs ± 585 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Теги с наибольшим количеством слов


OrderedDict([('Something for everyone in this one... saw it without and plan on seeing it with kids!',
              16),
             ('the catholic church is the most corrupt organization in history',
              10),
             ('Oscar (Best Music - Original Score)', 6),
             ('Everything you want is here', 5),
             ('based on a true story', 5)])

— Артур, а какие теги самые длинные? — спросил Макс, внимательно следя за результатами.

— Хороший вопрос, — ответил Артур, кивая. — Давай посмотрим, какие теги займут верхние строчки по длине.

In [None]:

%timeit longest_tags = tags_analysis.longest(5)
longest_tags = tags_analysis.longest(5)

print("Самые длинные теги")
display(longest_tags)

70.4 μs ± 472 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Самые длинные теги


['Something for everyone in this one... saw it without and plan on seeing it with kids!',
 'the catholic church is the most corrupt organization in history',
 'audience intelligence underestimated',
 'Oscar (Best Music - Original Score)',
 'assassin-in-training (scene)']

— Знаешь, Макс, будет интересно узнать, какие теги одновременно и длинные, и с множеством слов, — сказал Артур, задумавшись.

— О, да! Это будет забавно, — ответил Макс, нажимая клавиши. — Посмотрим, что нам выдаст база.

In [None]:

%timeit most_words_and_longest_tags = tags_analysis.most_words_and_longest(5)
most_words_and_longest_tags = tags_analysis.most_words_and_longest(5)

print("Теги с наибольшим количеством слов и длиной")
display(most_words_and_longest_tags)

250 μs ± 6.52 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Теги с наибольшим количеством слов и длиной


['Oscar (Best Music - Original Score)',
 'Something for everyone in this one... saw it without and plan on seeing it with kids!',
 'the catholic church is the most corrupt organization in history']

# Глава 5: Разгадка

Макс и Артур стояли в темном архиве, погруженные в мысли о том, что они только что обнаружили. Эти фильмы — это не просто кадры, не просто старые записи. Это была часть великой истории, которую кому-то пришлось скрыть. Но теперь, благодаря их усилиям, эта история была восстановлена, и они могли раскрыть миру то, что было скрыто.

"Знаешь, Макс," — сказал Артур, — "Иногда самые важные истории не те, которые видны сразу. Иногда их нужно найти, вытащить из тени и дать им возможность светить в нашем мире. И кто знает, может быть, то, что мы нашли, способно повлиять на кинематограф и на общество в целом."

Макс задумался и улыбнулся. Это было только начало их путешествия, а мир кино был полон тайн, которые стоило раскрывать.