# MovieLens Analytics: История 1000 записей
В этом отчёте анализируются кинематографические тренды и поведение пользователей.

**Примечание по путям:** Убедитесь, что файлы `movies.csv`, `ratings.csv`, `tags.csv` и `links.csv` находятся в той же папке, что и этот блокнот.

**Проверка ограничений:**
- Используется только `import movielens_analysis`.
- В ячейках не вызываются встроенные функции Python.
- Каждая кодовая ячейка содержит `%timeit`.
- Результаты присваиваются переменным и визуализируются.

In [1]:
%timeit import movielens_analysis
import movielens_analysis

The slowest run took 13.87 times longer than the fastest. This could mean that an intermediate result is being cached.
539 ns ± 773 ns per loop (mean ± std. dev. of 7 runs, 1 loop each)


## Часть 1: Каталог и толпа (Фильмы и теги)
Начнём с загрузки нашей коллекции. Примечание: класс фильтрует фильмы, у которых есть хотя бы одна оценка или тег.

In [2]:
%timeit movielens_analysis.Movies('data/movies.csv', limit=1000)
movies = movielens_analysis.Movies('data/movies.csv', limit=1000)
movies.show(movies.movies)

8.29 ms ± 322 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


ID,Title,Genres,Year
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1995
2,Jumanji (1995),Adventure|Children|Fantasy,1995
3,Grumpier Old Men (1995),Comedy|Romance,1995
4,Waiting to Exhale (1995),Comedy|Drama|Romance,1995
5,Father of the Bride Part II (1995),Comedy,1995
6,Heat (1995),Action|Crime|Thriller,1995
7,Sabrina (1995),Comedy|Romance,1995
8,Tom and Huck (1995),Adventure|Children,1995
10,GoldenEye (1995),Action|Adventure|Thriller,1995
11,"American President, The (1995)",Comedy|Drama|Romance,1995


#### Вопрос: У каждой великой коллекции есть «Золотая Эра». Глядя на наши первые 1000 записей, какой год можно назвать бесспорным чемпионом по продуктивности? И что мы видим — расцвет современного кино или ностальгический взгляд в прошлое?

In [3]:
%timeit movies.dist_by_release()
movies.show(movies.dist_by_release())

77.9 µs ± 4.31 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Ключ,Значение
1995,126
1994,89
1996,84
1993,48
1992,8
1990,5
1991,5
1989,5
1986,5
1982,3


#### Вопрос: Если бы вам пришлось описать «душу» этого набора данных, используя только жанры, это был бы насыщенный адреналином боевик или тихий, драматический шедевр? Какие жанры доминируют в ландшафте наших первых тысячи историй?

In [4]:
%timeit movies.dist_by_genres()
movies.show(movies.dist_by_genres())

522 µs ± 26.8 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Ключ,Значение
Drama,204
Comedy,173
Romance,104
Action,87
Thriller,86
Adventure,79
Children,61
Crime,50
Fantasy,43
Sci-Fi,38


In [5]:
%timeit movies.most_genres(10)
movies.show(movies.most_genres(10))

211 µs ± 13.6 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Ключ,Значение
"Lion King, The (1994)",6
Super Mario Bros. (1993),6
Beauty and the Beast (1991),6
All Dogs Go to Heaven 2 (1996),6
Space Jam (1996),6
Aladdin and the King of Thieves (1996),6
Toy Story (1995),5
Copycat (1995),5
"City of Lost Children, The (Cité des enfants perdus, La) (1995)",5
Bad Boys (1995),5


In [6]:
%timeit movielens_analysis.Tags('data/tags.csv', limit=1000)
tags = movielens_analysis.Tags('data/tags.csv', limit=1000)
movies.show(tags.most_popular(10))

3.19 ms ± 262 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Ключ,Значение
funny,15
sci-fi,14
twist ending,12
dark comedy,12
atmospheric,10
superhero,10
comedy,10
action,10
suspense,10
Leonardo DiCaprio,9


In [7]:
%timeit tags.most_words(10)
movies.show(tags.most_words(10))

249 µs ± 21.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Ключ,Значение
Something for everyone in this one... saw it without and plan on seeing it with kids!,16
the catholic church is the most corrupt organization in history,10
Oscar (Best Music - Original Score),6
Everything you want is here,5
based on a true story,5
based on a book,4
seen more than once,4
political right versus left,4
lord of the rings,4
a clever chef rat,4


In [8]:
%timeit tags.longest(10)
movies.show(tags.longest(10))

126 µs ± 1.35 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Элементы
Something for everyone in this one... saw it without and plan on seeing it with kids!
the catholic church is the most corrupt organization in history
audience intelligence underestimated
Oscar (Best Music - Original Score)
assassin-in-training (scene)
political right versus left
Everything you want is here
Oscar (Best Cinematography)
representation of children
Disney animated feature


In [9]:
%timeit tags.most_words_and_longest(10)
movies.show(tags.most_words_and_longest(10))

388 µs ± 9.13 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Элементы
Something for everyone in this one... saw it without and plan on seeing it with kids!
political right versus left
Everything you want is here
the catholic church is the most corrupt organization in history
Oscar (Best Music - Original Score)


In [10]:
%timeit tags.tags_with('funny')
movies.show(tags.tags_with('funny'))

116 µs ± 2.98 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Элементы
funny
stupid but funny
very funny


## Часть 2: Вес мнений (Оценки и подклассы)
Далее мы рассмотрим статистические распределения оценок и выявим топовые и спорные фильмы.

In [11]:
%timeit movielens_analysis.Ratings('data/ratings.csv', 'data/movies.csv', limit=1000)
ratings = movielens_analysis.Ratings('data/ratings.csv', 'data/movies.csv', limit=1000)
ratings.show(ratings.movies.dist_by_year())

19.5 ms ± 632 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Ключ,Значение
1996,358
1999,82
2000,296
2001,70
2005,121
2006,4
2007,1
2011,39
2015,29


#### Вопрос: Глядя на статистическое распределение всех выставленных оценок, склонны ли наши пользователи быть «суровыми критиками», редко раздающими высший балл, или наше сообщество — щедрая толпа, которая любит почти всё, что смотрит?

In [12]:
%timeit ratings.movies.dist_by_rating()
ratings.show(ratings.movies.dist_by_rating())

246 µs ± 11.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Ключ,Значение
0.5,24
1.0,39
1.5,11
2.0,57
2.5,7
3.0,253
3.5,17
4.0,292
4.5,33
5.0,267


In [13]:
%timeit ratings.movies.top_by_num_of_ratings(10)
ratings.show(ratings.movies.top_by_num_of_ratings(10))

384 µs ± 22.8 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Ключ,Значение
"Usual Suspects, The (1995)",4
Pulp Fiction (1994),4
"Fugitive, The (1993)",4
Schindler's List (1993),4
Batman (1989),4
"Silence of the Lambs, The (1991)",4
Fargo (1996),4
Aladdin (1992),4
Beauty and the Beast (1991),4
Toy Story (1995),3


In [14]:
%timeit ratings.movies.top_by_ratings(10, metric=ratings.average)
ratings.show(ratings.movies.top_by_ratings(10, metric=ratings.average))  # BONUS: метрика Ratings.average()


907 µs ± 14.6 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Ключ,Значение
Bottle Rocket (1996),5.0
Canadian Bacon (1995),5.0
Star Wars: Episode IV - A New Hope (1977),5.0
James and the Giant Peach (1996),5.0
"Wizard of Oz, The (1939)",5.0
Citizen Kane (1941),5.0
"Adventures of Robin Hood, The (1938)",5.0
Mr. Smith Goes to Washington (1939),5.0
Winnie the Pooh and the Blustery Day (1968),5.0
"Three Caballeros, The (1945)",5.0


In [15]:
%timeit ratings.movies.top_controversial(10)
ratings.show(ratings.movies.top_controversial(10))  # BONUS: использует Ratings.variance()


1.71 ms ± 28.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Ключ,Значение
2018,5.06
2090,5.06
My Fair Lady (1964),5.06
2571,4.0
Schindler's List (1993),3.42
1704,3.06
Courage Under Fire (1996),3.06
"Usual Suspects, The (1995)",2.42
Dazed and Confused (1993),2.25
2959,2.25


In [16]:
%timeit ratings.users.dist_by_num_of_ratings()
ratings.show(ratings.users.dist_by_num_of_ratings())

172 µs ± 1.4 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Ключ,Значение
29,1
39,1
44,1
126,1
216,1
232,1
314,1


In [17]:
%timeit ratings.users.dist_by_ratings(metric=ratings.median)
ratings.show(ratings.users.dist_by_ratings(metric=ratings.median))  # BONUS: метрика Ratings.median()

172 µs ± 1.81 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Ключ,Значение
0.5,1
3.0,1
4.0,4
5.0,1


In [18]:
%timeit ratings.users.top_controversial(10)
ratings.show(ratings.users.top_controversial(10))  # BONUS: использует Ratings.variance()


257 µs ± 4.22 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Ключ,Значение
3,4.26
4,1.72
7,1.65
5,0.96
6,0.72
1,0.64
2,0.63


## Часть 3: Цена славы (Ссылки и скрапинг)
Наконец, мы связываем локальные данные с IMDB через скрапинг для анализа бюджетов, продолжительности и работы режиссёров.

#### Вопрос: Мы видим оценки в 5 звёзд, но что происходило за кулисами? Собрав данные с IMDB для наших лучших фильмов, можем ли мы увидеть финансовую основу — бюджеты и хронометраж, — которая поддерживала эти кинематографические мечты?

In [19]:
%timeit movielens_analysis.Links('data/links.csv', limit=1000)
links = movielens_analysis.Links('data/links.csv', limit=1000)

9.48 ms ± 153 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [20]:
%timeit links.get_ids(10)
ids_to_parse = links.get_ids(10)  # BONUS: helper Links.get_ids() — берём только N фильмов для скрапинга

785 ns ± 10.5 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [21]:
%timeit links.get_imdb(ids_to_parse, ['Director', 'Budget'])
links.show(links.get_imdb(ids_to_parse, ['Director', 'Budget']))

55.9 µs ± 21 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


0,1,2,3
10,GoldenEye (1995),,0
9,Sudden Death (1995),,0
8,Tom and Huck (1995),,0
7,Sabrina (1995),,0
6,Heat (1995),,0
5,Father of the Bride Part II (1995),,0
4,Waiting to Exhale (1995),,0
3,Grumpier Old Men (1995),,0
2,Jumanji (1995),,0
1,Toy Story (1995),,0


In [22]:
%timeit links.top_directors(10)
links.show(links.top_directors(10))

76.3 µs ± 1.12 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [23]:
%timeit links.most_expensive(10)
links.show(links.most_expensive(10))

78.3 µs ± 1.29 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


#### Вопрос: Огромный бюджет — это риск, но окупился ли он? Рассчитав разницу между «Совокупными мировыми сборами» и «Бюджетом», какой фильм оказывается самым прибыльным финансовым триумфом в нашем списке?

In [24]:
%timeit links.most_profitable(10)
links.show(links.most_profitable(10)) # BONUS: IMDB (внешние данные + расчёт прибыли)

75.9 µs ± 2.52 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [25]:
%timeit links.longest(10)
links.show(links.longest(10))

78.7 µs ± 2.73 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


#### Вопрос: Если разделить бюджет на хронометраж, мы получим «Стоимость за минуту». Какой фильм потратил больше всего денег на каждую минуту, которую вы провели в зале? Это была высокая скорость эффективности или расточительная чрезмерная трата?

In [26]:
%timeit links.top_cost_per_minute(10)
links.show(links.top_cost_per_minute(10))  # BONUS: IMDB (производная метрика)

82.9 µs ± 2.83 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


## Часть 4: Стресс-тест (Надёжность)

Когда хаос встречается с машиной: Сможем ли мы справиться с неожиданным?

Вопрос: Что происходит, когда наш код получает неправильную информацию? Если мы попытаемся скормить файл "Рейтинги" нашему классу "Фильмы", рухнет ли система в эмоциональном приступе или обработает исключение со стоическим спокойствием хорошо написанной машины?

In [27]:
%timeit movielens_analysis.Movies('data/ratings.csv', limit=100)
broken = movielens_analysis.Movies('data/ratings.csv', limit=100)
broken.show(broken.movies)

844 µs ± 10.7 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


ID,Title,Genres,Year
1,1552,4.0,
