# Отчет по работе с модулем MovielensAnalysis

## Глава I. Введение: История, стоящая за данными

Кинематограф — это не просто развлечение, а отражение людей и их эмоций.
Каждый фильм, каждая оценка, даже короткий тег — это след восприятия зрителя.
Из таких следов складывается история того, как мы чувствуем, что нам интересно и как со временем меняются наши вкусы.

Оригинальный датасет MovieLens содержит около 10 миллиона записей. Но нам была предложена сокращённая выборка, состоящяя только из 10000 фильмов. Датасет объединяет рейтинги, теги, временные отметки и метаданные фильмов. Мы рассматриваем его как цифровое отражение коллективного восприятия — живую историю о том, как люди взаимодействуют с культурой, объединяются по интересам и превращают эмоции в данные.

Анализ строится на основе собственного модуля movielens_analysis.py, включающего классы Movies, Ratings, Tags и Links, каждый из которых отвечает за чтение, обработку и интерпретацию соответствующего файла.

Мы исходим из предположения, что оценки фильмов не распределены случайно. Существует внутренняя структура, связывающая рейтинг с жанром, годом выпуска и пользовательской активностью в тегировании. Раскрывая эти связи, можно реконструировать паттерны восприятия — своеобразные «отпечатки коллективного вкуса». Анализируя их, мы стремимся не просто подсчитать средние значения, а понять, как формируется эмоциональная и культурная логика аудитории.

Ожидается, что в ходе анализа будут выявлены доминирующие жанры, характерные распределения оценок, тематические кластеры тегов и временные тенденции в изменении пользовательских предпочтений. Полученные результаты лягут в основу аналитической истории — рассказа о том, как данные превращаются в знание, а субъективные впечатления зрителей формируют объективную статистическую картину.

Фильмы рассказывают истории на экране.
Мы же в этой работе рассказываем историю самих фильмов — через данные.

Импортируем наш модуль и инициализируем наши классы для последующей работы:

In [29]:
%timeit
from movielens_analysis import *


In [30]:
%timeit
movies = Movies('movies.csv')
links = Links('links.csv', movies)
ratings = Ratings('ratings.csv', movies)
ratings_movies = Ratings.Movies("ratings.csv", movies)
ratings_users = Ratings.Users("ratings.csv", movies)
tags = Tags('tags.csv')

## Глава II. Анализ данных о фильмах

Для работы с данными о фильмах используется модуль `Movies`, который отвечает за загрузку, очистку и первичный анализ информации из файла movies.csv. Этот компонент формирует основу всей аналитики. Для начала рассмотрим первые строки набора данных, используя метод `display(10)`:

| movieId | title                       | year | genres                                          |
|----------|-----------------------------|------|-------------------------------------------------|
| 1        | Toy Story                   | 1995 | Adventure, Animation, Children, Comedy, Fantasy |
| 2        | Jumanji                     | 1995 | Adventure, Children, Fantasy                    |
| 3        | Grumpier Old Men            | 1995 | Comedy, Romance                                 |
| 4        | Waiting to Exhale           | 1995 | Comedy, Drama, Romance                          |
| 5        | Father of the Bride Part II | 1995 | Comedy                                          |
| 6        | Heat                        | 1995 | Action, Crime, Thriller                         |
| 7        | Sabrina                     | 1995 | Comedy, Romance                                 |
| 8        | Tom and Huck                | 1995 | Adventure, Children                             |
| 9        | Sudden Death                | 1995 | Action                                          |
| 10       | GoldenEye                   | 1995 | Action, Adventure, Thriller                     |

Общее количество фильмов в базе данных (`__len__`):

In [31]:
%timeit len(movies)
len(movies)

51 ns ± 0.105 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


9742

### 1. Распределение фильмов по годам выпуска

Метод `dist_by_release()` показывает, как распределяются фильмы по годам.

In [32]:
%timeit movies.dist_by_release()
movies.dist_by_release()

491 μs ± 18.1 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


{2002: 311,
 2006: 295,
 2001: 294,
 2007: 284,
 2000: 283,
 2009: 282,
 2003: 279,
 2004: 279,
 2014: 278,
 1996: 276,
 2015: 274,
 2005: 273,
 2008: 269,
 1999: 263,
 1997: 260,
 1995: 259,
 1998: 258,
 2011: 254,
 2010: 247,
 2013: 239,
 1994: 237,
 2012: 233,
 2016: 218,
 1993: 198,
 1992: 167,
 1988: 165,
 1987: 153,
 1990: 147,
 1991: 147,
 2017: 147,
 1989: 142,
 1986: 139,
 1985: 126,
 1984: 101,
 1981: 92,
 1980: 89,
 1982: 87,
 1983: 83,
 1979: 69,
 1977: 63,
 1973: 59,
 1978: 59,
 1965: 47,
 1971: 47,
 1974: 45,
 1976: 44,
 1964: 43,
 1967: 42,
 1968: 42,
 1975: 42,
 1966: 42,
 2018: 41,
 1962: 40,
 1972: 39,
 1963: 39,
 1959: 37,
 1960: 37,
 1955: 36,
 1969: 35,
 1961: 34,
 1970: 33,
 1957: 33,
 1958: 31,
 1953: 30,
 1956: 30,
 1940: 25,
 1949: 25,
 1954: 23,
 1942: 23,
 1939: 23,
 1946: 23,
 1951: 22,
 1950: 21,
 1947: 20,
 1948: 20,
 1941: 18,
 1936: 18,
 1945: 17,
 1937: 16,
 1952: 16,
 1944: 16,
 1938: 15,
 1931: 14,
 1935: 13,
 1933: 12,
 1934: 11,
 1943: 10,
 1932: 9,

Выявлено, что наибольшее количество фильмов вышло в 2000-2010 годах, что отражает период активного роста киноиндустрии и цифровой дистрибуции.
Количество фильмов резко возрастает после 1980-х, что может быть связано с расширением мирового кинорынка и развитием технологий.

### 2. Анализ жанрового состава

Метод `dist_by_genres()` формирует рейтинг жанров по частоте встречаемости.

In [33]:
%timeit movies.dist_by_genres()
movies.dist_by_genres()

1.14 ms ± 19.7 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


{'Drama': 4361,
 'Comedy': 3756,
 'Thriller': 1894,
 'Action': 1828,
 'Romance': 1596,
 'Adventure': 1263,
 'Crime': 1199,
 'Sci-Fi': 980,
 'Horror': 978,
 'Fantasy': 779,
 'Children': 664,
 'Animation': 611,
 'Mystery': 573,
 'Documentary': 440,
 'War': 382,
 'Musical': 334,
 'Western': 167,
 'IMAX': 158,
 'Film-Noir': 87,
 '(no genres listed)': 34}

Наибольшее количество фильмов приходится на жанры:
- Drama
- Comedy
- Thriller
- Action
- Romance
- Adventure

Таким образом, **драма и комедия** — самые популярные направления. Они составляют основу массового кинематографа, тогда как более редкие жанры (Documentary, Film-Noir, Western) занимают меньшую долю.

### 3. Фильмы с наибольшим количеством жанров

Метод `most_genres(n)` выявляет фильмы, объединяющие сразу несколько жанров.

In [34]:
%timeit movies.most_genres(10)
movies.most_genres(10)

1.73 ms ± 28.9 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


{'King Kong': 14,
 'Three Musketeers, The': 13,
 'Cinderella': 13,
 'Misérables, Les': 12,
 'Christmas Carol, A': 12,
 'Alice in Wonderland': 11,
 'Peter Pan': 11,
 'Getaway, The': 10,
 'Hamlet': 10,
 'Robin Hood': 10}

Такие фильмы можно отнести к “мультиязычным” по жанровой структуре: они сочетают элементы драмы, комедии, экшена и триллера. Это признак сложного повествования и ориентации на широкую аудиторию.

### 4. Анализ структуры и качества данных

Метод get_title_by_id() является вспомогательным (дополнительным) для модуля `Ratings`:

In [35]:
%timeit movies.get_title_by_id(10)
movies.get_title_by_id(10)

70.2 ns ± 0.258 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


'GoldenEye'

## Глава III. Анализ данных рейтингов

В этой главе мы подробно исследуем данные о пользовательских оценках фильмов, предоставленные датасетом MovieLens, с помощью нашего модуля movielens_analysis.

Для того, чтобы наши табличные данные можно было бы визуализировать, в каждом классе был написан метод `display(num_of_lines, max_chars_in_line)`, который позволяет просмотреть информацию по первым `num_of_lines` строка с максимальным размером ячейки в `max_chars_in_line` символов.

Поэтому для начала посмотрим на сами данные. Используя метод display, мы выводим первые 10 записей рейтингов:

Таблица с оценками пользователей о фильмах (`Ratings`):

| userId | movieId | rating | timestamp  |
|---------|----------|---------|------------|
| 1       | 1        | 4.0     | 964982703  |
| 1       | 3        | 4.0     | 964981247  |
| 1       | 6        | 4.0     | 964982224  |
| 1       | 47       | 5.0     | 964983815  |
| 1       | 50       | 5.0     | 964982931  |
| 1       | 70       | 3.0     | 964982400  |
| 1       | 101      | 5.0     | 964980868  |
| 1       | 110      | 4.0     | 964982176  |
| 1       | 151      | 5.0     | 964984041  |
| 1       | 157      | 5.0     | 964984100  |

Общее количество записей подтверждается методом `__len__`.
Всего рейтингов:

In [36]:
%timeit len(ratings)
len(ratings)

51.8 ns ± 0.332 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


100836

### 1. Топ фильмов по средним оценкам

Метод `top_by_ratings(n)` позволяет выявить фильмы с наивысшей средней оценкой. 
Топ-10 фильмов в нашей выборке выглядит следующим образом:

In [37]:
%timeit ratings_movies.top_by_ratings(10)
ratings_movies.top_by_ratings(10)

12.9 ms ± 407 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{'The Jinx: The Life and Deaths of Robert Durst': 5.0,
 'Galaxy of Terror (Quest)': 5.0,
 'Alien Contamination': 5.0,
 "I'm the One That I Want": 5.0,
 'Lesson Faust': 5.0,
 'Assignment, The': 5.0,
 'Mephisto': 5.0,
 'Black Mirror': 5.0,
 'Dylan Moran: Monster': 5.0,
 'Bill Hicks: Revelations': 5.0}

Здесь сразу бросается в глаза любопытная закономерность — все фильмы получили идеальную оценку 5.0.
Это почти наверняка указывает на аномалию распределения: либо в выборке слишком мало оценок для этих фильмов, либо данные неравномерно заполнены.
Можем ли мы утверждать, что это действительно “лучшие” фильмы?
Нет. Средняя оценка без учёта количества голосов — плохой индикатор качества. Один зритель мог поставить 5.0, и фильм автоматически попадёт в топ.

### 2. Топ фильмов по количеству отзывов


Чтобы проверить гипотезу, посмотрим на топ фильмов **по количеству оценок** — это даст представление о том, какие фильмы действительно широко обсуждаются. Для этого воспользуемся методом `top_by_num_of_ratings(n)`

In [38]:
%timeit ratings_movies.top_by_num_of_ratings(10)
ratings_movies.top_by_num_of_ratings(10)

7.95 ms ± 488 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{'Forrest Gump': 329,
 'Shawshank Redemption, The': 317,
 'Pulp Fiction': 307,
 'Silence of the Lambs, The': 279,
 'Matrix, The': 278,
 'Star Wars: Episode IV - A New Hope': 251,
 'Jurassic Park': 238,
 'Braveheart': 237,
 'Terminator 2: Judgment Day': 224,
 "Schindler's List": 220}

Это дает более реалистичное представление о популярности фильмов, так как учитывается широта аудитории.

### 3. Топ фильмов с самой большой дискуссией

Метод `top_controversial(n)` выявляет фильмы с наибольшей дисперсией оценок — те, которые вызывают споры среди зрителей:

In [39]:
%timeit ratings_movies.top_controversial(10)
ratings_movies.top_controversial(10)

17.4 ms ± 785 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{"Ivan's Childhood (a.k.a. My Name is Ivan) (Ivanovo detstvo)": 5.06,
 'Fanny and Alexander (Fanny och Alexander)': 5.06,
 'Troll 2': 4.5,
 'Lassie': 4.0,
 'Oscar': 4.0,
 'Zed & Two Noughts, A': 4.0,
 'Kwaidan (Kaidan)': 4.0,
 'Play Time (a.k.a. Playtime)': 3.72,
 'Room, The': 3.56,
 'Peeping Tom': 3.5}

Фильмы с высокой дисперсией рейтингов могут быть как культовыми, так и спорными, вызывая противоположные мнения.

### 4. Распределение рейтингов

Методы `dist_by_rating()` и `dist_by_year()` позволяют оценить общую структуру данных:

In [40]:
%timeit ratings_movies.dist_by_rating()
ratings_movies.dist_by_rating()

6.9 ms ± 181 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{0.5: 1370,
 1.0: 2811,
 1.5: 1791,
 2.0: 7551,
 2.5: 5550,
 3.0: 20047,
 3.5: 13136,
 4.0: 26818,
 4.5: 8551,
 5.0: 13211}

`dist_by_rating()` показывает, что большинство оценок сосредоточено на диапазоне 3-4.

In [41]:
%timeit ratings_movies.dist_by_year()
ratings_movies.dist_by_year()

32.5 ms ± 904 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


{1996: 6040,
 1997: 1916,
 1998: 507,
 1999: 2439,
 2000: 10061,
 2001: 3922,
 2002: 3478,
 2003: 4014,
 2004: 3279,
 2005: 5813,
 2006: 4059,
 2007: 7114,
 2008: 4351,
 2009: 4158,
 2010: 2300,
 2011: 1690,
 2012: 4657,
 2013: 1664,
 2014: 1439,
 2015: 6616,
 2016: 6702,
 2017: 8199,
 2018: 6418}

`dist_by_year()` отражает, в какие годы фильмы получили наибольшее количество оценок, что позволяет выявить временные тенденции пользовательской активности.

### 5. Анализ пользователей

Класс Users наследует методы класса Movies, но анализ ведется по пользователям:
- top_by_num_of_ratings(n) — пользователи, оставившие наибольшее количество оценок.
- top_by_ratings(n, metric='average') — пользователи с самой высокой средней оценкой.
- top_controversial(n) — пользователи с наибольшей вариативностью оценок.

In [42]:
%timeit ratings_users.top_by_num_of_ratings(10)
ratings_users.top_by_num_of_ratings(10)

5.39 ms ± 151 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{414: 2698,
 599: 2478,
 474: 2108,
 448: 1864,
 274: 1346,
 610: 1302,
 68: 1260,
 380: 1218,
 606: 1115,
 288: 1055}

In [43]:
%timeit ratings_users.top_by_ratings(10, metric='average')
ratings_users.top_by_ratings(10, metric='average')

6.03 ms ± 489 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{53: 5.0,
 251: 4.87,
 515: 4.85,
 25: 4.81,
 30: 4.74,
 523: 4.69,
 348: 4.67,
 171: 4.63,
 452: 4.56,
 43: 4.55}

In [44]:
%timeit ratings_users.top_controversial(5)
ratings_users.top_controversial(5)

10.4 ms ± 231 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{3: 4.26, 461: 3.1, 55: 3.09, 259: 2.94, 329: 2.92}

Такой подход помогает выявить наиболее активных, требовательных или разнообразно оценивающих пользователей.

## Глава IV. Анализ данных о тегах

Модуль `Tags` предназначен для исследования пользовательских тегов, которые отражают субъективное восприятие фильмов — ассоциации, эмоции и контекст, с которым зрители связывают произведение. Данные извлекаются из файла `tags.csv`.

Таблица с комметриями пользователей к фильмам (`Tags`):

| userId | movieId | tag                  | timestamp   |
|--------|---------|--------------------|------------|
| 2      | 60756   | funny               | 1445714994 |
| 2      | 60756   | Highly quotable     | 1445714996 |
| 2      | 60756   | will ferrell        | 1445714992 |
| 2      | 89774   | Boxing story        | 1445715207 |
| 2      | 89774   | MMA                 | 1445715200 |
| 2      | 89774   | Tom Hardy           | 1445715205 |
| 2      | 106782  | drugs               | 1445715054 |
| 2      | 106782  | Leonardo DiCaprio   | 1445715051 |
| 2      | 106782  | Martin Scorsese     | 1445715056 |
| 7      | 48516   | way too long        | 1169687325 |

Общее количество записей подтверждается методом `__len__`:

In [45]:
%timeit len(tags)
len(tags)

53.9 ns ± 3.23 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


3683

### 1. Самые «многословные» теги

Метод `most_words(n)` выявляет теги, состоящие из наибольшего числа слов. Эти теги обычно отражают более конкретные и сложные впечатления зрителей — например, «based on a true story» или «so bad it’s good».

In [46]:
%timeit tags.most_words(10)
tags.most_words(10)

274 μs ± 11.1 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


{'Something for everyone in this one... saw it without and plan on seeing it with kids!': 16,
 'the catholic church is the most corrupt organization in history': 10,
 'villain nonexistent or not needed for good story': 8,
 'It was melodramatic and kind of dumb': 7,
 '06 Oscar Nominated Best Movie - Animation': 7,
 'stop using useless characters for filler': 6,
 'Oscar (Best Effects - Visual Effects)': 6,
 'Oscar (Best Music - Original Score)': 6,
 'rich guy - poor girl': 5,
 'based on a TV show': 5}

Топ-10 таких тегов показывает, что часть пользователей использует теги как краткие отзывы, а не просто категории. Это свидетельствует о более содержательном вовлечении аудитории в процесс оценки фильмов.

### 2. Самые длинные теги

Метод `longest(n)` определяет теги с наибольшей длиной в символах:

In [47]:
%timeit tags.longest(10)
tags.longest(10)

201 μs ± 6.45 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


['Something for everyone in this one... saw it without and plan on seeing it with kids!',
 'the catholic church is the most corrupt organization in history',
 'villain nonexistent or not needed for good story',
 'r:disturbing violent content including rape',
 '06 Oscar Nominated Best Movie - Animation',
 'stop using useless characters for filler',
 'Academy award (Best Supporting Actress)',
 'Oscar (Best Effects - Visual Effects)',
 'It was melodramatic and kind of dumb',
 'r:sustained strong stylized violence']

Результаты пересекаются с предыдущим списком, но не полностью: длинный тег может быть единым словом (например, «psychologicalthriller») и не обязательно содержать несколько слов.

Таким образом, длинные теги часто отражают жанровые метки или авторские комментарии, а не фразы.

### 3. Пересечение многословных и длинных тегов

Метод `most_words_and_longest(n)` находит теги, которые одновременно и длинные, и многословные. Эти теги особенно интересны: они часто содержат сложные описания вроде «not as good as the book» или «inspired by true events».

In [48]:
%timeit tags.most_words_and_longest(10)
tags.most_words_and_longest(10)

477 μs ± 13.9 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


{'06 Oscar Nominated Best Movie - Animation',
 'It was melodramatic and kind of dumb',
 'Oscar (Best Effects - Visual Effects)',
 'Something for everyone in this one... saw it without and plan on seeing it with kids!',
 'stop using useless characters for filler',
 'the catholic church is the most corrupt organization in history',
 'villain nonexistent or not needed for good story'}

Анализ таких тегов показывает, как пользователи выражают **оценочные суждения**, а не просто классифицируют контент. Это превращает теги в источник качественных данных о восприятии фильмов.

### 4. Самые популярные теги

Метод `most_popular(n)` выявляет теги, которые встречаются чаще всего:

In [49]:
%timeit tags.most_popular(10)
tags.most_popular(10)

203 μs ± 1.95 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


{'In Netflix queue': 131,
 'atmospheric': 36,
 'superhero': 24,
 'thought-provoking': 24,
 'funny': 23,
 'Disney': 23,
 'surreal': 23,
 'religion': 22,
 'sci-fi': 21,
 'dark comedy': 21}

Эти теги указывают на ключевые интересы аудитории и помогают понять, какие направления кинематографа вызывают наибольший отклик.
В отличие от анализа оценок (где важна численная статистика), анализ тегов даёт более “человеческое” представление о вкусах зрителей.

### 5. Поиск тегов с ключевым словом

Метод `tags_with(word)` позволяет отобрать все теги, содержащие заданное слово. Например, при поиске по слову “love” можно обнаружить большое разнообразие контекстов: от «true love» и «love triangle» до «love story» или «unrequited love».

In [50]:
%timeit tags.tags_with('bad')
tags.tags_with('bad')

174 μs ± 2.7 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


{'Bad story',
 'Bad writing',
 'Sinbad',
 'bad',
 'bad acting',
 'bad ass',
 'bad dialogue',
 'bad humor',
 'bad jokes',
 'bad language',
 'bad music',
 'bad plot',
 'bad science',
 'bad script',
 'bad writing',
 'bad-ass',
 'really bad'}

## Глава V. Анализ данных о ссылках

В данной главе проводится анализ информации из файла links.csv, объединяющего внутренние идентификаторы фильмов из MovieLens с их внешними ссылками на IMDb и TMDb.

Таблица с данными о номерах фильмов в таких общедоступных БД-шках как imdb и tmdb (`Links`):

| movieId | imdbId  | tmdbId |
|----------|----------|--------|
| 1        | 0114709  | 862    |
| 2        | 0113497  | 8844   |
| 3        | 0113228  | 15602  |
| 4        | 0114885  | 31357  |
| 5        | 0113041  | 11862  |
| 6        | 0113277  | 949    |
| 7        | 0114319  | 11860  |
| 8        | 0112302  | 45325  |
| 9        | 0114576  | 9091   |
| 10       | 0113189  | 710    |

С помощью метода `__len__` узнаем количество элементов в каждой таблице: `Movies`, `Links`, `Ratings`, `Tags`

In [51]:
%timeit len(links)
len(links)

36.7 ns ± 0.109 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


10

Мы ограничили количество данных класса `Links` до 10 значений, т. к. в последующем будем делать запросы к API (запросы долгие).

### 1. Получение данных с IMDb

Метод `get_imdb(imdb_id, list_of_fields)` формирует таблицу, где для каждого фильма извлекаются запрошенные поля с сайта IMDb, например:
- Director
- Budget
- Runtime

In [52]:
%timeit links.get_imdb([1, 2, 3], ['Director', 'Runtime', 'Budget'])
links.get_imdb([1, 2, 3], ['Director', 'Runtime', 'Budget'])

4.38 s ± 763 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


[[3, 'Howard Deutch', '1h 41m(101 min)', '$25,000,000 (estimated)'],
 [2, 'Joe Johnston', '1h 44m(104 min)', '$65,000,000 (estimated)'],
 [1, 'John Lasseter', '1h 21m(81 min)', '$30,000,000 (estimated)']]

Результаты позволяют интегрировать MovieLens с внешней кинематографической информацией, создавая основу для последующего анализа прибыльности, хронометража и авторства.

### 2. Топ режиссёров

Метод `top_directors(n)` выявляет режиссёров, снявших наибольшее число фильмов, присутствующих в выборке.

In [53]:
%timeit links.top_directors(10)
links.top_directors(10)

18.6 s ± 3.92 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


{'John Lasseter': 1,
 'Joe Johnston': 1,
 'Howard Deutch': 1,
 'Forest Whitaker': 1,
 'Charles Shyer': 1,
 'Michael Mann': 1,
 'Sydney Pollack': 1,
 'Peter Hewitt': 1,
 'Peter Hyams': 1,
 'Martin Campbell': 1}

Как правило, лидируют авторы массового кино или создатели франшиз. Этот анализ помогает определить наиболее продуктивных режиссёров, чьи работы часто появляются в рейтингах MovieLens.

### 3. Самые дорогие фильмы

Метод `most_expensive(n)` строит рейтинг фильмов по величине бюджета.
Он показывает, какие проекты требовали наибольших инвестиций. Среди таких фильмов обычно преобладают крупнобюджетные блокбастеры, где значительные средства тратятся на визуальные эффекты, актёрский состав и маркетинг.

In [54]:
%timeit links.most_expensive(10)
links.most_expensive(10)

16.2 s ± 2.69 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


{'Jumanji': 65000000,
 'Heat': 60000000,
 'GoldenEye': 60000000,
 'Sabrina': 58000000,
 'Sudden Death': 35000000,
 'Toy Story': 30000000,
 'Father of the Bride Part II': 30000000,
 'Grumpier Old Men': 25000000,
 'Waiting to Exhale': 16000000}

Этот анализ позволяет сопоставить стоимость производства с другими характеристиками — например, популярностью или пользовательскими оценками.

### 4. Самые прибыльные фильмы

Метод `most_profitable(n)` вычисляет разницу между мировыми кассовыми сборами и бюджетом каждого фильма.
Полученные результаты отражают **финансовую эффективность проектов**.

In [55]:
%timeit links.most_profitable(10)
links.most_profitable(10)

16.6 s ± 4.19 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


{'Toy Story': 371157969,
 'GoldenEye': 292194034,
 'Jumanji': 197821940,
 'Heat': 127436818,
 'Waiting to Exhale': 65452156,
 'Father of the Bride Part II': 46594107,
 'Grumpier Old Men': 46518503,
 'Sudden Death': 29350171,
 'Sabrina': -4303041}

Интересно, что лидерами по прибыли часто оказываются не самые дорогие картины — высокую рентабельность демонстрируют и малобюджетные фильмы, если они добились широкого зрительского признания.

### 5. Самые длинные фильмы

Метод `longest(n)` возвращает топ фильмов с наибольшей продолжительностью.
Как правило, это эпические драмы, исторические ленты или режиссёрские версии, где продолжительность является частью художественного замысла.

In [56]:
%timeit links.longest(10)
links.longest(10)

14.5 s ± 2.12 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


{'Heat': 170,
 'GoldenEye': 130,
 'Sabrina': 127,
 'Waiting to Exhale': 124,
 'Sudden Death': 111,
 'Father of the Bride Part II': 106,
 'Jumanji': 104,
 'Grumpier Old Men': 101,
 'Tom and Huck': 97,
 'Toy Story': 81}

### 6. Самая высокая стоимость минуты

Метод `top_cost_per_minute(n)` сопоставляет бюджет фильма и его продолжительность, вычисляя стоимость одной минуты экранного времени.

In [57]:
%timeit links.top_cost_per_minute(10)
links.top_cost_per_minute(10)

15.6 s ± 2.92 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


{'Jumanji': 625000.0,
 'GoldenEye': 461538.46,
 'Sabrina': 456692.91,
 'Toy Story': 370370.37,
 'Heat': 352941.18,
 'Sudden Death': 315315.32,
 'Father of the Bride Part II': 283018.87,
 'Grumpier Old Men': 247524.75,
 'Waiting to Exhale': 129032.26}

Такая метрика позволяет выявить **самые дорогостоящие в производстве фильмы**, где каждая минута требовала колоссальных затрат.