# Аналитика MovieLens: История кино 90-х через призму данных

## Введение

Добро пожаловать в наше путешествие по датасету MovieLens! Этот отчет исследует захватывающий мир кинематографа 1990-х годов через призму пользовательских рейтингов, метаданных фильмов и тегов сообщества.

Наша история следует за тремя главными героями:
- **Фильмы**: Сами картины и их характеристики
- **Пользователи**: Люди, которые смотрели и оценивали эти фильмы
- **Сообщество**: Коллективная мудрость, выраженная через теги

Давайте узнаем, что сделало 90-е такой особенной эпохой для кинематографа! 🎬

In [1]:
# Импортируем наш модуль анализа
%timeit from movielens_analysis import Movies, Ratings, Tags, Links
from movielens_analysis import Movies, Ratings, Tags, Links

print("Модуль анализа MovieLens успешно загружен!")

The slowest run took 10.75 times longer than the fastest. This could mean that an intermediate result is being cached.
2.16 μs ± 2.64 μs per loop (mean ± std. dev. of 7 runs, 1 loop each)
Модуль анализа MovieLens успешно загружен!


## Глава 1: Золотая эра кинематографа - Анализ фильмов

Первая глава исследует сами фильмы. Какие годы были наиболее продуктивными? Какие жанры доминировали на экранах?

In [2]:
# Инициализируем анализатор фильмов
%timeit movies = Movies("movies.csv")
movies = Movies("movies.csv")
print(f"🎬 Загружено {len(movies.data)} фильмов для анализа")

2.88 ms ± 262 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
🎬 Загружено 1000 фильмов для анализа


In [3]:
# Пиковые годы: Когда кинематограф процветал
%timeit release_years = movies.dist_by_release()
release_years = movies.dist_by_release()

print("🏆 ТОП-10 САМЫХ ПРОДУКТИВНЫХ ГОДОВ:")
for i, (year, count) in enumerate(list(release_years.items())[:10], 1):
    print(f"{i:2d}. {year} год: вышло {count:3d} фильмов")

print(f"\n📈 Инсайт: {list(release_years.keys())[0]} год был самым продуктивным с {list(release_years.values())[0]} фильмами!")

1.16 ms ± 83.5 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
🏆 ТОП-10 САМЫХ ПРОДУКТИВНЫХ ГОДОВ:
 1. 1995 год: вышло 224 фильмов
 2. 1994 год: вышло 184 фильмов
 3. 1996 год: вышло 181 фильмов
 4. 1993 год: вышло 101 фильмов
 5. 1992 год: вышло  23 фильмов
 6. 1990 год: вышло  15 фильмов
 7. 1991 год: вышло  15 фильмов
 8. 1989 год: вышло  14 фильмов
 9. 1986 год: вышло   9 фильмов
10. 1982 год: вышло   8 фильмов

📈 Инсайт: 1995 год был самым продуктивным с 224 фильмами!


In [4]:
# Война жанров: Какие истории покорили сердца?
%timeit genres_dist = movies.dist_by_genres()
genres_dist = movies.dist_by_genres()

print("🎭 РЕЙТИНГ ПОПУЛЯРНОСТИ ЖАНРОВ:")
genre_names = {
    'Drama': 'Драма',
    'Comedy': 'Комедия',
    'Romance': 'Романтика',
    'Thriller': 'Триллер',
    'Action': 'Боевик',
    'Horror': 'Ужасы',
    'Adventure': 'Приключения',
    'Crime': 'Криминал'
}

for i, (genre, count) in enumerate(list(genres_dist.items())[:8], 1):
    ru_genre = genre_names.get(genre, genre)
    print(f"{i}. {ru_genre}: {count} фильмов")

top_genre = list(genres_dist.keys())[0]
top_count = list(genres_dist.values())[0]
ru_top_genre = genre_names.get(top_genre, top_genre)
print(f"\n🎪 Сюжетный инсайт: {ru_top_genre} доминировала с {top_count} фильмами - люди жаждали эмоциональных повествований!")

707 μs ± 15.5 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
🎭 РЕЙТИНГ ПОПУЛЯРНОСТИ ЖАНРОВ:
1. Драма: 507 фильмов
2. Комедия: 365 фильмов
3. Романтика: 208 фильмов
4. Триллер: 179 фильмов
5. Боевик: 158 фильмов
6. Приключения: 126 фильмов
7. Криминал: 122 фильмов
8. Children: 100 фильмов

🎪 Сюжетный инсайт: Драма доминировала с 507 фильмами - люди жаждали эмоциональных повествований!


In [5]:
# Мастера многожанровости: Фильмы, не поддающиеся категоризации
%timeit complex_movies = movies.most_genres(5)
complex_movies = movies.most_genres(5)

print("🌟 ФИЛЬМЫ, ПРЕВЗОШЕДШИЕ ЖАНРОВЫЕ ГРАНИЦЫ:")
for i, (title, genre_count) in enumerate(complex_movies.items(), 1):
    print(f"{i}. {title}: {genre_count} жанров")

print("\n🎨 Творческий инсайт: 90-е породили фильмы, которые отказывались помещаться в одну категорию!")

577 μs ± 124 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
🌟 ФИЛЬМЫ, ПРЕВЗОШЕДШИЕ ЖАНРОВЫЕ ГРАНИЦЫ:
1. Strange Days (1995): 6 жанров
2. Lion King, The (1994): 6 жанров
3. Getaway, The (1994): 6 жанров
4. Super Mario Bros. (1993): 6 жанров
5. Beauty and the Beast (1991): 6 жанров

🎨 Творческий инсайт: 90-е породили фильмы, которые отказывались помещаться в одну категорию!


## Глава 2: Голос аудитории - Анализ рейтингов

Теперь обратимся к сердцу нашей истории: как аудитория отреагировала на эти фильмы? Когда люди были наиболее активны в оценке картин?

In [6]:
# Инициализируем анализатор рейтингов
%timeit ratings = Ratings("ratings.csv")
ratings = Ratings("ratings.csv")
print(f"⭐ Загружено {len(ratings.data)} рейтингов от страстных киноманов")

26.8 ms ± 2.14 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
⭐ Загружено 1000 рейтингов от страстных киноманов


In [7]:
# Временная линия рейтингов: Когда люди высказывались?
%timeit rating_years = ratings.movies_instance.dist_by_year()
rating_years = ratings.movies_instance.dist_by_year()

print("📅 КОГДА АУДИТОРИЯ БЫЛА НАИБОЛЕЕ АКТИВНОЙ:")
for year, count in rating_years.items():
    print(f"{year} год: было выставлено {count:3d} рейтингов {'█' * (count // 20)}")

peak_year = max(rating_years.keys(), key=lambda x: rating_years[x])
print(f"\n🗣️ Инсайт сообщества: {peak_year} год - когда киноманы были наиболее активны в выражении мнений!")

565 μs ± 23.1 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
📅 КОГДА АУДИТОРИЯ БЫЛА НАИБОЛЕЕ АКТИВНОЙ:
1996 год: было выставлено 358 рейтингов █████████████████
1999 год: было выставлено  82 рейтингов ████
2000 год: было выставлено 296 рейтингов ██████████████
2001 год: было выставлено  70 рейтингов ███
2005 год: было выставлено 121 рейтингов ██████
2006 год: было выставлено   4 рейтингов 
2007 год: было выставлено   1 рейтингов 
2011 год: было выставлено  39 рейтингов █
2015 год: было выставлено  29 рейтингов █

🗣️ Инсайт сообщества: 1996 год - когда киноманы были наиболее активны в выражении мнений!


In [8]:
# Спектр настроений: Насколько щедры были критики?
%timeit rating_dist = ratings.movies_instance.dist_by_rating()
rating_dist = ratings.movies_instance.dist_by_rating()

print("💫 ОБЩАЯ КАРТИНА РЕЙТИНГОВ:")
for rating, count in rating_dist.items():
    stars = '⭐' * int(rating)
    print(f"{rating}★ {stars}: {count:2d} раз")

print("\n😊 Люди были в целом позитивны - негативные оценки встречались редко!")

189 μs ± 1.41 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
💫 ОБЩАЯ КАРТИНА РЕЙТИНГОВ:
0.5★ : 24 раз
1.0★ ⭐: 39 раз
1.5★ ⭐: 11 раз
2.0★ ⭐⭐: 57 раз
2.5★ ⭐⭐:  7 раз
3.0★ ⭐⭐⭐: 253 раз
3.5★ ⭐⭐⭐: 17 раз
4.0★ ⭐⭐⭐⭐: 292 раз
4.5★ ⭐⭐⭐⭐: 33 раз
5.0★ ⭐⭐⭐⭐⭐: 267 раз

😊 Люди были в целом позитивны - негативные оценки встречались редко!


In [9]:
# Фавориты толпы: Самые обсуждаемые фильмы
%timeit popular_by_count = ratings.movies_instance.top_by_num_of_ratings(7)
popular_by_count = ratings.movies_instance.top_by_num_of_ratings(7)

print("🔥 САМЫЕ ОБСУЖДАЕМЫЕ ФИЛЬМЫ:")
for i, (title, count) in enumerate(popular_by_count.items(), 1):
    print(f"{i}. {title}: {count} рейтинга было присвоено")

print("\n💬 Эти фильмы вызвали больше всего разговоров в сообществе!")

369 μs ± 30.1 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
🔥 САМЫЕ ОБСУЖДАЕМЫЕ ФИЛЬМЫ:
1. Usual Suspects, The (1995): 4 рейтинга было присвоено
2. Pulp Fiction (1994): 4 рейтинга было присвоено
3. Fugitive, The (1993): 4 рейтинга было присвоено
4. Schindler's List (1993): 4 рейтинга было присвоено
5. Batman (1989): 4 рейтинга было присвоено
6. Silence of the Lambs, The (1991): 4 рейтинга было присвоено
7. Fargo (1996): 4 рейтинга было присвоено

💬 Эти фильмы вызвали больше всего разговоров в сообществе!


In [10]:
# Чемпионы качества: Фильмы с высшими рейтингами
%timeit top_rated = ratings.movies_instance.top_by_ratings(7, 'average')
top_rated = ratings.movies_instance.top_by_ratings(7, 'average')

print("👑 ШЕДЕВРЫ С ВЫСШИМИ РЕЙТИНГАМИ:")
for i, (title, avg_rating) in enumerate(top_rated.items(), 1):
    print(f"{i}. {title}: {avg_rating}★")

print("\n🏆 Эти фильмы достигли почти идеального удовлетворения аудитории!")

1.02 ms ± 37.5 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
👑 ШЕДЕВРЫ С ВЫСШИМИ РЕЙТИНГАМИ:
1. Bottle Rocket (1996): 5.0★
2. Canadian Bacon (1995): 5.0★
3. Star Wars: Episode IV - A New Hope (1977): 5.0★
4. James and the Giant Peach (1996): 5.0★
5. Wizard of Oz, The (1939): 5.0★
6. Citizen Kane (1941): 5.0★
7. Adventures of Robin Hood, The (1938): 5.0★

🏆 Эти фильмы достигли почти идеального удовлетворения аудитории!


In [11]:
# Спорная классика: Фильмы, разделившие мнения
%timeit controversial = ratings.movies_instance.top_controversial(5)
controversial = ratings.movies_instance.top_controversial(5)

print("⚡ САМЫЕ СПОРНЫЕ ФИЛЬМЫ:")
for i, (title, variance) in enumerate(controversial.items(), 1):
    print(f"{i}. {title}: {variance} дисперсия")

print("\n🤔 Некоторые великие фильмы вызывали страстные дебаты!")

6.37 ms ± 475 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
⚡ САМЫЕ СПОРНЫЕ ФИЛЬМЫ:
1. Bambi (1942): 10.12 дисперсия
2. Rescuers, The (1977): 10.12 дисперсия
3. My Fair Lady (1964): 10.12 дисперсия
4. Matrix, The (1999): 8.0 дисперсия
5. Good Will Hunting (1997): 6.12 дисперсия

🤔 Некоторые великие фильмы вызывали страстные дебаты!


### История с точки зрения людей: Понимание интересов пользователей

In [12]:
# Паттерны вовлечённости пользователей
%timeit user_activity = ratings.users_instance.dist_by_num_of_ratings()
user_activity = ratings.users_instance.dist_by_num_of_ratings()

print("👥 ПАТТЕРНЫ ВОВЛЕЧЁННОСТИ ПОЛЬЗОВАТЕЛЕЙ:")
for rating_count, user_count in list(user_activity.items())[:8]:
    print(f"{user_count} пользователь оценили ровно {rating_count} фильмов")

print("\n🎯 Большинство были случайными оценщиками, но некоторые - истинно страстными!")

129 μs ± 8.55 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
👥 ПАТТЕРНЫ ВОВЛЕЧЁННОСТИ ПОЛЬЗОВАТЕЛЕЙ:
1 пользователь оценили ровно 29 фильмов
1 пользователь оценили ровно 39 фильмов
1 пользователь оценили ровно 44 фильмов
1 пользователь оценили ровно 126 фильмов
1 пользователь оценили ровно 216 фильмов
1 пользователь оценили ровно 232 фильмов
1 пользователь оценили ровно 314 фильмов

🎯 Большинство были случайными оценщиками, но некоторые - истинно страстными!


In [13]:
# Философия рейтингов: Щедрость пользователей
%timeit user_ratings_dist = ratings.users_instance.dist_by_ratings('average')
user_ratings_dist = ratings.users_instance.dist_by_ratings('average')

print("🎭 ЛИЧНОСТИ ПОЛЬЗОВАТЕЛЕЙ ПО РЕЙТИНГАМ:")
for avg_rating, user_count in list(user_ratings_dist.items())[:10]:
    print(f"{user_count} пользователей в среднем ставят {avg_rating}★ за фильм")

print("\n😊 Сообщество было склонно к оптимизму в своих оценках!")

172 μs ± 7.26 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
🎭 ЛИЧНОСТИ ПОЛЬЗОВАТЕЛЕЙ ПО РЕЙТИНГАМ:
1 пользователей в среднем ставят 2.4★ за фильм
1 пользователей в среднем ставят 3.3★ за фильм
1 пользователей в среднем ставят 3.5★ за фильм
2 пользователей в среднем ставят 3.6★ за фильм
1 пользователей в среднем ставят 3.9★ за фильм
1 пользователей в среднем ставят 4.4★ за фильм

😊 Сообщество было склонно к оптимизму в своих оценках!


In [14]:
# Дикие карты: Самые непредсказуемые пользователи
%timeit unpredictable_users = ratings.users_instance.top_variance(5)
unpredictable_users = ratings.users_instance.top_variance(5)

print("🎲 САМЫЕ НЕПРЕДСКАЗУЕМЫЕ ОЦЕНЩИКИ:")
for i, (user_id, variance) in enumerate(unpredictable_users.items(), 1):
    print(f"{i}. Пользователь {user_id}: {variance} дисперсия рейтингов")

print("\n🌪️ Инсайт непредсказуемости: Некоторые пользователи любят сюрпризы - они оценивают по всему спектру!")

2.84 ms ± 59.4 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
🎲 САМЫЕ НЕПРЕДСКАЗУЕМЫЕ ОЦЕНЩИКИ:
1. Пользователь 3: 4.37 дисперсия рейтингов
2. Пользователь 4: 1.73 дисперсия рейтингов
3. Пользователь 7: 1.67 дисперсия рейтингов
4. Пользователь 5: 0.98 дисперсия рейтингов
5. Пользователь 6: 0.72 дисперсия рейтингов

🌪️ Инсайт непредсказуемости: Некоторые пользователи любят сюрпризы - они оценивают по всему спектру!


## Глава 3: Мудрость толпы - Анализ тегов

Теги представляют коллективное сознание киноманов. Какие темы и концепции сообщество считало наиболее важными?

In [15]:
# Инициализируем анализатор тегов
%timeit tags = Tags("tags.csv")
tags = Tags("tags.csv")
print(f"🏷️ Анализируем {len(tags.data)} тегов сообщества - голос киноманов!")

2.87 ms ± 221 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
🏷️ Анализируем 1000 тегов сообщества - голос киноманов!


In [16]:
# Популярные концепции: Что важнее всего?
%timeit popular_tags = tags.most_popular(10)
popular_tags = tags.most_popular(10)

print("🔥 САМЫЕ ВАЖНЫЕ КОНЦЕПЦИИ В КИНЕМАТОГРАФЕ:")

for i, (tag, count) in enumerate(popular_tags.items(), 1):
    print(f"{i:2d}. Тэг <{tag}>: упомянут {count} раз")

top_tag = list(popular_tags.keys())[0]

print(f"\n😄 Инсайт сообщества: '{top_tag}' - это то, что наше сообщество ценит больше всего в фильмах!")

204 μs ± 9.73 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
🔥 САМЫЕ ВАЖНЫЕ КОНЦЕПЦИИ В КИНЕМАТОГРАФЕ:
 1. Тэг <funny>: упомянут 15 раз
 2. Тэг <sci-fi>: упомянут 14 раз
 3. Тэг <twist ending>: упомянут 12 раз
 4. Тэг <dark comedy>: упомянут 12 раз
 5. Тэг <atmospheric>: упомянут 10 раз
 6. Тэг <superhero>: упомянут 10 раз
 7. Тэг <comedy>: упомянут 10 раз
 8. Тэг <action>: упомянут 10 раз
 9. Тэг <suspense>: упомянут 10 раз
10. Тэг <Leonardo DiCaprio>: упомянут 9 раз

😄 Инсайт сообщества: 'funny' - это то, что наше сообщество ценит больше всего в фильмах!


In [17]:
# Рассказчики: Самые подробные теги
%timeit detailed_tags = tags.most_words(5)
detailed_tags = tags.most_words(5)

print("📚 САМЫЕ ПОДРОБНЫЕ ОТЗЫВЫ СООБЩЕСТВА:")
for i, (tag, word_count) in enumerate(detailed_tags.items(), 1):
    print(f"{i}. ({word_count} слов) '{tag[:80]}{'...' if len(tag) > 80 else ''}'")

print("\n✍️ Инсайт страсти: Некоторые участники сообщества пишут мини-рецензии в виде тегов!")

318 μs ± 7.41 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
📚 САМЫЕ ПОДРОБНЫЕ ОТЗЫВЫ СООБЩЕСТВА:
1. (16 слов) 'Something for everyone in this one... saw it without and plan on seeing it with ...'
2. (10 слов) 'the catholic church is the most corrupt organization in history'
3. (6 слов) 'Oscar (Best Music - Original Score)'
4. (5 слов) 'Everything you want is here'
5. (5 слов) 'based on a true story'

✍️ Инсайт страсти: Некоторые участники сообщества пишут мини-рецензии в виде тегов!


In [18]:
# Самые длинные тэги: Чемпионы по символам
%timeit longest_tags = tags.longest(5)
longest_tags = tags.longest(5)

print("📏 САМЫЕ ДЛИННЫЕ ТЭГИ СООБЩЕСТВА:")
for i, tag in enumerate(longest_tags, 1):
    print(f"{i}. ({len(tag)} символов) '{tag[:80]}{'...' if len(tag) > 80 else ''}'")

print("\n📝 Инсайт выражения: Когда фильмы трогают людей, им есть что сказать!")

157 μs ± 8.11 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
📏 САМЫЕ ДЛИННЫЕ ТЭГИ СООБЩЕСТВА:
1. (85 символов) 'Something for everyone in this one... saw it without and plan on seeing it with ...'
2. (63 символов) 'the catholic church is the most corrupt organization in history'
3. (36 символов) 'audience intelligence underestimated'
4. (35 символов) 'Oscar (Best Music - Original Score)'
5. (28 символов) 'assassin-in-training (scene)'

📝 Инсайт выражения: Когда фильмы трогают людей, им есть что сказать!


In [19]:
# Теги одновременно длинные И подробные
%timeit epic_tags = tags.most_words_and_longest(10)
epic_tags = tags.most_words_and_longest(10)

print("🌟 ТЕГИ ОДНОВРЕМЕННО ДЛИННЫЕ И ПОДРОБНЫЕ:")
if epic_tags:
    for i, tag in enumerate(epic_tags, 1):
        print(f"{i}. '{tag[:100]}{'...' if len(tag) > 100 else ''}'")
else:
    print("Нет тегов, которые были бы одновременно в топе подробных и длинных")

print(f"\n🎪 {len(epic_tags)} тегов достигли величия и по количеству слов, и по длине!")

551 μs ± 46.1 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
🌟 ТЕГИ ОДНОВРЕМЕННО ДЛИННЫЕ И ПОДРОБНЫЕ:
1. 'Everything you want is here'
2. 'the catholic church is the most corrupt organization in history'
3. 'Something for everyone in this one... saw it without and plan on seeing it with kids!'
4. 'Oscar (Best Music - Original Score)'

🎪 4 тегов достигли величия и по количеству слов, и по длине!


In [20]:
# Исследование комедии: Охотники за юмором
%timeit funny_tags = tags.tags_with("funny")
funny_tags = tags.tags_with("funny")

print("😂 ВСЕ СПОСОБЫ ОПИСАНИЯ ЮМОРА:")
for i, tag in enumerate(funny_tags[:10], 1):
    print(f"{i:2d}. '{tag}'")

print(f"\n🤣 Инсайт юмора: {len(funny_tags)} разных способов описать комедию показывает богатство юмора!")

200 μs ± 6.44 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
😂 ВСЕ СПОСОБЫ ОПИСАНИЯ ЮМОРА:
 1. 'funny'
 2. 'stupid but funny'
 3. 'very funny'

🤣 Инсайт юмора: 3 разных способов описать комедию показывает богатство юмора!


In [21]:
# Исследование научной фантастики: Искатели будущего
%timeit scifi_tags = tags.tags_with("sci")
scifi_tags = tags.tags_with("sci")

print("🚀 ЯЗЫК СООБЩЕСТВА НАУЧНОЙ ФАНТАСТИКИ:")
for i, tag in enumerate(scifi_tags[:8], 1):
    print(f"{i}. '{tag}'")

print(f"\n🌌 Инсайт будущего: {len(scifi_tags)} тегов, связанных с научной фантастикой, показывают увлечение завтрашним днём!")

208 μs ± 9.34 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
🚀 ЯЗЫК СООБЩЕСТВА НАУЧНОЙ ФАНТАСТИКИ:
1. 'Sci-Fi'
2. 'classic sci-fi'
3. 'mad scientist'
4. 'sci-fi'
5. 'science fiction'
6. 'scifi'
7. 'scifi cult'
8. 'sexy female scientist'

🌌 Инсайт будущего: 8 тегов, связанных с научной фантастикой, показывают увлечение завтрашним днём!


## Глава 4: Связанная вселенная - Анализ связей

Наша финальная глава исследует связи между нашим датасетом и более широкой киновселенной через ссылки IMDB.

In [22]:
# Инициализируем анализатор связей
%timeit links = Links("links.csv")
links = Links("links.csv")
print(f"🔗 Подключены к {len(links.data)} фильмам в более широкой киновселенной!")

28.2 ms ± 6.55 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
🔗 Подключены к 10 фильмам в более широкой киновселенной!


In [23]:
# Вспомогательный блок для очистки кэша

# print("🗑️ Очищаем кэш IMDB...")
# print(f"Размер кэша до очистки: {links.cache_size()}")
# links.clear_cache()
# print(f"✅ Кэш очищен! Размер кэша: {links.cache_size()}")

In [None]:
# Пример извлечения данных IMDB
%timeit sample_imdb = links.get_imdb([1, 2, 3, 4, 5], ["Director", "Budget", "Runtime"])
sample_imdb = links.get_imdb([1, 2, 3, 4, 5], ["Director", "Budget", "Runtime"])

print("🎬 ПРИМЕР ИНФОРМАЦИИ О ФИЛЬМАХ С IMDB:")
print("ID фильма | Режиссёр        | Бюджет     | Длительность")
print("-" * 55)
for row in sample_imdb:
    print(f"{row[0]:9d} | {str(row[1])[:15]:15s} | {str(row[2])[:10]:10s} | {str(row[3])[:7]}")

In [43]:
# Мастера-режиссёры: Кто создал больше всего?
%timeit top_directors = links.top_directors(5)
top_directors = links.top_directors(5)

print("🎯 САМЫЕ ПЛОДОВИТЫЕ РЕЖИССЁРЫ В НАШЕМ ДАТАСЕТЕ:")
for i, (director, count) in enumerate(top_directors.items(), 1):
    print(f"{i}. {director}: {count} фильмов")

print("\n🎭 Инсайт авторов: Эти режиссёры сформировали кинематографический ландшафт нашего датасета!")

149 μs ± 77.8 μs per loop (mean ± std. dev. of 7 runs, 1 loop each)
🎯 САМЫЕ ПЛОДОВИТЫЕ РЕЖИССЁРЫ В НАШЕМ ДАТАСЕТЕ:
1. Martin Scorsese: 2 фильмов
2. Ang Lee: 2 фильмов
3. Mike Figgis: 2 фильмов
4. John N. Smith: 2 фильмов
5. Robert Rodriguez: 2 фильмов

🎭 Инсайт авторов: Эти режиссёры сформировали кинематографический ландшафт нашего датасета!


In [44]:
# Большие бюджетные зрелища: Деньги на экране
%timeit expensive_movies = links.most_expensive(6)
expensive_movies = links.most_expensive(6)

print("💰 БЛОКБАСТЕРЫ С САМЫМ БОЛЬШИМ БЮДЖЕТОМ:")
for i, (title, budget) in enumerate(expensive_movies.items(), 1):
    print(f"{i}. {title}: ${budget:,}")

print("\n🎪 Инсайт зрелищности: Большие бюджеты стремились к большим впечатлениям в кино 90-х!")

104 μs ± 1.39 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
💰 БЛОКБАСТЕРЫ С САМЫМ БОЛЬШИМ БЮДЖЕТОМ:
1. Waterworld (1995): $175,000,000
2. Batman Forever (1995): $100,000,000
3. Cutthroat Island (1995): $98,000,000
4. Die Hard: With a Vengeance (1995): $90,000,000
5. Judge Dredd (1995): $90,000,000
6. Braveheart (1995): $72,000,000

🎪 Инсайт зрелищности: Большие бюджеты стремились к большим впечатлениям в кино 90-х!


In [45]:
# Марафонские фильмы: Самые длинные переживания
%timeit longest_movies = links.longest(6)
longest_movies = links.longest(6)

print("⏰ САМЫЕ ДЛИННЫЕ КИНЕОПУТЕШЕСТВИЯ:")
for i, (title, runtime) in enumerate(longest_movies.items(), 1):
    hours = runtime // 60
    minutes = runtime % 60
    print(f"{i}. {title}: {hours}ч {minutes}м ({runtime} минут)")

print("\n⌛ Эпический инсайт: Некоторые истории требовали большого времени для правильной истории!")

119 μs ± 1.5 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
⏰ САМЫЕ ДЛИННЫЕ КИНЕОПУТЕШЕСТВИЯ:
1. Nixon (1995): 3ч 12м (192 минут)
2. Casino (1995): 2ч 58м (178 минут)
3. Braveheart (1995): 2ч 58м (178 минут)
4. Misérables, Les (1995): 2ч 55м (175 минут)
5. Heat (1995): 2ч 50м (170 минут)
6. Strange Days (1995): 2ч 25м (145 минут)

⌛ Эпический инсайт: Некоторые истории требовали большого времени для правильной истории!


In [46]:
# Чемпионы прибыли: Лучшая отдача от инвестиций
%timeit profitable_movies = links.most_profitable(6)
profitable_movies = links.most_profitable(6)

print("📈 САМЫЕ ПРИБЫЛЬНЫЕ ФИЛЬМЫ:")
for i, (title, profit) in enumerate(profitable_movies.items(), 1):
    print(f"{i}. {title}: ${profit:,} прибыль")

print("\n💎 Инсайт успеха: Лучшие фильмы оказали как художественное, так и финансовое влияние!")

112 μs ± 1.2 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
📈 САМЫЕ ПРИБЫЛЬНЫЕ ФИЛЬМЫ:
1. Toy Story (1995): $364,436,586 прибыль
2. Apollo 13 (1995): $303,237,933 прибыль
3. Seven (a.k.a. Se7en) (1995): $295,981,827 прибыль
4. GoldenEye (1995): $292,194,034 прибыль
5. Pocahontas (1995): $291,079,773 прибыль
6. Die Hard: With a Vengeance (1995): $276,101,666 прибыль

💎 Инсайт успеха: Лучшие фильмы оказали как художественное, так и финансовое влияние!


In [47]:
# Премиум-переживания: Стоимость за минуту
%timeit cost_per_minute = links.top_cost_per_minute(6)
cost_per_minute = links.top_cost_per_minute(6)

print("💸 САМЫЕ ДОРОГИЕ ФИЛЬМЫ ЗА МИНУТУ:")
for i, (title, cost) in enumerate(cost_per_minute.items(), 1):
    print(f"{i}. {title}: ${cost:,.2f} за минуту")

print("\n⚡ Некоторые фильмы стоили невероятно дорого в производстве за каждую минуту!")

# Общая статистика датасета
print("\n" + "=" * 60)
print("📊 ОБЩАЯ СТАТИСТИКА НАШЕГО АНАЛИЗА")
print("=" * 60)
print(f"🎬 Всего фильмов проанализировано: {len(movies.data)}")
print(f"⭐ Всего рейтингов обработано: {len(ratings.data)}")
print(f"🏷️ Всего тегов изучено: {len(tags.data)}")
print(f"🔗 Всего ссылок исследовано: {len(links.data)}")
print("\n🎯 Все данные обработаны успешно!")

195 μs ± 4.24 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
💸 САМЫЕ ДОРОГИЕ ФИЛЬМЫ ЗА МИНУТУ:
1. Waterworld (1995): $1,296,296.30 за минуту
2. Judge Dredd (1995): $937,500.00 за минуту
3. Batman Forever (1995): $826,446.28 за минуту
4. Cutthroat Island (1995): $790,322.58 за минуту
5. Die Hard: With a Vengeance (1995): $703,125.00 за минуту
6. Pocahontas (1995): $679,012.35 за минуту

⚡ Некоторые фильмы стоили невероятно дорого в производстве за каждую минуту!

📊 ОБЩАЯ СТАТИСТИКА НАШЕГО АНАЛИЗА
🎬 Всего фильмов проанализировано: 1000
⭐ Всего рейтингов обработано: 1000
🏷️ Всего тегов изучено: 1000
🔗 Всего ссылок исследовано: 200

🎯 Все данные обработаны успешно!


## Эпилог: История кино 90-х

### Что мы обнаружили

Наше путешествие по датасету MovieLens раскрывает богатую палитру кинематографа 1990-х годов:

**🎬 Фильмы**: 1995 год стал золотым годом, а драма и комедия покорили сердца аудитории. Фильмы становились более сложными, многие охватывали несколько жанров.

**⭐ Аудитория**: Киноманы были в целом оптимистичны, низкие оценки встречались редко. Сообщество было страстным, но разнообразным - одни пользователи оценивали по всему спектру, другие были более последовательными.

**🏷️ Сообщество**: Юмор ("funny") был самым ценным качеством, показывая, что развлечение было ключевым. Сообщество создавало всё - от простых тегов до подробных мини-рецензий, демонстрируя глубокую вовлечённость.

**🔗 Индустрия**: Режиссёры строили свои фильмографии, большие бюджеты создавали зрелища, а некоторые фильмы достигли идеального баланса художественного и коммерческого успеха.

### Общая картина

Эти данные рассказывают историю трансформационного десятилетия в кинематографе - когда фильмы стали более разнообразными, аудитория более вовлечённой, а сообщество начало формировать основы того, что стало современной культурой обсуждения фильмов.

1990-е были не только о самих фильмах, но и о рождении партисипативной кинокультуры, которая продолжает процветать и сегодня.

### Финальные выводы

📈 **Тренды эпохи**: Золотой год 1995, доминирование драмы, рост многожанровых фильмов

😊 **Характер аудитории**: Оптимистичная, вовлечённая, разнообразная в своих предпочтениях

🎭 **Ценности сообщества**: Юмор превыше всего, глубокие обсуждения, страстная вовлечённость

💼 **Индустриальная эволюция**: Баланс искусства и коммерции, эксперименты с бюджетами и жанрами

---

*"В конце концов, мы не просто смотрим фильмы - мы их проживаем, обсуждаем и делаем частью нашей общей культурной истории."* 🎭

---

*Отчет создан в рамках изучения аналитики данных и рассказывания историй через данные.*