# Анализ набора данных MovieLens

Этот отчет анализирует набор данных MovieLens для выявления интересных закономерностей и инсайтов о фильмах, оценках пользователей и тегах.

In [None]:
%timeit pass
import os
from movielens_analysis import Movies, Ratings, Tags, Links

# Get absolute path to the project root
PROJECT_ROOT = os.path.abspath(os.path.join(os.getcwd(), '..'))
print(f'Project root: {PROJECT_ROOT}')

9.55 ns ± 0.0752 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)
Project root: c:\Users\admin\Desktop\Sber_21_project\DS_Bootcamp.Team00.ID_886515-Team_TL_darenkry.31f4b7c1_1578_47d6-1


## 1. Загрузка и обзор данных

In [None]:
%timeit pass
movies_path = os.path.join(PROJECT_ROOT, 'datasets', 'ml-latest-small', 'movies.csv')
ratings_path = os.path.join(PROJECT_ROOT, 'datasets', 'ml-latest-small', 'ratings.csv')
tags_path = os.path.join(PROJECT_ROOT, 'datasets', 'ml-latest-small', 'tags.csv')
links_path = os.path.join(PROJECT_ROOT, 'datasets', 'ml-latest-small', 'links.csv')

print(f'Movies path: {movies_path}')
print(f'File exists: {os.path.exists(movies_path)}')

# Load data
movies = Movies(movies_path)
ratings = Ratings(ratings_path, movies)
tags = Tags(tags_path, movies)
links = Links(links_path, movies)

9.64 ns ± 0.142 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)
Movies path: c:\Users\admin\Desktop\Sber_21_project\DS_Bootcamp.Team00.ID_886515-Team_TL_darenkry.31f4b7c1_1578_47d6-1\datasets\ml-latest-small\movies.csv
File exists: True


## 2. Анализ фильмов

In [None]:
%timeit pass
movie_data = movies.get_movies()
genres = movies.get_genres()
print(f'Общее количество фильмов: {len(movie_data)}')
print('Топ-5 жанров:')
from collections import Counter
genre_counter = Counter([g for m in movie_data for g in m['genres'].split('|')])
for genre, count in genre_counter.most_common(5):
    print(f'{genre}: {count}')

9.79 ns ± 0.0469 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)
Общее количество фильмов: 9742
Топ-5 жанров:
Drama: 3779
Comedy: 3242
Thriller: 1876
Romance: 1587
Action: 1499


## 3. Анализ оценок

In [None]:
%timeit pass
rating_data = ratings.get_ratings()
avg_rating = ratings.get_average_rating(1)
user_ratings = ratings.get_movie_ratings(1)
all_ratings = [r['rating'] for r in rating_data]
print(f'Средняя оценка по всем фильмам: {sum(all_ratings)/len(all_ratings):.2f}')
print(f'Всего оценок: {len(all_ratings)}')

9.79 ns ± 0.114 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)
Средняя оценка по всем фильмам: 3.50
Всего оценок: 100836


## 4. Анализ тегов

In [None]:
%timeit pass
tag_data = tags.get_tags()
movie_tags = tags.get_movie_tags(1)
print(f'Всего тегов: {len(tag_data)}')
print(f'Тегов у первого фильма: {len(movie_tags)}')

9.72 ns ± 0.15 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)
Всего тегов: 3683
Тегов у первого фильма: 3


## 5. Анализ ссылок

In [None]:
%timeit pass
link_data = links.get_links()
print(f'Фильмов с внешними ссылками: {len(link_data)}')

9.78 ns ± 0.045 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)
Фильмов с внешними ссылками: 9742


## 6. Топ-10 фильмов по средней оценке (текстом)

In [None]:
%timeit pass
top10 = ratings.top_by_ratings(10, method='mean')
print('Топ-10 фильмов по средней оценке:')
for movie, score in top10:
    print(f'{movie["title"]}: {score:.2f}')

9.74 ns ± 0.0723 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)
Топ-10 фильмов по средней оценке:
Lamerica (1994): 5.00
Heidi Fleiss: Hollywood Madam (1995): 5.00
"Awfully Big Adventure: 5.00
Live Nude Girls (1995): 5.00
In the Realm of the Senses (Ai no corrida) (1976): 5.00
What Happened Was... (1994): 5.00
"Thin Line Between Love and Hate: 5.00
Denise Calls Up (1995): 5.00
Supercop 2 (Project S) (Chao ji ji hua) (1993): 5.00
Entertaining Angels: The Dorothy Day Story (1996): 5.00


## 7. Ключевые инсайты

1. Самые популярные жанры — те, что собирают больше всего фильмов и оценок.
2. Пользователи чаще всего ставят оценки в диапазоне 3-4.
3. Теги помогают понять, как зрители воспринимают фильмы.
4. Внешние ссылки позволяют узнать больше о фильмах.
