# 📊 Анализ данных MovieLens

В этом отчёте мы анализируем датасет **MovieLens**, используя только классы и методы из `movielens_analysis.py`.
Каждый раздел посвящён разным аспектам данных: рейтингам, тегам, фильмам и внешним ссылкам.

**Цель:** найти интересные закономерности в данных.


## ⭐ Анализ рейтингов

Мы изучим:
- Средний рейтинг фильмов.
- Самые популярные фильмы по оценкам.
- Активность пользователей.
- Как меняются рейтинги фильмов со временем.

In [1]:
from movielens_analysis import Ratings

ratings = Ratings("ml-latest-small/ratings.csv")

print("📥 Загружаем данные о рейтингах...")
%timeit ratings.load_data()

print("\n⭐ Средний рейтинг фильмов:")
print(ratings.average_rating().head(3).to_string())
%timeit ratings.average_rating()

print("\n🎬 Топ-3 фильмов по рейтингу:")
print(ratings.top_movies(3).to_string())
%timeit ratings.top_movies(3)

print("\n📊 Количество оценок на фильм:")
print(ratings.count_ratings().head(3).to_string())
%timeit ratings.count_ratings()

""" print("\n📈 Тренд рейтинга фильма (movieId=1):")
print(ratings.rating_trend(1).head(3).to_string())
%timeit ratings.rating_trend(1) """

print("\n👤 3 самых активных пользователей:")
print(ratings.most_active_users(3).to_string())
%timeit ratings.most_active_users(3)

📥 Загружаем данные о рейтингах...
16.1 ms ± 392 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

⭐ Средний рейтинг фильмов:
movieId
1    3.920930
2    3.431818
3    3.259615
1.92 ms ± 85.2 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

🎬 Топ-3 фильмов по рейтингу:
movieId
53     5.0
99     5.0
148    5.0
2.41 ms ± 72.2 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

📊 Количество оценок на фильм:
movieId
1    215
2    110
3     52
1.62 ms ± 22.4 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

👤 3 самых активных пользователей:
userId
414    2698
599    2478
474    2108
351 μs ± 1.99 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


## 🏷️ Анализ тегов

Мы рассмотрим:
- Самые популярные теги.
- Редкие теги (используемые менее 5 раз).

In [2]:
from movielens_analysis import Tags

tags = Tags("ml-latest-small/tags.csv")

print("📥 Загружаем данные о тегах...")
%timeit tags.load_data()

print("\n🏷️ 10 самых популярных тегов:")
print(tags.most_common_tags(5).to_string())
%timeit tags.most_common_tags(5)

print("\n🔍 Редкие теги (используемые <= 5 раз):")
print(tags.rare_tags(5).head(10).to_string())
%timeit tags.rare_tags(5)

📥 Загружаем данные о тегах...
1.57 ms ± 67 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

🏷️ 10 самых популярных тегов:
tag
In Netflix queue     131
atmospheric           36
thought-provoking     24
superhero             24
funny                 23
297 μs ± 3.41 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

🔍 Редкие теги (используемые <= 5 раз):
tag
Civil War          5
Judaism            5
Adam Sandler       5
alcoholism         5
cross dressing     5
amnesia            5
based on a book    5
Jason              5
stylish            5
terrorism          5
357 μs ± 578 ns per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


## 🎬 Анализ информации о фильмах

В этом разделе мы исследуем:
- Фильмы определённого жанра.
- Фильмы с определённым названием.
- Количество выпущенных фильмов по годам.

In [3]:
from movielens_analysis import Movies

movies = Movies("ml-latest-small/movies.csv")

print("📥 Загружаем данные о фильмах...")
%timeit movies.load_data()

print("\n🎭 Фильмы в жанре 'Comedy':")
print(movies.find_by_genre("Comedy").head(5).to_string())
%timeit movies.find_by_genre("Comedy")

print("\n🎬 Поиск фильмов с названием 'Toy Story':")
print(movies.find_by_title("Toy Story").head(5).to_string())
%timeit movies.find_by_title("Toy Story")

print("\n📅 Количество фильмов по годам:")
print(movies.movies_per_year().head(5).to_string())
%timeit movies.movies_per_year()

📥 Загружаем данные о фильмах...
5.45 ms ± 84.6 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

🎭 Фильмы в жанре 'Comedy':
   movieId                               title                                       genres
0        1                    Toy Story (1995)  Adventure|Animation|Children|Comedy|Fantasy
2        3             Grumpier Old Men (1995)                               Comedy|Romance
3        4            Waiting to Exhale (1995)                         Comedy|Drama|Romance
4        5  Father of the Bride Part II (1995)                                       Comedy
6        7                      Sabrina (1995)                               Comedy|Romance
1.58 ms ± 9.56 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

🎬 Поиск фильмов с названием 'Toy Story':
      movieId               title                                            genres
0           1    Toy Story (1995)       Adventure|Animation|Children|Comedy|Fantasy
2355     3114  Toy Story 2 (1999

## 🔗 Внешние ссылки на фильмы

MovieLens хранит идентификаторы фильмов для **IMDb** и **TMDb**. Мы проверим:
- Как получить ссылки для фильмов.
- Есть ли у фильма внешние ссылки.

In [7]:
from movielens_analysis import Links

links = Links("ml-latest-small/links.csv")

print("📥 Загружаем данные о ссылках...")
%timeit links.load_links_data()

print("\n🔗 IMDb-ссылка для movieId=1:")
print(links.get_imdb_link(1))
%timeit links.get_imdb_link(1)

print("\n🎞️ TMDb-ссылка для movieId=1:")
print(links.get_tmdb_link(1))
%timeit links.get_tmdb_link(1)

print("\n✅ Проверка наличия внешних ссылок для movieId=1:")
print(links.has_external_links(1))
%timeit links.has_external_links(1)

movie_id = 1
movie_info = links.get_movie_info(movie_id)
print(f"\n🎬 Информация о фильме {movie_id}:")
print(f"Название: {movie_info['Title']}")
print(f"Описание: {movie_info['Description']}")

📥 Загружаем данные о ссылках...
1.54 ms ± 42.5 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

🔗 IMDb-ссылка для movieId=1:
https://www.imdb.com/title/tt0114709/
68.6 μs ± 84.4 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)

🎞️ TMDb-ссылка для movieId=1:
https://www.themoviedb.org/movie/862
68.5 μs ± 279 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)

✅ Проверка наличия внешних ссылок для movieId=1:
True
69.4 μs ± 838 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)

🎬 Информация о фильме 1:
Название: История игрушек
Описание: A cowboy doll is profoundly threatened and jealous when a new spaceman action figure supplants him as top toy in a boy's bedroom.


## 💻 Протестируем

У нас написаны тесты на каждый модуль, всего их 14, проверяем работу классов

In [9]:
!pytest movielens_analysis.py

platform darwin -- Python 3.12.4, pytest-8.3.4, pluggy-1.5.0
rootdir: /Users/mr_renskov/School_21/DS_Bootcamp.Team00-1/src
plugins: anyio-4.8.0
collected 14 items                                                             [0m

movielens_analysis.py [32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m                                     [100%][0m

