## ⏳ Part 0. Load libs and data.

In [1]:
import timeit
from movielens_analysis import Links, Movies, Ratings, Tags

links = Links("data/links.csv")
movies = Movies("data/movies.csv")
ratings = Ratings("data/ratings.csv")
tags = Tags("data/tags.csv")

%timeit links.load_data()
%timeit movies.load_data()
%timeit ratings.load_data()
%timeit tags.load_data()


258 μs ± 10.6 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
515 μs ± 16.1 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
251 μs ± 7.4 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
471 μs ± 8.25 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


## ⏩ Part 1. Let's work with datasets

##### Какой средний рейтинг фильмов на MovieLens?

In [2]:
%timeit ratings.mean_rating()
print(f"Средний рейтинг на MovieLens = {ratings.mean_rating()}")

161 μs ± 2.32 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Средний рейтинг на MovieLens = 3.669


##### Какая медина рейтинга фильмов на MovieLens?

In [3]:
%timeit ratings.median_rating()
print(f"Медиана рейтинга фильмов на MovieLens = {ratings.median_rating()}")

506 μs ± 3.82 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Медиана рейтинга фильмов на MovieLens = 2.25


##### Какие лучшие месяцы для просмотра фильмов?

In [4]:
%timeit ratings.top5_month()
print(f"Топ 5 фильмов: {ratings.top5_month()}")

2.17 ms ± 54.9 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
Топ 5 фильмов: ['October', 'July', 'January', 'December', 'April']


##### Какой самый длинный тег?

In [5]:
%timeit tags.longest_tag()
print(f"Самый длинный тег: \"{tags.longest_tag()}\"")

33.4 μs ± 828 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Самый длинный тег: "Something for everyone in this one... saw it without and plan on seeing it with kids!"


##### Какие пользователи оставили больше всего тегов?

In [6]:
%timeit tags.top10_user_with_most_tag()
print(f"Пользователи с наибольшим кол-вом тегов: {tags.top10_user_with_most_tag()}")

56.3 μs ± 2.08 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
Пользователи с наибольшим кол-вом тегов: ['62', '424', '125', '357', '318', '184', '193', '474', '18', '119']


##### В каком году было выпущено больше всего фильмов?

In [7]:
%timeit movies.year_most_films()
print(f"Год с наибольшим кол-вом фильмов: {movies.year_most_films()}")

1.1 ms ± 29.2 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Год с наибольшим кол-вом фильмов: 1995


##### Какие фильмы занимают верхнюю строчку в топе?

In [8]:
limit: int = 10 #top 10
%timeit ratings.id_best_films()
%timeit movies.create_dict_on_name_col('movieId')
best_films=ratings.id_best_films()
d_movies=movies.create_dict_on_name_col('movieId')
i: int = 0
while i<limit:
	if best_films[i] in d_movies.keys():
		i+=1
		print(i, d_movies[best_films[i]]['title'])

481 μs ± 12.8 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
250 μs ± 11.7 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
1 Canadian Bacon (1995)
2 Star Wars: Episode IV - A New Hope (1977)
3 James and the Giant Peach (1996)
4 "Wizard of Oz, The (1939)"
5 Citizen Kane (1941)
6 "Adventures of Robin Hood, The (1938)"
7 Mr. Smith Goes to Washington (1939)
8 Winnie the Pooh and the Blustery Day (1968)
9 "Three Caballeros, The (1945)"
10 Dumbo (1941)


## 💻 Part 2. Web scraping

##### Посмотрим продолжительность первых N фильмов.

In [9]:
N: int = 3
%timeit links.duration_first_films(N)
list_duration = links.duration_first_films(N)
print(list(map(lambda x: x+' minutes', list_duration)))

3.46 s ± 535 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
['81 minutes', '104 minutes', '101 minutes']


##### Сравним рейтинги которые предоставлены на сайте и в базе данных. Выведем первые N фильмов по таблице.

In [10]:
N: int = 10
i: int = 0

%timeit links.compare_rating_with_imdb()
for item in links.compare_rating_with_imdb():
	i+=1
	print(i,item)
	if i==N:
		break

63.4 ns ± 0.596 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)
1 ID: 0114709 | DB: 4.5 | WEBSITE: 8.3/10
2 ID: 0113497 | DB: 4.0 | WEBSITE: 7.1/10
3 ID: 0113228 | DB: 5.0 | WEBSITE: 6.7/10
4 ID: 0114885 | DB: 3.0 | WEBSITE: 6.0/10
5 ID: 0113041 | DB: 5.0 | WEBSITE: 6.1/10
6 ID: 0113277 | DB: 4.0 | WEBSITE: 8.3/10
7 ID: 0114319 | DB: 4.0 | WEBSITE: 6.3/10
8 ID: 0112302 | DB: 3.0 | WEBSITE: 5.5/10
9 ID: 0114576 | DB: N/A | WEBSITE: 5.9/10
10 ID: 0113189 | DB: 3.0 | WEBSITE: 7.2/10


##### Сравним жанры, которые предоставлены на сайте и в базе данных. Выведем первые N фильмов по таблице.

In [11]:
N: int = 10
i: int = 0

%timeit links.compare_genres_with_imdb()
for item in links.compare_genres_with_imdb():
	i+=1
	print(i,item)
	if i == N:
		break

60 ns ± 1.18 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)
1 ID: 0114709 | DB: ['Adventure', 'Animation', 'Children', 'Comedy', 'Fantasy'] | WEBSITE: ['Buddy Comedy', 'Computer Animation', 'Supernatural Fantasy', 'Urban Adventure', 'Adventure']
2 ID: 0113497 | DB: ['Adventure', 'Children', 'Fantasy'] | WEBSITE: ['High-Concept Comedy', 'Jungle Adventure', 'Supernatural Fantasy', 'Adventure', 'Comedy']
3 ID: 0113228 | DB: ['Comedy', 'Romance'] | WEBSITE: ['Buddy Comedy', 'Comedy', 'Romance', 'Back to top']
4 ID: 0114885 | DB: ['Comedy', 'Drama', 'Romance'] | WEBSITE: ['Feel-Good Romance', 'Romantic Comedy', 'Comedy', 'Drama', 'Romance']
5 ID: 0113041 | DB: ['Comedy'] | WEBSITE: ['Romantic Comedy', 'Comedy', 'Family', 'Romance', 'Back to top']
6 ID: 0113277 | DB: ['Action', 'Crime', 'Thriller'] | WEBSITE: ['Action Epic', 'Cop Drama', 'Epic', 'Gangster', 'Heist']
7 ID: 0114319 | DB: ['Comedy', 'Romance'] | WEBSITE: ['Romantic Comedy', 'Comedy', 'Drama', 'Romance', 'Back t

##### Создадим краткие отчёты о каждом фильме. Выведем первые N фильмов.

In [12]:
N: int = 10
i: int = 0

%timeit links.create_mini_reports()
for item in links.create_mini_reports():
	i+=1
	print(i,item, end='\n\n')
	if i==N:
		break

60.4 ns ± 0.973 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)
1 Название: "История игрушек"	Время:1h 21m(81 min)
О чём: A cowboy doll is profoundly jealous when a new spaceman action figure supplants him as the top toy in a boy's bedroom. When circumstances separate them from their owner, the duo have to put aside their differences to return to him.

2 Название: "Джуманджи"	Время:1h 44m(104 min)
О чём: A magic board game summons jungle perils and a missing boy.

3 Название: "Старые ворчуны разбушевались"	Время:1h 41m(101 min)
О чём: Just as John and Max resolve to save their beloved bait shop from turning into an Italian restaurant, its new female owner catches Max's attention.

4 Название: "В ожидании выдоха"	Время:2h 4m(124 min)
О чём: Based on Terry McMillan's novel, this film follows four very different African-American women and their relationships with men.

5 Название: "Отец невесты 2"	Время:1h 46m(106 min)
О чём: George Banks must deal not only with his daught

## 🤔 Part 3. Conclusion

**Подведём итог, что же мы узнали из данных:**
- ✅ Мы проанализировали рейтинг фильмов, благодаря этому можем сделать небольшой вывод о подборке фильмов на MovieLens.
- ✅ Узнали в какой месяц в году наиболее часто пользуются MovieLens для просмотра фильмов.
- ✅ Проанализировали теги, которые оставляют пользователи после просмотра фильмов.
- ✅ Узнали в каком году было выпущено больше всего фильмов.
- ✅ Нашли самые популярные фильмы.
- ✅ Проанализировали информацию хранимую в базе данных и на сайте, сравнили их.
- ✅ Составили краткие отчёты для каждого фильма.

**Примечание:** варируя параметры в нотпаде, можно получать новые результаты.