**ОТЧЕТ ПО ВЫПОЛНЕННОМУ АНАЛИЗУ MOVIELENS**

**Цель отчета** – анализ данных о фильмах и предпочтениях пользователей из набора данных MovieLens.

Всего в отчете предоставлено 4 основных класса, такие как **Movies**, **Rating**, **Links** и **Tags**.

Для начала рассмотрим класс Movies. Начнем с первого метода **dist_by_release**, этот метод показывает нам самый активный год, 
когда снимались фильмы.

In [1]:
from movielens_analysis import *

In [2]:
%%timeit
movies = Movies('dataset/movies.csv')
releases = movies.dist_by_release()
releases

1.49 ms ± 6.87 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [3]:
movies = Movies('dataset/movies.csv')
releases = movies.dist_by_release()
releases

OrderedDict([(1995, 180),
             (1994, 141),
             (1996, 140),
             (1993, 83),
             (1992, 18),
             (1990, 13),
             (1991, 12),
             (1989, 9),
             (1986, 8),
             (1982, 7),
             (1979, 6),
             (1987, 6),
             (1985, 6),
             (1940, 5),
             (1981, 5),
             (1955, 5),
             (1968, 5),
             (1997, 5),
             (1957, 5),
             (1958, 4),
             (1944, 4),
             (1950, 4),
             (1941, 4),
             (1971, 4),
             (1980, 4),
             (1967, 3),
             (1977, 3),
             (1937, 3),
             (1973, 3),
             (1988, 3),
             (1964, 3),
             (1954, 3),
             (1959, 3),
             (1939, 3),
             (1956, 3),
             (1975, 3),
             (1974, 3),
             (1960, 3),
             (1983, 3),
             (1984, 3),
             (1976, 2),
      

На основе этого списка мы выдим, что самый популярный год для выпуска фильмов был 1995

Следующий метод **dist_by_genres**, показывает нам самый попялурный жанр фильмов на основе данных предоставленных MovieLens

In [4]:
%%timeit
genres = movies.dist_by_genres()

779 μs ± 2.97 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [5]:
genres = movies.dist_by_genres()
genres

OrderedDict([('Drama', 382),
             ('Comedy', 294),
             ('Romance', 161),
             ('Thriller', 135),
             ('Action', 121),
             ('Crime', 95),
             ('Adventure', 93),
             ('Children', 67),
             ('Fantasy', 46),
             ('Mystery', 45),
             ('Musical', 39),
             ('Horror', 37),
             ('War', 33),
             ('Animation', 26),
             ('Western', 17),
             ('Documentary', 16),
             ('IMAX', 2),
             ('Lies', 1)])

На основе этого списка мы видим что самым популярный жанром, на удивление является "Драма"

Метод **most_genres** показывает нам топ n мультижанровых фильмов, то есть фильмов которые сочетают в себе большее количество жанров

In [6]:
%%timeit
m_genres = movies.most_genres(5)

797 μs ± 9.14 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [7]:
m_genres = movies.most_genres(5)
m_genres

OrderedDict([('Strange Days (1995)', 6),
             ('Super Mario Bros. (1993)', 6),
             ('Beauty and the Beast (1991)', 6),
             ('All Dogs Go to Heaven 2 (1996)', 6),
             ('Space Jam (1996)', 6)])

И топ 1 фильм стал Strange Days, сочетая в себе 6 жанров

Переходим к следующему классу  **Ratings**, класс содержит в себе два подкласса Movies и Users. начнем с класса Movies.

Первый метод **dist_by_year**, в нем мы увидем в каком году пользователи были более активные и выставляли оценки фильмам.

In [8]:
%%timeit
ratings = Ratings('dataset/ratings.csv')
movies = ratings.movies
result = movies.dist_by_year()

84.7 ms ± 487 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [9]:
ratings = Ratings('dataset/ratings.csv')
movies = ratings.movies
result = movies.dist_by_year()
result

[('1996', 5682),
 ('1997', 1916),
 ('1998', 507),
 ('1999', 2357),
 ('2000', 9765),
 ('2001', 3852),
 ('2002', 3478),
 ('2003', 4014),
 ('2004', 3279),
 ('2005', 5691),
 ('2006', 4055),
 ('2007', 7113),
 ('2008', 4351),
 ('2009', 4158),
 ('2010', 2300),
 ('2011', 1651),
 ('2012', 4657),
 ('2013', 1664),
 ('2014', 1439),
 ('2015', 6587),
 ('2016', 6702),
 ('2017', 8199),
 ('2018', 6418)]

Следующий метод **dist_by_rating**, он возвращает список, в котором мы увидим какие оценки пользователи чаще всего ставят

In [10]:
%%timeit
rating = movies.dist_by_rating()

45.7 ms ± 276 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [11]:
rating = movies.dist_by_rating()
rating

[(0.5, 1346),
 (1.0, 2772),
 (1.5, 1780),
 (2.0, 7494),
 (2.5, 5543),
 (3.0, 19794),
 (3.5, 13118),
 (4.0, 26526),
 (4.5, 8518),
 (5.0, 12944)]

Оценка 5.0 стала самой популярной среди пользователей

Метод **top_by_num_of_ratings**, возвращает нам топ n id фильмов, которым было выставлено больше всего оценок

In [12]:
%%timeit
num_ratings = movies.top_by_num_of_ratings(7)

26.6 ms ± 283 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [13]:
num_ratings = movies.top_by_num_of_ratings(7)
num_ratings

OrderedDict([('356', 326),
             ('318', 314),
             ('296', 303),
             ('2571', 276),
             ('593', 275),
             ('260', 248),
             ('480', 235)])

Фильм с id "356" занял первое место

Метод **top_by_ratings**, этот метод возвращает топ n id фильмов, с самым высоким средним рейтингом

In [14]:
%%timeit
num_n_ratings = movies.top_by_ratings(10)

64.9 ms ± 20.6 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [15]:
num_n_ratings = movies.top_by_ratings(10)
num_n_ratings

{'1151': 5.0,
 '1631': 5.0,
 '2075': 5.0,
 '176601': 5.0,
 '92494': 5.0,
 '102217': 5.0,
 '27523': 5.0,
 '67618': 5.0,
 '8804': 5.0,
 '26350': 5.0}

Вы видите топ 10 фильмов на MovieLens с самой высокой средней оценкой

Метод **top_controversial**, считает дисперсию оценок на фильмы, что показывает какие фильмы вызвали неоднозначную реакцию у пользователей.

In [16]:
%%timeit
top_control = movies.top_controversial(10)

126 ms ± 5.57 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [17]:
top_control = movies.top_controversial(10)
top_control

{'32892': 5.06,
 '70946': 5.06,
 '2068': 5.06,
 '484': 4.0,
 '3223': 4.0,
 '7564': 4.0,
 '84847': 4.0,
 '26171': 3.72,
 '74754': 3.56,
 '2488': 3.5}

Метод top_controversial показал нам топ 10 фильмов, с неоднозначными оценками

Переходим к следующему классу **Users**, который наследован от класса **Ratings**

Первый метод этого класса **get_count_user_rating_distribution**, этот метод покажет нам список всех пользователей и количество оценок
которые они поставили за все время. Этот метод поможет нам определить самых активных пользователей.

In [18]:
%%timeit
users = ratings.users
user_rating = users.get_count_user_rating_distribution()

63.9 ms ± 1.63 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [19]:
users = ratings.users
user_rating = users.get_count_user_rating_distribution()
user_rating

{'414': 2698,
 '599': 2478,
 '474': 2108,
 '448': 1864,
 '274': 1346,
 '610': 1302,
 '68': 1260,
 '380': 1218,
 '606': 1115,
 '288': 1055,
 '249': 1046,
 '387': 1027,
 '182': 977,
 '307': 975,
 '603': 943,
 '298': 939,
 '177': 904,
 '318': 879,
 '232': 862,
 '480': 836,
 '608': 831,
 '600': 763,
 '483': 728,
 '590': 728,
 '105': 722,
 '19': 703,
 '305': 677,
 '489': 648,
 '111': 646,
 '438': 635,
 '217': 613,
 '140': 608,
 '477': 600,
 '555': 578,
 '91': 575,
 '28': 570,
 '219': 528,
 '534': 520,
 '89': 518,
 '64': 517,
 '226': 507,
 '561': 505,
 '18': 502,
 '525': 500,
 '57': 476,
 '381': 474,
 '368': 469,
 '509': 467,
 '469': 465,
 '560': 458,
 '462': 455,
 '292': 446,
 '21': 443,
 '597': 443,
 '42': 440,
 '160': 437,
 '294': 437,
 '580': 436,
 '596': 411,
 '202': 403,
 '275': 403,
 '517': 400,
 '45': 399,
 '156': 398,
 '514': 397,
 '391': 386,
 '567': 385,
 '357': 383,
 '103': 377,
 '339': 371,
 '62': 366,
 '199': 363,
 '125': 360,
 '51': 359,
 '132': 347,
 '66': 345,
 '313': 340,
 

Переходим к методу **user_top_by_ratings**, здесь мы наглядно увидем пользователей и их среднюю оценку по фильмам. 

In [20]:
%%timeit
user_rating = users.user_top_by_ratings()

65 ms ± 1.95 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [21]:
user_top = users.user_top_by_ratings() 
user_top

{'53': 5.0,
 '251': 4.87,
 '515': 4.85,
 '25': 4.81,
 '30': 4.74,
 '523': 4.69,
 '348': 4.67,
 '171': 4.63,
 '452': 4.56,
 '43': 4.55,
 '122': 4.55,
 '371': 4.55,
 '441': 4.52,
 '400': 4.51,
 '52': 4.48,
 '538': 4.47,
 '168': 4.46,
 '417': 4.46,
 '543': 4.45,
 '106': 4.44,
 '319': 4.43,
 '601': 4.43,
 '413': 4.41,
 '475': 4.41,
 '188': 4.4,
 '12': 4.39,
 '276': 4.39,
 '154': 4.38,
 '533': 4.38,
 '581': 4.38,
 '69': 4.37,
 '586': 4.37,
 '59': 4.36,
 '128': 4.36,
 '544': 4.36,
 '253': 4.35,
 '459': 4.35,
 '553': 4.34,
 '585': 4.34,
 '519': 4.33,
 '70': 4.32,
 '336': 4.32,
 '435': 4.32,
 '300': 4.3,
 '93': 4.29,
 '532': 4.28,
 '74': 4.27,
 '49': 4.26,
 '80': 4.26,
 '224': 4.26,
 '291': 4.26,
 '164': 4.25,
 '169': 4.25,
 '246': 4.25,
 '398': 4.25,
 '162': 4.24,
 '209': 4.24,
 '362': 4.24,
 '494': 4.23,
 '250': 4.22,
 '17': 4.21,
 '337': 4.21,
 '340': 4.21,
 '573': 4.21,
 '79': 4.2,
 '227': 4.2,
 '252': 4.2,
 '258': 4.2,
 '460': 4.2,
 '595': 4.2,
 '97': 4.19,
 '364': 4.19,
 '526': 4.19,
 '1

Следующий метод **top_user_controversial**, здесь мы рассматриваем топ n пользоватей которые выставляют неоднозначные оценки фильмам. 
Это поможет нам больше понять пользователей, возможно они имеют широкий спектр интересов или просто непредсказуемо оценивают фильмы.

In [22]:
%%timeit
top_user_contr = users.top_user_controversial(10)

89.1 ms ± 1.99 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [23]:
top_user_contr = users.top_user_controversial(10)
top_user_contr

{'461': 3.1,
 '55': 3.09,
 '259': 2.94,
 '329': 2.92,
 '502': 2.76,
 '175': 2.75,
 '598': 2.7,
 '393': 2.61,
 '138': 2.44,
 '160': 2.39}

В результате этого метода мы видим, что пользователь с id "461" самый нестабильный кинокритик

Следующий класс, который мы рассмотрим это класс **Tags**. Начнем с метода **most_words**, который возвращает наиболее "словесные" тэги пользователей

In [24]:
%%timeit
tags = Tags('dataset/tags.csv')
words = tags.most_words(10)

1.19 ms ± 301 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [25]:
tags = Tags('dataset/tags.csv')
words = tags.most_words(10)
words

{'Something for everyone in this one... saw it without and plan on seeing it with kids!': 16,
 'the catholic church is the most corrupt organization in history': 10,
 'Oscar (Best Music - Original Score)': 6,
 'Everything you want is here': 5,
 'based on a true story': 5,
 'heroine in tight suit': 4,
 'lord of the rings': 4,
 'Guardians of the Galaxy': 4,
 'jay and silent bob': 4,
 'based on a book': 4}

Вот топ 10 самых насыщенных tags к фильмам

Метод **longest**, делает почти тоже самое, что и метод **most_words**, но считает число символов в тэге, а не слов

In [26]:
%%timeit
long = tags.longest(10)
long

871 μs ± 40 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [27]:
long = tags.longest(10)
long

[('Something for everyone in this one... saw it without and plan on seeing it with kids!',
  85),
 ('the catholic church is the most corrupt organization in history', 63),
 ('audience intelligence underestimated', 36),
 ('Oscar (Best Music - Original Score)', 35),
 ('assassin-in-training (scene)', 28),
 ('Oscar (Best Cinematography)', 27),
 ('Everything you want is here', 27),
 ('political right versus left', 27),
 ('representation of children', 26),
 ('Guardians of the Galaxy', 23)]

Метод **most_words_and_longest**, находит пересечение результатов выполнения двух функций, Таким образом, результатом будет список тегов, которые одновременно являются и длинными, и содержат много слов.

In [28]:
%%timeit
words_and_longest = tags.most_words_and_longest(5)
words_and_longest

1.85 ms ± 142 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [29]:
words_and_longest = tags.most_words_and_longest(5)
words_and_longest

['Something for everyone in this one... saw it without and plan on seeing it with kids!',
 'Oscar (Best Music - Original Score)',
 'the catholic church is the most corrupt organization in history']

 Метод **most_popular**, выводит топ n самых популярных тэгов среди пользователей

In [30]:
%%timeit
popular = tags.most_popular(10)
popular

14.6 ms ± 206 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [31]:
popular = tags.most_popular(10)
popular

{'funny': 15,
 'sci-fi': 14,
 'twist ending': 12,
 'dark comedy': 12,
 'atmospheric': 10,
 'superhero': 10,
 'comedy': 10,
 'action': 10,
 'suspense': 10,
 'Leonardo DiCaprio': 9}

Вот топ-10 самых популярных тэгов

Метод **tags_with**, помогает найти тэг по ключевому слову, которое содержится в этом тэге

In [32]:
%%timeit
tag_with = tags.tags_with('dark')
tag_with

881 μs ± 33.7 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [33]:
tag_with = tags.tags_with('dark')
tag_with

['dark', 'dark comedy', 'dark fairy tale', 'dark hero', 'dark humor']

Вот пример, тэгов со словом "dark"

Перейдем к следующему классу **Links**. Начнем с метода **get_imdb**, этот метод показывает нам определенную информацию о фильме с сайта imbd

In [34]:
%%timeit
links_obj = Links('dataset/links.csv')
imdb_data = links_obj.imdb_info
imdb_data

1min 5s ± 4.88 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [35]:
links_obj = Links('dataset/links.csv')
imdb_data = links_obj.imdb_info
imdb_data

[['0114709',
  'John Lasseter',
  '$30,000,000 (estimated)',
  '$394,436,586',
  '1 hour 21 minutes',
  'Tom Hanks',
  'История игрушек'],
 ['0113497',
  'Joe Johnston',
  '$65,000,000 (estimated)',
  '$262,821,940',
  '1 hour 44 minutes',
  'Robin Williams',
  'Джуманджи'],
 ['0113228',
  'Howard Deutch',
  '$25,000,000 (estimated)',
  '$71,518,503',
  '1 hour 41 minutes',
  'Walter Matthau',
  'Старые ворчуны разбушевались'],
 ['0114885',
  'Forest Whitaker',
  '$16,000,000 (estimated)',
  '$81,452,156',
  '2 hours 4 minutes',
  'Whitney Houston',
  'В ожидании выдоха'],
 ['0113041',
  'Charles Shyer',
  '$30,000,000 (estimated)',
  '$76,594,107',
  '1 hour 46 minutes',
  'Steve Martin',
  'Отец невесты 2'],
 ['0113277',
  'Michael Mann',
  '$60,000,000 (estimated)',
  '$187,436,818',
  '2 hours 50 minutes',
  'Al Pacino',
  'Схватка'],
 ['0114319',
  'Sydney Pollack',
  '$58,000,000 (estimated)',
  '$53,696,959',
  '2 hours 7 minutes',
  'Harrison Ford',
  'Сабрина'],
 ['0112302',
 

Перейдем к следующему методу **top_directors**, этот метод возвращает топ-n продюсеров, которые чаще встретились нам из информации полученной с imbd_info

In [36]:
top_dir = links_obj.top_directors(3)
top_dir

{'John Lasseter': 1, 'Joe Johnston': 1, 'Howard Deutch': 1}

Метод **most_expensive**, показывает нам топ n фильмов, которые выделили самой большой бюджет на съемки фильма

In [37]:
most_exp = links_obj.most_expensive(3)
most_exp

{'Остров головорезов': 98000000,
 'Денежный поезд': 68000000,
 'Джуманджи': 65000000}

Метод **most_profitable**, выводит топ n фильмов, которые собрали самые большие кассовые сборы по миру

In [38]:
most_prof = links_obj.most_profitable(5)
most_prof

{'История игрушек': 364436586,
 'Семь': 295248559,
 'Золотой глаз': 292194034,
 'Покахонтас': 291079773,
 'Бэйб: Четвероногий малыш': 224134910}

Метод **longest**, показывает фильмы с самой высокой длительностью

In [39]:
long = links_obj.longest(3)
long

{'Опасные умы': '99 min',
 'Четыре комнаты': '98 min',
 'Приключения Тома Сойера': '97 min'}

Метод **top_cost_per_minute**, показывает нам стоимость производства фильма за минуту экранного времени. Стоимость рассчитывается путем деления бюджета фильма на его продолжительность.

In [40]:
top_cost = links_obj.top_cost_per_minute(3)
top_cost

{'Остров головорезов': 790322.58,
 'Покахонтас': 679012.35,
 'Джуманджи': 625000.0}

Перейдем к тестированию кода, для этого был написан класс **tests**

In [42]:
!pytest movielens_analysis.py

platform win32 -- Python 3.12.7, pytest-7.4.4, pluggy-1.0.0
rootdir: c:\Users\ryasc\OneDrive\Рабочий стол\s21\DS_Bootcamp.Team00-2\src
plugins: anyio-4.2.0
collected 34 items

movielens_analysis.py [32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m.[0m[32m                 [100%][0m



По результатам тестов мы можем увидеть что все функции работают корректно