# Отчёт по анализу датасета MovieLens

Этот набор данных (ml-latest-small) описывает 5-звездочный рейтинг и активность свободного текстового тегирования от [MovieLens](http://movielens.org), сервиса рекомендаций фильмов. Он содержит 100836 оценок и 3683 приложения тегов для 9742 фильмов. Эти данные были созданы 610 пользователями в период с 29 марта 1996 года по 24 сентября 2018 года.

#### movies.csv
Общая информация о фильме 

Таблица содержит следующие поля:
* movieId - идентификатор фильма
* title - название фильма с годом выпуска
* genre - жанр фильма

#### ratings.csv
Оценки фильмов от пользователей

Таблица содержит следующие поля:
* userId - идентификатор пользователя 
* movieId - идентификатор фильма
* rating - рейтинг по 5-звездочной шкале с шагом в ползвезды (0,5 звезды - 5,0 звезды)
* timestamp - количество секунд прошедших с 1 января 1970 года

#### tags.csv
Теги к фильмам, оставленные пользователями

Таблица содержит следующие поля:
* userId - идентификатор пользователя 
* movieId - идентификатор фильма
* tag - тег, указанный пользователем
* timestamp - количество секунд прошедших с 1 января 1970 года

#### links.csv
Идентификаторы, которые можно использовать для ссылки на другие источники данных о фильмах

Таблица содержит следующие поля:
* movieId - идентификатор фильмов, используемых <https://movielens.org>
* imdbId - идентификатор фильмов, используемых <http://www.imdb.com>
* tmdbId - идентификатор фильмов, используемых <https://www.themoviedb.org>

Для анализа датасетов созданы классы для работы с таблицами и получения различной информации из табличных данных

Все необходимые для работы классы находятся в модуле movielens_analysis, давайте импортируем его

In [2]:
import movielens_analysis


<movielens_analysis.Movies at 0x7f43e0736620>

Для чтения данных из файла с форматом csv используется собственная функция read_csv, она учитывает структуру csv файла с разделением колонок с помощью запятой.

In [68]:
movielens_analysis.read_csv('../datasets/movies.csv', 1000)

{'1': ['Toy Story (1995)', 'Adventure|Animation|Children|Comedy|Fantasy'],
 '2': ['Jumanji (1995)', 'Adventure|Children|Fantasy'],
 '3': ['Grumpier Old Men (1995)', 'Comedy|Romance'],
 '4': ['Waiting to Exhale (1995)', 'Comedy|Drama|Romance'],
 '5': ['Father of the Bride Part II (1995)', 'Comedy'],
 '6': ['Heat (1995)', 'Action|Crime|Thriller'],
 '7': ['Sabrina (1995)', 'Comedy|Romance'],
 '8': ['Tom and Huck (1995)', 'Adventure|Children'],
 '9': ['Sudden Death (1995)', 'Action'],
 '10': ['GoldenEye (1995)', 'Action|Adventure|Thriller'],
 '11': ['American President, The (1995)', 'Comedy|Drama|Romance'],
 '12': ['Dracula: Dead and Loving It (1995)', 'Comedy|Horror'],
 '13': ['Balto (1995)', 'Adventure|Animation|Children'],
 '14': ['Nixon (1995)', 'Drama'],
 '15': ['Cutthroat Island (1995)', 'Action|Adventure|Romance'],
 '16': ['Casino (1995)', 'Crime|Drama'],
 '17': ['Sense and Sensibility (1995)', 'Drama|Romance'],
 '18': ['Four Rooms (1995)', 'Comedy'],
 '19': ['Ace Ventura: When Natu

### Класс Movies

In [30]:
%%timeit
movies = movielens_analysis.Movies('../datasets/movies.csv')

2.87 ms ± 103 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [69]:
movies = movielens_analysis.Movies('../datasets/movies.csv')

Класс работает с данными, считанными в словарь с помощью функции read_csv

In [70]:
movies.data

{'1': ['Toy Story (1995)', 'Adventure|Animation|Children|Comedy|Fantasy'],
 '2': ['Jumanji (1995)', 'Adventure|Children|Fantasy'],
 '3': ['Grumpier Old Men (1995)', 'Comedy|Romance'],
 '4': ['Waiting to Exhale (1995)', 'Comedy|Drama|Romance'],
 '5': ['Father of the Bride Part II (1995)', 'Comedy'],
 '6': ['Heat (1995)', 'Action|Crime|Thriller'],
 '7': ['Sabrina (1995)', 'Comedy|Romance'],
 '8': ['Tom and Huck (1995)', 'Adventure|Children'],
 '9': ['Sudden Death (1995)', 'Action'],
 '10': ['GoldenEye (1995)', 'Action|Adventure|Thriller'],
 '11': ['American President, The (1995)', 'Comedy|Drama|Romance'],
 '12': ['Dracula: Dead and Loving It (1995)', 'Comedy|Horror'],
 '13': ['Balto (1995)', 'Adventure|Animation|Children'],
 '14': ['Nixon (1995)', 'Drama'],
 '15': ['Cutthroat Island (1995)', 'Action|Adventure|Romance'],
 '16': ['Casino (1995)', 'Crime|Drama'],
 '17': ['Sense and Sensibility (1995)', 'Drama|Romance'],
 '18': ['Four Rooms (1995)', 'Comedy'],
 '19': ['Ace Ventura: When Natu

In [73]:
%%timeit
movies.data

21.5 ns ± 0.281 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


* В какой год выпущено больше всего фильмов?

Используется функция dist_by_release() возвращающая отсортированный по убыванию словарь, в котором ключом является год выпуска фильма, а значением количество фильмов, выпущенных в этом году.

In [71]:
movies.dist_by_release()

{'1995': 224,
 '1994': 184,
 '1996': 181,
 '1993': 101,
 '1992': 23,
 '1990': 15,
 '1991': 15,
 '1989': 14,
 '1986': 9,
 '1982': 8,
 '1940': 8,
 '1957': 8,
 '1987': 8,
 '1980': 8,
 '1981': 7,
 '1988': 7,
 '1979': 7,
 '1955': 6,
 '1959': 6,
 '1968': 6,
 '1997': 6,
 '1939': 6,
 '1985': 6,
 '1967': 5,
 '1965': 5,
 '1951': 5,
 '1958': 5,
 '1944': 5,
 '1941': 5,
 '1975': 5,
 '1971': 5,
 '1984': 5,
 '1964': 4,
 '1973': 4,
 '1954': 4,
 '1934': 4,
 '1960': 4,
 '1963': 4,
 '1950': 4,
 '1974': 4,
 '1983': 4,
 '1977': 3,
 '1937': 3,
 '1972': 3,
 '1952': 3,
 '1961': 3,
 '1953': 3,
 '1946': 3,
 '1938': 3,
 '1956': 3,
 '1962': 3,
 '1976': 2,
 '1969': 2,
 '1970': 2,
 '1942': 2,
 '1945': 2,
 '1947': 2,
 '1935': 2,
 '1936': 2,
 '1949': 2,
 '1978': 2,
 '1943': 1,
 '1932': 1,
 '1966': 1,
 '1948': 1,
 '1933': 1,
 '1931': 1}

In [75]:
%%timeit
movies.dist_by_release()

213 μs ± 7.23 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


* В каком жанре больше всего фильмов?

Используется функция dist_by_genres() возвращающая отсортированный по убыванию словарь, в котором ключом является жанр фильма, а значением количество фильмов, выпущенных в этом жанре.

In [76]:
movies.dist_by_genres()

{'Drama': 507,
 'Comedy': 365,
 'Romance': 208,
 'Thriller': 179,
 'Action': 158,
 'Adventure': 126,
 'Crime': 122,
 'Children': 100,
 'Fantasy': 69,
 'Sci-Fi': 69,
 'Mystery': 58,
 'Musical': 53,
 'Horror': 51,
 'War': 48,
 'Animation': 37,
 'Documentary': 25,
 'Western': 23,
 'Film-Noir': 18}

In [77]:
%%timeit
movies.dist_by_genres()

400 μs ± 8 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


* Сколько всего различных жанров?

In [78]:
len(movies.dist_by_genres())

18

In [79]:
%%timeit
len(movies.dist_by_genres())

402 μs ± 2.08 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


* Какие жанры самые популярные?

Используется функция most_genres(n) возвращающая отсортированный по убыванию словарь, в котором ключом является жанр фильма, а значением количество фильмов, выпущенных в этом жанре. Возвращается n самых популярных жанров.

In [80]:
movies.most_genres(5)

{'Drama': 507, 'Comedy': 365, 'Romance': 208, 'Thriller': 179, 'Action': 158}

In [81]:
%%timeit
movies.most_genres(5)

410 μs ± 6.72 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


* Поиск фильмов с определенным словом в названии

Используется функция movies_with_word(word) принимающая определенное слово, и возвращающая все фильмы, в названии которых встречается это слово

In [8]:
movies.movies_with_word('hero')

['Last Action Hero (1993)', 'Local Hero (1983)', 'Unstrung Heroes (1995)']

In [9]:
%timeit movies.movies_with_word('hero')

87.8 μs ± 1.73 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


### Класс Links

In [84]:
%timeit -n 1 -r 3 links = Links('../datasets/links.csv')

51.5 s ± 21.1 s per loop (mean ± std. dev. of 3 runs, 1 loop each)


In [3]:
links = movielens_analysis.Links('../datasets/links.csv')

С помощью метода get_imdb() в конструкторе класса можно получить информацию о каждом фильме в датасете, используя запрос к сайту imdb

Поле imdb_info представляет собой список списков, в нем для каждого фильма указаны следующие данные: <br>
 **['Director', 'Budget', 'Gross worldwide', 'Runtime', 'Title']**

In [61]:
links.imdb_info

[['0114709',
  'John Lasseter',
  '$30,000,000 (estimated)',
  '$394,436,586',
  '1 hour 21 minutes',
  'История игрушек'],
 ['0113497',
  'Joe Johnston',
  '$65,000,000 (estimated)',
  '$262,821,940',
  '1 hour 44 minutes',
  'Джуманджи'],
 ['0113228',
  'Howard Deutch',
  '$25,000,000 (estimated)',
  '$71,518,503',
  '1 hour 41 minutes',
  'Старые ворчуны разбушевались'],
 ['0114885',
  'Forest Whitaker',
  '$16,000,000 (estimated)',
  '$81,452,156',
  '2 hours 4 minutes',
  'В ожидании выдоха'],
 ['0113041',
  'Charles Shyer',
  '$30,000,000 (estimated)',
  '$76,594,107',
  '1 hour 46 minutes',
  'Отец невесты 2'],
 ['0113277',
  'Michael Mann',
  '$60,000,000 (estimated)',
  '$187,436,818',
  '2 hours 50 minutes',
  'Схватка'],
 ['0114319',
  'Sydney Pollack',
  '$58,000,000 (estimated)',
  '$53,696,959',
  '2 hours 7 minutes',
  'Сабрина'],
 ['0112302',
  'Peter Hewitt',
  'n/a',
  '$23,920,048',
  '1 hour 37 minutes',
  'Приключения Тома Сойера'],
 ['0114576',
  'Peter Hyams',
  

In [87]:
%%timeit
links.imdb_info

23.2 ns ± 1.12 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


* Топ-5 режиссеров по количеству снятых фильмов

In [17]:
links.top_directors(5)

{'John Lasseter': 1,
 'Joe Johnston': 1,
 'Howard Deutch': 1,
 'Forest Whitaker': 1,
 'Charles Shyer': 1}

In [89]:
%%timeit
links.top_directors(5)

4.79 μs ± 237 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


* Топ-5 фильмов по бюджету

In [18]:
links.most_expensive(5)

{'Остров головорезов': '98000000',
 'Денежный поезд': '68000000',
 'Джуманджи': '65000000',
 'Американский президент': '62000000',
 'Схватка': '60000000'}

In [91]:
%%timeit
links.most_expensive(5)

34.7 μs ± 350 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Топ-5 самых прибыльных фильмов (с наибольшей разницей между бюджетом и кассовыми сборами)

In [19]:
links.most_profitable(5)

{'История игрушек': 364436586,
 'Золотой глаз': 292194034,
 'Джуманджи': 197821940,
 'Эйс Вентура 2: Когда зовёт природа': 182385533,
 'Схватка': 127436818}

In [93]:
%%timeit
links.most_profitable(5)

61.4 μs ± 1.85 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Топ-5 самых долгих фильмов по времени

In [64]:
links.longest(5)

{'Четыре комнаты': '98 min',
 'Приключения Тома Сойера': '97 min',
 'Эйс Вентура 2: Когда зовёт природа': '90 min',
 'Дракула: Мёртвый и довольный': '88 min',
 'История игрушек': '81 min'}

In [63]:
%%timeit
links.longest(5)

820 ns ± 105 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


* Топ-5 фильмов по стоимости за одну снятую минуту

In [65]:
links.top_cost_per_minute(5)

{'Остров головорезов': 790322.58,
 'Джуманджи': 625000.0,
 'Денежный поезд': 618181.82,
 'Американский президент': 543859.65,
 'Золотой глаз': 461538.46}

In [96]:
%%timeit
links.top_cost_per_minute(5)

48.5 μs ± 1.1 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Топ-5 актеров по количеству фильмов

In [5]:
links.top_stars(5)

{'Tom Hanks': 1,
 'Robin Williams': 1,
 'Walter Matthau': 1,
 'Whitney Houston': 1,
 'Steve Martin': 1}

In [6]:
%%timeit
links.top_stars(5)

4.56 μs ± 216 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


### Класс Tags

In [100]:
tags = movielens_analysis.Tags('../datasets/tags.csv')

In [99]:
%timeit tags = Tags('../datasets/tags.csv')

2.09 ms ± 66 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [101]:
tags.data

[['2', '60756', 'funny', '1445714994'],
 ['2', '60756', 'Highly quotable', '1445714996'],
 ['2', '60756', 'will ferrell', '1445714992'],
 ['2', '89774', 'Boxing story', '1445715207'],
 ['2', '89774', 'MMA', '1445715200'],
 ['2', '89774', 'Tom Hardy', '1445715205'],
 ['2', '106782', 'drugs', '1445715054'],
 ['2', '106782', 'Leonardo DiCaprio', '1445715051'],
 ['2', '106782', 'Martin Scorsese', '1445715056'],
 ['7', '48516', 'way too long', '1169687325'],
 ['18', '431', 'Al Pacino', '1462138765'],
 ['18', '431', 'gangster', '1462138749'],
 ['18', '431', 'mafia', '1462138755'],
 ['18', '1221', 'Al Pacino', '1461699306'],
 ['18', '1221', 'Mafia', '1461699303'],
 ['18', '5995', 'holocaust', '1455735472'],
 ['18', '5995', 'true story', '1455735479'],
 ['18', '44665', 'twist ending', '1456948283'],
 ['18', '52604', 'Anthony Hopkins', '1457650696'],
 ['18', '52604', 'courtroom drama', '1457650711'],
 ['18', '52604', 'twist ending', '1457650682'],
 ['18', '88094', 'britpop', '1457444500'],
 ['1

In [102]:
%timeit tags.data

21.5 ns ± 0.138 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


* Топ-10 самых длинных тегов по количеству слов

In [103]:
tags.most_words(10)

{'Something for everyone in this one... saw it without and plan on seeing it with kids!': 16,
 'the catholic church is the most corrupt organization in history': 10,
 'Oscar (Best Music - Original Score)': 6,
 'based on a true story': 5,
 'Everything you want is here': 5,
 'based on a play': 4,
 'Guardians of the Galaxy': 4,
 'heroine in tight suit': 4,
 'based on a book': 4,
 'seen more than once': 4}

In [104]:
%timeit tags.most_words(10)

99.3 μs ± 2.71 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Топ-10 самых длинных тегов по количеству символов

In [105]:
tags.longest(10)

['Something for everyone in this one... saw it without and plan on seeing it with kids!',
 'the catholic church is the most corrupt organization in history',
 'audience intelligence underestimated',
 'Oscar (Best Music - Original Score)',
 'assassin-in-training (scene)',
 'political right versus left',
 'Everything you want is here',
 'Oscar (Best Cinematography)',
 'representation of children',
 'artificial intelligence']

In [106]:
%timeit tags.longest(10)

25.6 μs ± 209 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Пересечения между топ-10 самых длинных тегов по количеству слов и символов

In [107]:
tags.most_words_and_longest(10)

['Something for everyone in this one... saw it without and plan on seeing it with kids!',
 'Everything you want is here',
 'the catholic church is the most corrupt organization in history',
 'Oscar (Best Music - Original Score)']

In [108]:
%timeit tags.most_words_and_longest(10)

138 μs ± 2.97 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Топ-10 самых популярных тегов

In [109]:
tags.most_popular(10)

{'funny': 15,
 'sci-fi': 14,
 'twist ending': 12,
 'dark comedy': 12,
 'atmospheric': 10,
 'superhero': 10,
 'comedy': 10,
 'action': 10,
 'suspense': 10,
 'Leonardo DiCaprio': 9}

In [101]:
%timeit tags.most_popular(10)

85.2 µs ± 884 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Теги, включающие заданное слово

In [110]:
tags.tags_with('school')

['high school', 'highschool']

In [111]:
%timeit tags.tags_with('school')

10.8 μs ± 102 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [112]:
tags.tags_with('act')

['HOT actress',
 'acting',
 'action',
 'bad acting',
 'characters',
 'cruel characters',
 'gun tactics',
 'interesting characters',
 'space action']

In [113]:
%timeit tags.tags_with('act')

11.8 μs ± 336 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [114]:
tags.tags_with('hero')

['Charlize Theron',
 'dark hero',
 'heroin',
 'heroine in tight suit',
 'superhero']

In [115]:
%timeit tags.tags_with('hero')

11.4 μs ± 147 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


### Класс Ratings

In [34]:
ratings = movielens_analysis.Ratings('../datasets/ratings.csv')

In [35]:
%timeit ratings = movielens_analysis.Ratings('../datasets/ratings.csv')

1.33 ms ± 42.7 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [36]:
ratings.data

[['1', '1', '4.0', '964982703'],
 ['1', '3', '4.0', '964981247'],
 ['1', '6', '4.0', '964982224'],
 ['1', '47', '5.0', '964983815'],
 ['1', '50', '5.0', '964982931'],
 ['1', '70', '3.0', '964982400'],
 ['1', '101', '5.0', '964980868'],
 ['1', '110', '4.0', '964982176'],
 ['1', '151', '5.0', '964984041'],
 ['1', '157', '5.0', '964984100'],
 ['1', '163', '5.0', '964983650'],
 ['1', '216', '5.0', '964981208'],
 ['1', '223', '3.0', '964980985'],
 ['1', '231', '5.0', '964981179'],
 ['1', '235', '4.0', '964980908'],
 ['1', '260', '5.0', '964981680'],
 ['1', '296', '3.0', '964982967'],
 ['1', '316', '3.0', '964982310'],
 ['1', '333', '5.0', '964981179'],
 ['1', '349', '4.0', '964982563'],
 ['1', '356', '4.0', '964980962'],
 ['1', '362', '5.0', '964982588'],
 ['1', '367', '4.0', '964981710'],
 ['1', '423', '3.0', '964982363'],
 ['1', '441', '4.0', '964980868'],
 ['1', '457', '5.0', '964981909'],
 ['1', '480', '4.0', '964982346'],
 ['1', '500', '3.0', '964981208'],
 ['1', '527', '5.0', '9649840

In [121]:
%timeit ratings.data

21.3 ns ± 0.199 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


#### Класс Movies (наследуется от Ratings)

In [37]:
movies_r = movielens_analysis.Ratings.Movies(ratings.data, movielens_analysis.Movies('../datasets/movies.csv', 9743).data)

In [39]:
%timeit movies_r = movielens_analysis.Ratings.Movies(ratings.data, movielens_analysis.Movies('../datasets/movies.csv', 9743).data)

31.2 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


* Распределение количества фильмов в датасете по годам

In [125]:
movies_r.dist_by_year()

{2007: 1,
 2006: 4,
 2015: 29,
 2011: 39,
 2001: 70,
 1999: 82,
 2005: 121,
 2000: 296,
 1996: 358}

In [126]:
%timeit movies_r.dist_by_year()

396 μs ± 13 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


* Распределение рейтинга по количеству оценок в датасете

In [128]:
movies_r.dist_by_rating()

{2.5: 7,
 1.5: 11,
 3.5: 17,
 0.5: 24,
 4.5: 33,
 1.0: 39,
 2.0: 57,
 3.0: 253,
 5.0: 267,
 4.0: 292}

In [127]:
%timeit movies_r.dist_by_rating()

146 μs ± 3.01 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Топ-10 фильмов по количеству выставленных оценок

In [129]:
movies_r.top_by_num_of_ratings(10)

{'Usual Suspects, The (1995)': 4,
 'Pulp Fiction (1994)': 4,
 'Fugitive, The (1993)': 4,
 "Schindler's List (1993)": 4,
 'Batman (1989)': 4,
 'Silence of the Lambs, The (1991)': 4,
 'Fargo (1996)': 4,
 'Aladdin (1992)': 4,
 'Beauty and the Beast (1991)': 4,
 'Toy Story (1995)': 3}

In [130]:
%timeit movies_r.top_by_num_of_ratings(10)

271 μs ± 2.32 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


* Топ-10 фильмов по среднему рейтингу

In [131]:
movies_r.top_by_ratings(10)

{'Bottle Rocket (1996)': 5.0,
 'Canadian Bacon (1995)': 5.0,
 'Star Wars: Episode IV - A New Hope (1977)': 5.0,
 'James and the Giant Peach (1996)': 5.0,
 'Wizard of Oz, The (1939)': 5.0,
 'Citizen Kane (1941)': 5.0,
 'Adventures of Robin Hood, The (1938)': 5.0,
 'Mr. Smith Goes to Washington (1939)': 5.0,
 'Winnie the Pooh and the Blustery Day (1968)': 5.0,
 'Three Caballeros, The (1945)': 5.0}

In [132]:
%timeit movies_r.top_by_ratings(10)

713 μs ± 27 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


* Топ-10 фильмов по величине изменчивости рейтинга

In [133]:
movies_r.top_controversial(10)

{'Bambi (1942)': 10.12,
 'Rescuers, The (1977)': 10.12,
 'My Fair Lady (1964)': 10.12,
 'Matrix, The (1999)': 8.0,
 'Good Will Hunting (1997)': 6.12,
 'Courage Under Fire (1996)': 6.12,
 "Schindler's List (1993)": 4.56,
 'Dazed and Confused (1993)': 4.5,
 'Fight Club (1999)': 4.5,
 'Talented Mr. Ripley, The (1999)': 4.5}

In [134]:
%timeit movies_r.top_controversial(10)

585 μs ± 12.8 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


#### Класс Users (наследуется от Ratings.Movies)

In [40]:
users = movielens_analysis.Ratings.Users(ratings.data, movielens_analysis.Movies('../datasets/movies.csv', 9743).data)

In [41]:
%timeit users = movielens_analysis.Ratings.Users(ratings.data, movielens_analysis.Movies('../datasets/movies.csv', 9743).data)

30.1 ms ± 526 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


* Распределение пользователей по количеству выставленных оценок

In [137]:
users.dist_by_num_of_ratings()

{'6': 314, '1': 232, '4': 216, '7': 126, '5': 44, '3': 39, '2': 29}

In [138]:
%timeit users.dist_by_num_of_ratings()

64.3 μs ± 1.11 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Распределение пользователей по их средней оценке фильмов

In [139]:
users.dist_by_ratings()

{'1': 4.37, '2': 3.95, '5': 3.64, '4': 3.56, '6': 3.49, '7': 3.35, '3': 2.44}

In [140]:
%timeit users.dist_by_ratings()

115 μs ± 2.91 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


* Топ-5 пользователей по величине изменчивости оценки фильмов

In [141]:
users.top_controversial(5)

{'3': 4.37, '4': 1.73, '7': 1.67, '5': 0.98, '6': 0.72}

In [142]:
%timeit users.top_controversial(5)

192 μs ± 4.03 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
