## Введение
Как-то раз два молодых и красивых дата-аналитика Marlenaw и Gwynethl решили найти фильм на вечер. И, так как аналитики были не только молодые и кравивые, но еще и умные (и, самое главное, скромные), они решили, что просто лазить по подборкам хороших фильмов в интерете - путь слабых, а настоящий data-scientist сам может найти фильм на вечер, доверяясь при этом только фактам, а не предвзятому мнению незнакомцев в интернете. И, в поисках объетивности, взяли они базу данных с фильмами и сотворили 4 класса для анализа и поиска фильмов в БД и 5-й - тестирующий. И вот что из этого вышло...

In [1]:
from movielens_analysis import *

%timeit movies = Movies('../datasets/movies.csv')
%timeit links = Links('../datasets/links.csv')
%timeit ratings = Ratings('../datasets/ratings.csv', '../datasets/movies.csv')
%timeit tags = Tags('../datasets/tags.csv')

movies = Movies('../datasets/movies.csv')
links = Links('../datasets/links.csv')
ratings = Ratings('../datasets/ratings.csv', '../datasets/movies.csv')
tags = Tags('../datasets/tags.csv')


1.01 ms ± 35.4 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
3.14 ms ± 139 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
33.6 ms ± 1.5 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
684 μs ± 21.2 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


## Movies
Итак, теперь мы можем начать поиски приличного кинца на вечер. Для начала посмотрим, в какие года были сняты фильмы, попавшие в нашу БД. Не хотелось бы работать с неактуальной информацией...

In [None]:
%timeit movies.dist_by_release()
movies.dist_by_release()

5.77 ms ± 41.7 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{2002: 311,
 2006: 295,
 2001: 294,
 2007: 284,
 2000: 283,
 2009: 282,
 2003: 279,
 2004: 279,
 2014: 278,
 1996: 276,
 2015: 274,
 2005: 273,
 2008: 269,
 1999: 263,
 1997: 260,
 1995: 259,
 1998: 258,
 2011: 254,
 2010: 247,
 2013: 239,
 1994: 237,
 2012: 233,
 2016: 218,
 1993: 198,
 1992: 167,
 1988: 165,
 1987: 153,
 1990: 147,
 1991: 147,
 2017: 147,
 1989: 142,
 1986: 139,
 1985: 126,
 1984: 101,
 1981: 92,
 1980: 89,
 1982: 87,
 1983: 83,
 1979: 69,
 1977: 63,
 1973: 59,
 1978: 59,
 1965: 47,
 1971: 47,
 1974: 45,
 1976: 44,
 1964: 43,
 1967: 42,
 1968: 42,
 1975: 42,
 1966: 42,
 2018: 41,
 1962: 40,
 1972: 39,
 1963: 39,
 1959: 37,
 1960: 37,
 1955: 36,
 1969: 35,
 1961: 34,
 1970: 33,
 1957: 33,
 1958: 31,
 1953: 30,
 1956: 30,
 1940: 25,
 1949: 25,
 1954: 23,
 1942: 23,
 1939: 23,
 1946: 23,
 1951: 22,
 1950: 21,
 1947: 20,
 1948: 20,
 1941: 18,
 1936: 18,
 1945: 17,
 1937: 16,
 1952: 16,
 1944: 16,
 1938: 15,
 1931: 14,
 1935: 13,
 1933: 12,
 1934: 11,
 1943: 10,
 1932: 9,

Ага! Знаичит в БД есть и новые, и старые фильмы! Отлично, тогда можно начинать анализ. А что мы вообще хотим смотреть сегодня? Хммм... Что нибудь популяное? Какие жанры сейчас в моде? Думаю, мы сможем это выяснить из нашей БД!

In [None]:
%timeit movies.dist_by_genres()
movies.dist_by_genres()

4.11 ms ± 50.5 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{'Drama': 4361,
 'Comedy': 3756,
 'Thriller': 1894,
 'Action': 1828,
 'Romance': 1596,
 'Adventure': 1263,
 'Crime': 1199,
 'Sci-Fi': 980,
 'Horror': 978,
 'Fantasy': 779,
 'Children': 664,
 'Animation': 611,
 'Mystery': 573,
 'Documentary': 440,
 'War': 382,
 'Musical': 334,
 'Western': 167,
 'IMAX': 158,
 'Film-Noir': 87,
 '(no genres listed)': 34}

Хмм, так много и такие разные... Какой же из них выбрать? А что если не останавливаться на чем-то одном, а взять сразу все! Просморим, у каких фильмов больше всего жанров (думаю, 10 фильмов будет достаточно)

In [None]:
%timeit movies.most_genres(10)
movies.most_genres(10)

5.45 ms ± 123 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{'Rubber (2010)': 10,
 'Patlabor: The Movie (Kidô keisatsu patorebâ: The Movie) (1989)': 8,
 'Mulan (1998)': 7,
 'Who Framed Roger Rabbit? (1988)': 7,
 'Osmosis Jones (2001)': 7,
 'Interstate 60 (2002)': 7,
 'Robots (2005)': 7,
 'Pulse (2006)': 7,
 'Aqua Teen Hunger Force Colon Movie Film for Theaters (2007)': 7,
 'Enchanted (2007)': 7}

## Links
Неплохо, неплохо... Но для хорошего анализа данных явно не хватает. Чтобы восполнить этот пробел, думаю, нам придется воспользоваться информацией из byтернета. Как хорошо, что у нас есть ID фильмов из базы данных MIDb! Для начала попробуем вытащить всю информацию из MIDb по одному фильму

In [None]:
%timeit links.__useful_dict__('0114709')
links.__useful_dict__('0114709')

1.16 s ± 399 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


{'Director': ['John Lasseter'],
 'Writers': ['John Lasseter', 'Pete Docter', 'Andrew Stanton'],
 'Stars': ['Tom Hanks', 'Tim Allen', 'Don Rickles'],
 'Nominated for 3 Oscars': ['29 wins & 24 nominations total'],
 'Quotes': ['Woody', 'Buzz', 'Woody', 'Buzz', 'Woody'],
 'Crazy credits': ['Приключения Флика (1998)',
  'История игрушек 2 (1999)',
  'Корпорация монстров (2001)',
  'В поисках Немо (2003)'],
 'Connections': ['Gamesmaster: Episode #5.9'],
 'Soundtracks': ["You've Got a Friend in Me", 'Randy Newman', 'Randy Newman'],
 'Release date': ['December 22, 1995 (Russia)'],
 'Country of origin': ['United States'],
 'Language': ['English'],
 'Also known as': ['Toy Story'],
 'Filming locations': ['Pixar Animation Studios - 1200 Park Avenue, Emeryville, California, USA'],
 'Production companies': ['Walt Disney Pictures', 'Pixar Animation Studios'],
 'Budget': [30000000],
 'Gross US & Canada': [223225679],
 'Opening weekend US & Canada': [29140617, 'Nov 26, 1995'],
 'Gross worldwide': [3944

Ну а теперь вытащим из этого словаря ту информацию, которая нас интересует. Например, режиссера, кассовые сборы и продолжительность фильма

In [None]:
%timeit links.get_imdb(['0114709', '0113497'], ['Director', 'Gross worldwide', 'Runtime'])
links.get_imdb(['0114709', '0113497'], ['Director', 'Gross worldwide', 'Runtime'])

4.5 s ± 494 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


[['0114709', ['John Lasseter'], [394436586], [81]],
 ['0113497', ['Joe Johnston'], [262821940], [104]]]

Отправка запросов в интернет - штука времезатратная, поэтому, вместо того, чтобы при каждом вызове функции лазить в сеть, лучше один раз выгрузить с MIDb данные, сериализовать их и переиспользовать при необходимости. И сразу же конвертировать неудобные денежные значания типа "$100,000,000" к целому числу:

In [None]:
%timeit small_links = Links('../datasets/links.csv', '../datasets/movies.csv', 'test.json')
small_links = Links('../datasets/links.csv', '../datasets/movies.csv', 'test.json')

%timeit links.__dump_all_data__('test.json', 2)
small_links.__dump_all_data__('test.json', 2)

%timeit links.__convert_money__()
small_links.__convert_money__()

6.44 ms ± 158 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
trying to get IMDb_id  0114709
upload move №1 with IMDb_id 0114709
trying to get IMDb_id  0113497
upload move №2 with IMDb_id 0113497
trying to get IMDb_id  0113228
trying to get IMDb_id  0114709
upload move №1 with IMDb_id 0114709
trying to get IMDb_id  0113497
upload move №2 with IMDb_id 0113497
trying to get IMDb_id  0113228
trying to get IMDb_id  0114709
upload move №1 with IMDb_id 0114709
trying to get IMDb_id  0113497
upload move №2 with IMDb_id 0113497
trying to get IMDb_id  0113228
trying to get IMDb_id  0114709
upload move №1 with IMDb_id 0114709
trying to get IMDb_id  0113497
upload move №2 with IMDb_id 0113497
trying to get IMDb_id  0113228
trying to get IMDb_id  0114709
upload move №1 with IMDb_id 0114709
trying to get IMDb_id  0113497
upload move №2 with IMDb_id 0113497
trying to get IMDb_id  0113228
trying to get IMDb_id  0114709
upload move №1 with IMDb_id 0114709
trying to get IMDb_id  0113497
upload

Добавим еще одну полезную функцию: поиск названия фильма по IMDb_id

In [None]:
%timeit links.__get_move_title__('0114709')
links.__get_move_title__('0114709')

1.06 μs ± 46.9 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


'Toy Story (1995)'

Отлично! Теперь, когда все приготовления сделаны, можно заниматься серьезным анализом! Очень большое значание в любом фильме имеет режиссер, а потому неплохо бы для выбора фильма знать, каких режиссеров можно считать хорошими... Конечно тех, которые сняли больше всего фильмов! Найдем их. Думаю, человек 10 будет достаточно

In [None]:
%timeit links.top_directors(10)
links.top_directors(10)

1.46 ms ± 28.2 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


{'Alfred Hitchcock': 11,
 'Woody Allen': 8,
 'Stanley Kubrick': 6,
 'Frank Capra': 6,
 'Rob Reiner': 5,
 'Martin Scorsese': 5,
 'Tony Scott': 5,
 'John Carpenter': 5,
 'James Cameron': 5,
 'Steven Spielberg': 5}

Интерес так же представляют фильмы с большим бюджетом, ведь чем больше денег было вложено в фильм, тем лучше будет результат, так ведь? Проверим эту гипотезу, найдя 10 фильмов с самыми большими бюджетами.

In [None]:
%timeit links.most_expensive(10)
links.most_expensive(10)

145 ms ± 1.85 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'Akira (1988)': 1100000000,
 'Ghost in the Shell (Kôkaku kidôtai) (1995)': 330000000,
 'Waterworld (1995)': 175000000,
 'Germinal (1993)': 164000000,
 'Cold Fever (Á köldum klaka) (1995)': 130000000,
 'True Lies (1994)': 115000000,
 'Terminator 2: Judgment Day (1991)': 102000000,
 'Batman Forever (1995)': 100000000,
 '"Hunchback of Notre Dame': 100000000,
 'Eraser (1996)': 100000000}

Аналогичную гипотезу можно выдвинуть и для прибыли фильма. Найдем 10 фильмов с максимальной прибылью

In [None]:
%timeit links.most_profitable(10)
links.most_profitable(10)

146 ms ± 10.1 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'Jurassic Park (1993)': 1041379926,
 '"Lion King': 934161373,
 'E.T. the Extra-Terrestrial (1982)': 786807407,
 'Star Wars: Episode IV - A New Hope (1977)': 764398507,
 'Independence Day (a.k.a. ID4) (1996)': 742400891,
 'Forrest Gump (1994)': 623226465,
 'Star Wars: Episode V - The Empire Strikes Back (1980)': 532016086,
 'Ghost (1990)': 483703557,
 'Aladdin (1992)': 476050219,
 'Home Alone (1990)': 458684675}

Отлично! А что если посмотреть на хронометраж фильма? Ведь чем длиннее кино, тем больше попкорна можно успеть съесть в это время! Что там у нас по самым длинным фильмам? Посмотрим-ка, не подойдет ли нам что-нибудь из 10  самых длинных?

In [None]:
%timeit links.longest(10)
links.longest(10)

202 ms ± 2.66 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


{'Gone with the Wind (1939)': 238,
 'Once Upon a Time in America (1984)': 229,
 'Lawrence of Arabia (1962)': 227,
 'Ben-Hur (1959)': 212,
 '"Godfather: Part II': 202,
 'Giant (1956)': 201,
 "Schindler's List (1993)": 195,
 '"Right Stuff': 193,
 'Nixon (1995)': 192,
 'Wyatt Earp (1994)': 191}

Боже! Саамый длинный фильм идет почти 4 часа! Нееет, это как-то слишком долго. А что если совместить бюджет фиьма и хронометраж? Посмотрим, у каких 10 фильмов минута стоит дороже всего!

In [None]:
%timeit links.top_cost_per_minute(10)
links.top_cost_per_minute(10)

143 ms ± 972 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'Akira (1988)': 8870967.74,
 'Ghost in the Shell (Kôkaku kidôtai) (1995)': 3975903.61,
 'Cold Fever (Á köldum klaka) (1995)': 1566265.06,
 'Waterworld (1995)': 1296296.3,
 '"Hunchback of Notre Dame': 1098901.1,
 'Germinal (1993)': 1025000.0,
 'Judge Dredd (1995)': 937500.0,
 'Space Jam (1996)': 909090.91,
 'Eraser (1996)': 869565.22,
 'Batman Forever (1995)': 826446.28}

## Ratings

Тепрь попробуем ориентироваться на мнения других пользователей. Посмотрим как распределены отзывы по годам:

In [2]:
%timeit ratings.movies.dist_by_year()
ratings.movies.dist_by_year()

181 ms ± 1.42 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{1996: 6040,
 1997: 1916,
 1998: 507,
 1999: 2439,
 2000: 10061,
 2001: 3922,
 2002: 3478,
 2003: 4014,
 2004: 3279,
 2005: 5813,
 2006: 4059,
 2007: 7114,
 2008: 4351,
 2009: 4158,
 2010: 2300,
 2011: 1690,
 2012: 4657,
 2013: 1664,
 2014: 1439,
 2015: 6616,
 2016: 6702,
 2017: 8199,
 2018: 6418}

А какие вообще оценки пользователи ставят чаще всего:

In [None]:
%timeit ratings.movies.dist_by_rating()
ratings.movies.dist_by_rating()

65.6 ms ± 533 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


{0.5: 1370,
 1.0: 2811,
 1.5: 1791,
 2.0: 7551,
 2.5: 5550,
 3.0: 20047,
 3.5: 13136,
 4.0: 26818,
 4.5: 8551,
 5.0: 13211}

Было бы интересно посмотреть на топ 10 фильмов, которые вызвали наиболее бурное обсуждение 

In [3]:
%timeit ratings.movies.top_by_num_of_ratings(10)
ratings.movies.top_by_num_of_ratings(10)

25.3 ms ± 838 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'Braveheart (1995)': 237,
 'Star Wars: Episode IV - A New Hope (1977)': 251,
 'Pulp Fiction (1994)': 307,
 '"Shawshank Redemption': 317,
 'Forrest Gump (1994)': 329,
 'Jurassic Park (1993)': 238,
 "Schindler's List (1993)": 220,
 'Terminator 2: Judgment Day (1991)': 224,
 '"Silence of the Lambs': 279,
 '"Matrix': 278}

Теперь самое интересное! Посмотрим на топ фильмов с самой высокой оценкой. Однако средняя оценка (к которой мы привыкли) может быть слишком чуствительной к выбросам. Посмотрим как на среднюю, так и на медиану:

In [6]:
%timeit ratings.movies.top_by_ratings(10, "average")
ratings.movies.top_by_ratings(10, "average")

39.8 ms ± 993 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'Lesson Faust (1994)': 5.0,
 '"Assignment': 5.0,
 'Mephisto (1981)': 5.0,
 "I'm the One That I Want (2000)": 5.0,
 'Galaxy of Terror (Quest) (1981)': 5.0,
 'Alien Contamination (1980)': 5.0,
 'Dylan Moran: Monster (2004)': 5.0,
 'Bill Hicks: Revelations (1993)': 5.0,
 'The Jinx: The Life and Deaths of Robert Durst (2015)': 5.0,
 'Black Mirror': 5.0}

In [5]:
%timeit ratings.movies.top_by_ratings(10, "median")
ratings.movies.top_by_ratings(10, "median")

43.5 ms ± 720 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'Children of the Corn IV: The Gathering (1996)': 5.0,
 'Lesson Faust (1994)': 5.0,
 "Guess Who's Coming to Dinner (1967)": 5.0,
 "I'm the One That I Want (2000)": 5.0,
 'Galaxy of Terror (Quest) (1981)': 5.0,
 '"Chorus Line': 5.0,
 'Alien Contamination (1980)': 5.0,
 'Troll 2 (1990)': 5.0,
 'The Jinx: The Life and Deaths of Robert Durst (2015)': 5.0,
 'Band of Brothers (2001)': 5.0}

А что насчет фильмов, отзывы по которым очень разные? Может быть интересно составить свое мнение... Будем использовать дисперсию:

In [4]:
%timeit ratings.movies.top_controversial(10)
ratings.movies.top_controversial(10)


47 ms ± 1.27 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{'Lassie (1994)': 8.0,
 'Fanny and Alexander (Fanny och Alexander) (1982)': 10.12,
 '"Zed & Two Noughts': 8.0,
 'Kwaidan (Kaidan) (1964)': 8.0,
 '"Clonus Horror': 6.12,
 "Ivan's Childhood (a.k.a. My Name is Ivan) (Ivanovo detstvo) (1962)": 10.12,
 'Troll 2 (1990)': 6.75,
 'Emma (2009)': 8.0,
 "To Grandmother's House We Go (1992)": 6.12,
 'The Purge: Election Year (2016)': 6.12}

Попробуем найти тех, кто может подсказать нам, что же посмотреть. Кто же нам поможет? Конечно те, кто оставил больше всего отзывов, скорее всего они настоящие эксперты

In [None]:
%timeit ratings.users.number_of_ratings()
ratings.users.number_of_ratings()

61 ms ± 444 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


{414: 2698,
 599: 2478,
 474: 2108,
 448: 1864,
 274: 1346,
 610: 1302,
 68: 1260,
 380: 1218,
 606: 1115,
 288: 1055,
 249: 1046,
 387: 1027,
 182: 977,
 307: 975,
 603: 943,
 298: 939,
 177: 904,
 318: 879,
 232: 862,
 480: 836,
 608: 831,
 600: 763,
 483: 728,
 590: 728,
 105: 722,
 19: 703,
 305: 677,
 489: 648,
 111: 646,
 438: 635,
 217: 613,
 140: 608,
 477: 600,
 555: 578,
 91: 575,
 28: 570,
 219: 528,
 534: 520,
 89: 518,
 64: 517,
 226: 507,
 561: 505,
 18: 502,
 525: 500,
 57: 476,
 381: 474,
 368: 469,
 509: 467,
 469: 465,
 560: 458,
 462: 455,
 292: 446,
 21: 443,
 597: 443,
 42: 440,
 160: 437,
 294: 437,
 580: 436,
 596: 411,
 202: 403,
 275: 403,
 517: 400,
 45: 399,
 156: 398,
 514: 397,
 391: 386,
 567: 385,
 357: 383,
 103: 377,
 339: 371,
 62: 366,
 199: 363,
 125: 360,
 51: 359,
 132: 347,
 66: 345,
 313: 340,
 200: 334,
 221: 331,
 6: 314,
 453: 311,
 50: 310,
 425: 306,
 428: 300,
 573: 299,
 352: 294,
 84: 293,
 122: 292,
 382: 291,
 356: 289,
 135: 279,
 239:

Но есть проблема, мы же хотим спросить про самые лучшие фильмы. Найдем пользователей с наивысшими оценками. Не будем забывать, что помино среднего значения нужно смотреть на медиану.

In [None]:
%timeit ratings.users.users_by_metric(metric="average")
ratings.users.users_by_metric(metric="average")

94.6 ms ± 5.81 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{53: 5.0,
 251: 4.87,
 515: 4.85,
 25: 4.81,
 30: 4.74,
 523: 4.69,
 348: 4.67,
 171: 4.63,
 452: 4.56,
 43: 4.55,
 122: 4.55,
 371: 4.55,
 441: 4.52,
 400: 4.51,
 52: 4.48,
 538: 4.47,
 168: 4.46,
 417: 4.46,
 543: 4.45,
 106: 4.44,
 319: 4.43,
 601: 4.43,
 413: 4.41,
 475: 4.41,
 188: 4.4,
 12: 4.39,
 276: 4.39,
 154: 4.38,
 533: 4.38,
 581: 4.38,
 1: 4.37,
 69: 4.37,
 586: 4.37,
 59: 4.36,
 128: 4.36,
 544: 4.36,
 253: 4.35,
 459: 4.35,
 553: 4.34,
 585: 4.34,
 519: 4.33,
 70: 4.32,
 336: 4.32,
 435: 4.32,
 300: 4.3,
 93: 4.29,
 532: 4.28,
 74: 4.27,
 49: 4.26,
 80: 4.26,
 224: 4.26,
 291: 4.26,
 164: 4.25,
 169: 4.25,
 246: 4.25,
 398: 4.25,
 162: 4.24,
 209: 4.24,
 362: 4.24,
 494: 4.23,
 250: 4.22,
 17: 4.21,
 337: 4.21,
 340: 4.21,
 573: 4.21,
 79: 4.2,
 227: 4.2,
 252: 4.2,
 258: 4.2,
 460: 4.2,
 595: 4.2,
 97: 4.19,
 364: 4.19,
 526: 4.19,
 119: 4.18,
 267: 4.18,
 505: 4.18,
 296: 4.17,
 72: 4.16,
 465: 4.16,
 491: 4.16,
 458: 4.15,
 29: 4.14,
 37: 4.14,
 243: 4.14,
 290: 4.14

In [None]:
%timeit ratings.users.users_by_metric(metric="median")
ratings.users.users_by_metric(metric="median")

102 ms ± 5.14 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{1: 5.0,
 25: 5.0,
 30: 5.0,
 43: 5.0,
 52: 5.0,
 53: 5.0,
 59: 5.0,
 69: 5.0,
 77: 5.0,
 106: 5.0,
 154: 5.0,
 164: 5.0,
 171: 5.0,
 188: 5.0,
 224: 5.0,
 236: 5.0,
 251: 5.0,
 258: 5.0,
 267: 5.0,
 276: 5.0,
 348: 5.0,
 393: 5.0,
 413: 5.0,
 417: 5.0,
 441: 5.0,
 452: 5.0,
 494: 5.0,
 515: 5.0,
 523: 5.0,
 533: 5.0,
 543: 5.0,
 544: 5.0,
 598: 5.0,
 12: 4.75,
 49: 4.5,
 70: 4.5,
 72: 4.5,
 88: 4.5,
 122: 4.5,
 168: 4.5,
 169: 4.5,
 178: 4.5,
 209: 4.5,
 210: 4.5,
 221: 4.5,
 246: 4.5,
 250: 4.5,
 253: 4.5,
 295: 4.5,
 296: 4.5,
 319: 4.5,
 336: 4.5,
 371: 4.5,
 398: 4.5,
 399: 4.5,
 400: 4.5,
 421: 4.5,
 435: 4.5,
 459: 4.5,
 460: 4.5,
 475: 4.5,
 495: 4.5,
 505: 4.5,
 537: 4.5,
 538: 4.5,
 548: 4.5,
 553: 4.5,
 573: 4.5,
 578: 4.5,
 581: 4.5,
 585: 4.5,
 586: 4.5,
 594: 4.5,
 601: 4.5,
 138: 4.25,
 327: 4.25,
 2: 4.0,
 4: 4.0,
 5: 4.0,
 11: 4.0,
 13: 4.0,
 16: 4.0,
 17: 4.0,
 18: 4.0,
 27: 4.0,
 29: 4.0,
 31: 4.0,
 32: 4.0,
 33: 4.0,
 34: 4.0,
 35: 4.0,
 37: 4.0,
 39: 4.0,
 40: 4.0,

Оказалось что такие люди хорошо оценивают любые фильмы, у них не удалось выяснить ничего полезного. Посмотрим на пользователей, которые ставили как высокие, так и низкие оценки:

In [None]:
%timeit ratings.users.top_users_by_varince(10)
ratings.users.top_users_by_varince(10)

116 ms ± 10.4 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


{3: 4.37,
 55: 3.22,
 461: 3.22,
 259: 3.05,
 329: 3.05,
 175: 2.87,
 502: 2.84,
 598: 2.84,
 393: 2.63,
 138: 2.56}

## Tags

Напоследок мы решили рассмотреть, какие теги были назначены фильмам. Самые информативные скорее всего те, которые содержат наибольшее количество слов 

In [None]:
%timeit tags.most_words(10)
tags.most_words(10)

734 μs ± 6.55 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


{'Something for everyone in this one... saw it without and plan on seeing it with kids!': 16,
 'the catholic church is the most corrupt organization in history': 10,
 'villain nonexistent or not needed for good story': 8,
 'It was melodramatic and kind of dumb': 7,
 '06 Oscar Nominated Best Movie - Animation': 7,
 'Oscar (Best Music - Original Score)': 6,
 'stop using useless characters for filler': 6,
 'Oscar (Best Effects - Visual Effects)': 6,
 'Academy award (Best Supporting Actress)': 5,
 'GIVE ME BACK MY SON!': 5}

Другим подходом будет посмотреть на топ тегов по количеству символов 

In [None]:
%timeit tags.longest(10)
tags.longest(10)

542 μs ± 4.72 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


['Something for everyone in this one... saw it without and plan on seeing it with kids!',
 'the catholic church is the most corrupt organization in history',
 'villain nonexistent or not needed for good story',
 'r:disturbing violent content including rape',
 '06 Oscar Nominated Best Movie - Animation',
 'stop using useless characters for filler',
 'Academy award (Best Supporting Actress)',
 'Oscar (Best Effects - Visual Effects)',
 'It was melodramatic and kind of dumb',
 'r:sustained strong stylized violence']

Обьеденим эти два подхода:

In [None]:
%timeit tags.most_words_and_longest(10)
tags.most_words_and_longest(10)

1.33 ms ± 61.4 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


['villain nonexistent or not needed for good story',
 'stop using useless characters for filler',
 'Oscar (Best Effects - Visual Effects)',
 'It was melodramatic and kind of dumb',
 'Something for everyone in this one... saw it without and plan on seeing it with kids!',
 '06 Oscar Nominated Best Movie - Animation',
 'Academy award (Best Supporting Actress)',
 'the catholic church is the most corrupt organization in history']

Самые популярные теги:

In [None]:
%timeit tags.most_popular(10)
tags.most_popular(10)

490 μs ± 9.97 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


{'In Netflix queue': 131,
 'atmospheric': 36,
 'superhero': 24,
 'thought-provoking': 24,
 'funny': 23,
 'Disney': 23,
 'surreal': 23,
 'religion': 22,
 'sci-fi': 21,
 'dark comedy': 21}

Было бы полезно уметь находить конкретные теги, в зависимости от настроения

In [None]:
%timeit tags.tags_with("best")
tags.tags_with("best")

456 μs ± 31.2 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


['best comedy']