# Movie Lens Analizer

В этом проекте мы создадим классы на Python для чтения, обработки и анализа данных из датасета `MovieLens` (movies, ratings, tags, links). Будем использовать уменьшенную версию датасета (ml_latest_small), которая содержит 100836 рейтингов, 3683 тэгов и 9742 фильмов. При чтение файлов датасета берем в обработку только первые 1000 записей.

> Датасет MovieLens — это синтетический набор данных, состоящий из 20 миллионов реальных оценок из ML-20M, распространяемых в поддержку [MLPerf](https://www.mlperf.org/) (Machine Learning Performance Benchmark), независимого набора бенчмарков, разработанного для оценки производительности и эффективности аппаратного и программного обеспечения. Датасет MovieLens содержит выраженные предпочтения людей к фильмам и может быть использован для построения рекомендательных систем.

## Класс Movies

Класс `Movies()` содержит в себе четыре метода для работы с `movies.csv`: `dist_by_release()`, `dist_by_genres()`, `most_genres()` и `most_genres_by_years()`. Благодаря этим методам мы можем извлечь информацию о том, в каком году произвели больше всего фильмов, какие жанры самые популярные и получить список произведений, которые подходят под наибольшее число жанров.

Давайте попробуем выяснить, растет ли количество производимых фильмов от года к году, какие жанры наиболее популярны, и есть ли строгая типизация в кинематографе по жанрам, или большинство фильмов представляют собой смесь из разных категорий кино.

### dist_by_release()

Метод возвращает упорядоченный словарь, где ключи — это годы, а значения — это количества выпущенных фильмов. Элементы словаря отсортированы в порядке убывания по значению.

In [1]:
%time
from movielens_analysis import Movies

movies = Movies("./ml_latest_small/movies.csv")
result = movies.dist_by_release()

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 4.53 μs
OrderedDict({1995: 224, 1994: 184, 1996: 181, 1993: 101, 1992: 23, 1990: 15, 1991: 15, 1989: 14, 1986: 9, 1982: 8, 1940: 8, 1957: 8, 1987: 8, 1980: 8, 1981: 7, 1988: 7, 1979: 7, 1955: 6, 1959: 6, 1968: 6, 1997: 6, 1939: 6, 1985: 6, 1967: 5, 1965: 5, 1951: 5, 1958: 5, 1944: 5, 1941: 5, 1975: 5, 1971: 5, 1984: 5, 1964: 4, 1973: 4, 1954: 4, 1934: 4, 1960: 4, 1963: 4, 1950: 4, 1974: 4, 1983: 4, 1977: 3, 1937: 3, 1972: 3, 1952: 3, 1961: 3, 1953: 3, 1946: 3, 1938: 3, 1956: 3, 1962: 3, 1976: 2, 1969: 2, 1970: 2, 1942: 2, 1945: 2, 1947: 2, 1935: 2, 1936: 2, 1949: 2, 1978: 2, 1943: 1, 1932: 1, 1966: 1, 1948: 1, 1933: 1, 1931: 1})


Кажется, от года к году количество производимых фильмов только растет... Что ж, давайте продолжим наше исследование.

### dist_by_genres()

Метод возвращает словарь, где ключи — жанры, а значения — количества. Элементы словаря отсортированы в порядке убывания по значению.

In [2]:
%time
from movielens_analysis import Movies

movies = Movies("./ml_latest_small/movies.csv")
result = movies.dist_by_genres()

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.58 μs
{'Drama': 507, 'Comedy': 365, 'Romance': 208, 'Thriller': 179, 'Action': 158, 'Adventure': 126, 'Crime': 122, 'Children': 100, 'Fantasy': 69, 'Sci-Fi': 69, 'Mystery': 58, 'Musical': 53, 'Horror': 51, 'War': 48, 'Animation': 37, 'Documentary': 25, 'Western': 23, 'Film-Noir': 18, 'IMAX': 3}


Как мы видим, самый популярный жанр - драма, на втором месте, с огромным отрывом идет - комедия. А что насчет категоризации кино?

### most_genres()

Метод возвращает словарь с фильмами с наибольшим количеством жанров, где ключи — названия фильмов, а значения — количество жанров. Метод принимает целое число, которое указывает, сколько фильмов нужно вернуть. Элементы словаря отсортированы в порядке убывания по значению.

In [3]:
%time
from movielens_analysis import Movies

movies = Movies("./ml_latest_small/movies.csv")
result = movies.most_genres(100)

print(result)

CPU times: user 2 μs, sys: 1e+03 ns, total: 3 μs
Wall time: 3.34 μs
{'Toy Story (1995)': 5, 'Money Train (1995)': 5, 'Copycat (1995)': 5, '"City of Lost Children, The (Cité des enfants perdus, La) (1995)"': 5, 'Pocahontas (1995)': 5, 'From Dusk Till Dawn (1996)': 4, '"Crossing Guard, The (1995)"': 4, 'Bottle Rocket (1996)': 4, 'Muppet Treasure Island (1996)': 4, 'Rumble in the Bronx (Hont faan kui) (1995)': 4, 'Jumanji (1995)': 3, 'Waiting to Exhale (1995)': 3, 'Heat (1995)': 3, 'GoldenEye (1995)': 3, '"American President, The (1995)"': 3, 'Balto (1995)': 3, 'Cutthroat Island (1995)': 3, 'Get Shorty (1995)': 3, 'Assassins (1995)': 3, 'Twelve Monkeys (a.k.a. 12 Monkeys) (1995)': 3, 'Dead Presidents (1995)': 3, 'Mortal Kombat (1995)': 3, 'To Die For (1995)': 3, '"Usual Suspects, The (1995)"': 3, 'Mighty Aphrodite (1995)': 3, '"Postman, The (Postino, Il) (1994)"': 3, '"Indian in the Cupboard, The (1995)"': 3, 'Lawnmower Man 2: Beyond Cyberspace (1996)': 3, 'Screamers (1995)': 3, "Things t

Судя по всему, большинство фильмов строго делятся по жанрам...

#### most_genres_by_years()

Этот метод возвращает словарь, в котором ключами являются годы, а значениями - самый популярный жанр в этот временной отрезок. Давайте попробуем понять, менялись ли вкусовые предпочтения людей по жанрам от года к году.

In [4]:
%time
from movielens_analysis import Movies

movies = Movies("./ml_latest_small/movies.csv")
result = movies.most_genres_by_years()

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 4.05 μs
{1931: 'Crime', 1932: 'Romance', 1933: 'Comedy', 1934: 'Comedy', 1935: 'Comedy', 1936: 'Comedy', 1937: 'Drama', 1938: 'Romance', 1939: 'Drama', 1940: 'Drama', 1941: 'Drama', 1942: 'Drama', 1943: 'Adventure', 1944: 'Drama', 1945: 'Mystery', 1946: 'Film-Noir', 1947: 'Drama', 1948: 'Action', 1949: 'Musical', 1950: 'Drama', 1951: 'Musical', 1952: 'Romance', 1953: 'Comedy', 1954: 'Mystery', 1955: 'Drama', 1956: 'Drama', 1957: 'Drama', 1958: 'Drama', 1959: 'Drama', 1960: 'Comedy', 1961: 'Drama', 1962: 'Drama', 1963: 'Fantasy', 1964: 'Musical', 1965: 'Drama', 1966: 'Action', 1967: 'Drama', 1968: 'Sci-Fi', 1969: 'Adventure', 1970: 'Animation', 1971: 'Comedy', 1972: 'Drama', 1973: 'Comedy', 1974: 'Comedy', 1975: 'Comedy', 1976: 'Drama', 1977: 'Adventure', 1978: 'Comedy', 1979: 'Drama', 1980: 'Horror', 1981: 'Action', 1982: 'Drama', 1983: 'Action', 1984: 'Drama', 1985: 'Comedy', 1986: 'Drama', 1987: 'Drama', 1988: 'Adventure', 1989:

Судя по тому, что мы видим, на заре кинематографа популярными были, в основном, комедии. Но довольно быстро все поняли, что драма, как жанр, гораздо более востребован. Видно, что ближе к современности все чаще снимают драматические фильмы, хотя в некоторые годы бывает, что пальму первенства забирает и какой-то иной жанр.

## Класс Ratings

Класс `Ratings()` создан для работы с файлом ratings.csv из датасета `MovieLens`. Он содержит в себе вложенные классы `Movies()` и `Users()`.

Работая с этим классом, мы попытаемся ответить на несколько вопросов: каково среднее качество выпускаемых фильмов: как много среди них успешных, и как много неудачных? Еще выделим десятку лучших фильмов по рейтингу пользователей, десятку самых спорных. Также мы попытаемся понять, насколько этот рейтинг репрезентативен: как много пользователей выставляли по нему оценки, и какие средние оценки они склонны ставить.

### Вложенный класс Movies

Вложенный класс внутри `Ratings()`, при создании принимает в качестве аргумента ссылку на родительский класс, чтобы иметь доступ к атрибутам класса-родителя.

#### dist_by_year()

Метод возвращает словарь, где ключи — это годы, а значения — это количества выпущенных фильмов. Элементы словаря отсортированы в порядке возрастания по ключам.

In [7]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
result = ratings.inner_movies.dist_by_year()

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 4.29 μs
{1996: 358, 1999: 82, 2000: 296, 2001: 70, 2005: 121, 2006: 4, 2007: 1, 2011: 39, 2015: 29}


#### dist_by_rating()

Метод возвращает словарь, где ключи — рейтинги, а значения — количество фильмов, соответствующих этому рейтингу. Сортировка по возрастанию ключа.

In [8]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
result = ratings.inner_movies.dist_by_rating()

print(result)

CPU times: user 1 μs, sys: 0 ns, total: 1 μs
Wall time: 3.34 μs
{0.5: 24, 1.0: 39, 1.5: 11, 2.0: 57, 2.5: 7, 3.0: 253, 3.5: 17, 4.0: 292, 4.5: 33, 5.0: 267}


Как мы видим, большинство фильмов имеют рейтинги от 3 и выше. То есть, большинство выпускаемых фильмов обычно нравятся зрителям. Но было бы неплохо понять, кто эти зрители... Это мы выясним во вложенном классе Users()

#### top_by_num_of_ratings()

Метод возвращает словарь фильмов с наибольшим количеством оценок. Ключами являются названия фильмов, а значениями — количество оценок. Сортируем по значениям в порядке убывания.

In [11]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
result = ratings.inner_movies.top_by_num_of_ratings(100)

print(result)

CPU times: user 1 μs, sys: 1 μs, total: 2 μs
Wall time: 3.58 μs
{'"Usual Suspects, The (1995)"': 4, 'Pulp Fiction (1994)': 4, '"Fugitive, The (1993)"': 4, "Schindler's List (1993)": 4, 'Aladdin (1992)': 4, 'Batman (1989)': 4, '"Silence of the Lambs, The (1991)"': 4, 'Beauty and the Beast (1991)': 4, 'Fargo (1996)': 4, 'Toy Story (1995)': 3, 'Get Shorty (1995)': 3, 'Seven (a.k.a. Se7en) (1995)': 3, '"Postman, The (Postino, Il) (1994)"': 3, 'Braveheart (1995)': 3, 'Apollo 13 (1995)': 3, 'Star Wars: Episode IV - A New Hope (1977)': 3, 'Like Water for Chocolate (Como agua para chocolate) (1992)': 3, 'Stargate (1994)': 3, '"Shawshank Redemption, The (1994)"': 3, 'Tommy Boy (1995)': 3, 'Clear and Present Danger (1994)': 3, 'Forrest Gump (1994)': 3, 'Four Weddings and a Funeral (1994)': 3, '"Mask, The (1994)"': 3, 'True Lies (1994)': 3, 'In the Name of the Father (1993)': 3, 'Jurassic Park (1993)': 3, 'Tombstone (1993)': 3, 'Terminator 2: Judgment Day (1991)': 3, 'Dances with Wolves (1990)': 

#### top_by_ratings()

Метод возвращает словарь фильмов с наибольшим средним или медианным значением рейтингов. Ключами являются названия фильмов, а значениями — средне-арифметическое или медиана из оценок. Сортируем по убыванию значений, округляем их до двух десятичных знаков.

##### __Тест со средними значением__

Если не передавать параметр, метод по умолчанию рассчитает средне-арифметическое значение оценок. Можно также прямо передать в параметры значение `metric="average"`

In [None]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
result = ratings.inner_movies.top_by_ratings(100)

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.34 μs
{'Father of the Bride Part II (1995)': 5.0, 'Copycat (1995)': 5.0, 'White Squall (1996)': 5.0, 'Bottle Rocket (1996)': 5.0, 'Flirting With Disaster (1996)': 5.0, 'Canadian Bacon (1995)': 5.0, 'Congo (1995)': 5.0, 'Crumb (1994)': 5.0, 'First Knight (1995)': 5.0, 'Living in Oblivion (1995)': 5.0, 'Before Sunrise (1995)': 5.0, 'Dolores Claiborne (1995)': 5.0, 'Houseguest (1994)': 5.0, 'Just Cause (1995)': 5.0, 'Star Wars: Episode IV - A New Hope (1977)': 5.0, '"Little Princess, A (1995)"': 5.0, 'Miracle on 34th Street (1994)': 5.0, 'Once Were Warriors (1994)': 5.0, '"Secret of Roan Inish, The (1994)"': 5.0, 'Shallow Grave (1994)': 5.0, "What's Eating Gilbert Grape (1993)": 5.0, '"Client, The (1994)"': 5.0, 'Speed (1994)': 5.0, "City Slickers II: The Legend of Curly's Gold (1994)": 5.0, 'Manhattan Murder Mystery (1993)': 5.0, 'Six Degrees of Separation (1993)': 5.0, '"Aristocats, The (1970)"': 5.0, 'James and the Giant Peach (

Как мы видим, при рассчете рейтинга методом средне-арифметического ТОП-10 фильмов по версии пользователей выглядит так:

* Father of the Bride Part II (1995)
* Copycat (1995)
* White Squall (1996)
* Bottle Rocket (1996)
* Flirting With Disaster (1996)
* Canadian Bacon (1995)
* Congo (1995)
* Crumb (1994)
* First Knight (1995)
* Living in Oblivion (1995)

Интересно, повторится ли эта картина, когда мы рассчитаем то же самое, но уже с медианными показателями.

##### __Тест с медианными значениями__

Чтобы получить словарь с медианными значениями, нужно передать соответствующий аргумент при вызове метода: `metric="mean"`

In [12]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
result = ratings.inner_movies.top_by_ratings(100, metric="mean")

print(result)

CPU times: user 1 μs, sys: 0 ns, total: 1 μs
Wall time: 3.34 μs
{'Father of the Bride Part II (1995)': 5.0, 'Copycat (1995)': 5.0, 'White Squall (1996)': 5.0, 'Bottle Rocket (1996)': 5.0, 'Flirting With Disaster (1996)': 5.0, 'Canadian Bacon (1995)': 5.0, 'Congo (1995)': 5.0, 'Crumb (1994)': 5.0, 'First Knight (1995)': 5.0, 'Living in Oblivion (1995)': 5.0, 'Before Sunrise (1995)': 5.0, 'Dolores Claiborne (1995)': 5.0, 'Houseguest (1994)': 5.0, 'Just Cause (1995)': 5.0, 'Star Wars: Episode IV - A New Hope (1977)': 5.0, '"Little Princess, A (1995)"': 5.0, 'Miracle on 34th Street (1994)': 5.0, 'Once Were Warriors (1994)': 5.0, '"Secret of Roan Inish, The (1994)"': 5.0, 'Shallow Grave (1994)': 5.0, 'Tommy Boy (1995)': 5.0, "What's Eating Gilbert Grape (1993)": 5.0, '"Client, The (1994)"': 5.0, 'Forrest Gump (1994)': 5.0, 'Speed (1994)': 5.0, "City Slickers II: The Legend of Curly's Gold (1994)": 5.0, '"Fugitive, The (1993)"': 5.0, 'In the Name of the Father (1993)': 5.0, 'Jurassic Park (1

А вот и ТОП по результатам расчета медианного рейтинга:

* Father of the Bride Part II (1995)
* Copycat (1995)
* White Squall (1996)
* Bottle Rocket (1996)
* Flirting With Disaster (1996)
* Canadian Bacon (1995)
* Congo (1995)
* Crumb (1994)
* First Knight (1995)
* Living in Oblivion (1995)

Как мы видим, фильмы абсолютно те же, то есть, методика расчета рейтинга не сильно влияет на определение фильмов в ТОПе. Теперь давайте посмотрим на ТОП-10 фильмов с неоднозначными оценками.

#### top_controversial()

Метод возвращает словарь самых противоречивых фильмов с наиболее высоким разбросом оценок. Ключами являются названия фильмов, а значениями — дисперсии. Сортировка по убыванию дисперсий, округленных до двух десятичных знаков.

In [13]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
result = ratings.inner_movies.top_controversial(100)

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 4.77 μs
{'My Fair Lady (1964)': 10.12, 'Courage Under Fire (1996)': 6.12, "Schindler's List (1993)": 4.56, 'Circle of Friends (1995)': 4.5, 'Dazed and Confused (1993)': 4.5, 'Hot Shots! Part Deux (1993)': 4.5, 'Ghost (1990)': 4.5, '"Usual Suspects, The (1995)"': 3.23, 'Dangerous Minds (1995)': 3.12, 'Tombstone (1993)': 3.0, 'Pulp Fiction (1994)': 2.92, 'Seven (a.k.a. Se7en) (1995)': 2.33, 'Stargate (1994)': 2.33, 'Psycho (1960)': 2.33, 'Twelve Monkeys (a.k.a. 12 Monkeys) (1995)': 2.0, '"NeverEnding Story III, The (1994)"': 2.0, 'Desperado (1995)': 2.0, 'Dumb & Dumber (Dumb and Dumber) (1994)': 2.0, 'Ed Wood (1994)': 2.0, 'Heavenly Creatures (1994)': 2.0, 'Legends of the Fall (1994)': 2.0, "Muriel's Wedding (1994)": 2.0, '"Jungle Book, The (1994)"': 2.0, '"Lion King, The (1994)"': 2.0, 'With Honors (1994)': 2.0, 'Mrs. Doubtfire (1993)': 2.0, '"Piano, The (1993)"': 2.0, 'Sleepless in Seattle (1993)': 2.0, 'Twister (1996)': 2.0, 'Gon

А вот и ТОП самых неоднозначных:

* My Fair Lady (1964)
* Courage Under Fire (1996)
* Schindler's List (1993)
* Circle of Friends (1995)
* Dazed and Confused (1993)
* Hot Shots! Part Deux (1993)
* Ghost (1990)
* Usual Suspects, The (1995)
* Dangerous Minds (1995)
* Tombstone (1993)

Обратите внимание, ни одного фильма из списка с самым высоким рейтингом. Повидимому, если фильм по-настоящему любят, то любят единодушно.

### Вложенный класс Users

Класс `Users()`, созданный внутри класса `Ratings()` путем наследования вложенного в `Ratings()` класса `Movies()`.

А вот теперь настало время выяснить, насколько репрезентативна выборка респондентов, расставлявших отзывы.

#### dist_users_by_num_of_ratings()

Возвращает распределение пользователей по количеству поставленных ими оценок. Ключ - ID пользователя, значение - количество поставленных оценок. Сортировка по значению: от большего к меньшему.

In [14]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
users = ratings.Users(ratings)
result = users.dist_users_by_num_of_ratings()

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.34 μs
{6: 314, 1: 232, 4: 216, 7: 126, 5: 44, 3: 39, 2: 29}


Что ж, кажется, оценки оставляли всего 7 пользователей, причем, 43% из них оставили 76% оценок. Видимо, наша выборка не очень репрезентативна, и по ней нельзя делать далекоидущие выводы. Но мы изначально условились обрабатывать по 1000 первых записей, так что держим это ограничение в уме.

#### dist_users_by_rating()

Возвращает распределение пользователей по средним или медианным оценкам, сделанным ими. Ключ - ID пользователя, значение - количество поставленных оценок. Сортировка по значению: от большего к меньшему.

##### __Тест со средними значением__

Если не передавать параметр, метод по умолчанию рассчитает средне-арифметическое значение оценок. Можно также прямо передать в параметры значение `metric="average"`

In [15]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
users = ratings.Users(ratings)
result = users.dist_users_by_rating()

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.34 μs
{1: 4.37, 2: 3.95, 5: 3.64, 4: 3.56, 6: 3.49, 7: 3.35, 3: 2.44}


##### __Тест с медианными значениями__

Чтобы получить словарь с медианными значениями, нужно передать соответствующий аргумент при вызове метода: `metric="mean"`

In [16]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
users = ratings.Users(ratings)
result = users.dist_users_by_rating(metric="mean")

print(result)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.34 μs
{1: 5.0, 2: 4.0, 4: 4.0, 5: 4.0, 7: 4.0, 6: 3.0, 3: 0.5}


#### top_controversial_users()

Возвращает первые N пользователей с самой большой дисперсией оценок. Ключ - ID пользователя, значение - количество поставленных оценок. Сортировка по значению: от большего к меньшему.

In [17]:
%time
from movielens_analysis import Ratings

ratings = Ratings("./ml_latest_small/ratings.csv")
users = ratings.Users(ratings)
result = users.top_controversial_users(5)

print(result)

CPU times: user 1 μs, sys: 0 ns, total: 1 μs
Wall time: 3.34 μs
{3: 4.37, 4: 1.73, 7: 1.67, 5: 0.98, 6: 0.72}


## Класс Tags

Имеет 5 методов класса для анализа тэгов из файла tags.csv.

В этом классе давайте попробуем выяснить ТОП-10 самых популярных тэгов для фильмов из нашей выборки.

### most_words()

Метод подсчитывает количество слов в тэге и сортирует тэги по количеству слов в порядке убывания.

In [20]:
%time
from movielens_analysis import Tags

tg = Tags('./ml_latest_small/tags.csv')
tag_most_words = tg.most_words(10)
for key, value in tag_most_words.items():
    print(f"{key}: {value}")

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.58 μs
Something for everyone in this one... saw it without and plan on seeing it with kids!: 16
the catholic church is the most corrupt organization in history: 10
Oscar (Best Music - Original Score): 6
Everything you want is here: 5
based on a true story: 5
based on a play: 4
jay and silent bob: 4
seen more than once: 4
political right versus left: 4
based on a book: 4


### longest()

Метод сортирует тэги по количеству символов в порядке убывания.

In [21]:
%time
from movielens_analysis import Tags

tg = Tags('./ml_latest_small/tags.csv')
tag_longest = tg.longest(10)
for tag in tag_longest:
    print(tag)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.58 μs
Something for everyone in this one... saw it without and plan on seeing it with kids!
the catholic church is the most corrupt organization in history
audience intelligence underestimated
Oscar (Best Music - Original Score)
assassin-in-training (scene)
Everything you want is here
political right versus left
Oscar (Best Cinematography)
representation of children
artificial intelligence


### most_words_and_longest()

Метод находит тэги, одновременно попавшие в топ с наибольшим количеством слов и в топ с наибольшим количеством символов.

In [22]:
%time
from movielens_analysis import Tags

tg = Tags('./ml_latest_small/tags.csv')
tag_most_words_and_longest = tg.most_words_and_longest(10)
for tag in tag_most_words_and_longest:
    print(tag)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.81 μs
Everything you want is here
Oscar (Best Music - Original Score)
Something for everyone in this one... saw it without and plan on seeing it with kids!
the catholic church is the most corrupt organization in history
political right versus left


### most_popular()

Метод подсчитавает число упоминаний каждого тэга и сортирует тэги по популярности в порядке убывания.

In [None]:
%time
from movielens_analysis import Tags

tg = Tags('./ml_latest_small/tags.csv')
tag_most_pop = tg.most_popular(10)
for key, value in tag_most_pop.items():
    print(f"{key}: {value}")

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 4.29 μs
funny: 15
sci-fi: 14
twist ending: 12
dark comedy: 12
atmospheric: 10
superhero: 10
comedy: 10
action: 10
suspense: 10
Leonardo DiCaprio: 9


Итак, вот ТОП-10 самых популярных тэгов:

* funny: 15
* sci-fi: 14
* twist ending: 12
* dark comedy: 12
* atmospheric: 10
* superhero: 10
* comedy: 10
* action: 10
* suspense: 10
* Leonardo DiCaprio: 9

Удивительно, что большинство тэгов имеют отношение к сюжетной линии, жанру или атмосфере, но среди них есть один, содержащий имя актера - Leonardo DiCaprio. Вероятно, это может означать серьезную народную любовь, если Леонардо ДиКаприо воспринимается, как целый киножанр.

### tags_with()

Метод находит все тэги, в которых содержится искомое слово, передаваемое в качестве аргумента. Не чувствителен к регистру.

In [24]:
%time
from movielens_analysis import Tags

tg = Tags('./ml_latest_small/tags.csv')
tag_word = tg.tags_with("comedy")
for tag in tag_word:
    print(tag)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 3.81 μs
Comedy
black comedy
british comedy
comedy
dark comedy
romantic comedy


## Класс Links

Имеет 6 методов для работы с файлом links.csv.

Этот класс поможет нам выяснить, какой режиссер снял больше всего фильмов, поможет определить семерку самых дорогих фильмов, ТОП-7 самых прибыльных (сравнить их), а также узнать самые длинные фильмы и самые дорогие в пересчете на 1 минуту экранного времени.

### get_imdb()

В файле links.csv содержатся идентификаторы, которые можно использовать для ссылки на другие источники данных о фильмах.

Метод get_imdb() осуществляет парсинг сайта http://www.imdb.com и записывает полученные данные в аргумент imdb.

Атрибут класса imdb будет содержать список вложенных списков, содержащих актуальную информацию о каждом фильме, полученную с сайта http://www.imdb.com в формате [movieId, Title, Director, Budget, Cumulative Worldwide Gross, Runtime].

In [None]:
%time
from movielens_analysis import Links

lnk = Links('./ml_latest_small/links.csv')
for movie in lnk.imdb:
    print(movie)

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 5.01 μs
Ошибка imdb: 404


### top_directors()

Метод подсчитывает количество фильмов, снятых каждым режисером, и выполняет сортировку в порядке убывания.

In [None]:
%time
from movielens_analysis import Links

lnk = Links('./ml_latest_small/links.csv')
top_director = lnk.top_directors(7)
for k, v in top_director.items():
    print(f'Режисер {k}, снял {v}')

ТОП-7 режиссеров по количеству произведенных фильмов:
* Tony Scott: 5
* Woody Allen: 5
* Martin Scorsese: 5
* Rob Reiner: 5
* James Cameron: 5
* Francis Ford Coppola: 4
* Spike Lee: 4

### most_expensive()

Метод сортирует фильмы по размеру бюджета в порядке убывания.

In [None]:
%time
from movielens_analysis import Links

lnk = Links('./ml_latest_small/links.csv')
top_cost = lnk.most_expensive(7)
for k, v in top_cost.items():
    print(f'Бюджет фильма {k} составил {v}')

ТОП-7 фильмов с самым большим бюджетом:

* Waterworld: $175 000 000
* True Lies: $115 000 000
* Terminator 2: $102 000 000
* The Hunchback of Notre Dame: $100 000 000
* Eraser: $100 000 000
* Batman Forever: $100 000 000
* Cutthroat Island: $98 000 000

### most_profitable()

Метод сортирует фильмы по размеру прибыли в порядке убывания. С его помощью можно составить рейтинг самых прибыльных фильмов.

In [None]:
%time
from movielens_analysis import Links

lnk = Links('./ml_latest_small/links.csv')
top_profit = lnk.most_profitable(7)
for k, v in top_profit.items():
    print(f'Чистая прибыль {k} составила {v}$')

ТОП-7 самых прибыльных фильмов:

* Jurassic Park: $1 041 379 926
* Star Wars: $449 966 382
* Independence Day: $742 400 891
* Forrest Gump: $623 226 465
* Ghost: $483 703 557
* Pretty Woman: $449 406 268
* Indiana Jones and the Last Crusade: $426 171 806

Удивительно то, что среди самых прибыльных фильмов нет ни одной ленты из ТОП-7 самых дорогих в производстве. Похоже, что большой бюджет не являтся гарантией большой прибыли.

### Метод longest()

Метод сортирует фильмы по продолжительности в порядке убывания. С его помощью можно составить рейтинг самых длинных фильмов.

In [None]:
%time
from movielens_analysis import Links

lnk = Links('./ml_latest_small/links.csv')
top_long = lnk.longest(7)
for k, v in top_long.items():
    print(f'Фильм {k} длится {v} минут')

ТОП-7 самых длинных фильмов:

* Gone with the Wind: 238
* Once Upon a Time in America: 229
* Ben-Hur: 212
* The Godfather Part II: 202
* Schindler's List: 195
* The Right Stuff: 193
* Nixon: 192

### top_cost_per_minute()

Метод сортирует фильмы по стоимости одной минуты фильма в порядке убывания. С его помощью можно составить рейтинг самых дорогостоящих фильмов в рассчете на 1 минуту.

In [None]:
%time
from movielens_analysis import Links

lnk = Links('./ml_latest_small/links.csv')
top_lg = lnk.top_cost_per_minute(7)
for k, v in top_lg.items():
    print(f'1 минута фильма {k} стоила {v}$')

ТОП-7 фильмов по цене за 1 минуту времени:

* Waterworld: $1 296 296.3
* The Hunchback of Notre Dame: $1 098 901.1
* Judge Dredd: $937 500.0
* Space Jam: $909 090.91
* Eraser: $869 565.22
* Batman Forever: $826 446.28
* True Lies: $815 602.84

Как мы видим, пять из семи фильмов с самой высокой стоимостью минуты экранного времени пересекаются с пятью из семи самых дорогих фильмов. При этом, ни один из них не находится в ТОП-е по длительности. Значит, бюджет этих фильмов повышался не за счет хронометража. По всей видимости, основные затраты шли на техническую реализацию.

## Инсайты

К концу отчета хотелось бы отметить несколько интересных инсайтов, которые удалось сделать в процессе анализа датасета:

* С каждым годом снимается все больше и больше фильмов.
* Драма - самый популярный жанр, на втором месте - комедия.
* Большинство производимых фильмов получают оценки средние и выше, зрители редко "заваливают" кино.
* Большой бюджет фильма не гарантирует больших доходов: ТОП наиболее прибыльных и наиболее дорогих фильмов не имеет пересечений.
* Леонардо ДиКаприо очень популярен.

Ну и на последок добавлю, что выводы, сделанные в этом отчете, совсем не обязательно соответствуют действительности, потому что, судя по выводу метода `dist_users_by_num_of_ratings()`, большинство оценок, на основании которых мы делаем выводы, были проставлены тремя пользователями. То есть, выборку сложно назвать репрезентативной.