In [40]:
import pandas as pd
import numpy as np
# import os

In [2]:
ratings1_data = pd.read_csv('data/ratings1.csv', sep=',')
ratings2_data = pd.read_csv('data/ratings2.csv', sep=',')
movies_data = pd.read_csv('data/movies.csv', sep=',')
dates_data = pd.read_csv('data/dates.csv', sep=',')
ratings_movies = pd.read_csv('data/ratings_movies.csv', sep=',') 
    
ratings1_df = ratings1_data.copy()
ratings2_df = ratings2_data.copy()
movies_df = movies_data.copy()
dates_df = dates_data.copy()
ratings_movi_df = ratings_movies.copy()

In [3]:
ratings1_df.nunique()

userId      274
movieId    6219
rating       10
dtype: int64

In [4]:
movies_df.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


## Задание 5.4

**В каком году было выставлено больше всего оценок?**

In [5]:
dates_df['date'] = pd.to_datetime(dates_df['date']) 

In [6]:
dates_df['date'].dt.year.mode()

0    2000
dtype: int64

# Объединение DataFrame: concat

## Основные параметры функции concat()

* objs — список объектов DataFrame ([df1, df2,…]), которые должны быть сконкатенированы;
* axis — ось определяет направление конкатенации: 0 — конкатенация по строкам (по умолчанию), 1 — конкатенация по столбцам;
* join — либо inner (пересечение), либо outer (объединение); рассмотрим этот момент немного позже;
* ignore_index — по умолчанию установлено значение False, которое позволяет значениям индекса оставаться такими, какими они были в исходных данных. Если установлено значение True, параметр будет игнорировать исходные значения и повторно назначать значения индекса в последовательном порядке.

In [7]:
ratings = pd.concat(
    [ratings1_df, ratings2_df],
    ignore_index=True
)
# display(ratings)

### Удаление дубликатов

In [8]:
ratings = ratings.drop_duplicates(ignore_index=True)
print('Число строк в таблице ratings: ', ratings.shape[0])

Число строк в таблице ratings:  100836


In [16]:
# конкатенация по столбцам axis=1
ratings_dates = pd.concat([ratings, dates_df], axis=1)
# display(ratings_dates.tail(7))

# Основные параметры метода join()

* other — таблица, которую мы присоединяем. При объединении она является «правой», а исходная таблица, от имени которой вызывается метод, является «левой».
* how — параметр типа объединения. Он может принимать значения 'inner', 'left' (left outer), 'right' (right outer), и 'outer' (full outer). По умолчанию параметр установлен на 'left'.
* on — параметр, который определяет, по какому столбцу в «левой» таблице происходит объединение по индексам из «правой».
* lsuffix и rsuffix — дополнения (суффиксы) к названиям одноимённых столбцов в «левой» и «правой» таблицах.

In [15]:
joined_false = ratings_dates.join(
    movies_df,
    rsuffix='_right',
    how='left'
)
# display(joined_false)

**Чтобы совместить таблицы по ключевому столбцу с помощью метода join(), необходимо использовать ключевой столбец в «правой» таблице в качестве индекса. Это можно сделать с помощью метода set_index(). Также необходимо указать название ключа в параметре on.**

In [17]:
joined = ratings_dates.join(
    movies_df.set_index('movieId'),
    on='movieId',
    how='left'
)
# display(joined.head())

# Основные параметры метода merge()

* right — присоединяемая таблица. По умолчанию она является «правой».
* how — параметр типа объединения. По умолчанию принимает значение 'inner'.
* on — параметр, который определяет, по какому столбцу происходит объединение. Определяется автоматически, но рекомендуется указывать вручную.
* left_on — если названия столбцов в «левой» и «правой» таблицах не совпадают, то данный параметр отвечает за наименования ключевого столбца исходной таблицы.
* right_on — аналогично предыдущему, параметр отвечает за наименование ключевого столбца присоединяемой таблицы.
* lsuffix и rsuffix — дополнения (суффиксы) к названиям одноимённых столбцов в «левой» и «правой» таблицах.

In [18]:
merged = ratings_dates.merge(
    movies_df,
    on='movieId',
    how='left'
)
# display(merged.head())

**Метод merge() с внешним (outer) типом объединения может использоваться как аналог метода concat() при объединении таблиц с одинаковой структурой (одинаковые количество и названия столбцов) по строкам. В таком случае все одноимённые столбцы таблиц будут считаться ключевыми.**

Обратите внимание, что при использовании метода merge() для склейки двух таблиц у нас автоматически пропали дубликаты, которые мы видели при использовании метода concat(). Это особенность метода merge() — автоматическое удаление дублей.

In [20]:
merge_ratings = ratings1_df.merge(ratings2_df, how='outer')
print('Число строк в таблице merge_ratings: ', merge_ratings.shape[0])
# display(merge_ratings)

Число строк в таблице merge_ratings:  100836


In [21]:
ratings_movi_df.head()

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres
0,0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance
2,2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller
3,3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


In [25]:
#библиотека для регулярных выражений
import re 
def get_year_release(arg):
    #находим все слова по шаблону "(DDDD)"
    candidates = re.findall(r'\(\d{4}\)', arg) 
    # проверяем число вхождений
    if len(candidates) > 0:
        #если число вхождений больше 0,
	#очищаем строку от знаков "(" и ")"
        year = candidates[0].replace('(', '')
        year = year.replace(')', '')
        return int(year)
    else:
        #если год не указан, возвращаем None
        return None

## Задание 8.1
**У скольких фильмов не указан год их выпуска?**

In [58]:
ratings_movi_df['year_release'] = ratings_movi_df['title'].apply(get_year_release)
# ratings_movi_df = ratings_movi_df.astype({'year_release': np.int64})       #np.int32
# 
# display(ratings_movi_df['year_release'].count()-ratings_movi_df['year_release'].count(None))
display(ratings_movi_df['year_release'].shape[0]-ratings_movi_df['year_release'].count(None))

18

## Задание 8.2

**Какой фильм, выпущенный в 1999 году, получил наименьшую среднюю оценку зрителей?
В качестве ответа запишите название этого фильма без указания года его выпуска.**

In [96]:
mask_year = ratings_movi_df['year_release'] == 1999
# mask_rating = ratings_movi_df[mask_year]['rating'] == ratings_movi_df['rating'].min()
bad_name_1999 = ratings_movi_df[mask_year]    # [{'title', 'rating'}]

# display(set(bad_name_1999[mask_rating]['title']))
bad_name = bad_name_1999.groupby(by='title').mean()
mask_rating = bad_name['rating'] == bad_name['rating'].min()
bad_name[mask_rating]

Unnamed: 0_level_0,Unnamed: 0,userId,movieId,rating,year_release
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bloodsport: The Dark Kumite (1999),100797.0,610.0,145951.0,0.5,1999.0


## Задание 8.3

**Какое сочетание жанров фильмов (genres), выпущенных в 2010 году, получило наименьшую среднюю оценку (rating)?
Запишите сочетание так же, как оно указано в таблице (через разделитель |, без пробелов).**

In [100]:
mask_year_2 = ratings_movi_df['year_release'] == 2010

bad_genre_2010 = ratings_movi_df[mask_year_2]   

bad_genre = bad_genre_2010.groupby(by='genres').mean()
mask_rating_2 = bad_genre['rating'] == bad_genre['rating'].min()
bad_genre[mask_rating_2]
# display(bad_genre)

Unnamed: 0_level_0,Unnamed: 0,userId,movieId,rating,year_release
genres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Action|Sci-Fi,30179.0,210.0,189547.0,1.0,2010.0


## Задание 8.4

**Какой пользователь (userId) посмотрел наибольшее количество различных (уникальных) жанров (genres) фильмов? В качестве ответа запишите идентификатор этого пользователя.**

In [113]:
ratings_movi_df.groupby(by='userId').nunique().sort_values(by='genres', ascending=False)

Unnamed: 0_level_0,Unnamed: 0,movieId,rating,date,title,genres,year_release
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
599,2478,2478,10,2478,2478,524,84
414,2698,2698,10,1988,2698,482,80
448,1864,1864,10,1676,1864,403,76
380,1218,1218,9,1211,1218,399,78
474,2108,2108,10,1998,2108,395,88
...,...,...,...,...,...,...,...
578,27,27,8,27,27,15,13
12,32,32,5,32,32,15,18
85,34,34,5,24,34,13,7
214,22,22,3,10,22,13,3


## Задание 8.5

**Найдите пользователя, который выставил наименьшее количество оценок, но его средняя оценка фильмам наибольшая.
В качестве ответа укажите идентификатор этого пользователя.**

Чтобы рассчитать несколько параметров для каждого пользователя (количество оценок и среднюю оценку), можно воспользоваться методом agg() на сгруппированных данных.

In [123]:
# melb_df.groupby('MonthSale')['Price'].agg(
#     ['count', 'mean', 'max']
# ).sort_values(by='count', ascending=False)
ratings_movi_df.groupby('userId')['rating'].agg(
    ['mean', 'count']
).sort_values(['mean', 'count'], ascending=[False, True]).iloc[0]

mean      5.0
count    20.0
Name: 53, dtype: float64

## Задание 8.6

**Найдите сочетание жанров (genres) за 2018 году, которое имеет наибольший средний рейтинг (среднее по столбцу rating), и при этом число выставленных ему оценок (количество значений в столбце rating) больше 10.**

Запишите сочетание так же, как оно указано в таблице (через разделитель |, без пробелов).

In [129]:
mask_year_3 = ratings_movi_df['year_release'] == 2018

genre_2018 = ratings_movi_df[mask_year_3]
genre_2018_gr = genre_2018.groupby('genres')['rating'].agg(
    ['mean', 'count']
)
genre_2018_gr[genre_2018_gr['count'] >10].sort_values(['mean', 'count'], ascending=[False, True]).iloc[0] 

mean      3.928571
count    14.000000
Name: Action|Adventure|Sci-Fi, dtype: float64

## Задание 8.7

**Добавьте в таблицу новый признак year_rating — год выставления оценки. Создайте сводную таблицу, которая иллюстрирует зависимость среднего рейтинга фильма от года выставления оценки и жанра. Выберите верные варианты ответа, исходя из построенной таблицы:**

In [139]:
# ratings_movi_df.info()
# ratings_movi_df['year_rating'] = ratings_movi_df['date'].dt.year
ratings_movi_df['date'] = pd.to_datetime(ratings_movi_df['date'])
ratings_movi_df['year_rating'] = ratings_movi_df['date'].dt.year
# ratings_movi_df.head()

In [171]:
ratings_movi_df.pivot_table(
    values='rating',
    index='year_rating',
    columns='genres',
    fill_value=0
).head(2)

genres,(no genres listed),Action,Action|Adventure,Action|Adventure|Animation,Action|Adventure|Animation|Children,Action|Adventure|Animation|Children|Comedy,Action|Adventure|Animation|Children|Comedy|Fantasy,Action|Adventure|Animation|Children|Comedy|IMAX,Action|Adventure|Animation|Children|Comedy|Romance,Action|Adventure|Animation|Children|Comedy|Sci-Fi,...,Romance|Thriller,Romance|War,Romance|Western,Sci-Fi,Sci-Fi|IMAX,Sci-Fi|Thriller,Sci-Fi|Thriller|IMAX,Thriller,War,Western
year_rating,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1996,0.0,2.730769,3.454545,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,2.666667,0.0,3.838095,0.0,3.117647
1997,0.0,3.538462,4.15,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,3.4,0.0,3.923077,0.0,3.0


In [157]:
# За весь период (с 1996 по 2018 год) сочетание жанров Action|Adventure ни разу не получало среднюю оценку ниже 3?
mask_beg = ratings_movi_df['year_rating'] >= 1996 
mask_end = ratings_movi_df['year_rating'] <= 2018
mask_genre = ratings_movi_df['genres'] == 'Action|Adventure'

ratings_movi_df[(mask_beg & mask_end)&mask_genre].pivot_table(
    values='rating',
    index='year_rating',
    columns='genres',
    fill_value=0
).sort_values(by ='Action|Adventure').iloc[0]

genres
Action|Adventure    3.277778
Name: 2003, dtype: float64

In [178]:
# Наилучшую оценку жанр Action|Adventure|Animation|Children|Comedy|IMAX получил в 2010 году?
mask_genre = ratings_movi_df['genres'] == 'Action|Adventure|Animation|Children|Comedy|IMAX'
ratings_movi_df[mask_genre].sort_values(by ='rating', ascending=False).head(2)

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres,year_release,year_rating
90181,90181,586,87222,5.0,2018-06-25 04:03:20,Kung Fu Panda 2 (2011),Action|Adventure|Animation|Children|Comedy|IMAX,2011.0,2018
90159,90159,586,62999,5.0,2018-06-25 04:07:01,Madagascar: Escape 2 Africa (2008),Action|Adventure|Animation|Children|Comedy|IMAX,2008.0,2018


In [174]:
# Среди сочетаний жанров, получивших наивысшую среднюю оценку в 2018 году, есть сочетание Animation|Children|Mystery?
mask_year_3 = ratings_movi_df['year_release'] == 2018
mask_genre = ratings_movi_df['genres'] == 'Animation|Children|Mystery'
ratings_movi_df[mask_year_3 & mask_genre]

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres,year_release,year_rating


In [176]:
# Для жанра Comedy прослеживается тенденция падения рейтинга с каждым годом (с 1996 по 2018)?
mask_beg = ratings_movi_df['year_rating'] >= 1996 
mask_end = ratings_movi_df['year_rating'] <= 2018
mask_genre = ratings_movi_df['genres'] == 'Comedy'

ratings_movi_df[(mask_beg & mask_end)&mask_genre]

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres,year_release,year_rating
11,11,1,216,5.0,2000-07-30 18:20:08,Billy Madison (1995),Comedy,1995.0,2000
12,12,1,223,3.0,2000-07-30 18:16:25,Clerks (1994),Comedy,1994.0,2000
18,18,1,333,5.0,2000-07-30 18:19:39,Tommy Boy (1995),Comedy,1995.0,2000
24,24,1,441,4.0,2000-07-30 18:14:28,Dazed and Confused (1993),Comedy,1993.0,2000
61,61,1,1080,5.0,2000-07-30 18:22:07,Monty Python's Life of Brian (1979),Comedy,1979.0,2000
...,...,...,...,...,...,...,...,...,...
100662,100662,610,107348,3.5,2016-11-19 08:38:33,Anchorman 2: The Legend Continues (2013),Comedy,2013.0,2016
100726,100726,610,116977,3.0,2016-11-19 08:31:18,Dumb and Dumber To (2014),Comedy,2014.0,2016
100749,100749,610,129313,4.0,2016-11-19 08:13:54,Reality (2014),Comedy,2014.0,2016
100795,100795,610,143859,4.0,2016-11-19 08:32:13,"Hail, Caesar! (2016)",Comedy,2016.0,2016
