In [None]:
# МЕТОД ОБЪЕДИНЕНИЯ JOIN()
# Для объединения двух таблиц по индексам 
# объединить таблицы по ключевому столбцу (в нашем случае это movieId).

In [None]:
# DataFrame.join(
# other,  
# on=None, 
# how='left', 
# lsuffix='', 
# rsuffix='', 
# sort=False)

# other — таблица, которую мы присоединяем. При объединении она является «правой», а исходная таблица, от имени которой вызывается метод, является «левой».
# how — параметр типа объединения. Он может принимать значения 'inner', 'left' (left outer), 'right' (right outer), и 'outer' (full outer). По умолчанию параметр установлен на 'left'.
# on — параметр, который определяет, по какому столбцу в «левой» таблице происходит объединение по индексам из «правой». (vlookup)
# lsuffix и rsuffix — дополнения (суффиксы) к названиям одноимённых столбцов в «левой» и «правой» таблицах.

In [1]:
import pandas as pd
ratings1 = pd.read_csv('data/ratings1.csv')
ratings2 = pd.read_csv('data/ratings2.csv')
dates = pd.read_csv('data/dates.csv')
movies = pd.read_csv('data/movies.csv')

In [2]:
ratings = pd.concat([ratings1, ratings2])
ratings = ratings.drop_duplicates(ignore_index=True)
ratings_dates = pd.concat([ratings, dates], axis=1)

In [7]:
# объединим таблицы типом left. 
# Так как в наших таблицах есть одноимённые столбцы, 
# установим один из суффиксов, чтобы избежать ошибки:
joined_false = ratings_dates.join(
    movies,
    rsuffix = '_right', # need to put _ 
    how = 'left',
)
display(joined_false)
# good way to do!!!

Unnamed: 0,userId,movieId,rating,date,movieId_right,title,genres
0,1,1,4.0,2000-07-30 18:45:03,1.0,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,2.0,Jumanji (1995),Adventure|Children|Fantasy
2,1,6,4.0,2000-07-30 18:37:04,3.0,Grumpier Old Men (1995),Comedy|Romance
3,1,47,5.0,2000-07-30 19:03:35,4.0,Waiting to Exhale (1995),Comedy|Drama|Romance
4,1,50,5.0,2000-07-30 18:48:51,5.0,Father of the Bride Part II (1995),Comedy
...,...,...,...,...,...,...,...
100831,610,166534,4.0,2017-05-03 21:53:22,,,
100832,610,168248,5.0,2017-05-03 22:21:31,,,
100833,610,168250,5.0,2017-05-08 19:50:47,,,
100834,610,168252,5.0,2017-05-03 21:19:12,,,


In [None]:
# При объединении таблиц по индексам в результирующую таблицу попали все строки из «левой» таблицы, 
# а недостающие строки из «правой» были заполнены пропусками. Так работает тип объединения left.

In [8]:
# Попробуйте изменить тип объединения, чтобы посмотреть на разницу результирующих таблиц
joined_false2 = ratings_dates.join(
    movies,
    rsuffix='_right',
    how = 'right'
)
display(joined_false2)
# NOT # good way to do!!! => мы не получили соответствия фильмов и их рейтингов

Unnamed: 0,userId,movieId,rating,date,movieId_right,title,genres
0,1,1,4.0,2000-07-30 18:45:03,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,2,Jumanji (1995),Adventure|Children|Fantasy
2,1,6,4.0,2000-07-30 18:37:04,3,Grumpier Old Men (1995),Comedy|Romance
3,1,47,5.0,2000-07-30 19:03:35,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,1,50,5.0,2000-07-30 18:48:51,5,Father of the Bride Part II (1995),Comedy
...,...,...,...,...,...,...,...
9737,64,3481,4.0,2006-10-22 12:37:45,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,64,3489,3.0,2006-10-22 23:28:09,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,64,3499,4.5,2006-10-22 23:26:41,193585,Flint (2017),Drama
9740,64,3510,3.0,2006-10-22 23:27:26,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [None]:
# Обратите внимание, что в данном случае у нас получилось два столбца, 
# соответствующих идентификатору фильма: один — из «левой» таблицы (movieId), 
# а другой — из «правой» (movieId_right).

In [None]:
# метод set_index()
# совместить таблицы по ключевому столбцу
# необходимо использовать ключевой столбец в «правой» таблице в качестве индекса
# Также необходимо указать название ключа в параметре on

In [None]:
# .set_index(
# keys, 
# drop=True, 
# append=False, 
# inplace=False, 
# verify_integrity=False)

In [10]:
joined = ratings_dates.join(
    movies.set_index('movieId'),
    on = 'movieId',
    how = 'left'
)
display(joined.tail())

Unnamed: 0,userId,movieId,rating,date,title,genres
100831,610,166534,4.0,2017-05-03 21:53:22,Split (2017),Drama|Horror|Thriller
100832,610,168248,5.0,2017-05-03 22:21:31,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,610,168250,5.0,2017-05-08 19:50:47,Get Out (2017),Horror
100834,610,168252,5.0,2017-05-03 21:19:12,Logan (2017),Action|Sci-Fi
100835,610,170875,3.0,2017-05-03 21:20:15,The Fate of the Furious (2017),Action|Crime|Drama|Thriller


In [None]:
# В результате такого объединения для каждого идентификатора фильма movieId в таблице ratings_dates найден совпадающий с ним идентификатор movieId в таблице movies и присоединена информация о самом фильме (title и genres). Это как раз то, что нам нужно.
# Обратите внимание, что в результате такого объединения остался лишь один столбец movieId