In [None]:
# merge()
# для слияния двух таблиц по ключевым столбцам или по индексам
# в первую очередь предназначен для слияния таблиц по заданным ключам
# позволяет объединять даже таблицы с разноимёнными ключами

In [None]:
# .merge(
# right, # will be a DataFrame
# how='inner', 
# on=None, 
# left_on=None, 
# right_on=None, 
# left_index=False, 
# right_index=False, 
# sort=False, 
# suffixes=('_x', '_y'), 
# copy=True, 
# indicator=False, 
# validate=None)

In [None]:
# right — присоединяемая таблица. По умолчанию она является «правой».
# how — параметр типа объединения. По умолчанию принимает значение 'inner'.
# on — параметр, который определяет, по какому столбцу происходит объединение. Определяется автоматически, но рекомендуется указывать вручную.
# left_on — если названия столбцов в «левой» и «правой» таблицах не совпадают, то данный параметр отвечает за наименования ключевого столбца исходной таблицы.
# right_on — аналогично предыдущему, параметр отвечает за наименование ключевого столбца присоединяемой таблицы.
# lsuffix и rsuffix — дополнения (суффиксы) к названиям одноимённых столбцов в «левой» и «правой» таблицах


In [1]:
import pandas as pd
ratings1 = pd.read_csv('data/ratings1.csv')
ratings2 = pd.read_csv('data/ratings2.csv')
dates = pd.read_csv('data/dates.csv')
movies = pd.read_csv('data/movies.csv')

In [2]:
ratings = pd.concat([ratings1, ratings2])
ratings = ratings.drop_duplicates(ignore_index=True)
ratings_dates = pd.concat([ratings, dates], axis=1)

In [3]:
# Произведём слияние наших таблиц и получим ту же таблицу, что и ранее:
merged = ratings_dates.merge(
    movies,
    on = 'movieId',
    how = 'left'
)
display(merged)

Unnamed: 0,userId,movieId,rating,date,title,genres
0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
...,...,...,...,...,...,...
100831,610,166534,4.0,2017-05-03 21:53:22,Split (2017),Drama|Horror|Thriller
100832,610,168248,5.0,2017-05-03 22:21:31,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,610,168250,5.0,2017-05-08 19:50:47,Get Out (2017),Horror
100834,610,168252,5.0,2017-05-03 21:19:12,Logan (2017),Action|Sci-Fi


In [7]:
# Проверим, что число строк в таблице ratings_dates совпадает с числом строк в результирующей таблице merged:
print('str amount at ratings_dates:', ratings_dates.shape[0])
print('str amount at merged:', merged.shape[0])
print('comparing str:', ratings_dates.shape[0] ==  merged.shape[0])

str amount at ratings_dates: 100836
str amount at merged: 100836
comparing str: True


In [None]:
# Всё прошло успешно: для каждой оценки пользователя мы нашли информацию о фильме, которому она была выставлена.