In [4]:
import pandas as pd
movies = pd.read_csv('data/movies.csv', sep=',')
movies.nunique()

movieId    9742
title      9737
genres      951
dtype: int64

In [7]:
rating1 = pd.read_csv('data/ratings1.csv', sep=',')
rating2 = pd.read_csv('data/ratings2.csv', sep=',')
rating1.nunique()

userId      274
movieId    6219
rating       10
dtype: int64

In [12]:
dates = pd.read_csv('data/dates.csv', sep=',')
dates.head()

Unnamed: 0,date
0,2000-07-30 18:45:03
1,2000-07-30 18:20:47
2,2000-07-30 18:37:04
3,2000-07-30 19:03:35
4,2000-07-30 18:48:51


## Функция concat()
Необходимо объединить таблицы ratings1 & ratings2, для этого воспользуемся встроенной функцией concat(), которая позволяет склеивать (конкатенировать) таблицы по строкам и столбцам
## Основные параметры функции:
 - objs - список объектов DataFrame, которые должны быть сконкатенированы
 - axis - ось конкатенирования, 0 - по строкам, 1 - по столбцам
 - join - либо inner(пересечение), либо outer (объединение)
 - ignore_index - дефолт - False, оставляет исходные индексы, True - назначает в новом порядке
 
Для корректной конкатенации по строкам объединяемые таблицы должны иметь одинаковую структуру — идентичное число и имена столбцов.

Итак, давайте склеим  ratings1 и ratings2 по строкам, так как они имеют одинаковую структуру столбцов. Для этого передадим их списком в функцию concat(). Помним, что параметр axis по умолчанию равен 0, объединение происходит по строкам, поэтому не трогаем его. 

Примечание. Обратите внимание, что concat является функцией библиотеки, а не методом DataFrame. Поэтому её вызов осуществляется как pd.concat(...).

In [19]:
ratings = pd.concat(
    [rating1, rating2],
    ignore_index=True
)
display(ratings)

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100832,610,166534,4.0
100833,610,168248,5.0
100834,610,168250,5.0
100835,610,168252,5.0


In [20]:
print('Число строк ratings : ', ratings.shape[0])
print('Число строк в таблице dates: ', dates.shape[0])
print(ratings.shape[0] == dates.shape[0])

Число строк ratings :  100837
Число строк в таблице dates:  100836
False


На самом деле очень просто: при выгрузке данных информация об оценках какого-то  пользователя попала в обе таблицы (ratings1 и ratings2). В результате конкатенации случилось дублирование строк. В данном примере их легко найти — выведем последнюю строку таблицы ratings1 и первую строку таблицы ratings2:

In [22]:
display(rating2.head(1))
display(rating1.tail(1))

Unnamed: 0,userId,movieId,rating
0,274,5621,2.0


Unnamed: 0,userId,movieId,rating
40000,274,5621,2.0


Чтобы очистить таблицу от дублей, мы можем воспользоваться методом DataFrame drop_duplicates(), который удаляет повторяющиеся строки в таблице. Не забываем обновить индексы после удаления дублей, выставив параметр ignore_index в методе drop_duplicates() на значение True:

In [25]:
ratings = ratings.drop_duplicates(ignore_index=True)
ratings.shape[0]

100836

In [26]:
# теперь можно конкатенировать рейтинги с датами их выставления, для этого склеим таблицы ratings & dates по столбцам
rating_dates = pd.concat(
    [ratings, dates],
    axis=1
)
display(rating_dates.tail(7))

Unnamed: 0,userId,movieId,rating,date
100829,610,164179,5.0,2017-05-03 21:07:11
100830,610,166528,4.0,2017-05-04 06:29:25
100831,610,166534,4.0,2017-05-03 21:53:22
100832,610,168248,5.0,2017-05-03 22:21:31
100833,610,168250,5.0,2017-05-08 19:50:47
100834,610,168252,5.0,2017-05-03 21:19:12
100835,610,170875,3.0,2017-05-03 21:20:15
