In [None]:
# Объединение DataFrame: concat()
# должны иметь одинаковую структуру — идентичное число и имена столбцов
#.concat(objs, 
#        axis=0, 
#        join='outer', 'inner'
#        ignore_index=False, 
#        keys=None, keys = ['s1', 's2']
#        levels=None, 
#        names=None, 
#        verify_integrity=False, True
#        sort=False, 
#        copy=True)

In [None]:
# objs — список объектов DataFrame ([df1, df2,…]), которые должны быть сконкатенированы;
# axis — ось определяет направление конкатенации: 0 — конкатенация по строкам (по умолчанию), 1 — конкатенация по столбцам;
# join — либо inner (пересечение), либо outer (объединение); рассмотрим этот момент немного позже;
# ignore_index — по умолчанию установлено значение False, которое позволяет значениям индекса оставаться такими, какими они были в исходных данных. Если установлено значение True, параметр будет игнорировать исходные значения и повторно назначать значения индекса в последовательном порядке

In [6]:
import pandas as pd
ratings1 = pd.read_csv('data/ratings1.csv')
ratings2 = pd.read_csv('data/ratings2.csv')
dates = pd.read_csv('data/dates.csv')
movies = pd.read_csv('data/movies.csv')

In [7]:
# склеим  ratings1 и ratings2 по строкам, так как они имеют одинаковую структуру столбцов
# параметр axis по умолчанию равен 0, объединение происходит по строкам, поэтому не трогаем его
# Обратите внимание, что concat является функцией библиотеки, а не методом DataFrame. Поэтому её вызов осуществляется как pd.concat(...).
ratings = pd.concat([ratings1, ratings2])
display(ratings)

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
60831,610,166534,4.0
60832,610,168248,5.0
60833,610,168250,5.0
60834,610,168252,5.0


In [None]:
# В результате мы увеличили первую таблицу, добавив снизу строки второй таблицы
# посмотрим на индексы последних строк таблицы, то увидим, 
# что их нумерация не совпадает с количеством строк. 
# Это может привести к некорректному объединению таблиц по ключевым столбцам 

In [8]:
# Это связано с тем, что по умолчанию concat сохраняет первоначальные индексы объединяемых таблиц, 
# а обе наши таблицы индексировались, начиная от 0. 
# Чтобы создать новые индексы, нужно выставить параметр ignore_index на True:
ratings = pd.concat(
    [ratings1, ratings2], ignore_index = True)
display(ratings)

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100832,610,166534,4.0
100833,610,168248,5.0
100834,610,168250,5.0
100835,610,168252,5.0


In [10]:
# Но это ещё не всё. 
# Давайте узнаем количество строк в таблицах ratings и dates, 
# ведь нам предстоит вертикально склеить их между собой:
print('str amount at rating:', ratings.shape[0])
print('str amount at dates:', dates.shape[0])
print('str compare ratings with dates:', ratings.shape[0] == dates.shape[0])
# Размерность таблиц разная 

str amount at rating: 100837
str amount at dates: 100836
str compare ratings with dates: False


In [12]:
# при выгрузке данных информация об оценках какого-то  пользователя попала в обе таблицы (ratings1 и ratings2). 
# В результате конкатенации случилось дублирование строк. 
# В данном примере их легко найти — выведем последнюю строку таблицы ratings1 и первую строку таблицы ratings2:
display(ratings1.tail(1))
display(ratings2.head(1))

Unnamed: 0,userId,movieId,rating
40000,274,5621,2.0


Unnamed: 0,userId,movieId,rating
0,274,5621,2.0


In [None]:
# метод DataFrame drop_duplicates()
# Чтобы очистить таблицу от дублей
# удаляет повторяющиеся строки в таблице

# DataFrame.drop_duplicates
#(subset=None, 
# keep='first',
# inplace=False, 
#ignore_index=False)