# Concatenation #

In [7]:
import pandas as pd

ratings1 = pd.read_csv('Data/ratings1.csv',sep=',')
ratings2 = pd.read_csv('Data/ratings2.csv',sep=',')
dates = pd.read_csv('Data/dates.csv',sep=',')
movies = pd.read_csv('Data/movies.csv',sep=',')



## pd.concat() : ##
- objs — список объектов DataFrame ([df1, df2,…]), которые должны быть сконкатенированы;   
- axis — ось определяет направление конкатенации: 0 — конкатенация по строкам (по умолчанию), 1 — конкатенация по столбцам;    
- join — либо inner (пересечение), либо outer (объединение);        
- ignore_index — по умолчанию установлено значение False (сохраняет значения индекса исходных данных).    
Если True - параметр будет игнорировать исходные значения и повторно назначать значения индекса в последовательном порядке.

Для корректной конкатенации по строкам объединяемые таблицы должны иметь одинаковую структуру — идентичное число и имена столбцов.

In [8]:
ratings = pd.concat([ratings1, ratings2])
display(ratings)

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
60831,610,166534,4.0
60832,610,168248,5.0
60833,610,168250,5.0
60834,610,168252,5.0


На первый взгляд может показаться, что всё прошло успешно, однако если мы посмотрим на индексы последних строк таблицы, то увидим, что их нумерация не совпадает с количеством строк. Это может привести к некорректному объединению таблиц по ключевым столбцам на следующем этапе решения нашей задачи.
Это связано с тем, что по умолчанию concat сохраняет первоначальные индексы объединяемых таблиц, а обе наши таблицы индексировались, начиная от 0. Чтобы создать новые индексы, нужно выставить параметр ignore_index на True.


In [9]:
ratings = pd.concat(
    [ratings1, ratings2],
    ignore_index=True
)
display(ratings)


Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100832,610,166534,4.0
100833,610,168248,5.0
100834,610,168250,5.0
100835,610,168252,5.0


In [10]:
print('Число строк в таблице ratings: ', ratings.shape[0])
print('Число строк в таблице dates: ', dates.shape[0])
print(ratings.shape[0] == dates.shape[0])


Число строк в таблице ratings:  100837
Число строк в таблице dates:  100836
False


In [11]:
display(ratings1.tail(1))
display(ratings2.head(1))

Unnamed: 0,userId,movieId,rating
40000,274,5621,2.0


Unnamed: 0,userId,movieId,rating
0,274,5621,2.0


### Cleaning out duplicates : ###

drop_duplicates()

In [12]:
ratings = ratings.drop_duplicates(ignore_index=True)
print('Число строк в таблице ratings: ', ratings.shape[0])

Число строк в таблице ratings:  100836
