# Объединение DataFrame

In [1]:
import numpy as np
import pandas as pd

Наши данные представляют собой четыре таблицы:

* ratings1 и ratings2 — таблицы с данными 
о выставленных пользователями оценках фильмов. 
Они имеют одинаковую структуру и типы данных — 
на самом деле это две части одной таблицы с оценками фильмов.
    * userId — уникальный идентификатор пользователя, который выставил оценку;
    * movieId — уникальный идентификатор фильма;
    * rating — рейтинг фильма.
* dates — таблица с датами выставления всех оценок.
    * date — дата и время выставления оценки фильму.
* movies — таблица с информацией о фильмах
    * movieId — уникальный идентификатор фильма;
    * title — название фильма и год его выхода;
    * genres — жанры фильма.




Итак, представим, что нам надо получить единую таблицу, в которой будут собраны рейтинги, даты выставления рейтингов, а также информация о фильмах. Вот как мы будем действовать:

1. Склеим таблицы ratings1 и ratings2 в единую структуру.

2. К полученной таблице с рейтингами подсоединим столбец 
с датой проставления рейтинга, склеив столбцы таблиц между собой.

3. Присоединим к нашей таблице информацию о названиях и жанрах фильмов.

In [18]:
ratings1 = pd.read_csv('data/ratings1.csv', sep=',')
display(ratings1.head())
display(ratings1.info())
display(ratings1.describe())


Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40001 entries, 0 to 40000
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   userId   40001 non-null  int64  
 1   movieId  40001 non-null  int64  
 2   rating   40001 non-null  float64
dtypes: float64(1), int64(2)
memory usage: 937.6 KB


None

Unnamed: 0,userId,movieId,rating
count,40001.0,40001.0,40001.0
mean,134.711282,18898.619035,3.575223
std,79.664674,35885.863627,1.022768
min,1.0,1.0,0.5
25%,66.0,1079.0,3.0
50%,132.0,2746.0,4.0
75%,208.0,7153.0,4.0
max,274.0,193587.0,5.0


userId      274
movieId    6219
rating       10
dtype: int64

In [11]:
ratings2 = pd.read_csv('data/ratings2.csv', sep=',')
display(ratings2.head())
ratings2.info()
ratings2.describe()

Unnamed: 0,userId,movieId,rating
0,274,5621,2.0
1,274,5630,3.0
2,274,5667,3.5
3,274,5679,3.5
4,274,5690,3.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60836 entries, 0 to 60835
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   userId   60836 non-null  int64  
 1   movieId  60836 non-null  int64  
 2   rating   60836 non-null  float64
dtypes: float64(1), int64(2)
memory usage: 1.4 MB


Unnamed: 0,userId,movieId,rating
count,60836.0,60836.0,60836.0
mean,451.987096,19787.945296,3.453095
std,105.695306,35291.305531,1.052532
min,274.0,1.0,0.5
25%,366.0,1225.0,3.0
50%,448.0,3174.0,3.5
75%,555.0,8622.0,4.0
max,610.0,193609.0,5.0


In [12]:
dates = pd.read_csv('data/dates.csv', sep=',')
display(dates.head())
dates.info()
dates.describe()

Unnamed: 0,date
0,2000-07-30 18:45:03
1,2000-07-30 18:20:47
2,2000-07-30 18:37:04
3,2000-07-30 19:03:35
4,2000-07-30 18:48:51


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 1 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   date    100836 non-null  object
dtypes: object(1)
memory usage: 787.9+ KB


Unnamed: 0,date
count,100836
unique,85043
top,2016-04-04 16:39:58
freq,128


In [13]:
movies = pd.read_csv('data/movies.csv', sep=',')
display(movies.head())
movies.info()
movies.describe()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9742 entries, 0 to 9741
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movieId  9742 non-null   int64 
 1   title    9742 non-null   object
 2   genres   9742 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.5+ KB


Unnamed: 0,movieId
count,9742.0
mean,42200.353623
std,52160.494854
min,1.0
25%,3248.25
50%,7300.0
75%,76232.0
max,193609.0


In [15]:
print(movies.nunique())
movies.describe(include=['object'])

movieId    9742
title      9737
genres      951
dtype: int64


Unnamed: 0,title,genres
count,9742,9742
unique,9737,951
top,Emma (1996),Drama
freq,2,1053


Сколько уникальных пользователей в таблице ratings1

In [20]:
ratings1.nunique().loc['userId']

274

В каком году было выставлено больше всего оценок?

In [36]:
dates['date']=pd.to_datetime(dates['date'])
dates['year']=dates['date'].dt.year
dates['year'].value_counts().index[0]

2000

## функция Pandas concat()
позволяет склеивать (конкатенировать) таблицы как по строкам, так и по столбцам.

Параметры
* objs — список объектов DataFrame ([df1, df2,…]), которые должны быть сконкатенированы;
* axis — ось определяет направление конкатенации: 
0 — конкатенация по строкам (по умолчанию), 1 — конкатенация по столбцам;
* join — либо inner (пересечение), либо outer (объединение); 
дописать
* ignore_index — по умолчанию установлено значение False, 
которое позволяет значениям индекса оставаться такими, 
какими они были в исходных данных. 
Если установлено значение True, параметр будет игнорировать исходные значения 
и повторно назначать значения индекса в последовательном порядке.

Для корректной конкатенации по строкам 
объединяемые таблицы должны иметь одинаковую структуру — идентичное число и имена столбцов

__Примечание.__ Обратите внимание, что concat является функцией библиотеки, 
а не методом DataFrame. Поэтому её вызов осуществляется как pd.concat(...).

In [38]:
ratings = pd.concat([ratings1, ratings2])
display(ratings)
ratings.info()
ratings.describe()

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
60831,610,166534,4.0
60832,610,168248,5.0
60833,610,168250,5.0
60834,610,168252,5.0


<class 'pandas.core.frame.DataFrame'>
Int64Index: 100837 entries, 0 to 60835
Data columns (total 3 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   userId   100837 non-null  int64  
 1   movieId  100837 non-null  int64  
 2   rating   100837 non-null  float64
dtypes: float64(1), int64(2)
memory usage: 3.1 MB


Unnamed: 0,userId,movieId,rating
count,100837.0,100837.0,100837.0
mean,326.127047,19435.158722,3.501542
std,182.61766,35530.837648,1.042535
min,1.0,1.0,0.5
25%,177.0,1199.0,3.0
50%,325.0,2991.0,3.5
75%,477.0,8121.0,4.0
max,610.0,193609.0,5.0


если мы посмотрим на индексы последних строк таблицы, 
то увидим, что их нумерация не совпадает с количеством строк. 
Это может привести к некорректному объединению таблиц 
по ключевым столбцам на следующем этапе решения нашей задачи.

по умолчанию concat сохраняет первоначальные индексы объединяемых таблиц, 
а обе наши таблицы индексировались, начиная от 0. 
Чтобы создать новые индексы, нужно выставить параметр ignore_index на True:

In [39]:
ratings = pd.concat(
    [ratings1, ratings2],
    ignore_index=True
)
display(ratings)
ratings.info()
ratings.describe()

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100832,610,166534,4.0
100833,610,168248,5.0
100834,610,168250,5.0
100835,610,168252,5.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100837 entries, 0 to 100836
Data columns (total 3 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   userId   100837 non-null  int64  
 1   movieId  100837 non-null  int64  
 2   rating   100837 non-null  float64
dtypes: float64(1), int64(2)
memory usage: 2.3 MB


Unnamed: 0,userId,movieId,rating
count,100837.0,100837.0,100837.0
mean,326.127047,19435.158722,3.501542
std,182.61766,35530.837648,1.042535
min,1.0,1.0,0.5
25%,177.0,1199.0,3.0
50%,325.0,2991.0,3.5
75%,477.0,8121.0,4.0
max,610.0,193609.0,5.0


Давайте узнаем количество строк в таблицах ratings и dates, 
ведь нам предстоит вертикально склеить их между собой:

In [40]:
print('Число строк в таблице ratings: ', ratings.shape[0])
print('Число строк в таблице dates: ', dates.shape[0])
print(ratings.shape[0] == dates.shape[0])


Число строк в таблице ratings:  100837
Число строк в таблице dates:  100836
False


при выгрузке данных информация об оценках какого-то  пользователя попала 
в обе таблицы (ratings1 и ratings2). 
В результате конкатенации случилось дублирование строк.
 В данном примере их легко найти — выведем последнюю строку таблицы ratings1 
 и первую строку таблицы ratings2:

In [41]:
display(ratings1.tail(1))
display(ratings2.head(1))

Unnamed: 0,userId,movieId,rating
40000,274,5621,2.0


Unnamed: 0,userId,movieId,rating
0,274,5621,2.0


Чтобы очистить таблицу от дублей, мы можем воспользоваться 
методом DataFrame drop_duplicates(), который удаляет повторяющиеся строки 
в таблице. Не забываем обновить индексы после удаления дублей, 
выставив параметр ignore_index в методе drop_duplicates() на значение True:

In [42]:
ratings = ratings.drop_duplicates(ignore_index=True)
print('Число строк в таблице ratings: ', ratings.shape[0])

Число строк в таблице ratings:  100836


можем добавить к нашей таблице с оценками даты их выставления. 
Для этого конкатенируем таблицы ratings и dates по столбцам:

In [43]:
ratings_dates = pd.concat([ratings, dates], axis=1)
display(ratings_dates.tail(7))

Unnamed: 0,userId,movieId,rating,date,year
100829,610,164179,5.0,2017-05-03 21:07:11,2017
100830,610,166528,4.0,2017-05-04 06:29:25,2017
100831,610,166534,4.0,2017-05-03 21:53:22,2017
100832,610,168248,5.0,2017-05-03 22:21:31,2017
100833,610,168250,5.0,2017-05-08 19:50:47,2017
100834,610,168252,5.0,2017-05-03 21:19:12,2017
100835,610,170875,3.0,2017-05-03 21:20:15,2017


## Объединение DataFrame: join, merge

У таблиц ratings и movies есть общий столбец movieId, 
который каждому фильму из таблицы movies ставит в соответствие 
поставленные ему оценки из таблицы ratings. 
Мы хотим объединить их в единую структуру согласно этому соответствию.
 Объединения такого рода часто называют объединением по ключевому столбцу.

## 
ТИПЫ ОБЪЕДИНЕНИЙ

Типы объединений в Pandas тесно связаны с операцией join из SQL

![JOIN](/images/join.jpg "вот")

__inner (внутреннее)__

Остаются только те записи, которые есть в обеих таблицах.

Аналогия в теории множеств - Пересечение (intersection) множеств А и В.

Строки, для которых совпадение не было найдено, удаляются.

__outer (внешнее)__

Данный тип делится на три подтипа:

1. full — используется как outer по умолчанию, объединяет все варианты в обеих таблицах.

Аналогия в теории множеств - Объединение (union) множеств А и В.

2. left — для всех записей из «левой» таблицы ведётся поиск соответствий в «правой».

Аналогия в теории множеств - 
Вычитание (difference) множества B из результата объединения (union) множеств А и В.

3. right — аналогично предыдущему, но перебор по запиям «правой» таблицы. 

Аналогия в теории множеств - 
Вычитание (difference) множества А из результата объединения (union) множеств А и В.

__Во всех трёх случаях, если совпадений между таблицами не найдено, на этом месте ставится пропуск (NaN)__

__Пример объединения__

![ПримерJOIN ](/images/exjoin.jpg "вот")