# ИСПОЛЬЗУЕМЫЕ ДАННЫЕ
Объединение датафреймов с помощью метода merge имеет особенности, аналогичные SQL JOIN. А именно, есть ситуации, которые приводят к дублированию строк в конечном результате. Разберем эти ситуации более подробно на примере небольших таблиц: ratings_example.txt и movies_example.txt.

В них всего несколько строк, что позволит наглядно проверить где задваиваются результаты. Скачайте эти файлы себе и импортируйте в датафреймы ratings и movies. Обратите внимание, что разделителем столбцов в этих файлах является табуляция (\t):

In [1]:
import pandas as pd

ratings = pd.read_csv('./module06_files/ratings_example.txt', sep = '\t')

ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144


In [3]:
movies = pd.read_csv('./module06_files/movies_example.txt', sep = '\t')

movies.head()

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
2,31,Dangerous Minds (1995),Drama


# ОБЪЕДИНЯЕМ ДАТАФРЕЙМЫ
Итак, в датафрейме movies есть две строки с одним movieId. Т. е. теперь для таблицы ratings нет однозначного соответствия с какой строкой объединяться с таблицей movies. В итоге строка с movieId = 31 будет дублирована:

In [4]:
ratings.merge(movies, how = 'left', on = 'movieId')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama
1,1,31,2.5,1260759144,Dangerous Minds (1995),Drama


# УДАЛЯЕМ ДУБЛИКАТЫ
Если вам нужно избежать такой ситуации, необходимо удалить дубликаты из таблицы movies. Для этого подходит метод drop_duplicates. В параметре subset указываем один или несколько столбцов, по комбинации которых хотим удалить дубликаты. С помощью параметра keep указываем какой из встречающихся дубликатов оставить (например, первый или последний):

In [5]:
movies.drop_duplicates(subset = 'movieId', keep = 'first', inplace = True)

movies.head()

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


In [6]:
ratings.merge(movies, how = 'left', on = 'movieId')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama


# Упражнение
(1 возможный балл)
Обновите датафрейм movies



Объедините его с ratings как в материале модуля, используя различные типы объединений: left, right, inner и outer. Какие варианты в данном случае дают одинаковый результат? Возможны несколько верных вариантов ответа:

In [7]:
movies = pd.read_csv('./module06_files/movies_example.txt', sep = '\t')

movies.head()

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
2,31,Dangerous Minds (1995),Drama


In [13]:
ratings.merge(movies, on='movieId', how='left')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama
1,1,31,2.5,1260759144,Dangerous Minds (1995),Drama


In [14]:
ratings.merge(movies, on='movieId', how='right')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
1,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
2,,32,,,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


In [15]:
ratings.merge(movies, on='movieId', how='inner')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama
1,1,31,2.5,1260759144,Dangerous Minds (1995),Drama


In [16]:
ratings.merge(movies, on='movieId', how='outer')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
1,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
2,,32,,,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
