In [1]:
import pandas as pd

ratings1 = pd.read_csv('C:\IDE\Skillfactory\PY-12_Advanced_Pandas\data\join_DataFrame\\ratings1.csv', sep=',')
ratings2 = pd.read_csv('C:\IDE\Skillfactory\PY-12_Advanced_Pandas\data\join_DataFrame\\ratings2.csv', sep=',')
dates = pd.read_csv('C:\IDE\Skillfactory\PY-12_Advanced_Pandas\data\join_DataFrame\\dates.csv', sep=',')
movies = pd.read_csv('C:\IDE\Skillfactory\PY-12_Advanced_Pandas\data\join_DataFrame\\movies.csv', sep=',')

In [2]:
# Конкатенация:

ratings = pd.concat([ratings1, ratings2])
display(ratings)

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
60831,610,166534,4.0
60832,610,168248,5.0
60833,610,168250,5.0
60834,610,168252,5.0


In [3]:
# На первый взгляд может показаться, что всё прошло успешно, однако если мы посмотрим на индексы последних 
# строк таблицы, то увидим, что их нумерация не совпадает с количеством строк. Это может привести к 
# некорректному объединению таблиц по ключевым столбцам на следующем этапе решения нашей задачи.

# Это связано с тем, что по умолчанию concat сохраняет первоначальные индексы объединяемых таблиц, 
# а обе наши таблицы индексировались, начиная от 0. Чтобы создать новые индексы, нужно выставить 
# параметр ignore_index на True:

ratings = pd.concat(
    [ratings1, ratings2],
    ignore_index=True
)
display(ratings)

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100832,610,166534,4.0
100833,610,168248,5.0
100834,610,168250,5.0
100835,610,168252,5.0


In [4]:
# Чтобы очистить таблицу от дублей, мы можем воспользоваться методом DataFrame drop_duplicates(), 
# который удаляет повторяющиеся строки в таблице. Не забываем обновить индексы после удаления дублей, 
# выставив параметр ignore_index в методе drop_duplicates() на значение True:

ratings = ratings.drop_duplicates(ignore_index=True)
print('Число строк в таблице ratings: ', ratings.shape[0])

Число строк в таблице ratings:  100836


In [5]:
# Наконец, мы можем добавить к нашей таблице с оценками даты их выставления. Для этого конкатенируем 
# таблицы ratings и dates по столбцам:

ratings_dates = pd.concat([ratings, dates], axis=1)
display(ratings_dates.tail(7))

Unnamed: 0,userId,movieId,rating,date
100829,610,164179,5.0,03.05.2017 21:07
100830,610,166528,4.0,04.05.2017 6:29
100831,610,166534,4.0,03.05.2017 21:53
100832,610,168248,5.0,03.05.2017 22:21
100833,610,168250,5.0,08.05.2017 19:50
100834,610,168252,5.0,03.05.2017 21:19
100835,610,170875,3.0,03.05.2017 21:20


In [6]:
# Вам необходимо написать функцию concat_user_files(path), параметром которой является path — путь 
# до директории. Функция должна объединить информацию из предоставленных вам файлов в один DataFrame и вернуть его.

import pandas as pd
import os
def concat_users_files(path):
    data = pd.DataFrame()
    file_names = os.listdir(path)
    file_names.sort()
    for file in file_names:
        tmp_data = pd.read_csv(path + '/' + file)
        data = pd.concat([data, tmp_data], axis=0, ignore_index=True)
    data = data.drop_duplicates()
    return data

In [7]:
# Если использовать метод join() «в лоб» (без указания ключевого столбца), то объединение произойдёт, 
# как и задумано — по индексам двух таблиц согласно установленному типу объединения.
# Проверим это, объединив таблицы типом left. Так как в наших таблицах есть одноимённые столбцы, 
# установим один из суффиксов, чтобы избежать ошибки:

joined_false = ratings_dates.join(
    movies,
    rsuffix='_right',
    how='left'
)
display(joined_false)

# При объединении таблиц по индексам в результирующую таблицу попали все строки из «левой» таблицы, 
# а недостающие строки из «правой» были заполнены пропусками. Так работает тип объединения left.

Unnamed: 0,userId,movieId,rating,date,movieId_right,title,genres\t
0,1,1,4.0,30.07.2000 18:45,1.0,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy\t
1,1,3,4.0,30.07.2000 18:20,2.0,Jumanji (1995),Adventure|Children|Fantasy\t
2,1,6,4.0,30.07.2000 18:37,3.0,Grumpier Old Men (1995),Comedy|Romance\t
3,1,47,5.0,30.07.2000 19:03,4.0,Waiting to Exhale (1995),Comedy|Drama|Romance\t
4,1,50,5.0,30.07.2000 18:48,5.0,Father of the Bride Part II (1995),Comedy\t
...,...,...,...,...,...,...,...
100831,610,166534,4.0,03.05.2017 21:53,,,
100832,610,168248,5.0,03.05.2017 22:21,,,
100833,610,168250,5.0,08.05.2017 19:50,,,
100834,610,168252,5.0,03.05.2017 21:19,,,


In [8]:
# Однако это не тот результат, который мы хотели, ведь мы не получили соответствия фильмов и их рейтингов. 
# Чтобы совместить таблицы по ключевому столбцу с помощью метода join(), необходимо использовать ключевой 
# столбец в «правой» таблице в качестве индекса. Это можно сделать с помощью метода set_index(). Также 
# необходимо указать название ключа в параметре on.

joined = ratings_dates.join(
    movies.set_index('movieId'),
    on='movieId',
    how='left'
)
display(joined.head())

Unnamed: 0,userId,movieId,rating,date,title,genres\t
0,1,1,4.0,30.07.2000 18:45,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy\t
1,1,3,4.0,30.07.2000 18:20,Grumpier Old Men (1995),Comedy|Romance\t
2,1,6,4.0,30.07.2000 18:37,Heat (1995),Action|Crime|Thriller\t
3,1,47,5.0,30.07.2000 19:03,Seven (a.k.a. Se7en) (1995),Mystery|Thriller\t
4,1,50,5.0,30.07.2000 18:48,"Usual Suspects, The (1995)",Crime|Mystery|Thriller\t


In [9]:
# Посмотрим на метод merge() в действии. Произведём слияние наших таблиц и получим ту же таблицу, что и ранее:

merged = ratings_dates.merge(
    movies,
    on='movieId',
    how='left'
)
display(merged.head())

Unnamed: 0,userId,movieId,rating,date,title,genres\t
0,1,1,4.0,30.07.2000 18:45,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy\t
1,1,3,4.0,30.07.2000 18:20,Grumpier Old Men (1995),Comedy|Romance\t
2,1,6,4.0,30.07.2000 18:37,Heat (1995),Action|Crime|Thriller\t
3,1,47,5.0,30.07.2000 19:03,Seven (a.k.a. Se7en) (1995),Mystery|Thriller\t
4,1,50,5.0,30.07.2000 18:48,"Usual Suspects, The (1995)",Crime|Mystery|Thriller\t


In [10]:
# Метод merge
# Посмотрим на метод merge() в действии. Произведём слияние наших таблиц и получим ту же таблицу, что и ранее:

merged = ratings_dates.merge(
    movies,
    on='movieId',
    how='left'
)
display(merged.head())

Unnamed: 0,userId,movieId,rating,date,title,genres\t
0,1,1,4.0,30.07.2000 18:45,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy\t
1,1,3,4.0,30.07.2000 18:20,Grumpier Old Men (1995),Comedy|Romance\t
2,1,6,4.0,30.07.2000 18:37,Heat (1995),Action|Crime|Thriller\t
3,1,47,5.0,30.07.2000 19:03,Seven (a.k.a. Se7en) (1995),Mystery|Thriller\t
4,1,50,5.0,30.07.2000 18:48,"Usual Suspects, The (1995)",Crime|Mystery|Thriller\t


In [11]:
# Проверим, что число строк в таблице ratings_dates совпадает с числом строк в результирующей таблице merged:

print('Число строк в таблице ratings_dates: ', ratings_dates.shape[0])
print('Число строк в таблице merged: ', merged.shape[0])
print(ratings_dates.shape[0] == merged.shape[0])

Число строк в таблице ratings_dates:  100836
Число строк в таблице merged:  100836
True


In [12]:
# Возникает вопрос: почему мы выбрали тип объединения left, а не full, например?

# Найти ответ нам поможет пример. Объединим ratings_dates с movies по ключевому столбцу movieId, но с 
# параметром how='outer' (full outer) и выведем размер таблицы, а также её «хвост»:

merged2 = ratings_dates.merge(
    movies,
    on='movieId',
    how='outer'
)
print('Число строк в таблице merged2: ', merged2.shape[0])
display(merged2.tail())

# Оказывается, в таблице movies содержались фильмы, которым ещё не были выставлены оценки. В результате объединения 
# типом full outer информация о фильмах перенеслась из таблицы movies в результирующую таблицу. Однако, поскольку 
# оценки фильмам ещё не были выставлены, соответствующие столбцы таблицы ratings_dates заполнились пропусками (NaN). 
# Такие фильмы были записаны в конец таблицы.

Число строк в таблице merged2:  100854


Unnamed: 0,userId,movieId,rating,date,title,genres\t
100849,,30892,,,In the Realms of the Unreal (2004),Animation|Documentary\t
100850,,32160,,,Twentieth Century (1934),Comedy\t
100851,,32371,,,Call Northside 777 (1948),Crime|Drama|Film-Noir\t
100852,,34482,,,"Browning Version, The (1951)",Drama\t
100853,,85565,,,Chalet Girl (2011),Comedy|Romance\t


In [13]:
# Рассмотрим пример: объединим таблицы ratings1 и ratings2, как мы уже делали раньше, но теперь используем метод 
# merge():

merge_ratings = ratings1.merge(ratings2, how='outer')
print('Число строк в таблице merge_ratings: ', merge_ratings.shape[0])
display(merge_ratings)


Число строк в таблице merge_ratings:  100836


Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100831,610,166534,4.0
100832,610,168248,5.0
100833,610,168250,5.0
100834,610,168252,5.0
