<a href="https://colab.research.google.com/github/olesyaRU/OlesyaRepository/blob/main/join.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Соединение таблиц
join объединяет два DataFrame, используя их индексы.

In [None]:
import pandas as pd

# Создаем DataFrame с информацией о сотрудниках
df_employees = pd.DataFrame({
    'EmployeeID': [1, 2, 3, 4],
    'EmployeeName': ['Alice', 'Bob', 'Charlie', 'David']
})

# Создаем DataFrame с информацией об отделах
df_departments = pd.DataFrame({
    'EmployeeID': [2, 3, 5],
    'Department': ['HR', 'IT', 'Finance']
})


In [None]:
df_employees

Unnamed: 0,EmployeeID,EmployeeName
0,1,Alice
1,2,Bob
2,3,Charlie
3,4,David


In [None]:
df_departments

Unnamed: 0,EmployeeID,Department
0,2,HR
1,3,IT
2,5,Finance


 По умолчанию join использует левостороннее соединение (left join), но также поддерживает другие типы соединений: right, left, inner, outer и cross через параметр how.

# Left Join (Левое соединение)
Left Join  работает так же, как и Right Join, но наоборот: возвращает все строки из левой таблицы и соответствующие строки из правой таблицы.

Если совпадений в правой таблице нет, в результате появятся значения NaN для столбцов правой таблицы.

Используется, когда нужно сохранить все записи из левой таблицы, независимо от того, есть ли совпадения в правой таблице.

In [None]:
#  тк объединяет два DataFrame, используя их индексы- нам необхлдимо в качестве индекса установить тот столбец по которму мы будем соединять
left_join_df = df_employees.set_index('EmployeeID').join(df_departments.set_index('EmployeeID'), how='left')
left_join_df

Unnamed: 0_level_0,EmployeeName,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Alice,
2,Bob,HR
3,Charlie,IT
4,David,


In [None]:
# или так
# добавляем индекс только правой таблице и указываем в on какой столбец соответствует индексу
left_join_df = df_employees.join(df_departments.set_index('EmployeeID'), on='EmployeeID', how='left')
left_join_df

Unnamed: 0,EmployeeID,EmployeeName,Department
0,1,Alice,
1,2,Bob,HR
2,3,Charlie,IT
3,4,David,


In [None]:
left_merge_df = df_employees.merge(df_departments, on='EmployeeID', how='left')
left_merge_df

Unnamed: 0,EmployeeID,EmployeeName,Department
0,1,Alice,
1,2,Bob,HR
2,3,Charlie,IT
3,4,David,


Если поменять таблицы местами - получится то же самое,если бы использовали  how='right' за исключением порядка стобцов

In [None]:
left_join_df = df_departments.join(df_employees.set_index('EmployeeID'), on='EmployeeID', how='left')
left_join_df

Unnamed: 0,EmployeeID,Department,EmployeeName
0,2,HR,Bob
1,3,IT,Charlie
2,5,Finance,


In [None]:
left_merge_df = df_departments.merge(df_employees, on='EmployeeID', how='left')
left_merge_df

Unnamed: 0,EmployeeID,Department,EmployeeName
0,2,HR,Bob
1,3,IT,Charlie
2,5,Finance,


# Right Join (Правое соединение)

Right Join включает все строки из правой таблицы (второй таблицы, указанной в операции соединения) и соответствующие строки из левой таблицы (первой таблицы).

Если в левой таблице нет совпадений для строк из правой таблицы, в результате для соответствующих столбцов левой таблицы будут значения null или NaN.

Это полезно, когда вы хотите сохранить все строки из правой таблицы, независимо от того, есть ли соответствующие строки в левой таблице.

In [None]:
right_join_df = df_employees.set_index('EmployeeID').join(df_departments.set_index('EmployeeID'), how='right')
right_join_df

Unnamed: 0_level_0,EmployeeName,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1
2,Bob,HR
3,Charlie,IT
5,,Finance


In [None]:
# или так .reset_index() переустановит индексы
right_join_df = df_employees.set_index('EmployeeID').join(df_departments.set_index('EmployeeID'), how='right').reset_index()
right_join_df

Unnamed: 0,EmployeeID,EmployeeName,Department
0,2,Bob,HR
1,3,Charlie,IT
2,5,,Finance


In [None]:
right_merge_df = df_employees.merge(df_departments, on='EmployeeID', how='right')
right_merge_df

Unnamed: 0,EmployeeID,EmployeeName,Department
0,2,Bob,HR
1,3,Charlie,IT
2,5,,Finance


Если поменять таблицы местами - получится то же самое, если бы использовали  how='left' за исключением порядка стобцов

In [None]:
right_join_df = df_departments.set_index('EmployeeID').join(df_employees.set_index('EmployeeID'), how='right').reset_index()
right_join_df

Unnamed: 0,EmployeeID,Department,EmployeeName
0,1,,Alice
1,2,HR,Bob
2,3,IT,Charlie
3,4,,David


In [None]:
right_merge_df = df_departments.merge(df_employees, on='EmployeeID', how='right')
right_merge_df

Unnamed: 0,EmployeeID,Department,EmployeeName
0,1,,Alice
1,2,HR,Bob
2,3,IT,Charlie
3,4,,David


# Inner Join (Внутреннее соединение)

Inner Join возвращает только те строки, для которых существует совпадение в обеих таблицах.

Если строка присутствует в одной таблице, но соответствующее совпадение отсутствует в другой таблице, эта строка не будет включена в итоговый результат.(пересечение)

Это наиболее часто используемый тип соединения, поскольку он позволяет получить только те данные, которые присутствуют в обоих наборах.

In [None]:
inner_join_df = df_employees.set_index('EmployeeID').join(df_departments.set_index('EmployeeID'), how='inner')
inner_join_df

Unnamed: 0_level_0,EmployeeName,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1
2,Bob,HR
3,Charlie,IT


In [None]:
# или так
inner_join_df = df_employees.join(df_departments.set_index('EmployeeID'), on='EmployeeID', how='inner')
inner_join_df

Unnamed: 0,EmployeeID,EmployeeName,Department
1,2,Bob,HR
2,3,Charlie,IT


In [None]:
inner_merge_df = df_employees.merge(df_departments,  how='inner')
inner_merge_df

Unnamed: 0,EmployeeID,EmployeeName,Department
0,2,Bob,HR
1,3,Charlie,IT


Если поменять таблицы местами - получится то же самое, за исключением порядка стобцов

In [None]:
inner_join_df = df_departments.join(df_employees.set_index('EmployeeID'), on='EmployeeID', how='inner')
inner_join_df

Unnamed: 0,EmployeeID,Department,EmployeeName
0,2,HR,Bob
1,3,IT,Charlie


In [None]:
inner_merge_df = df_departments.merge(df_employees,  how='inner')
inner_merge_df

Unnamed: 0,EmployeeID,Department,EmployeeName
0,2,HR,Bob
1,3,IT,Charlie


# Outer Join (Внешнее соединение)

Outer Join объединяет все строки из обеих таблиц, независимо от наличия совпадений.

Если совпадения отсутствуют в одной из таблиц, в результате для соответствующих столбцов другой таблицы будут значения null или NaN.

Внешние соединения полезны, когда необходимо сохранить все данные из обеих таблиц, даже если в одной из них отсутствуют соответствующие совпадения.

In [None]:
#  Устанавливаем индексы для обеих таблиц, тк Outer Join объединяет все строки из обеих таблиц
outer_join_df = df_employees.set_index('EmployeeID').join(df_departments.set_index('EmployeeID'), how='outer')
outer_join_df

Unnamed: 0_level_0,EmployeeName,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Alice,
2,Bob,HR
3,Charlie,IT
4,David,
5,,Finance


In [None]:
outer_join_df = df_employees.set_index('EmployeeID').join(df_departments.set_index('EmployeeID'), how='outer').reset_index()
outer_join_df

Unnamed: 0,EmployeeID,EmployeeName,Department
0,1,Alice,
1,2,Bob,HR
2,3,Charlie,IT
3,4,David,
4,5,,Finance


In [None]:
outer_merge_df = df_employees.merge(df_departments, on='EmployeeID', how='outer')
outer_merge_df

Unnamed: 0,EmployeeID,EmployeeName,Department
0,1,Alice,
1,2,Bob,HR
2,3,Charlie,IT
3,4,David,
4,5,,Finance


Если поменять таблицы местами - получится то же самое, за исключением порядка стобцов и строк

In [None]:
outer_join_df = df_departments.set_index('EmployeeID').join(df_employees.set_index('EmployeeID'), how='outer').reset_index()
outer_join_df

Unnamed: 0,EmployeeID,Department,EmployeeName
0,1,,Alice
1,2,HR,Bob
2,3,IT,Charlie
3,4,,David
4,5,Finance,


In [None]:
outer_merge_df = df_departments.merge(df_employees, on='EmployeeID', how='outer')
outer_merge_df

Unnamed: 0,EmployeeID,Department,EmployeeName
0,2,HR,Bob
1,3,IT,Charlie
2,5,Finance,
3,1,,Alice
4,4,,David


# Cross Join (Перекрестное соединение)
cross join  представляет собой операцию соединения, при которой каждая строка из одной таблицы соединяется с каждой строкой из другой, результатом чего является таблица, содержащая все возможные комбинации строк из обоих исходных наборов данных.
Этот тип соединения не требует наличия общих ключей для соединения, в отличие от других типов соединений, таких как inner, outer, left, и right join.

Cross join особенно полезен, когда необходимо создать все возможные пары или комбинации элементов из двух наборов данных.

In [None]:
# Cross Join
# необходимо указать суффиксы, тк в таблицах есть столбцы с одинаковым названием
cross_joined_df = df_employees.join(df_departments, how='cross',  lsuffix='_emp', rsuffix = '_dep')
cross_joined_df

Unnamed: 0,EmployeeID_emp,EmployeeName,EmployeeID_dep,Department
0,1,Alice,2,HR
1,1,Alice,3,IT
2,1,Alice,5,Finance
3,2,Bob,2,HR
4,2,Bob,3,IT
5,2,Bob,5,Finance
6,3,Charlie,2,HR
7,3,Charlie,3,IT
8,3,Charlie,5,Finance
9,4,David,2,HR


In [None]:
# тоже самое, но с методом merge
cross_merged_df = df_employees.merge(df_departments, how='cross')
cross_merged_df

Unnamed: 0,EmployeeID_x,EmployeeName,EmployeeID_y,Department
0,1,Alice,2,HR
1,1,Alice,3,IT
2,1,Alice,5,Finance
3,2,Bob,2,HR
4,2,Bob,3,IT
5,2,Bob,5,Finance
6,3,Charlie,2,HR
7,3,Charlie,3,IT
8,3,Charlie,5,Finance
9,4,David,2,HR


Если поменять таблицы местами - получится то же самое, за исключением порядка стобцов

In [None]:
cross_joined_df = df_departments.join(df_employees, how='cross',  lsuffix='_emp', rsuffix = '_dep')
cross_joined_df

Unnamed: 0,EmployeeID_emp,Department,EmployeeID_dep,EmployeeName
0,2,HR,1,Alice
1,2,HR,2,Bob
2,2,HR,3,Charlie
3,2,HR,4,David
4,3,IT,1,Alice
5,3,IT,2,Bob
6,3,IT,3,Charlie
7,3,IT,4,David
8,5,Finance,1,Alice
9,5,Finance,2,Bob


In [None]:
cross_merged_df = df_departments.merge(df_employees, how='cross')
cross_merged_df

Unnamed: 0,EmployeeID_x,Department,EmployeeID_y,EmployeeName
0,2,HR,1,Alice
1,2,HR,2,Bob
2,2,HR,3,Charlie
3,2,HR,4,David
4,3,IT,1,Alice
5,3,IT,2,Bob
6,3,IT,3,Charlie
7,3,IT,4,David
8,5,Finance,1,Alice
9,5,Finance,2,Bob


# join и merge

In [None]:
df_authors = pd.DataFrame({
    'AuthorID': [101, 102, 103],
    'AuthorName': ['Лев Толстой', 'Джон Толкин', 'Агата Кристи']
})
df_authors

Unnamed: 0,AuthorID,AuthorName
0,101,Лев Толстой
1,102,Джон Толкин
2,103,Агата Кристи


In [None]:
df_books = pd.DataFrame({
    'BookID': [1001, 1002, 1003, 1004],
    'AuthorID': [101, 101, 102, 104],
    'BookTitle': ['Война и мир', 'Анна Каренина', 'Хоббит', 'Unknown Book']
})
df_books

Unnamed: 0,BookID,AuthorID,BookTitle
0,1001,101,Война и мир
1,1002,101,Анна Каренина
2,1003,102,Хоббит
3,1004,104,Unknown Book


 Мы хотим присоединить к авторам их книги, используя AuthorID как ключ.
 merge лучше применять, когда нужно выполнить объединение, опираясь на столбцы, которые не обязательно являются индексами.

В Pandas NaN рассматривается как значение с плавающей точкой (float), и если в столбце появляются такие значения, весь столбец приводится к типу float для обеспечения совместимости данных.

Чтобы BookID оставался целочисленным (int) и избежать преобразования в float можно использовать специальный целочисленный тип данных Pandas, который поддерживает NaN, это Int64 (обратите внимание на большую букву I), который может содержать и целые числа, и NaN.

In [None]:
# Объединяем информацию об авторах и книгах по AuthorID
authors_books_merge = pd.merge(df_authors, df_books, on='AuthorID', how='left')
authors_books_merge['BookID'] = authors_books_merge['BookID'].astype('Int64') # будет вместо NaN , будет <NA>
authors_books_merge

Unnamed: 0,AuthorID,AuthorName,BookID,BookTitle
0,101,Лев Толстой,1001.0,Война и мир
1,101,Лев Толстой,1002.0,Анна Каренина
2,102,Джон Толкин,1003.0,Хоббит
3,103,Агата Кристи,,


join объединяет таблицы по индексам, поэтому установим AuthorID в качестве индекса в обоих DataFrame и используем join.

In [None]:
# Устанавливаем AuthorID как индекс
df_authors_indexed = df_authors.set_index('AuthorID')
df_books_indexed = df_books.set_index('AuthorID')
df_books_indexed

Unnamed: 0_level_0,BookID,BookTitle
AuthorID,Unnamed: 1_level_1,Unnamed: 2_level_1
101,1001,Война и мир
101,1002,Анна Каренина
102,1003,Хоббит
104,1004,Unknown Book


In [None]:
# Присоединяем книги к авторам по индексу
authors_books_join = df_authors_indexed.join(df_books_indexed, how='left')
authors_books_join['BookID'] = authors_books_join['BookID'].astype('Int64')
authors_books_join

Unnamed: 0_level_0,AuthorName,BookID,BookTitle
AuthorID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
101,Лев Толстой,1001.0,Война и мир
101,Лев Толстой,1002.0,Анна Каренина
102,Джон Толкин,1003.0,Хоббит
103,Агата Кристи,,


Пример когда данные для объединения таблиц находятся в столбцах с разными названиями,

In [None]:
# DataFrame с информацией о сотрудниках
df_employees = pd.DataFrame({
    'EmpID': [1, 2, 3, 4],  # здесь 'EmpID' для идентификатора сотрудника
    'EmployeeName': ['Alice', 'Bob', 'Charlie', 'David']
})
df_employees


Unnamed: 0,EmpID,EmployeeName
0,1,Alice
1,2,Bob
2,3,Charlie
3,4,David


In [None]:
# DataFrame с информацией об отделах
df_departments = pd.DataFrame({
    'DepartmentID': [101, 102, 103],
    'ManagerID': [2, 3, 4],  #  'ManagerID' используется для идентификации менеджера отдела
    'DepartmentName': ['HR', 'IT', 'Finance']
})
df_departments

Unnamed: 0,DepartmentID,ManagerID,DepartmentName
0,101,2,HR
1,102,3,IT
2,103,4,Finance


In [None]:
# Установим EmpID в качестве индекса для df_employees
df_employees_indexed = df_employees.set_index('EmpID')
# Также установим ManagerID в качестве индекса для df_departments
df_departments_indexed = df_departments.set_index('ManagerID')

# Теперь мы можем использовать join, поскольку индексы обоих DataFrame соответствуют друг другу
joined_df = df_employees_indexed.join(df_departments_indexed)
joined_df['DepartmentID'] = joined_df['DepartmentID'].astype('Int64')
joined_df

Unnamed: 0_level_0,EmployeeName,DepartmentID,DepartmentName
EmpID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Alice,,
2,Bob,101.0,HR
3,Charlie,102.0,IT
4,David,103.0,Finance


In [None]:
merged_df = df_employees.merge(df_departments, left_on='EmpID', right_on='ManagerID', how='left')
merged_df['DepartmentID'] = merged_df['DepartmentID'].astype('Int64')
merged_df

Unnamed: 0,EmpID,EmployeeName,DepartmentID,ManagerID,DepartmentName
0,1,Alice,,,
1,2,Bob,101.0,2.0,HR
2,3,Charlie,102.0,3.0,IT
3,4,David,103.0,4.0,Finance


In [None]:
# Добавим в DataFrame-ы  столбцы c одинаковыми названиями
# чтобы увидеть, что будет в таком случае
df_employees['same'] = 1
df_departments['same'] = 0
df_departments

Unnamed: 0,DepartmentID,ManagerID,DepartmentName,same
0,101,2,HR,0
1,102,3,IT,0
2,103,4,Finance,0


In [None]:
# merge по умолчанию добавит суффиксы x и y
merged_df = df_employees.merge(df_departments, left_on='EmpID', right_on='ManagerID', how='left')
merged_df['DepartmentID'] = merged_df['DepartmentID'].astype('Int64')
merged_df['ManagerID'] = merged_df['ManagerID'].astype('Int64')
merged_df['same_y'] = merged_df['same_y'].astype('Int64')
merged_df

Unnamed: 0,EmpID,EmployeeName,same_x,DepartmentID,ManagerID,DepartmentName,same_y
0,1,Alice,1,,,,
1,2,Bob,1,101.0,2.0,HR,0.0
2,3,Charlie,1,102.0,3.0,IT,0.0
3,4,David,1,103.0,4.0,Finance,0.0


In [None]:
# можем установить свои суффиксы
merged_df = df_employees.merge(df_departments, left_on='EmpID', right_on='ManagerID', suffixes=['_emp', '_dep'], how='left')
merged_df['DepartmentID'] = merged_df['DepartmentID'].astype('Int64')
merged_df['ManagerID'] = merged_df['ManagerID'].astype('Int64')
merged_df['same_dep'] = merged_df['same_dep'].astype('Int64')

merged_df

Unnamed: 0,EmpID,EmployeeName,same_emp,DepartmentID,ManagerID,DepartmentName,same_dep
0,1,Alice,1,,,,
1,2,Bob,1,101.0,2.0,HR,0.0
2,3,Charlie,1,102.0,3.0,IT,0.0
3,4,David,1,103.0,4.0,Finance,0.0


In [None]:
df_employees_indexed = df_employees.set_index('EmpID')
df_departments_indexed = df_departments.set_index('ManagerID')

# у join нет суффиксов по умолчанию, поэтому мы должны их задать
joined_df = df_employees_indexed.join(df_departments_indexed,lsuffix = '_emp',rsuffix = '_dep'  )
joined_df['DepartmentID'] = joined_df['DepartmentID'].astype('Int64')
joined_df['same_dep'] = joined_df['same_dep'].astype('Int64')
joined_df

Unnamed: 0_level_0,EmployeeName,same_emp,DepartmentID,DepartmentName,same_dep
EmpID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Alice,1,,,
2,Bob,1,101.0,HR,0.0
3,Charlie,1,102.0,IT,0.0
4,David,1,103.0,Finance,0.0
