## Урок 6. Соединение данных


### 1. Типы объединения с помощью pd.merge
Метод pd.merge поддерживает четыре основных типа объединения: inner, outer, left, и right. Каждый из них определяет, какие строки будут включены в результат на основе совпадений по ключу.

In [28]:
import pandas as pd
import numpy as np
import random 

In [53]:
df1 = pd.DataFrame({
    'id': [1, 2, 3, 4],
    'name': ['Azim', 'Bahrom', 'Manucher', 'Murodali'],
    'surname':['Azimov', 'Bahromov', 'Murodov', 'Azizov']
})

df2 = pd.DataFrame({
    'id': [3, 4, 5, 6, 3],
    'age': [25, 30, 35, 40, 1000]
})

`inner` (внутреннее объединение) — оставляет только строки, которые есть в обоих DataFrame по ключу.

In [None]:
id = [3,4]


In [35]:
inner_merge = df1.merge(df2, on='id', how='inner')
display('Данные по клиентам:', inner_merge)

'Данные по клиентам:'

Unnamed: 0,id,name,age
0,3,Manucher,25
1,4,Murodali,30


`outer` (внешнее объединение) — включает все строки из обоих DataFrame, отсутствующие значения заполняются NaN.

In [36]:
print(df1.id)

print(df2.id)

0    1
1    2
2    3
3    4
Name: id, dtype: int64
0    3
1    4
2    5
3    6
Name: id, dtype: int64


In [None]:
outer_merge = pd.merge(df1, df2, on='id', how='outer').fillna(0)
display("Outer Merge:", outer_merge)

'Outer Merge:'

Unnamed: 0,id,name,age
0,1,Azim,0.0
1,2,Bahrom,0.0
2,3,Manucher,25.0
3,4,Murodali,30.0
4,5,0,35.0
5,6,0,40.0


In [41]:
outer_merge.age = outer_merge.age.astype('Int64')
outer_merge

Unnamed: 0,id,name,age
0,1,Azim,0
1,2,Bahrom,0
2,3,Manucher,25
3,4,Murodali,30
4,5,0,35
5,6,0,40


`left` (левое объединение) — включает все строки из левого DataFrame, добавляя соответствующие строки из правого DataFrame (или NaN, если строки нет).

In [45]:
print(df1.id)

print(df2.id)

0    1
1    2
2    3
3    4
Name: id, dtype: int64
0    3
1    4
2    5
3    6
4    3
Name: id, dtype: int64


In [49]:
df2

Unnamed: 0,id,age
0,3,25
1,4,30
2,5,35
3,6,40
4,3,1000


In [50]:
df2.sort_values('id')

Unnamed: 0,id,age
0,3,25
4,3,1000
1,4,30
2,5,35
3,6,40


In [54]:
left_merge = pd.merge(df1, df2, on='id', how='left')
display("Left Merge:", left_merge)

'Left Merge:'

Unnamed: 0,id,name,surname,age
0,1,Azim,Azimov,
1,2,Bahrom,Bahromov,
2,3,Manucher,Murodov,25.0
3,3,Manucher,Murodov,1000.0
4,4,Murodali,Azizov,30.0


In [None]:
if df2.id.duplicated().any():
    raise Warning('Pls check duplicate:', df2[df2.id.duplicated()]['id'].unique().tolist())

Warning: ('Pls check duplicate:', [3])

In [62]:
left_merge.sort_values('age').groupby('id').first().reset_index()

Unnamed: 0,id,name,surname,age
0,1,Azim,Azimov,
1,2,Bahrom,Bahromov,
2,3,Manucher,Murodov,25.0
3,4,Murodali,Azizov,30.0


`right` (правое объединение) — включает все строки из правого DataFrame, добавляя соответствующие строки из левого DataFrame (или NaN, если строки нет).

In [65]:
right_merge = pd.merge(df1, df2, on='id', how='right')
display("Right Merge:\n", right_merge)

'Right Merge:\n'

Unnamed: 0,id,name,surname,age
0,3,Manucher,Murodov,25
1,4,Murodali,Azizov,30
2,5,,,35
3,6,,,40
4,3,Manucher,Murodov,1000



### 2. pd.concat
Функция pd.concat позволяет объединять несколько DataFrame по строкам (вертикальное объединение) или по столбцам (горизонтальное объединение). Это полезно, когда нужно добавить данные в таблицу или создать таблицу с дополнительной информацией.

In [None]:
pd.concat([

            ])

In [66]:
df3 = pd.DataFrame({
    'id': [5, 6],
    'name': ['Yulia', 'Alexey']
})
df4 = pd.DataFrame({
    'age': [22, 33],
    'gender': ['Female', 'Male']
})

In [68]:
display(df3)
display(df4)

Unnamed: 0,id,name
0,5,Yulia
1,6,Alexey


Unnamed: 0,age,gender
0,22,Female
1,33,Male


In [None]:
concat_rows = pd.concat([df3, df4], axis=0, ignore_index=True)
display("Concat Rows:", concat_rows)

'Concat Rows:'

Unnamed: 0,id,name,age,gender
0,5.0,Yulia,,
1,6.0,Alexey,,
2,,,22.0,Female
3,,,33.0,Male


In [88]:
concat_columns = pd.concat([df3, df4], join='outer', axis=1)
display("Concat Columns:\n", concat_columns)

'Concat Columns:\n'

Unnamed: 0,name,age,gender
5,Yulia,,
6,Alexey,,
0,,22.0,Female
1,,33.0,Male



### 3. join()
Метод join используется для объединения DataFrame на основе индексов, что удобно, если индексы в обоих DataFrame одинаковы.

In [74]:
df1

Unnamed: 0,id,name,surname
0,1,Azim,Azimov
1,2,Bahrom,Bahromov
2,3,Manucher,Murodov
3,4,Murodali,Azizov


In [76]:
x = df1.set_index('name')

In [80]:
x['Murodali':]

Unnamed: 0_level_0,id,surname
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Murodali,4,Azizov


In [81]:
# Пример индексов
df1.set_index('id', inplace=True)
df2.set_index('id', inplace=True)
df3.set_index('id', inplace=True)


In [83]:
df1

Unnamed: 0_level_0,name,surname
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Azim,Azimov
2,Bahrom,Bahromov
3,Manucher,Murodov
4,Murodali,Azizov


In [84]:
df2

Unnamed: 0_level_0,age
id,Unnamed: 1_level_1
3,25
4,30
5,35
6,40
3,1000


In [85]:
# Объединение с использованием left join по умолчанию
joined_df = df1.join(df2, how='inner')
display("Joined DataFrame:", joined_df)


'Joined DataFrame:'

Unnamed: 0_level_0,name,surname,age
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,Manucher,Murodov,25
3,Manucher,Murodov,1000
4,Murodali,Azizov,30


In [86]:
joined_outer_df = df1.join(df2, how='outer')
display("Outer Join with Join Method:", joined_outer_df)


'Outer Join with Join Method:'

Unnamed: 0_level_0,name,surname,age
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Azim,Azimov,
2,Bahrom,Bahromov,
3,Manucher,Murodov,25.0
3,Manucher,Murodov,1000.0
4,Murodali,Azizov,30.0
5,,,35.0
6,,,40.0


### Задание
У вас есть три таблицы с данными о клиентах, транзакциях и счетах. Необходимо:

1) Дополнить  инфомацию по счетам, которая хранится в двух файлах `account_more_info & account_card_info`;
2) По полученным данным найти максимальное значение, минимальное, сумму, кол-во и среднее значение по типу платежа;
3) Таблицы по  `account_more_info & account_card_info` объединить таким образом, чтобы новая таблица имела дополнительные колонки из второй таблицы, а также объединить так чтобы строки из одной таблицы были добавлены во вторую;
4) Добавьте кросс-чеки которые будут выявлять ошибки в случае некорректного слияния данных: кол-во строк должно быть равно первоначальной длине `df` и не должно быть дубликатов по `transaction_id`