<a href="https://colab.research.google.com/github/komorimasashi/kakuritsu_toukei_1/blob/main/R07_Dataframe_Merging.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **7. データフレームの結合(bind系とjoin系)**

### **7.1 データフレームの結合には2種類ある**
データフレームを結合する場合，単に2つのデータフレームをくっつけるだけの**bind系**の結合方法と，参加者IDなどの**キー**となる列を手がかりに複数のデータフレームをキー結合する**join系**の方法がありますが，下の図を見てもわかるようにやっていることはだいぶ違います．これらを使いこなせるようになれば，大体のデータ処理はできるようになるはずです．




<figure><figcaption></figcaption><img src="https://lh3.googleusercontent.com/d/1awvr4QCBHHZcxYnFyaE78MG-haCHipkg" alt="bind and join" width=600></figure>





---



### **7.2 bind系**

`rbind`と`cbind`はR言語における基本的なデータフレーム操作関数で，それぞれ行方向，列方向にデータを結合する際に使用されます．ただし，結合するデータフレーム間で列名や行数が一致していない場合にはエラーが発生するため注意が必要です．

#### **7.2.1 rbind()**


`rbind`（row-bindの略）は、複数のデータフレームまたはベクトルを行方向に結合します。結合するデータフレームは、列名が一致している必要があります。異なる列名を持つデータフレームを結合しようとするとエラーが発生します。

In [None]:
# サンプルデータフレームの作成
df1 <- data.frame(ID = c(1, 2, 3), Name = c("一の瀬花枝", "二階堂望", "三鷹瞬"))
df2 <- data.frame(ID = c(4, 5), Name = c("四谷さん", "五代裕作"))

# rbindを使って行方向に結合
combined_rows <- rbind(df1, df2)
combined_rows

ID,Name
<dbl>,<chr>
1,一の瀬花枝
2,二階堂望
3,三鷹瞬
4,四谷さん
5,五代裕作


#### **7.2.2 cbind()**

`cbind`（column-bindの略）は、複数のデータフレームやベクトルを列方向に結合します。結合する際には行数が一致している必要がありますが、列のタイプが異なっていても結合することが可能です。

In [None]:
# サンプルデータフレームの作成
df1 <- data.frame(ID = c(1, 2, 3), Name =  c("一の瀬花枝", "二階堂望", "三鷹瞬"))
df3 <- data.frame(Age = c(35, 15, 25))

# cbindを使って列方向に結合
combined_columns <- cbind(df1, df3)
combined_columns

ID,Name,Age
<dbl>,<chr>,<dbl>
1,一の瀬花枝,35
2,二階堂望,15
3,三鷹瞬,25


### **7.3 join系**

`dplyr`パッケージを使用した様々なjoin（結合）操作について説明します．ここでは、二つのサンプルデータフレームを用意し、`dplyr`の関数である`inner_join()`などを用いてこれらに対してjoin操作を実行します。joinの説明の画像の出典はすべて[ここ](https://github.com/gadenbuie/tidyexplain)です

In [None]:
library(dplyr)

In [None]:
# サンプルデータフレームの作成(df1)
df1 <- data.frame(
  ID = c(1, 2, 3, 4),
  Name = c("一の瀬花枝", "二階堂望", "三鷹瞬", "四谷さん")
)
df1

ID,Name
<dbl>,<chr>
1,一の瀬花枝
2,二階堂望
3,三鷹瞬
4,四谷さん


In [None]:
# サンプルデータフレームの作成(df2)
df2 <- data.frame(
  ID = c(3, 4, 5, 6),
  Age = c(25, 40, 19, 23)
)
df2

ID,Age
<dbl>,<dbl>
3,25
4,40
5,19
6,23


#### **7.3.1 Inner Join**

共通のキー(ID)が存在する行のみを結合します。

<img src="https://raw.githubusercontent.com/gadenbuie/tidyexplain/main/images/inner-join.gif" alt="join" width=400></figure>


In [None]:
inner_joined <- inner_join(df1, df2, by = "ID")
inner_joined

ID,Name,Age
<dbl>,<chr>,<dbl>
3,三鷹瞬,25
4,四谷さん,40


#### **7.3.2 Left Join**



左のデータフレーム(`df1`)のすべての行と、共通のキーがある右のデータフレーム(`df2`)の行を結合します。右に対応する行がない場合は、`NA`が挿入されます。

<img src="https://raw.githubusercontent.com/gadenbuie/tidyexplain/main/images/left-join.gif" alt="join" width=400></figure>


In [None]:
left_joined <- left_join(df1, df2, by = "ID")
left_joined

ID,Name,Age
<dbl>,<chr>,<dbl>
1,一の瀬花枝,
2,二階堂望,
3,三鷹瞬,25.0
4,四谷さん,40.0


#### **7.3.3 Right Join**

右のデータフレーム(`df2`)のすべての行と、共通のキーがある左のデータフレーム(`df1`)の行を結合します。左に対応する行がない場合は、`NA`が挿入されます。

<img src="https://raw.githubusercontent.com/gadenbuie/tidyexplain/main/images/right-join.gif" alt="join" width=400></figure>


In [None]:
right_joined <- right_join(df1, df2, by = "ID")
right_joined

ID,Name,Age
<dbl>,<chr>,<dbl>
3,三鷹瞬,25
4,四谷さん,40
5,,19
6,,23


#### **7.3.4 Full Join**

両方のデータフレームのすべての行を結合します。対応する行がない場合は、`NA`が挿入されます。

<img src="https://raw.githubusercontent.com/gadenbuie/tidyexplain/main/images/full-join.gif" alt="join" width=400></figure>


In [None]:
full_joined <- full_join(df1, df2, by = "ID")
full_joined

ID,Name,Age
<dbl>,<chr>,<dbl>
1,一の瀬花枝,
2,二階堂望,
3,三鷹瞬,25.0
4,四谷さん,40.0
5,,19.0
6,,23.0


#### **7.3.5 Semi Join**

左のデータフレーム(`df1`)から、右のデータフレーム(`df2`)にマッチする行のみを返しますが、`df2`の列は追加されません。

<img src="https://raw.githubusercontent.com/gadenbuie/tidyexplain/main/images/semi-join.gif" alt="join" width=400></figure>


In [None]:
semi_joined <- semi_join(df1, df2, by = "ID")
semi_joined

ID,Name
<dbl>,<chr>
3,三鷹瞬
4,四谷さん


#### **7.3.6 Anti Join**

左のデータフレーム(`df1`)から、右のデータフレーム(`df2`)にマッチしない行のみを返します。


<img src="https://raw.githubusercontent.com/gadenbuie/tidyexplain/main/images/anti-join.gif" alt="join" width=400></figure>


In [None]:
anti_joined <- anti_join(df1, df2, by = "ID")
anti_joined

ID,Name
<dbl>,<chr>
1,一の瀬花枝
2,二階堂望
