# データセットの統合 : Merge と Join
Daruの重要な機能の1つは，データセットのマージです．

## Join の種類
ここでは3つのタイプのマージの簡単な例をまず示し，さらに詳細なオプションについて説明します．

### 1対1 の Join
最も基本的なマージは, 1対1のjoinです．具体的な例として，会社内の複数の従業員に関する情報を含む次の2つのDataFrameを考えてみます．

In [1]:
require "daru"

true

In [2]:
df1 = Daru::DataFrame.new({employee: ['Bob', 'Jake', 'Lisa', 'Sue'],
                    group: ['Accounting', 'Engineering', 'Engineering', 'HR']})

Daru::DataFrame(4x2),Daru::DataFrame(4x2),Daru::DataFrame(4x2)
Unnamed: 0_level_1,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [3]:
df2 = Daru::DataFrame.new({employee: ['Lisa', 'Bob', 'Jake', 'Sue'],
                    hire_date: [2004, 2008, 2012, 2014]})

Daru::DataFrame(4x2),Daru::DataFrame(4x2),Daru::DataFrame(4x2)
Unnamed: 0_level_1,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


これら情報を一つのDataFrameにまとめるには，Daru::DataFrame.join関数を使用します．

In [4]:
df3 = df1.join(df2, how: :inner, on: [:employee])

Daru::DataFrame(4x3),Daru::DataFrame(4x3),Daru::DataFrame(4x3),Daru::DataFrame(4x3)
Unnamed: 0_level_1,group,employee,hire_date
0,Accounting,Bob,2008
1,Engineering,Jake,2012
2,Engineering,Lisa,2004
3,HR,Sue,2014


ここでは `employee` 列をキーとして2つのDataFrameを結合しています．

### 多対1 の Join
多対1のJoinは、2つのキー列の1つに重複する項目が含まれている結合です。 その例を考えてみましょう。

In [5]:
df4 = Daru::DataFrame.new({group: ['Accounting', 'Engineering', 'HR'],
                    supervisor: ['Carly', 'Guido', 'Steve']})

Daru::DataFrame(3x2),Daru::DataFrame(3x2),Daru::DataFrame(3x2)
Unnamed: 0_level_1,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve


In [6]:
hoge = df3.join(df4, how: :outer, on: [:group])

Daru::DataFrame(4x4),Daru::DataFrame(4x4),Daru::DataFrame(4x4),Daru::DataFrame(4x4),Daru::DataFrame(4x4)
Unnamed: 0_level_1,employee,hire_date,group,supervisor
0,Bob,2008,Accounting,Carly
1,Jake,2012,Engineering,Guido
2,Lisa,2004,Engineering,Guido
3,Sue,2014,HR,Steve


結果として得られるDataFrameであるhogeには，`supervisor` 情報を含む追加の列があり， `group` が `Engineering` の `Jake` と `Lisa` の行では `Guido` が繰り返し追加されています．

### 多対多 の Join

Join対象の両方のDataFrameのキー列に重複が含まれている場合，結果は多対多のマージになります．

特定の`group`に関連付けられた1つ以上の`skills`を示すDataFrameがあるところで、次のことを考えてみましょう。

In [7]:
df1

Daru::DataFrame(4x2),Daru::DataFrame(4x2),Daru::DataFrame(4x2)
Unnamed: 0_level_1,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [8]:
df5 = Daru::DataFrame.new({group: ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    skills: ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})

Daru::DataFrame(6x2),Daru::DataFrame(6x2),Daru::DataFrame(6x2)
Unnamed: 0_level_1,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organization


In [9]:
piyo = df1.join(df5, how: :outer, on:[:group])

Daru::DataFrame(8x3),Daru::DataFrame(8x3),Daru::DataFrame(8x3),Daru::DataFrame(8x3)
Unnamed: 0_level_1,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


次のセクションでは，Join操作の仕組みを調整するためのオプションについて説明します．