# 新入社員の配属先割り当ての工数削減

# [1] データの前分析

## 1.グラフの作成

### 1-1.ライブラリをインポートする

**データ分析で役立つライブラリ**


```
*   pandas:データ分析に必要なDataFrameという道具を扱うためのライブラリ
*   numpy:数値演算で必要なライブラリ
*   networkx:データ構造としてのグラフを扱うライブラリ
*   matplotlib:グラフを作成する可視化ライブラリ
*   seaborn:グラフを作成する可視化ライブラリ(matplotlibよりも記述が簡単)
*   scikit-learn:機械学習のライブラリ
```


**ライブラリをインポートする**


```
import ライブラリ名

import ライブラリ名 as 省略名

from ライブラリ名 import モジュール名

import ライブラリ名.モジュール名

from ライブラリ名 import モジュール名 as 省略名
```



In [None]:
# networkxのインポート
import networkx as nx 

# pandasのインポート
import pandas as pd

# matplotlibのインポート
from matplotlib import pyplot as plt

### 1-2.ノードとエッジを作成する

**データ構造としてのグラフを作成する**
**太字空のグラフを作成**


```
G = nx.Graph()
```

**ノードを追加**


```
G.add_nodes_from([ノード1, ノード2, ...])
```

**各要素に対応するノードの名前と属性名を記述**


```
(ノードの名前, {'attr': 属性名})
```

**ノードの内容を確認**


```
print(G.nodes.data())
```

**エッジを追加**


```
G.add_edges_from([エッジ1, エッジ2, ...])

(ノードx, ノードy, {属性名: 値})
```

**エッジの内容を確認**


```
print(G.edges.data())
```



In [None]:
# networkxのインポート
import networkx as nx

# 空のグラフの作成
G = nx.Graph()

# ノードをその属性とともに追加
G.add_nodes_from([(1, {'attr': 'source'}),(2, {'attr': 'destination'})])
print(G.nodes)

# ノードの内容を確認
print(G.nodes.data())

# エッジをその属性とともに追加
G.add_edges_from([(1, 2, {'distance': 1})])
print(G.edges)

# エッジの内容を確認
print(G.edges.data())

### 1-3.read_csvによりファイルを読み込む



```
ライブラリ名.関数()

pd.read_csv()

pd.read_csv('ファイル名')

変数名 = pd.read_csv('ファイル名', sep = '区切り文字')
```



In [None]:
# pandasのインポート
import pandas as pd

# データの読み込み
data = pd.read_csv('data.csv', sep=',')

### 1-4.DataFrameからグラフを作成する

**最初の数行を確認**


```
data.head()
```


```
G = nx.from_pandas_edgelist(データ, source=ノード集合1, target=ノード集合2, edge_attr=エッジの属性情報)
```

**重み情報を確認**

```
print(G.edges[エッジ])

(ノードx, ノードy)
```




In [None]:
# 最初の数行を確認
print(data.head())

# グラフの作成
G = nx.from_pandas_edgelist(data, source='worker', target='department', edge_attr='score')
print(G.nodes)

# 新入社員1の部署hに対する満足度を確認
print(G.edges[(1, 'h')])

## 2.グラフの分析

### 2-1.ノードやエッジの数を集計する

**ノードの数を確認**

```
len(G.nodes)
```
**エッジの数の確認**

```
len(G.edges)
```
**ノードにつながっているエッジの数(次数)を確認**

```
print(G.degree)

(ノード, 次数)
```





In [None]:
# ノードの数を表示
print(len(G.nodes))

# エッジの数を表示
print(len(G.edges))

# グラフの次数を表示
print(G.degree)

### 2-2.隣接ノードを確認する

**隣接ノードを確認**


```
G.adj

　# 特定の隣接ノードを取得
G.adj[ノード1]
```

**ノードとつながっているエッジの属性情報が以下のように格納**
```
{ノード2: {属性1: 値}, ノード3: {属性1: 値}, ...}
```




In [None]:
# 隣接ノード一覧を取得
adj = G.adj

# 部署aの隣接ノードの情報を表示
print(adj['a'])

# 新入社員1の隣接ノードの情報を表示
print(adj[1])

### 2-3.グラフを可視化する

**可視化に必要なライブラリをインポート**

```
from matplotlib import pyplot as plt
```
**ノードの位置を設定**

```
pos = nx.spring_layout(グラフ)
```
**networkxのdraw_networkx関数にグラフと位置を渡す**


```
nx.draw_networkx(G, pos)
```
**枠を外して可視化**


```
plt.axis('off')
plt.show()
```




In [None]:
# matplotlibのインポート
from matplotlib import pyplot as plt

# グラフGの可視化
pos = nx.spring_layout(G)  # positions for all nodes
nx.draw_networkx(G, pos)

plt.axis('off')
plt.show()

# [2] 2部グラフにおける最適化

## 1.2部グラフの扱い

### 1-1.2部グラフの基本性質を調べる

**読み込んだデータで作成したグラフGが2部グラフかどうか判定**

```
bipartite.is_bipartite(G)
```
**2部グラフをエッジを挟んでちょうど2つのノード集合に分ける**

```
top, bottom = bipartite.sets(G)
```
**それぞれのノードの重み付き次数を確認**

```
bipartite.degrees(G, top, weight = 'score')
```






In [None]:
# bipartiteモジュールのインポート
from networkx.algorithms import bipartite

# グラフGが2部グラフかどうか判定
print(bipartite.is_bipartite(G))

# 2つのノード集合を出力して中身を確認
top, bottom = bipartite.sets(G)
print(top, bottom)

# 重みscoreにおけるグラフGの次数を確認
print(bipartite.degrees(G, top, weight = 'score'))

### 1-2.2部グラフを可視化する

**位置はdict型で{ノード名: (x座標, y座標)}のように指定**

```
pos = {}
for i, n in enumerate(新入社員のノード集合):
    pos.update({n: (1, i)})
for i, n in enumerate(部署のノード集合):
    pos.update({n: (2, i)})
```
**ノードの色を指定**

```
node_color = []
for n in G.nodes:
    if n in top:
        node_color.append('r')
    else:
        node_color.append('b')
```
**エッジの太さを指定**

```
width = []
for u,v,w in G.edges(data=True):
    width.append(w['score'])
```
**networkxのdraw_networkx関数に渡してグラフを可視化**

```
nx.draw_networkx(G=グラフ, pos=位置, font_size=フォントサイズ, node_size=ノードサイズ, node_color=node_color, width=width)
```
**枠を非表示にして描画**

```
plt.axis('off')
plt.show()
```







In [None]:
# 各ノードの位置を設定
pos = {}
for i, n in enumerate(top):
    pos.update({n: (1, i)})
for i, n in enumerate(bottom):
    pos.update({n: (2, i)})

# 各ノードの色を指定
node_color = []
for n in G.nodes:
    if n in top:
        node_color.append('r')
    else:
        node_color.append('b')

# 各エッジの太さを指定
width = []
for u,v,w in G.edges(data=True):
    width.append(w['score'])

# 2部グラフGの可視化
nx.draw_networkx(G=G, pos=pos, font_size=15, node_size=400, node_color=node_color, width=width)
plt.axis('off')
plt.show()

## 2.最大重みマッチング

### 2-1.最適化を実行する

**最大重みマッチングを行う**

```
result = nx.max_weight_matching(G, weight='score')
```
**実際の満足度を表示する**

```
for e in result:
    print(e, G.edges[e])
```




In [None]:
# 最適化を実行
result = nx.max_weight_matching(G, weight='score')

# 結果を表示
for e in result:
    print(e, G.edges[e])

### 2-2.結果を可視化する

**位置はdict型で{ノード名: (x座標, y座標)}のように指定**

```
pos = {}
for i, n in enumerate(新入社員のノード集合):
    pos.update({n: (1, i)})
for i, n in enumerate(部署のノード集合):
    pos.update({n: (2, i)})
```
**ノードの色を指定**

```
node_color = []
for n in G.nodes:
    if n in top:
        node_color.append('r')
    else:
        node_color.append('b')
```
**エッジの太さを指定**

```
width = []
for u,v,w in G.edges(data=True):
    width.append(w['score'])
```
**グラフを可視化**

```
nx.draw_networkx(G, pos, font_size=15, node_size=400, node_color=node_color, width=width)
```
**枠を非表示にして描画**
```
plt.axis('off')
plt.show()
```






In [None]:
# 最適値を達成するエッジの集合を持つグラフの作成
top, bottom = bipartite.sets(G) # グラフGのノード集合を分割
H = nx.Graph() # 新しいグラフHの作成
H.add_nodes_from(top) # ノードを追加
H.add_nodes_from(bottom) # ノードを追加
H.add_edges_from(result) # エッジを追加

# 各ノードの位置を設定
pos = {}
for i, n in enumerate(top):
    pos.update({n: (1, i)})
for i, n in enumerate(bottom):
    pos.update({n: (2, i)})

# 各ノードの色を指定
node_color = []
for n in H.nodes:
    if n in top:
        node_color.append('r')
    else:
        node_color.append('b')

# 各エッジの太さを指定
width = []
for u,v in H.edges:
    width.append(G.edges[u,v]['score'])

# 2部グラフGの可視化
nx.draw_networkx(G=H, pos=pos,font_size=15, node_size=400, node_color=node_color, width=width)
plt.axis('off')
plt.show()

# [3] 数理最適化

## 1.定式化

### 1-1.決定変数を設定する

**決定変数**


```
問題における状態などを特徴づけるためのパラメータ
```
**今回の場合**

```
100人の新入社員を10個の部署へ割り当てる

# 以下の制約条件あり
*   1人につき1部署
*   特定の人たちは全員異なる部署に割り当てる
*   各部署には受け入れ人数に上限があり、これを超えない
```

```
0または1の値のみとる決定変数を2値変数と呼ぶ
```
**数理最適化を行うためのライブラリをインポート**

```
import pulp
```
**上記のような組み合わせの決定変数を定義**

```
x = pulp.LpVariable.dicts('x', (新入社員リスト, 部署リスト), cat='Binary')
```
**新入社員数×部署数分の決定変数へのアクセス**

```
x[k][l]
```










In [None]:
# pulpのインポート
import pulp

# 決定変数の設定
from networkx.algorithms import bipartite
top, bottom = bipartite.sets(G)
x = pulp.LpVariable.dicts('x', (top, bottom), cat='Binary')

# 決定変数(x_1_a)が整数となっていることを確認
print(x[1]['a'].cat)

# 決定変数(x_1_a)の下限が0となっていることを確認
print(x[1]['a'].getLb())

# 決定変数(x_1_a)の上限が1となっていることを確認
print(x[1]['a'].getUb())

### 1-2.目的関数を設定する

**目的関数を設定**

```
pulp.lpSum(足し合わせる項のリスト)

terms = []
for t in 新入社員リスト:
    for b in 部署リスト:
        if (t, b) in G.edges:
            terms.append(G.edges[t,b]['score']*x[t][b])
```
**目的関数を最大化**

```
model = pulp.LpProblem(問題の名前, pulp.LpMaximize)
```
**目的関数を以下のように追加**

```
model += pulp.lpSum(足し合わせる項のリスト)
```





In [None]:
# 目的関数の設定
model = pulp.LpProblem('Worker Allocation Model', pulp.LpMaximize)
terms = []
for t in top:
    for b in bottom:
        if (t, b) in G.edges:
            terms.append(G.edges[t,b]['score']*x[t][b])
model += pulp.lpSum(terms)
print(model)

### 1-3.制約条件を設定する

**制約条件を設定**

```
model += 条件式, 条件式の名前
```



In [None]:
# workerに対する制約条件の設定
for t in top:
    terms = []
    for b in bottom:
        terms.append(x[t][b])
    model += pulp.lpSum(terms) == 1, 'worker {}'.format(t)
print(model)

# 同じdepartmentに存在してほしくないworkerの設定
ngs = {1, 2, 3, 4, 5, 6, 7, 8, 9}
for b in bottom:
    terms = []
    for t in ngs:
        terms.append(x[t][b])
    model += pulp.lpSum(terms) <=1, 'NG members {}'.format(b)
print(model)

# departmentに対する制約条件の設定
capacity = pd.read_csv('capacity.csv', index_col = 'department')
cap = capacity.to_dict()['capacity']
for b in bottom:
    terms = []
    for t in top:
        terms.append(x[t][b])
    model += pulp.lpSum(terms) <= cap[b], 'department {}'.format(b)
print(model)

## 2.求解

### 2-1.最適化を実行する

**最適化を実行**

```
model.solve()

model.status
```



In [None]:
# 最適化の実行
model.solve()
print(model.status)

### 2-2.結果を分析する

**満足度の値を取得**

```
x[k][l].value()

if x[k][l].value() == 1:
    その後の処理
```
**エッジを指定することで取得**

```
G.edges[k,l]['score']
```
**エッジが存在するかどうかを判別**

```
if (k, l) in G.edges:
    print('{} -> {} (score: {})'.format(k, l, G.edges[k,l]['score']))
else:
    print('{} -> {} (score: {})'.format(k, l, 0))
```
**各部署について、xklが1となっている部分だけ数えればよい**

```
num_workers = 0
for k in workers:
    if x[k][l].value()==1:
        num_workers += 1
```
**最適解に対する目的関数の値(最適値と呼ぶ)を確認**

```
model.objective.value()
```







In [None]:
# 各新入社員が所属する部署の確認
worker_allocations = {}
for t in sorted(top):
    for b in bottom:
        if x[t][b].value()==1:
            if (t,b) in G.edges:
                print('{} -> {} (score: {})'.format(t, b, G.edges[t,b]['score']))
            else:
                print('{} -> {} (score: {})'.format(t, b, 0))
            worker_allocations[t]=b

# 各部署に所属する人数の確認
department_allocations = {}
for b in sorted(bottom):
    num_workers = 0
    for t in top:
        if x[t][b].value()==1:
            num_workers += 1
    department_allocations[b] = num_workers
    print('department {}: {} workers (capacity: {})'.format(b, num_workers, cap[b]))

# 目的関数の最適値の確認
print(model.objective.value())