# DX Criteria用語集プロジェクト

DX Criteria（以下、DXC）を普及させていく上で、設問や説明に含まれる重要な用語について説明を加えた内容を一覧できるようにすると、よりよい理解につながるのではないかと考えます。そこで、DXCに含まれる文章から重要だと思われる用語を抜き出し、用語集を作ることにします。

## 本プロジェクトにコントリビュートするには

以下のファイルに用語集の元データが含まれていますので、本プロジェクトにコントリビュートしたい方は、

1. 用語を選んで内容を[用語集の元データ](./glossary.json)に記入
2. `npm run build`を実行
3. Pull Requestを送信

という手順を踏んでください。

----

## 用語の抽出プロセス

以下に記載するのは、本プロジェクトの枠組みを作る上で、どのように用語の抽出を行ったかというプロセスを記録するものです。用語集の充実にコントリビュートする分には、以下を必ずしも読む必要はありません。技術的な詳細について知りたい方はご覧ください。

1. DXCの元データ（JSONデータ）から、項目ごとに文章をつなげる
2. 重要度の高い単語を抽出する
3. 単語の意味をいれる空の値のカラムを追加した上でJSON化する

あとは上述の「本プロジェクトにコントリビュートするには」に従い、ひたすら単語の意味をいれていく感じですね。

### 1. DXCの元データ（JSONデータ）から、項目ごとに文章をつなげる

まずはJSONデータを読み込みます。

In [1]:
import json
io = open('../dxcriteria.json')
data = json.load(io)
data['team'][0]

{'theme': 'team',
 'id': 1,
 'type': 'チーム構成と権限委譲',
 'metrics': 'システムを開発するチームの人数は、5人以上12人以下か。（ピザ２枚ルール）',
 'learning': 'ある特定の人物に属人化した仕事を洗い出し、減らしていく仕組みや習慣がチームにあるか。',
 'practice1': 'チームとチームメンバーの権限について、RACI図やデリゲーションポーカーなどによって、可視化され共有されているか。',
 'practice2': 'チームは価値提供をするのに必要な全職能のメンバーで構成されているか。(フィーチャーチーム)',
 'practice3': 'チームおよびチームリーダーは、チームのミッションのために必要な外部のリソースを調達するための予算や権限をもっているか。',
 'antipattern1': 'チームは存在するが、それぞれのやっている仕事の内容をよく知らないし、代わりにやることもできない。',
 'antipattern2': 'チームリーダーが複数のチームやプロジェクトを兼務しており、自チームのためにすべての時間を使うことができない。',
 'antipattern3': 'チームリーダーがメンバーに権限委譲できておらず、ボトルネックになっている。',
 'desc': 'メンバーが多すぎたり、少なすぎたりすると管理を複雑にするばかりでなく、生産性を悪化させてしまうことが知られています。\n\nまた、高速に仮説検証を行うためには予算・意思決定・実行能力を１つのチームで保つ必要があります。'}

各項目のドキュメントごとに、含まれる文字列を全部結合していきます。

In [2]:
columns = [
    'type', 'metrics', 'learning',
    'practice1', 'practice2', 'practice3',
    'antipattern1', 'antipattern2', 'antipattern3',
    'desc'
]
docs = []
for k, v in data.items():
    for i in v:
        texts = []
        for c in columns:
            texts.append(i[c])
        docs.append(' '.join(texts))

docs[:3]

['チーム構成と権限委譲 システムを開発するチームの人数は、5人以上12人以下か。（ピザ２枚ルール） ある特定の人物に属人化した仕事を洗い出し、減らしていく仕組みや習慣がチームにあるか。 チームとチームメンバーの権限について、RACI図やデリゲーションポーカーなどによって、可視化され共有されているか。 チームは価値提供をするのに必要な全職能のメンバーで構成されているか。(フィーチャーチーム) チームおよびチームリーダーは、チームのミッションのために必要な外部のリソースを調達するための予算や権限をもっているか。 チームは存在するが、それぞれのやっている仕事の内容をよく知らないし、代わりにやることもできない。 チームリーダーが複数のチームやプロジェクトを兼務しており、自チームのためにすべての時間を使うことができない。 チームリーダーがメンバーに権限委譲できておらず、ボトルネックになっている。 メンバーが多すぎたり、少なすぎたりすると管理を複雑にするばかりでなく、生産性を悪化させてしまうことが知られています。\n\nまた、高速に仮説検証を行うためには予算・意思決定・実行能力を１つのチームで保つ必要があります。',
 'チームビルディング チームは少なくとも半年以上継続して存在しているか。 チームは月に一度以上の頻度で仕事のふりかえりをおこなっており、その際にプロジェクト憲章またはインセプションデッキの認識を揃えているか。 インセプションデッキまたはプロジェクト憲章を作成し、チームの存在理由についてチーム全員が把握しているか。 新しくチームに参画するメンバー用のオンボーディング・デック（チームの一員として働き始めるための、価値観・実務・スキル・相互理解のための明文化されたドキュメント集）が存在するか。 チームメンバー全員で定期的にカジュアルにコミュニケーションをとる場がある（ランチ、ディナー、レクレーション等） オンボーディングプログラムが、文章を読むだけのものになっており、ハンズオンやミッション理解の伴わない形骸化したものになっている。 1年以上チームのやることが変わっておらず、チームメンバーも固定されている。 チーム内でチームミッションの改善に関係する議論がどんな理由であれ発生していない。 システムを改善するチームは、組成してからパフォーマンスするまでに時間がかかります

### 2. 重要度の高い単語を抽出する

さて、DXCのすべての項目をそれぞれ文字列として連結できたので、これを形態素解析した上でtf/idfを計算し、重要度の高い単語をリストアップしてみましょう。

[【Techの道も一歩から】第12回「基礎的な考え方であるTF\-IDFを学ぶ」 \- Sansan Builders Box](https://buildersbox.corp-sansan.com/entry/tech12_tfidf)を参考にしました、というか、ほぼそのまま引き写しです。

In [3]:
import numpy as np

from janome.analyzer import Analyzer
from janome.tokenizer import Tokenizer
from janome.charfilter import *
from janome.tokenfilter import *

from sklearn.feature_extraction.text import TfidfVectorizer

# 前処理（うまく形態素解析できないので記号を空白に変換しちゃう）
char_filters = [UnicodeNormalizeCharFilter(), RegexReplaceCharFilter(u'[\(\)]', u' ')]
token_filters = [CompoundNounFilter(), POSKeepFilter("名詞")]

# janomeアナライザーの定義（複合名詞処理、名詞抽出処理）
tokenizer = Tokenizer()
a = Analyzer(char_filters, tokenizer, token_filters)

# アナライザーで解析し、文書集合を作る
tokens = []
for text in docs:
    token = []
    token.append(" ".join([ tok.surface for tok in a.analyze(text) ]))
    tokens.append(" ".join(token))

# TF/IDF変換器により変換する
vectorizer = TfidfVectorizer()
vector = vectorizer.fit_transform(tokens)

# 各文書で重要な単語上位10語を表示する
feature_names = np.array(vectorizer.get_feature_names())
for vec in vector:
    index = np.argsort(vec.toarray(), axis=1)[:,::-1]
    feature_words = feature_names[index]
    print(feature_words[:,:10])

[['チーム' 'チームリーダー' '予算' '権限委譲' 'メンバー' '権限' '必要' '仕事' 'ため' 'raci図']]
[['チーム' 'プロジェクト憲章' 'インセプションデッキ' '改善' 'メンバー' 'もの' 'システム' 'デック' '存在理由' '参画']]
[['意見' '心理的安全性' 'チームメンバー' '行動' '状況' '習慣' 'ため' '生産性' 'こと' '壁打ち']]
[['仕事' '曖昧' '定義' 'タスク' '明文化' 'チームタスク' '完了' 'ステークホルダー' 'チーム' '存在']]
[['目標' '言語化' 'フォーカス' 'チーム' '目標管理' '明晰化' '計測可能' '四半期' 'いくつ' '明確']]
[['見積り' '精度' '方法' '計画' '全体計画' 'ベロシティ' 'バッファ' 'クリティカル' '向上' 'スケジュール']]
[['テーマ' '議論' '習慣' 'えり' 'ふり' 'タスク' 'マンネリ化' '次回' 'チーム活動' 'ファクトベース']]
[['効率性' 'request' 'サイクルタイム' 'フロー効率性' 'タスク' '工程' '継続的' 'チーム' 'リードタイム' '状態']]
[['バージョン管理システム' 'ソースコード' '閲覧' 'github' 'code' 'アプリケーションコード' 'バージョン管理'
  '管理' 'すべて' '習慣']]
[['コードレビューガイドライン' 'コードレビュー' 'フォーマッタ' 'ソースコード' '自動的' 'ため軽視' '補正' '循環的複雑度'
  '四半期以上' '規則']]
[['テスト' '継続的インテグレーション' '一部' '開発者' 'こと' '継続的インテグレーション環境' '品質向上'
  '自動テストガイドライン' '自動テスト習慣' '半分以上']]
[['launch' '継続的デプロイ' 'デプロイ' '本番環境' '安全' 'デプロイ作業' '開発者' 'コード' 'リリース' '一部']]
[['api' 'システム' '生成' '利用者' '作り' '連携' '提供' '開発' 'インタラクティブ' 'モックアップサーバー']]
[['単純' 'システム' 'アーキテクチ

うーん、重要なのがでてる気もするけど、外れてるのも多い気もするなあ。

今日はここまで。

### 3. 単語の意味をいれる空の値のカラムを追加した上でJSON化する