# データフレーム作成

In [3]:
import pandas as pd
import MeCab


documents = [
    '子供が走る',
    '車が走る',
]

words_list = []
tagger = MeCab.Tagger('-Ochasen')
for sentence in documents:
    sentence_parsed = tagger.parse(sentence)
    words_in_sentence = []
    for line in sentence_parsed.splitlines()[:-1]:
        words_in_sentence.append(line.split('\t')[0])
    words_list.append(words_in_sentence)

print(words_list)

[['子供', 'が', '走る'], ['車', 'が', '走る']]


# BoW作成
- 参考にしているサイト
    - https://note.com/smkt_interview/n/nafebd60ae6bc

## 事前準備（形態素解析実行まで）

In [4]:
text = '''パーソルプロセス＆テクノロジーは、人・プロセスデザイン・テクノロジーという3つの力によって\
お客様のビジネスにおける様々なプロセスを変革に導くことで、「はたらいて、笑おう。」の世界を実現してまいります。\
少子高齢化による生産労働人口減少という課題に対する解決策は、\
「はたらく人を増やすこと」と「一人ひとりの生産性を向上させていくこと」のいずれかです。\
人と仕事の適切なマッチングを通じて社会全体で適材適所を推進していくこと、女性や高齢者、外国人などの労働力を積極的に活用していくことに加え、\
テクノロジーの進化を活用しながら、業務のあり方や人と組織の関係性そのものを変えていくことが、\
今後の「仕事」や「はたらく」に対し大きな影響をもたらすことは間違いありません。\
その中で、私たちパーソルプロセス＆テクノロジーは、お客様の生産性向上を徹底的に推進することを使命としています。\
AIやIoTを代表するようなテクノロジーの活用や、RPA導入を含めたコンサルティング・アウトソーシングを通じて、\
抜本的にビジネスプロセスを変革いたします。\
私たちは社会問題に正面から向き合い、社会の役に立つ会社でありたい。\
正解のない課題に対しても失敗を恐れずチャレンジしていきたいと考えています。\
パーソルプロセス＆テクノロジーは、これまで以上に人・プロセスデザイン・テクノロジーの3つの力に尖りと磨きをかけ、\
お客様から選ばれ続ける企業を目指し、挑戦してまいります。'''

In [22]:
# MeCab用意
mecabTagger = MeCab.Tagger() # ←（）内で辞書を選択できます
noun_count = {}

# テキストの解析結果をnodeとする
node = mecabTagger.parseToNode(text)

# print(node)  ← <MeCab.Node; proxy of <Swig Object of type 'MeCab::Node *' at 0x000001D37D299380> >

## 単語の抽出（.surface）

In [24]:
# 単語取り出し終わるまで動く
while node:
    # 単語の取り出し
    word = node.surface
    print(word)
    # 次の単語
    node = node.next


パーソルプロセス
＆
テクノロジー
は
、
人
・
プロセス
デザイン
・
テクノロジー
という
3
つ
の
力
によって
お客様
の
ビジネス
における
様々
な
プロセス
を
変革
に
導く
こと
で
、
「
はたらい
て
、
笑お
う
。
」
の
世界
を
実現
し
て
まいり
ます
。
少子
高齢
化
による
生産
労働
人口
減少
という
課題
に対する
解決
策
は
、
「
はたらく
人
を
増やす
こと
」
と
「
一人ひとり
の
生産
性
を
向上
さ
せ
て
いく
こと
」
の
いずれ
か
です
。
人
と
仕事
の
適切
な
マッチング
を通じて
社会
全体
で
適材適所
を
推進
し
て
いく
こと
、
女性
や
高齢
者
、
外国
人
など
の
労働
力
を
積極
的
に
活用
し
て
いく
こと
に
加え
、
テクノロジー
の
進化
を
活用
し
ながら
、
業務
の
あり方
や
人
と
組織
の
関係
性
そのもの
を
変え
て
いく
こと
が
、
今後
の
「
仕事
」
や
「
はたらく
」
に対し
大きな
影響
を
もたらす
こと
は
間違い
あり
ませ
ん
。
その
中
で
、
私
たち
パーソルプロセス
＆
テクノロジー
は
、
お客様
の
生産
性
向上
を
徹底的
に
推進
する
こと
を
使命
と
し
て
い
ます
。
AI
や
IoT
を
代表
する
よう
な
テクノロジー
の
活用
や
、
RPA
導入
を
含め
た
コンサルティング・アウトソーシング
を通じて
、
抜本
的
に
ビジネス
プロセス
を
変革
いたし
ます
。
私
たち
は
社会
問題
に
正面
から
向き合い
、
社会
の
役に立つ
会社
で
あり
たい
。
正解
の
ない
課題
に対して
も
失敗
を
恐れ
ず
チャレンジ
し
て
いき
たい
と
考え
て
い
ます
。
パーソルプロセス
＆
テクノロジー
は
、
これ
まで
以上
に
人
・
プロセス
デザイン
・
テクノロジー
の
3
つ
の
力
に
尖り
と
磨き
を
かけ
、
お客様
から
選ば
れ
続ける
企業
を
目指し
、
挑戦
し
て
まいり
ます
。



## 品詞などの情報抽出（.feature）

In [20]:
while node:
    word = node.surface
    print(word)
    hinshi = node.feature.split(",")[0]
    if word in noun_count.keys() and hinshi == "名詞":
        noun_freq = noun_count[word]
        noun_count[word] = noun_freq + 1
    elif hinshi == "名詞":
        noun_count[word] = 1
    else:
        pass
    node = node.next

noun_count = sorted(noun_count.items(), key=lambda x:x[1], reverse=True)
print(noun_count)


パーソルプロセス
＆
テクノロジー
は
、
人
・
プロセス
デザイン
・
テクノロジー
という
3
つ
の
力
によって
お客様
の
ビジネス
における
様々
な
プロセス
を
変革
に
導く
こと
で
、
「
はたらい
て
、
笑お
う
。
」
の
世界
を
実現
し
て
まいり
ます
。
少子
高齢
化
による
生産
労働
人口
減少
という
課題
に対する
解決
策
は
、
「
はたらく
人
を
増やす
こと
」
と
「
一人ひとり
の
生産
性
を
向上
さ
せ
て
いく
こと
」
の
いずれ
か
です
。
人
と
仕事
の
適切
な
マッチング
を通じて
社会
全体
で
適材適所
を
推進
し
て
いく
こと
、
女性
や
高齢
者
、
外国
人
など
の
労働
力
を
積極
的
に
活用
し
て
いく
こと
に
加え
、
テクノロジー
の
進化
を
活用
し
ながら
、
業務
の
あり方
や
人
と
組織
の
関係
性
そのもの
を
変え
て
いく
こと
が
、
今後
の
「
仕事
」
や
「
はたらく
」
に対し
大きな
影響
を
もたらす
こと
は
間違い
あり
ませ
ん
。
その
中
で
、
私
たち
パーソルプロセス
＆
テクノロジー
は
、
お客様
の
生産
性
向上
を
徹底的
に
推進
する
こと
を
使命
と
し
て
い
ます
。
AI
や
IoT
を
代表
する
よう
な
テクノロジー
の
活用
や
、
RPA
導入
を
含め
た
コンサルティング・アウトソーシング
を通じて
、
抜本
的
に
ビジネス
プロセス
を
変革
いたし
ます
。
私
たち
は
社会
問題
に
正面
から
向き合い
、
社会
の
役に立つ
会社
で
あり
たい
。
正解
の
ない
課題
に対して
も
失敗
を
恐れ
ず
チャレンジ
し
て
いき
たい
と
考え
て
い
ます
。
パーソルプロセス
＆
テクノロジー
は
、
これ
まで
以上
に
人
・
プロセス
デザイン
・
テクノロジー
の
3
つ
の
力
に
尖り
と
磨き
を
かけ
、
お客様
から
選ば
れ
続ける
企業
を
目指し
、
挑戦
し
て
まいり
ます
。

[('こと', 8), ('テクノロジー', 7), ('人', 6), ('プロセス', 4), ('パーソルプロセス', 3)

In [6]:
df = pd.DataFrame(noun_count)
df

Unnamed: 0,0,1
0,こと,8
1,テクノロジー,7
2,人,6
3,プロセス,4
4,パーソルプロセス,3
...,...,...
69,これ,1
70,以上,1
71,磨き,1
72,企業,1
