In [16]:
# インポート
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
import MeCab

In [17]:
# 発言情報ファイルの読み込み
file_num = 4   # ←この数値を変える
file_info = ("study_data/com_info%s.csv" % file_num)
com_info = pd.read_csv(file_info, names=('発言者', '発言時刻', 'UNIX TIME', '発言内容'), index_col=0, sep=',', encoding='shift-jis')
com_info

Unnamed: 0,発言者,発言時刻,UNIX TIME,発言内容
1,池田夏子,2016/11/2 16:58,1478073480,（スタンプ）アメちゃんぺろぺろ
2,池田夏子,2016/11/2 17:26,1478075160,スマホとモバイルバッテリーを重ねて置くとき、スマホの方が面積が大きくてもスマホを上に置く
3,谷森 一貴,2016/11/2 17:39,1478075940,ーみんなの案まとめー
4,池田夏子,2016/11/2 17:43,1478076180,（画像）すしのイメージ画像
5,谷森 一貴,2016/11/2 17:44,1478076240,（ノート）ーみんなの案まとめー
6,まり,2016/11/2 17:45,1478076300,（画像）イメージ画像
7,たむこう,2016/11/10 19:08,1478772480,バイトが長引きそうなので時間遅くするか10時から先始めててもらいたいです…申し訳ない…
8,まり,2016/11/10 19:14,1478772840,私は時間遅くしても大丈夫！
9,池田夏子,2016/11/10 19:15,1478772900,遅くしても大丈夫です
10,藤間広也,2016/11/10 19:30,1478773800,大丈夫です


In [67]:
# 指定したカテゴリの単語のみを取得
def get_words(text):
    # 辞書の指定
    m = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd")
    words = []
    # ターゲットの指定
    target_categories = ["名詞", "動詞",  "形容詞", "副詞", "連体詞", "感動詞"]
    # 省きたい単語
    target_words = ["ー"]
    # 分かち書き
    node = m.parseToNode(text)
    while node:
        fields = node.feature.split(",")
        # "ー"を単語から省く
        if not node.surface in target_words:
            # 指定したカテゴリの単語をリストに追加
            if fields[0] in target_categories:
                words.append(node.surface)
        node = node.next

    words_str = map(str, words)
    return ",".join(words_str)

In [69]:
# 配列に変換
text_num = []
doc = []
head = ["（スタンプ）", "（画像）", "（ノート）", "（URL）", "（ファイル）"]

for i in range(len(com_info)):
    # （）で始まる文章の削除
    flag = True
    for j in head:
        if j in com_info.iat[i, 3]:
            flag = False
    
    if flag:
        text_num.append(i)
        doc.append(get_words(com_info.iat[i, 3]))

        
docs = np.array(doc)

#print(docs)
#print(len(docs))

pd.DataFrame(docs)

Unnamed: 0,0
0,"スマ,ホ,モバイルバッテリー,重ね,置く,とき,スマホ,方,面積,大きく,スマホ,上,置く"
1,"みんな,案,まとめ"
2,"バイト,長引き,そう,時間,遅く,する,10時,先,始め,て,もらい,申し訳ない"
3,"私,時間,遅く,し,大丈夫"
4,"遅く,し,大丈夫"
5,大丈夫
6,"今,終わっ,僕,遅く,大丈夫,皆,そろっ,始め"
7,"うち,回線,遅く,頻繁,映像,滞る,ん,音声,やっ,いい"
8,"どちら,いい,思う"
9,"申し訳ない,そろそろ,いけ"


In [70]:
# TFIDFで文章をベクトル化
np.set_printoptions(precision=2)
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
vecs = vectorizer.fit_transform(docs)
 
for k,v in sorted(vectorizer.vocabulary_.items(), key=lambda x:x[1]):
    print(k,v)
    
print(vecs.toarray())
#print(vecs)

100均 0
10時 1
11時 2
1人 3
2人 4
2限 5
3分 6
3限 7
50分 8
5限 9
6限 10
6階 11
7階 12
9階 13
bgm 14
id 15
int 16
iphone 17
line 18
ok 19
rysksw 20
skype 21
skypeid 22
w 23
あぁ 24
あげ 25
あたり 26
あっ 27
あと 28
ありがとう 29
ある 30
い 31
いい 32
いき 33
いく 34
いけ 35
いって 36
いない 37
いら 38
いる 39
うち 40
うるさく 41
おい 42
おけ 43
お願い 44
かな 45
かなり 46
ください 47
くる 48
くれ 49
くん 50
けん 51
ここ 52
こと 53
この 54
これ 55
ごめん 56
さ 57
さん 58
し 59
しよう 60
する 61
せまい 62
そう 63
その 64
それ 65
そろそろ 66
そろっ 67
たぶん 68
ちゃう 69
ちょっと 70
つけ 71
て 72
てる 73
でき 74
できる 75
できれ 76
とい 77
とき 78
とく 79
ところ 80
とりあえず 81
どう 82
どうでしょう 83
どうも 84
どこ 85
どこか 86
どちら 87
どっち 88
どれ 89
ない 90
なくし 91
なし 92
なべ 93
なり 94
なる 95
の 96
はい 97
ふむふむ 98
ほう 99
ほしい 100
ほとんど 101
まあ 102
まだ 103
まとめ 104
み 105
みなさん 106
みんな 107
もう 108
もうちょい 109
もの 110
もらい 111
ゃふくちけんでやる 112
やっ 113
やり 114
やる 115
れ 116
ん 117
アカウント 118
イメージ 119
オッケー 120
キープ 121
ギリギリ 122
グループ 123
ゴメン 124
サンクス 125
スカイプ 126
スマ 127
スマホ 128
スライド 129
スライドショー 130
ゼミ 131
タイミング 132
タイム 133
チーム名 134
テーマ 135
デザイン 136
デモ 137
バイト 138
ビデオ 139
プレゼン 140
ホ 141
モバイルバッ

In [82]:
# TFIDFでベクトル化された文章の類似度を計算

# cos類似度を計算
def cos_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

threshold = 0.15

#sim = np.zeros((len(docs), len(docs)))
for x in range(len(docs)):
    for y in range(len(docs)):
        if x != y and x < y:
            if not com_info.iat[text_num[x], 3] == com_info.iat[text_num[y], 3]:
                if cos_sim(vecs.toarray()[x], vecs.toarray()[y]) > threshold:
                    print(str(text_num[x]) +  "：" + com_info.iat[text_num[x], 3] + "=>" + str(text_num[y]) + "：" + com_info.iat[text_num[y], 3] )
                    print(cos_sim(vecs.toarray()[x], vecs.toarray()[y]))
                #sim[x, y] = cos_sim(vecs.toarray()[x], vecs.toarray()[y])

#print(len(sim))

#df = pd.DataFrame(sim)
#df.to_csv("similarity.csv", header=False, index=False)

6：バイトが長引きそうなので時間遅くするか10時から先始めててもらいたいです…申し訳ない…=>7：私は時間遅くしても大丈夫！
0.258283940448
6：バイトが長引きそうなので時間遅くするか10時から先始めててもらいたいです…申し訳ない…=>8：遅くしても大丈夫です
0.151543767131
6：バイトが長引きそうなので時間遅くするか10時から先始めててもらいたいです…申し訳ない…=>10：今終わって僕も遅くでも大丈夫なので皆そろってから始めましょうか
0.160776036277
6：バイトが長引きそうなので時間遅くするか10時から先始めててもらいたいです…申し訳ない…=>13：申し訳ないですそろそろいけます
0.155941361115
6：バイトが長引きそうなので時間遅くするか10時から先始めててもらいたいです…申し訳ない…=>15：始めますか
0.266451371392
6：バイトが長引きそうなので時間遅くするか10時から先始めててもらいたいです…申し訳ない…=>41：遅くなりました
0.154730916719
6：バイトが長引きそうなので時間遅くするか10時から先始めててもらいたいです…申し訳ない…=>121：BGMどうする？スライドショー開始すると流れ始めちゃうからなくしてもいいけど
0.155383988445
7：私は時間遅くしても大丈夫！=>8：遅くしても大丈夫です
0.681842151963
7：私は時間遅くしても大丈夫！=>9：大丈夫です
0.394246168547
7：私は時間遅くしても大丈夫！=>10：今終わって僕も遅くでも大丈夫なので皆そろってから始めましょうか
0.237585004014
7：私は時間遅くしても大丈夫！=>22：あぁ、大丈夫だね
0.226237438973
7：私は時間遅くしても大丈夫！=>41：遅くなりました
0.267158716275
7：私は時間遅くしても大丈夫！=>49：お願いします…
0.216554616822
7：私は時間遅くしても大丈夫！=>57：遅刻します
0.195903191301
7：私は時間遅くしても大丈夫！=>91：ごめん私も無理そう
0.272546470964
7：私は時間遅くしても大丈夫！=>108：任せても大丈夫ですか？
0.226237438973
7：私は

67：福地研たぶんうるさくしなければできる=>95：プレゼンだけで3分できる？
0.259845037156
67：福地研たぶんうるさくしなければできる=>105：改良するところとかあったら色々改良してください。BGMとかもいらないと判断したら外してください。原稿とかも考えたけどたぶん3分ギリギリです。
0.157752309988
67：福地研たぶんうるさくしなければできる=>123：たぶん
0.391547352529
67：福地研たぶんうるさくしなければできる=>130：お願いします
0.174813578733
69：他にできそうな研究室ない？=>83：とりあえずできたスライド資料送ります
0.153146577406
69：他にできそうな研究室ない？=>91：ごめん私も無理そう
0.17033101831
69：他にできそうな研究室ない？=>98：まあそうなるね
0.183928824118
71：と思う=>110：それでもいいと思う、1人でもいいと思うし
0.664260698141
71：と思う=>116：かなりギリギリだと思う
0.480888805947
71：と思う=>122：あってもいいと思う
0.558423722039
72：うちは人がいなければって感じだけど金曜結構人いるから=>73：誰か映像画像処理撮ってる人いない？
0.176109795277
72：うちは人がいなければって感じだけど金曜結構人いるから=>76：斉藤研に今2人います
0.160704127597
72：うちは人がいなければって感じだけど金曜結構人いるから=>84：明日の3限空いてる人いる？
0.328940409954
72：うちは人がいなければって感じだけど金曜結構人いるから=>109：明日話す人は二人以外？
0.213065530531
73：誰か映像画像処理撮ってる人いない？=>84：明日の3限空いてる人いる？
0.261450626716
74：で、どこでやる？=>97：でも動画なしってことはプレゼン3分やるってことだよね
0.192432965165
74：で、どこでやる？=>127：俺の前で誰か実演やる役やってくれ
0.202202445971
76：斉藤研に今2人います=>128：できれば残りの2人のどっちかにやってほしいんだけど…
0.18802046