<a href="https://colab.research.google.com/github/elmox0818/ai_learning/blob/master/sentence_similarity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 文章の類似度
Doc2Vecは、任意の長さの文書をベクトル化する技術です。  
この技術を使って、文書やテキストの分散表現を獲得し、類似度を計算します。

# データ前処理

## read csv, output csv

In [9]:
import pandas as pd

df = pd.read_csv("qa.csv")
df["Problem"].to_csv("problem.csv")

  after removing the cwd from sys.path.


In [0]:
import csv
df = pd.read_csv("problem.csv")
with open("problem.csv", "r") as f:
  reader = csv.reader(f)

  for row in reader:
    with open("./problem.txt", "a") as fa:
      fa.write(row[1]+"\n")
  

In [25]:
!head -n 3 problem.txt

リンク部品の柔剛サブアセンブリがうまく動作しない
干渉チェック時に、「接触」のはずなのに、「干渉」と認識される
ツリーに「ルールベース」ができた


In [32]:
# 除去する部分を確認
#全ての行数を出力するよう設定
pd.set_option('display.max_rows', None)
df.iloc[:50,1:2]

Unnamed: 0,トップアッシに新規サブアッシを追加後、CGR置換すると追加したアセンブリが表示されなくなる
0,リンク部品の柔剛サブアセンブリがうまく動作しない
1,干渉チェック時に、「接触」のはずなのに、「干渉」と認識される
2,ツリーに「ルールベース」ができた
3,抜き勾配のついた形状をモデリングしたい
4,複数セクションサーフェスで面が作成できない
5,あるモデルで抽出時に、ツリーアイコンに「F」マークがつく
6,海外取引先からCATIAデータが送られてきたがバージョンが異なるので読み込むことができない
7,展開形状にて寸法指示のある部品の展開形状の作成方法
8,グリップの形状にてスイープ面にエッジが立つ
9,ボディをコピーすると、貼り付けエラーが発生する


In [0]:
import re
import pickle
from janome.tokenizer import Tokenizer

with open("problem.txt", mode="r", encoding="utf-8") as f:  # ファイルの読み込み
    qa_original = f.read()

qa = re.sub("《[^》]+》", "", qa_original) # ルビの削除
qa = re.sub("［[^］]+］", "", qa) # 読みの注意の削除
qa = re.sub("[｜ 　「」]", "", qa) # | と全角半角スペース、「」と改行の削除
qa = re.sub("-+", "", qa)

seperator = "\n"  # 。をセパレータに指定
qa_list = qa.split(seperator)  # セパレーターを使って文章をリストに分割する
qa_list.pop() # 最後の要素は空の文字列になるので、削除
# qa_list = [x+seperator for x in qa_list]  # 文章の最後に。を追加
        
t = Tokenizer()

qa_words = []
for sentence in qa_list:
    qa_words.append(t.tokenize(sentence, wakati=True))   # 文章ごとに単語に分割し、リストに格納
    
with open('qa_words.pickle', mode='wb') as f:  # pickleに保存
    pickle.dump(qa_words, f)

## データの読み込み
以前に作成したデータの読み込みを行います。

In [0]:
import pickle

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words)

## doc2vecによる学習
doc2vecを使って学習を行い、モデルを作成します。

In [0]:
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument

tagged_documents = []
for i, sentence in enumerate(wagahai_words):
    tagged_documents.append(TaggedDocument(sentence, [i]))  # TaggedDocument型のオブジェクトをリストに格納

# size：分散表現の次元数
# window：対象単語を中心とした前後の単語数
# min_count：学習に使う単語の最低出現回数
# epochs:epochs数
# dm：学習モデル=DBOW（デフォルトはdm=1で、学習モデルはDM）
model = Doc2Vec(documents=tagged_documents,
                vector_size=100,
                min_count=5,
                window=5,
                epochs=20,
                dm=0)

## 文章のベクトル
最初の文章のベクトルを表示します。

In [0]:
print(wagahai_words[0])  # 最初の文章を表示
print(model.docvecs[0])  # 最初の文章のベクトル

## 文章の類似度
最も類似度の高い文章のIDと類似度を表示します。

In [0]:
print(model.docvecs.most_similar(0))

In [0]:
for p in model.docvecs.most_similar(0):
    print(wagahai_words[p[0]])

類似度の高い文章が表示されました。  
doc2vecにより、文書全体の類似度を計算することも可能です。

## 課題:
wagahai_wordsの中の適当な文章と、類似度の高い文章を表示してみましょう。