In [1]:
import pandas as pd
import re
import MeCab
mecab = MeCab.Tagger('-Owakati')
from pathlib import Path

import numpy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans

In [2]:
df_raw = pd.read_csv("~/amiebot/Resources/amiebot_dataset/corpus.csv")
df_raw.head()

Unnamed: 0,page,file,url,title,text
0,0,,https://pol-japan.co.jp/products/help/v14/,MobiControl v14 Manual – MobiControl v14 Manual,カスタマイザーからこのタイトルを設定できます。
1,0,,https://pol-japan.co.jp/products/help/v14/,MobiControl v14 Manual – MobiControl v14 Manual,カスタマイザーからこのサブタイトルを設定できます。
2,0,,https://pol-japan.co.jp/products/help/v14/,MobiControl v14 Manual – MobiControl v14 Manual,MobiControl
3,0,,https://pol-japan.co.jp/products/help/v14/,MobiControl v14 Manual – MobiControl v14 Manual,の設定順序
4,0,,https://pol-japan.co.jp/products/help/v14/,MobiControl v14 Manual – MobiControl v14 Manual,MobiControlの設定順序


In [135]:
delim = '(こちら|そちら|あちら|ですね|ですよ|これ|それ|あれ|この|その|あの|ですか|です|でした|でしょうか|ます|ますか|だった)'
stop_words = 'こちら そちら あちら ですね ですよ これ それ あれ この その あの ですか です でした でしょうか ます ますか だった'
stop_words = stop_words.split()
start = '(これ|それ|あれ|この|その|あの|こちら|そちら|あちら)'
collector = []
for ids in page_ids:
    page_text = ' '.join(df_raw[df_raw.page == ids].text.values).split('。')
    for sentence in page_text:
        if len(sentence) > 100:
            for match in re.split(r'\d+\.', sentence):
                if len(match) > 100:
                    for items in [sep+x for x in re.split(r''+ delim +'', match)]:
                        if len(items) != len(sep) and len(items) > 100:
                            collector.append(items)
                              #  for multi_split in [sep+x for x in re.split(r''+ start +'', items)]: 
                              #      print(multi_split)
                        else:
                            collector.append(items)
                else:
                    collector.append(match)
        else:
            collector.append(sentence)

    break

In [138]:
def get_stop_word_ja():
    stop_word_file = Path("/home/iftekhar/amiebot/exp_amiecore/amieCore/amie_core/core/retriever/Tag_recommender/methods/stop_word_ja.txt")
    with open(stop_word_file, encoding='utf-8') as f:
        stop_word_list = f.read().splitlines()
    return stop_word_list

def single_character_remover(text):
    collector = []
    for items in text.split():
        items = items.strip(' ')
        if len(items) < 2:
            replaced = re.sub(r'[ぁ-んァ-ン]', '', items)
            replaced = re.sub(r'[A-Za-z]', '', replaced)
            replaced = re.sub(r'[0-9]', '', replaced)
            collector.append(replaced)
        else:
            collector.append(items)

    return ' '.join([temp.strip(' ') for temp in collector])

def token_collection(text):
    q = mecab.parse(text)
    q_parts = q.split()
    q_parts = [word for word in q_parts if not word in stop_words]
    return ' '.join([word for word in q_parts if not word in get_stop_word_ja()])

def cleaner(text):
    collector = []
    for items in text.split():
        cleaned = clean_text(items)
        cleaned = re.sub(r"\s+", '', cleaned)
        if cleaned is not '' or cleaned is not ' ':
            collector.append(clean_text(items))

    return ' '.join(collector)


def clean_text(text):
    replaced = text.replace("\\", "")
    replaced = replaced.replace("+", "")
    replaced = re.sub('_', '', replaced)
    replaced = re.sub('\W+', ' ', replaced)
    replaced = re.sub(r'￥', '', replaced)  # 【】の除去
    replaced = re.sub(r'．', '', replaced)  # ・ の除去
    replaced = re.sub(r'｣', '', replaced)  # （）の除去
    replaced = re.sub(r'｢', '', replaced)  # ［］の除去
    replaced = re.sub(r'～', '', replaced)  # メンションの除去
    replaced = re.sub(r'｜', '', replaced)  # URLの除去
    replaced = re.sub(r'＠', '', replaced)  # 全角空白の除去
    replaced = re.sub(r'？', '', replaced)  # 数字の除去
    replaced = re.sub(r'％', '', replaced)
    replaced = re.sub(r'＝', '', replaced)
    replaced = re.sub(r'！', '', replaced)
    replaced = re.sub(r'｝', '', replaced)
    replaced = re.sub(r'：', '', replaced)
    replaced = re.sub(r'－', '', replaced)
    replaced = re.sub(r'･', '', replaced)
    replaced = re.sub(r'ｔ', '', replaced)
    replaced = re.sub(r'ｋ', '', replaced)
    replaced = re.sub(r'ｄ', '', replaced)
    replaced = re.sub(r'\d+', '', replaced)

    return replaced


In [139]:
all_text = []
for items in collector:
    items = token_collection(items)
    items = single_character_remover(cleaner(items))
    all_text.append(items)

In [None]:
all_text

In [155]:
# create tfidf matrix from the processed sentences
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(all_text)

# cluster our tokenized sentences into 10 groups
kMeansCluster = KMeans(n_clusters=3)
kMeansCluster.fit(tfidf_matrix)
clusters = kMeansCluster.labels_.tolist()

In [156]:
sentences = map(lambda sentence: sentence.strip(), collector)
sentences = list(sentences)

In [157]:
sentences

['カスタマイザーからこのタイトルを設定できます',
 'カスタマイザーからこのサブタイトルを設定できます',
 'MobiControl の設定順序 MobiControlの設定順序 MobiControlの設定は次の順序で行います',
 '1.',
 '全ての 全ての端末OSが対象 オンプレミスのMobiControlサーバの場合のみに必要な設定事項 iOS端末またはmacOSコンピュータの場合は必須 下記のどれかの接続プロファイルの作成 AD_DS(Active Directory Domain Service)サーバとの間に、 AD_FS(Active Directory Federation Service)との間で、 Azure ADとの間に、 Windows10をWindows Modernとして管理する場合は必須',
 '1台の会社支給端末(iOS Android)を、複数の従業員で共用する場合は、必須',
 '',
 '全ての Apple、Google または Microsoftの管理者用アカウントの取得 下記の目的で、Apple社のサイトにサインインできる権限 Apple製品を で設定する Appストアからアプリを で購入する managed Google Playのアプリをアプリカタログを使って配布する場合は、下記の2つのアカウントのどちらかが必要',
 '但し、 Android端末をAndroid Plusのモードで設定する場合は、上記のアカウントは不要',
 'WNSを使って、Windows10 PCをリモート管理する場合',
 '企業や団体の組織に沿って、階層的に端末グループを作成 (組織名の入力が主な作業) 全ての端末OSが対象',
 '端末登録ルールの作成 端末を所定の端末グループに登録させるのが端末登録ルールの主目的',
 '端末ユーザの認証や端末名の型式などの設定オプションがある',
 '1つの端末グループに対し、複数の端末登録ルールの設定が可能',
 '全ての端末OSが対象',
 '端末OSによって、作成方法は異なる',
 '5. 端末の挙動に関する設定',
 '下記の項目の設定順序を変えても結構です',
 '全ての 構成プロファイルの作成 情報漏洩対策、WiFi、VPN、メールなどの設定 全ての端末OSが対象 「詳細設定」の設

In [159]:
####################################
# Organize Cluster Results
####################################

# Create new dictionary that tracks which cluster each sentence belongs to
# keeps copy of original sentences and stemmed sentences
# sentenceDictionary { idx: { text: String, stemmed: String, cluster: Number } }
sentenceDictionary = {}
for idx, sentence in enumerate(sentences):
	sentenceDictionary[idx] = {}
	sentenceDictionary[idx]['text'] = sentence
	sentenceDictionary[idx]['cluster'] = clusters[idx]
	sentenceDictionary[idx]['stemmed'] = all_text[idx]

In [175]:
# Create new dictionary that contains 1 entry for each cluster
# each key in dictionary will point to array of sentences, all of which belong to that cluster
# we attach the index to the sentenceDictionary object so we can recall the original sentence
clusterDictionary = {}
for key, sentence in sentenceDictionary.items():
	if sentence['cluster'] not in clusterDictionary:
		clusterDictionary[sentence['cluster']] = []
	clusterDictionary[sentence['cluster']].append(sentence['stemmed'])
	sentence['idx'] = len(clusterDictionary[sentence['cluster']]) - 1


In [176]:
clusterDictionary

{2: ['カスタマイザー タイトル 設定 でき',
  'カスタマイザー サブタイトル 設定 でき',
  'MobiControl  設定 順序 MobiControl  設定 順序 MobiControl  設定   順序  行い',
  '  端末 OS  対象 オンプレミス  MobiControl サーバ   必要  設定 事項 iOS 端末 または macOS コンピュータ   必須    接続 プロファイル  作成 AD DS Active Directory Domain Service サーバ   間  AD FS Active Directory Federation Service   間  Azure AD   間  Windows Windows Modern 管理  必須',
  '但し Android 端末 Android Plus  モード  設定   アカウント  不要',
  '端末 ユーザ  認証  端末  型式  設定 オプション  ある',
  '端末  挙動 に関する 設定',
  ' 項目  設定 順序 変え   結構',
  ' 構成 プロファイル  作成 情報 漏洩 対策 WiFi VPN メール  設定  端末 OS  対象 詳細 設定  設定  端末 OS  対象 端末 登録 ルール  ルール アプリカタログ ルール  作成  端末 OS  対象 アプリ  端末   配付  インストール Apple 製品 除く  端末 OS  対象 ドキュメント 画像 動画  端末   配付 iOS 端末  Android 端末  対象',
  ' 端末 OS  対象 端末 OS  設定 方法  インデックス  設定 クリック  説明 ページ  メニュー  現れ',
  '端末  設定 分野   構成 プロファイル  ルール  詳細 設定  あり',
  '  端末 初期 設定 必要  あり',
  '初期 設定 により OS レベル  MobiControl  管理 対象  なり',
  'iOS 端末  Android 端末 設定   AD DS または AD FS  認証 受ける 必須    ',
  ' Windows PC Windows Modern 設定 Google 管理 アカウント managed Googl

In [191]:
####################################
# Calculate Cosine Similarity Scores
####################################		

# For each cluster of sentences,
# Find the sentence with highet cosine similarity over all sentences in cluster
maxCosineScores = {}

for key, clusterSentences in clusterDictionary.items():
	maxCosineScores[key] = {}
	maxCosineScores[key]['score'] = 0
	clusterSentences = clusterSentences + ['Apple製品']
	tfidf_matrix = vectorizer.fit_transform(clusterSentences)
	cos_sim_matrix = cosine_similarity(tfidf_matrix)
	for idx, row in enumerate(cos_sim_matrix):
		sum = 0
		for col in row:
			sum += col
		if sum > maxCosineScores[key]['score']:
			maxCosineScores[key]['score'] = sum
			maxCosineScores[key]['idx'] = idx

####################################
# Construct Document Summary
####################################	

# for every cluster's max cosine score,
# find the corresponding original sentence
resultIndices = []
i = 0
for key, value in maxCosineScores.items():
	cluster = key
	idx = value['idx']
	stemmedSentence = clusterDictionary[cluster][idx]
	# key corresponds to the sentences index of the original document
	# we will use this key to sort our results in order of original document
	for key, value in sentenceDictionary.items():
		if value['cluster'] == cluster and value['idx'] == idx:
			resultIndices.append(key)

resultIndices.sort()

In [193]:
maxCosineScores

{2: {'score': 5.989190045089576, 'idx': 8},
 0: {'score': 7.161620776517083, 'idx': 59},
 1: {'score': 10.93592894863609, 'idx': 2}}

In [194]:
# Iterate over sentences and construct summary output
result = ''
for idx in resultIndices:
    result += sentences[idx] + ' '
    #print(sentences[idx])

print("\nSummary", result)


Summary 端末登録ルールの作成 端末を所定の端末グループに登録させるのが端末登録ルールの主目的 全ての 構成プロファイルの作成 情報漏洩対策、WiFi、VPN、メールなどの設定 全ての端末OSが対象 「詳細設定」の設定 全ての端末OSが対象 端末登録ルール以外のルール(アプリカタログ・ルールなど)の作成 全ての端末OSが対象 アプリの端末への配付とインストール Apple製品を除く全ての端末OSが対象 ドキュメント、画像、動画などの端末への配付 iOS端末とAndroid端末が対象 全てのコンテンツの形式を問わない アプリの配布 アプリカタログ MobiControl パッケージ 公開アプリ 社内限りアプリ ダウンロード元は社内サーバ iOS Android Plus Android Enterprise Windows PC Windows Embedded Linux オプション設定 


In [174]:
lines_for_predicting = ["ルールの作成"]
kMeansCluster.predict(vectorizer.transform(lines_for_predicting))


ValueError: Incorrect number of features. Got 1 features, expected 287