In [13]:
import pandas as pd
from pathlib import Path
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer 
import random
import io
import string
from sklearn.metrics.pairwise import cosine_similarity
import MeCab 
import numpy as np

In [14]:
mecab = MeCab.Tagger('-Owakati')

#p = Path("/home/ifte/amiebot_project/amie-HelpBot/mobicontrol_data/corpus_mobicontrol.csv")
df = pd.read_csv("/home/ifte/amiebot_project/amie-HelpBot/mobicontrol_data/Train_Test_Data/japanese/corpus_ver14.csv", 
                 header=0, usecols=["page", "text"])

In [15]:
# Keyword Matching
GREETING_INPUTS = ("hello", "hi", "greetings", "sup", "what's up","hey",)
GREETING_RESPONSES = ["hi", "hey", "*nods*", "hi there", "hello", "I am glad! You are talking to me"]

def greeting(sentence):
    """If user's input is a greeting, return a greeting response"""
    for word in sentence.split():
        if word.lower() in GREETING_INPUTS:
            return random.choice(GREETING_RESPONSES)

In [16]:
import re

def clean_text(text):
    replaced_text = re.sub(r'[【】]', ' ', text)       # 【】の除去
    replaced_text = re.sub(r'[・_]', '', replaced_text)       # ・ の除去
    replaced_text = re.sub(r'[（）()]', ' ', replaced_text)     # （）の除去
    replaced_text = re.sub(r'[［］\[\]]', ' ', replaced_text)   # ［］の除去
    replaced_text = re.sub(r'[@＠]\w+', '', replaced_text)  # メンションの除去
    replaced_text = re.sub(r'https?:\/\/.*?[\r\n ]', '', replaced_text)  # URLの除去
    replaced_text = re.sub(r'　', ' ', replaced_text)  # 全角空白の除去
    replaced_text = re.sub(r'\d+', '', replaced_text) # 数字の除去
    replaced_text = re.sub(r'[-/。,、.=]', ' ', replaced_text)
    return replaced_text

In [17]:
stop_words_ja = []
STOPWORD_FILE = Path("/home/ifte/amiebot_project/amie-HelpBot/amie_helpbot/" + '/assets/learning/stopword_ja.txt')
with open(STOPWORD_FILE, encoding='utf-8') as fr:
    stop_words_ja = fr.read().splitlines()

In [18]:
y = df[["page"]]
X = df["text"].apply(lambda x: mecab.parse(x).strip("\n"))
df['parsed'] = X 

In [19]:
classes = df.page.unique()
c_size = 100

result = pd.DataFrame()

for i in list(classes):
    arr_index = df[df.page == i].parsed.values
    data = ''.join(list(arr_index))
    
    all_data = clean_text(data)
    
    arr_words = np.array(all_data.split())
    #print(arr_words) 
    
    num = arr_words.shape[0]//c_size
    full = c_size * num
    rest = arr_words.shape[0] - full
    
    pad = np.zeros([c_size-rest], dtype=int)
    sc = np.concatenate((arr_words,pad))
    features = sc.reshape(num+1, c_size)
    
    df_v = pd.DataFrame(features)
    df_v["cls"] = i
    
    result = pd.concat([result, df_v]) 

    
#print(result)
#result.to_csv('processed.csv')

In [20]:
Data_cols = result.iloc[:,:-1]
tog = Data_cols.apply(lambda x: ' '.join(x), axis=1)
tog.to_csv("tog.csv")
sent = list(tog.values)

  This is separate from the ipykernel package so we can avoid doing imports until


In [39]:
len(sent)


7923

In [29]:
vectorizer = TfidfVectorizer(ngram_range=(1, 1), stop_words=stop_words_ja)
vectorizer.fit(sent)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True,
                stop_words=['あそこ', 'あたり', 'あちら', 'あっち', 'あと', 'あな', 'あなた', 'あれ',
                            'いくつ', 'いつ', 'いま', 'いや', 'いろいろ', 'うち', 'おおまか',
                            'おまえ', 'おれ', 'がい', 'かく', 'かたち', 'かやの', 'から', 'がら',
                            'きた', 'くせ', 'ここ', 'こっち', 'こと', 'ごと', 'こちら', ...],
                strip_accents=None, sublinear_tf=False,
                token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
                vocabulary=None)

In [33]:
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(sent)
feature_names = vectorizer.get_feature_names()
dense = vectors.todense()
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names)

In [36]:
len(feature_names)

5825

In [37]:
vectorizer = TfidfVectorizer(stop_words=stop_words_ja)
vectors = vectorizer.fit_transform(sent)
feature_names = vectorizer.get_feature_names()
len(feature_names)

5750

In [30]:
# Read a question from the user
question = [input('Please enter a question: \n')]
question = vectorizer.transform(question)

# Rank all the questions using cosine similarity to the input question
rank = cosine_similarity(question, vectorizer.transform(sent))


Please enter a question: 
vpn


In [31]:
# Grab the top 5
top = np.argsort(rank, axis=-1).T[-5:]
#print(top)

# Print top 5
for item in range(len(top)):
    idx = top[item,0]
    
    # if the dataset file structure "Quesition | Answer" then use following line  
    #print(data['Answer'].iloc[item].values[0])
    print("PageID: ",result.iloc[idx,-1],"idx",idx,"=",tog.values[idx])
    print("\n ########## \n")

PageID:  283 idx 5330 = し た 場合 パスワード を 入力 端末 識別 証明 書 右端 を クリック 認証 方式 に 「 証明 書 」 を 選択 し た 場合 に 入力 オンデマンド VPN を 有効 に する オンデマンド VPN を 可能 に する 場合 に チェック を 入れる 統合 さ れ た パラメータ 名 右端 を クリック 「 常に 接続 」 「 一 度 も 接続 し ない 」 「 必要 に 応じ て 接続 」 から 選択 項目 名 説 明 VPN 名 VPN の 名前 VPN サーバ IP アドレス VPN サーバ の ホスト 名 または IP アドレス ドメイン VPN サーバ の ドメイン

 ########## 

PageID:  194 idx 3615 = 参照 ください 図 の 中 の 「 VPN 」 を プルダウン する と 図 の よう に つ の VPN ベンダー の 名前 が 表示 さ れ ます 対応 し て いる VPN ベンダー を 選択 し ます 図 図 Pulse Secure の 設定 画面 VPN 名 VPN へ の アクセス 権 に対する アカウント 名 を 任意 に 命名 スペース と 特殊 文字 は 使用 不可 VPN サーバ の ホスト 名 IP アドレス VPN サーバ の ホスト 名 もしくは IP アドレス を 入力 ユーザ 名 VPN サーバ に ログイン する ため の ユーザ 名 AD など の LDAP の 下記

 ########## 

PageID:  282 idx 5242 = 右端 を クリック 認証 方式 に 「 証明 書 」 を 選択 し た 場合 に 入力 オンデマンド VPN を 有効 に する オンデマンド VPN を 可能 に する 場合 に チェック を 入れる 統合 さ れ た パラメータ 名 上 欄 に チェック を 入れ た 場合 この 欄 の 右端 を クリック 「 常に 接続 」 「 一 度 も 接続 し ない 」 「 必要 に 応じ て 接続 」 から 選択 項目 名 説 明 VPN 名 VPN の 名前 VPN サーバ IP アドレス VPN サーバ の ホスト 名 または IP アドレス ドメイン VPN サーバ の

 ##

In [43]:
from wordcloud import WordCloud

# Get TF-IDF weights
weights = vectors[sent[0]]
weights = [(dictionary[pair[0]], pair[1]) for pair in weights]

# Initialize the word cloud
wc = WordCloud(
    background_color="white",
    max_words=2000,
    width = 1024,
    height = 720,
    stopwords=stop_words_ja
)

# Generate the cloud
wc.generate_from_frequencies(weights)

# Save the could to a file
wc.to_file("word_cloud.png")

TypeError: 'TfidfVectorizer' object is not subscriptable