In [1]:
import pandas as pd
from pathlib import Path
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer 
import random
import io
import string
from sklearn.metrics.pairwise import cosine_similarity
import MeCab 
import numpy as np

In [2]:
mecab = MeCab.Tagger('-Owakati')

p = Path("/home/ifte/Downloads/mobicontrol_data/corpus_mobicontrol.csv")
df = pd.read_csv(p, header=0, usecols=["page", "text"])

In [3]:
# Keyword Matching
GREETING_INPUTS = ("hello", "hi", "greetings", "sup", "what's up","hey",)
GREETING_RESPONSES = ["hi", "hey", "*nods*", "hi there", "hello", "I am glad! You are talking to me"]

def greeting(sentence):
    """If user's input is a greeting, return a greeting response"""
    for word in sentence.split():
        if word.lower() in GREETING_INPUTS:
            return random.choice(GREETING_RESPONSES)

In [4]:
import re

def clean_text(text):
    replaced_text = re.sub(r'[【】]', ' ', text)       # 【】の除去
    replaced_text = re.sub(r'[・_]', '', replaced_text)       # ・ の除去
    replaced_text = re.sub(r'[（）()]', ' ', replaced_text)     # （）の除去
    replaced_text = re.sub(r'[［］\[\]]', ' ', replaced_text)   # ［］の除去
    replaced_text = re.sub(r'[@＠]\w+', '', replaced_text)  # メンションの除去
    replaced_text = re.sub(r'https?:\/\/.*?[\r\n ]', '', replaced_text)  # URLの除去
    replaced_text = re.sub(r'　', ' ', replaced_text)  # 全角空白の除去
    replaced_text = re.sub(r'\d+', '', replaced_text) # 数字の除去
    replaced_text = re.sub(r'[-/。,、.=]', ' ', replaced_text)
    return replaced_text

In [5]:
stop_words_ja = []
STOPWORD_FILE = Path("/home/ifte/amiebot_project/amie-HelpBot/amie_helpbot/" + '/assets/learning/stopword_ja.txt')
with open(STOPWORD_FILE, encoding='utf-8') as fr:
    stop_words_ja = fr.read().splitlines()

In [6]:
y = df[["page"]]
X = df["text"].apply(lambda x: mecab.parse(x).strip("\n"))
df['parsed'] = X 

In [7]:
classes = df.page.unique()
c_size = 100

result = pd.DataFrame()

for i in list(classes):
    arr_index = df[df.page == i].parsed.values
    data = ''.join(list(arr_index))
    
    all_data = clean_text(data)
    
    arr_words = np.array(all_data.split())
    #print(arr_words) 
    
    num = arr_words.shape[0]//c_size
    full = c_size * num
    rest = arr_words.shape[0] - full
    
    pad = np.zeros([c_size-rest], dtype=int)
    sc = np.concatenate((arr_words,pad))
    features = sc.reshape(num+1, c_size)
    
    df_v = pd.DataFrame(features)
    df_v["cls"] = i
    
    result = pd.concat([result, df_v]) 

    
#print(result)
#result.to_csv('processed.csv')


# Splitting into fixed length
#################################################
#MAX_LEN = 20
#train_data = train_data[train_data.Question.apply(lambda x: len(x.split())) < MAX_LEN]
#################################################
# data is cleaned 
#train_data.Question = train_data.Question.apply(lambda x: (re.sub('[^\u0620-\uFEF0\s]', '', x)).strip())
#################################################
#We have to pad sequences that are shorter than MAX_LEN
#train_data = pad_sequences(train_data, padding='post', truncating='post', maxlen=MAX_LEN)

# Tokenization is the process of reading the text we have and creating a vocabulary based on some parameters, 
# then using this vocabulary we define an index where every word in the vocabulary has its ID.
#################################################
#tokenizer = Tokenizer(num_words=NUM_WORDS, lower=False)
#tokenizer.fit_on_texts(train_data["Question"].values)
#train_data = tokenizer.texts_to_sequences(train_data["Question"].values)

In [8]:
Data_cols = result.iloc[:,:-1]
tog = Data_cols.apply(lambda x: ' '.join(x), axis=1)
#tog = result.iloc[:,:].apply(lambda x: ' '.join(x), axis=1)
sent = list(tog.values)

In [None]:
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM, RepeatVector
from keras.utils import np_utils

In [10]:
vectorizer = TfidfVectorizer(stop_words=stop_words_ja)
vectorizer.fit(sent)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)

In [11]:
# Read a question from the user
question = [input('Please enter a question: \n')]
question = vectorizer.transform(question)

# Rank all the questions using cosine similarity to the input question
rank = cosine_similarity(question, vectorizer.transform(sent))


Please enter a question: 
google


In [47]:
# Grab the top 5
top = np.argsort(rank, axis=-1).T[-5:]
#print(top)

# Print top 5
for item in range(len(top)):
    idx = top[item,0]
    
    # if the dataset file structure "Quesition | Answer" then use following line  
    #print(data['Answer'].iloc[item].values[0])
    print(idx,"=",tog.values[idx])
    print("\n ########## \n")

3641 = Mode で は だけ が 表示 さ れ これ を タップ し て も managed Google Play ストア に しか アクセス でき ませ ん managed Google Play ストア の URL は https : play google com work です managed Google Play ストア の アプリ は 管理 者 用 Google アカウント 保有 者 が 承認 し 掲示 し ます 詳しく は 業務 アプリ の 配布 インストール を 参照 ください Copyright © SOTI Inc Canada Translated by Penetrate of Limits Co Ltd Tokyo 管理 者 用 Google アカウント 端末 または 端末 ユーザ の Google アカウント G Suite アカウント または managed Google アカウント

 ########## 

4205 = の メールアドレス と パスワード を 入力 し ます 端末 登録 ルール の Android Management で 「 managed Google Account 」 を 選ぶ 前提 として 組織 団体 の AD を Google を 同期 さ せ て おき ます 従って Google は AD DS の アカウント を Google アカウント として 認識 でき ます 詳しく は Android Enterprise の Google アカウント を 参照 ください 図 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

 ########## 

3653 = 使っ て Android Enterprise 端末 を 管理 する 場合 に は 会社 団体 の AD DS の データベース を GCDS Google Cloud Directory Sync ツール を 使っ て Google の アカウント データベース と 連動 さ せ て おき ます 図 A 管理 者 用 Google アカウント と 端末 または 端末 ユーザ の Google アカウント の 関係 Android