In [2]:
import re
import pandas as pd
import numpy as np
from scipy.sparse.linalg import norm
from sklearn.model_selection import train_test_split

In [3]:
from janome.tokenizer import Tokenizer
import collections

In [4]:
def remove_URL(text):
    cleaned = re.sub(r"(https?|ftp)(:\/\/[-_\.!~*\'()a-zA-Z0-9;\/?:\@&=\+\$,%#]+)", "" ,str(text))
    
    return cleaned

In [5]:
def remove_bracket(text):
    cleaned = re.sub("(?<=【).*?(?=】)", "" ,str(text))

    return cleaned 

In [6]:
def remove_bracket2(text):
    cleaned = re.sub("(?<=\<).*?(?=\>)", "" ,str(text))

    return cleaned 

In [7]:
def remove_bracket3(text):
    cleaned = re.sub("(?<=\{).*?(?=\})", "" ,str(text))

    return cleaned 

In [8]:
def remove_emoji(text):
    cleaned = re.sub("(?<=:).*?(?=:)", "" ,str(text))

    return cleaned 

In [9]:
def normalize_number(text):
    replaced_text = re.sub(r'\d+', '0', text)
    return replaced_text

In [10]:
def remove_space(text):
    replaced_text = re.sub(r'\s+', '', text)
    return replaced_text

In [11]:
def normal_char_pickup(text):
    cleaned = re.findall('[ーあ-んア-ン一-鿐\s]', text)
    
    return cleaned

In [12]:
def text_cleaning(text):
    tmp = remove_URL(text)
    tmp = remove_bracket(tmp)
    tmp = remove_bracket2(tmp)
    tmp = remove_emoji(tmp)
    tmp = normalize_number(tmp)
    tmp = normal_char_pickup(tmp)
    tmp = ','.join(tmp)
    tmp = remove_space(tmp)
    cleaned = tmp.replace(",", "")
    return cleaned

###### 【問題1】NLP復習
今回はslack分析を行います。
使用するファイルは以下の５つです。  
【問】以下のように分析してください  
データを観察  
全単語数をカウントする  
全単語の種類をカウントする  

In [13]:
# jsonを扱うライブラリ
import json

f = open('slack_data/2019-01-ai.json', 'r')
# jsonをdict型に変換
sample_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(sample_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [14]:
messages = sample_dict_from_json['messages']

In [15]:
messages[0]

{'client_msg_id': '6f87c23f-cead-4eb0-b814-89adc7173025',
 'type': 'message',
 'text': '腹痛のため遅れます。',
 'user': 'UEG9UR1AM',
 'ts': '1554425975.002100',
 'reactions': [{'name': 'annoying_dog', 'users': ['U9SL33S1M'], 'count': 1}]}

In [16]:
len(messages)

100

In [17]:
text = []
for i in range(len(messages)):
    text += messages[i]['text']

In [18]:
text_cleaned = text_cleaning(text)

In [19]:
text_cleaned

'腹痛のため遅れます時間ほどおくれますすいません分程遅れますだいごーやりおったすいません昼ぐらいにいきますすいません遅れますすいません今起きました分くらい遅れるかもしれません化するとメモリエラーになりますね皆さんは問題ないです現在分散表現として注目を浴びているのがですはデバイスでは年のと以降常時の起動ワードによってハンズフリーで使えるようになったそのためスリープ時も含めて周囲の音を聞き取る必要がありプライバシーの問題が懸念されたがは段階の措置を講じている川上問題これにします'

In [20]:
words = []
t = Tokenizer()
for token in t.tokenize(text_cleaned):
    if token.part_of_speech.split(',')[0] == "名詞" or token.part_of_speech.split(',')[0] == "動詞" or token.part_of_speech.split(',')[0] == "形容詞":
        words.append(token.surface)

In [21]:
print("2019_AI 全単語数: ", len(words))

2019_AI 全単語数:  65


In [22]:
c = collections.Counter(words)

In [23]:
print(c)

Counter({'遅れ': 3, '問題': 3, 'ため': 2, 'いる': 2, 'の': 2, '腹痛': 1, '時間': 1, 'おくれ': 1, '程': 1, 'だい': 1, 'ー': 1, 'やり': 1, 'おっ': 1, '昼': 1, 'いき': 1, '起き': 1, '分': 1, '遅れる': 1, 'しれ': 1, '化': 1, 'する': 1, 'メモリ': 1, 'エラー': 1, 'なり': 1, '皆さん': 1, '現在': 1, '分散': 1, '表現': 1, '注目': 1, '浴び': 1, 'デバイス': 1, '年': 1, '以降': 1, '常時': 1, '起動': 1, 'ワード': 1, 'ハンズフリー': 1, '使える': 1, 'よう': 1, 'なっ': 1, 'スリープ': 1, '時': 1, '含め': 1, '周囲': 1, '音': 1, '聞き取る': 1, '必要': 1, 'あり': 1, 'プライバシー': 1, '懸念': 1, 'さ': 1, 'れ': 1, '段階': 1, '措置': 1, '講じ': 1, '川上': 1, 'これ': 1, 'し': 1})


In [24]:
f = open('slack_data/global.json', 'r')
# jsonをdict型に変換
global_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(global_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [25]:
messages = global_dict_from_json['messages']

In [26]:
text = []
for i in range(len(messages)):
    text += messages[i]['text']

In [27]:
text_cleaned = text_cleaning(text)

In [28]:
text_cleaned

'逆境の地アフリカ全土に持続可能な教育と雇用の機会を循環させる若者の自立支援エコシステムをつくりたいんですエコシステムの詳細は写真をご覧くださいいただいたご支援はルワンダの若者に未来への希望とチャンスに変えて届けます私がカラダを張って創業期と同じように学び合うコミュニティを届けてきます既に本プロジェクトは成立していますが実現可能性を高めスピードを加速するためにはさらなるご支援を賜りたくお願い申し上げます何卒よろしくお願いしますルワンダ人メンターくんからメッセージを預かりました先日は皆さまのあたたかいご支援をいただいたおかげで当初の目標金額万円は達成いたしました本当にありがとうございます翻訳画像作成システム改良のためを万円に設定して翻訳スタッフやデザイナーエンジニアの人件費を補完する方針を決めました今までのルワンダ展開は実験的に行ってきたため教材の英語翻訳は以下のような課題が残っていますアマチュアによる簡易翻訳のまま翻訳当時から現在アップデートされている改訂ボリュームアップが反映されていない教材内の画像教材のログイン画面や各種機能などが日本語表示のまま現在の英語カリキュラムで卒業レベルまで達し日本の受講生に向けて教えるメンターとして勤務するのは可能であることが証明されましたが今後ルワンダに限らず各国展開を目指す上で良質な教材を提示するため教材のリニューアルに新たな力が必要ですに向けてリニューアルされた募集ページが近日中に公開されますページリニューアルに先駆けてくんからクラウドフンディング支援者の皆さまへメッセージを預かりました宜しければご覧ください目標金額を達成しましたみなさま本当にありがとうございます本日目標金額万円のご支援を達成いたしましたクラウドフンディング開始から日目みなさまの多大なるご支援のおかげで思いがけないスピードで達成することができましたご支援いただいた全ての方へ感謝の想いを述べさせていただきます本当にありがとうございます応援くださっている方の想いを受け止めルワンダそしてアフリカ全土へ教育雇用機会を創出するぞのポーズです当初の目標金額は万円でしたがプロジェクト遂行に本来必要な資金は万円です万円は自己負担する予定でおりましたが本来の必要資金をカバーしながらさらなるアフリカ事業展開の加速を実現することを目指し新たに目標の上方修正をいたします金額の詳細内訳に

In [29]:
words = []
t = Tokenizer()
for token in t.tokenize(text_cleaned):
    if token.part_of_speech.split(',')[0] == "名詞" or token.part_of_speech.split(',')[0] == "動詞" or token.part_of_speech.split(',')[0] == "形容詞":
        words.append(token.surface)

In [30]:
print("Globa全単語数: ", len(words))

Globa全単語数:  1198


In [31]:
words

['逆境',
 '地',
 'アフリカ',
 '全土',
 '持続',
 '可能',
 '教育',
 '雇用',
 '機会',
 '循環',
 'さ',
 'せる',
 '若者',
 '自立',
 '支援',
 'エコ',
 'システム',
 'つくり',
 'ん',
 'エコ',
 'システム',
 '詳細',
 '写真',
 'ご覧',
 'ください',
 'いただい',
 '支援',
 'ルワンダ',
 '若者',
 '未来',
 '希望',
 'チャンス',
 '変え',
 '届け',
 '私',
 'カラダ',
 '張っ',
 '創業',
 '期',
 'よう',
 '学び',
 '合う',
 'コミュニティ',
 '届け',
 'き',
 'プロジェクト',
 '成立',
 'し',
 'い',
 '実現',
 '可能',
 '性',
 '高め',
 'スピード',
 '加速',
 'する',
 'ため',
 '支援',
 '賜り',
 'お願い',
 '申し上げ',
 'お願い',
 'し',
 'ルワンダ',
 '人',
 'メンター',
 'くん',
 'メッセージ',
 '預かり',
 '先日',
 '皆さま',
 'あたたかい',
 '支援',
 'いただい',
 'おかげ',
 '当初',
 '目標',
 '金額',
 '万',
 '円',
 '達成',
 'いたし',
 '翻訳',
 '画像',
 '作成',
 'システム',
 '改良',
 'ため',
 '万',
 '円',
 '設定',
 'し',
 '翻訳',
 'スタッフ',
 'デザイナー',
 'エンジニア',
 '人件',
 '費',
 '補完',
 'する',
 '方針',
 '決め',
 '今',
 'ルワンダ',
 '展開',
 '実験',
 '的',
 '行っ',
 'き',
 'ため',
 '教材',
 '英語',
 '翻訳',
 '以下',
 'よう',
 '課題',
 '残っ',
 'い',
 'アマチュア',
 '簡易',
 '翻訳',
 'まま',
 '翻訳',
 '当時',
 '現在',
 'アップデート',
 'さ',
 'れ',
 'いる',
 '改訂',
 'ボリューム',
 'アップ',
 '反映',
 'さ',
 'れ',
 'い',
 '教材'

In [32]:
c = collections.Counter(words)

In [33]:
print(c)

Counter({'し': 40, 'ルワンダ': 30, 'アフリカ': 22, '教育': 17, '支援': 16, 'する': 16, '人': 16, '円': 15, 'い': 13, 'こと': 12, 'さ': 11, 'ため': 10, '万': 10, '全土': 9, 'プロジェクト': 9, 'いる': 9, 'ビジネス': 9, '可能': 8, '雇用': 8, 'システム': 8, '希望': 8, 'れ': 8, '機会': 7, 'エコ': 7, '私': 7, 'よう': 7, '費': 7, '的': 7, '必要': 7, '方': 7, '現地': 7, '国': 7, '持続': 6, '若者': 6, '自立': 6, '学び': 6, 'き': 6, '実現': 6, '翻訳': 6, '展開': 6, 'の': 6, '資金': 6, 'おり': 6, '活動': 6, '仕事': 6, 'ください': 5, 'メンター': 5, '目標': 5, '金額': 5, '達成': 5, 'いたし': 5, 'エンジニア': 5, '教材': 5, '卒業': 5, '年': 5, '仕組み': 5, 'せる': 4, 'ご覧': 4, 'いただい': 4, '未来': 4, 'お願い': 4, '人件': 4, '今': 4, '課題': 4, '日本': 4, 'クラウドフンディング': 4, 'みなさま': 4, '事業': 4, '協力': 4, 'いただけ': 4, '提供': 4, '世界': 4, 'なり': 4, 'なる': 4, '卒業生': 4, '逆境': 3, '届け': 3, '性': 3, 'スピード': 3, '内': 3, '受講': 3, '向け': 3, '今後': 3, 'リニューアル': 3, 'ページ': 3, '中': 3, 'でき': 3, '創出': 3, 'たくさん': 3, '年月': 3, '渡航': 3, 'コース': 3, 'られる': 3, 'づくり': 3, '実証': 3, '広げ': 3, '嬉しい': 3, '新しい': 3, '発展': 3, 'たち': 3, 'スクール': 3, '誕生': 3, '関心': 3, '国際': 3, '点': 3, 

###### 【問題2】WordCloud
ワードクラウドとは出現頻度などに応じて、
単語を空間上にプロットする手法です。  
【問】
今回のslackデータからワードクラウドを作成してください。

In [34]:
from wordcloud import WordCloud

In [35]:
f = open('slack_data/2019-01-ai.json', 'r')
# jsonをdict型に変換
sample_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(sample_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [36]:
messages = sample_dict_from_json['messages']

In [37]:
text = []
for i in range(len(messages)):
    text += messages[i]['text']

In [38]:
text_cleaned = text_cleaning(text)

In [39]:
words = []
t = Tokenizer()
for token in t.tokenize(text_cleaned):
    if token.part_of_speech.split(',')[0] == "名詞" or token.part_of_speech.split(',')[0] == "動詞" or token.part_of_speech.split(',')[0] == "形容詞":
        words.append(token.surface)

In [40]:
string = ''
for i in range(len(words)):
    word = "{} ".format(words[i])
    string += word

In [41]:
string

'腹痛 ため 遅れ 時間 おくれ 程 遅れ だい ー やり おっ 昼 いき 遅れ 起き 分 遅れる しれ 化 する メモリ エラー なり 皆さん 問題 現在 分散 表現 注目 浴び いる の デバイス 年 の 以降 常時 起動 ワード ハンズフリー 使える よう なっ ため スリープ 時 含め 周囲 音 聞き取る 必要 あり プライバシー 問題 懸念 さ れ 段階 措置 講じ いる 川上 問題 これ し '

In [42]:
wordcloud = WordCloud(background_color="white",
    font_path="/System/Library/Fonts/ヒラギノ明朝 ProN.ttc",
    width=800,height=600).generate(string)

In [43]:
wordcloud.to_file("./wordcloud_sample.png")

<wordcloud.wordcloud.WordCloud at 0x1a170fe8d0>

<img src="./wordcloud_sample.png">

###### 【問題3】あの人はどんな人？
【問】
誰がどのような単語を使っているかを分析してください。

In [44]:
f = open('slack_data/global.json', 'r')
# jsonをdict型に変換
global_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(global_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [45]:
message1 = global_dict_from_json['messages']

In [46]:
f = open('slack_data/2019-01-ai.json', 'r')
# jsonをdict型に変換
sample_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(sample_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [47]:
message2 = sample_dict_from_json['messages']

In [48]:
f = open('slack_data/random.json', 'r')
# jsonをdict型に変換
random_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(random_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [49]:
message3 = random_dict_from_json['messages']

In [50]:
message = []
message += message1
message += message2
message += message3

In [51]:
message[1]

{'user': 'UHLJFK2EQ',
 'type': 'message',
 'subtype': 'channel_join',
 'ts': '1554296755.000400',
 'text': '<@UHLJFK2EQ> has joined the channel'}

In [52]:
f = open('slack_data/users_dict.json', 'r')
# jsonをdict型に変換
users = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(users.keys())

dict_keys(['U0CGPM9T2', 'U5WEHDZRC', 'U71KZN0HL', 'U7MLFT82K', 'U9SL33S1M', 'UCFCLSRCK', 'UEG9UR1AM', 'UEHD8A6H3', 'UEJ7TBV0R', 'UEJA5HS3G', 'UEVMB7YDN', 'UF1A4QA10', 'UF1KE2X8B', 'UG0P51PNC'])


In [53]:
users

{'U0CGPM9T2': 'Hiroyoshi Noro',
 'U5WEHDZRC': 'mentor_tatsuya_suzuki',
 'U71KZN0HL': 'mentor_tetsuro_nishio',
 'U7MLFT82K': 'mentor Shun Nakamura',
 'U9SL33S1M': 'yoshiko_endo',
 'UCFCLSRCK': 'mano_hironobu',
 'UEG9UR1AM': 'noritsugu_yamada',
 'UEHD8A6H3': 'yasunori_kimura',
 'UEJ7TBV0R': 'Kazuki_Egusa',
 'UEJA5HS3G': 'moriyasu_komiya',
 'UEVMB7YDN': 'Yohei Kawakami',
 'UF1A4QA10': 'naoki_sasaki',
 'UF1KE2X8B': 'Ayako Nonaka',
 'UG0P51PNC': 'kiyoshige.goto'}

In [54]:
def pick_user_comment(user, message):
    text = []
    for i in range(len(message)):
        if message[i]['user'] == user:
            text += message[i]['text']           
    
    text_cleaned = text_cleaning(text)
    
    t = Tokenizer()
    user_post_string = ''
    for token in t.tokenize(text_cleaned):
        if token.part_of_speech.split(',')[0] == "名詞" or token.part_of_speech.split(',')[0] == "動詞" or token.part_of_speech.split(',')[0] == "形容詞":
            user_post_string +="{} ".format(token.surface)

    other_post_string = ''
    for token in t.tokenize(text_cleaned):
        if token.part_of_speech.split(',')[0] == "名詞" or token.part_of_speech.split(',')[0] == "動詞" or token.part_of_speech.split(',')[0] == "形容詞":
            other_post_string +="{} ".format(token.surface)
            
    return user_post_string, 

In [55]:
words =  pick_user_comment('UEJA5HS3G', message)

In [56]:
print("Globa全単語数: ", len(words))
print("単語リスト¥n", collections.Counter(words))

Globa全単語数:  1
単語リスト¥n Counter({'時間 おくれ 論文 変換 し くれる やつ ここ 気 つけ ください 下 修正 済み おくれ 漫画 化 動画 漫画 変換 する サービス キー フレーム 抽出 スタイル 変換 分 おくれ ハロワ よっ き ため 昼 いき 分 遅れる しれ ': 1})


###### 【問題4】誰が一番かまってもらってる？
【問】
誰が一番リアクションをもらっているかを分析してください。

In [57]:
f = open('slack_data/global.json', 'r')
# jsonをdict型に変換
global_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(global_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [58]:
message1 = global_dict_from_json['messages']

In [59]:
f = open('slack_data/2019-01-ai.json', 'r')
# jsonをdict型に変換
sample_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(sample_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [60]:
message2 = sample_dict_from_json['messages']

In [61]:
f = open('slack_data/random.json', 'r')
# jsonをdict型に変換
random_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(random_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [62]:
message3 = random_dict_from_json['messages']

In [63]:
message = []
message += message1
message += message2
message += message3

In [64]:
message[0]['user']

'UHNEF4ZEZ'

In [73]:
user_list = np.array([])
max_count = np.array([])
for i, word in enumerate(message):
    reaction = message[i].get('reactions')
    if np.any(user_list == message[i]['user']) == False:
        user = message[i]['user']
        user_list = np.append(user_list, user)
        max_count = np.append(max_count, 0)
    
    if reaction is not None:
        count = reaction[0].get('count')
        index = np.where(user_list == user)[0]
        max_count[index] += count

print("User list : \n", user_list)
print("Reaction count : \n", max_count)

user_id = user_list[np.argmax(max_count)]
print("Most popular : \n", users.get(user_id))

User list : 
 ['UHNEF4ZEZ' 'UHLJFK2EQ' 'UHMKNH4EB' 'UHLRDSTLN' 'UHGE8NQNB' 'UHCSZQ74L'
 'UHD8EJ0T1' 'UHBM8JXHA' 'UHADNCV53' 'U0CGPM9T2' 'U6ZKG5WE5' 'UH7MSCF50'
 'UGY60HP25' 'UH0S62CDN' 'UH21RHS7N' 'UH2SDBCVC' 'UGY65CTK9' 'UEG9UR1AM'
 'UEVMB7YDN' 'UEJA5HS3G' 'UEJ7TBV0R' 'U9SL33S1M' 'UEHD8A6H3' 'UF1KE2X8B'
 'UF1A4QA10' 'UCFCLSRCK' 'U7MLFT82K' 'UG0P51PNC' 'UGJTSGW1H' 'U71KZN0HL'
 'UAZFAASDD' 'U7LGQM7E3' 'U1LV45MSA' 'U50GSDZ4N' 'U394LRC8G' 'UBE02NMJ5'
 'U6PTHUQ5D' 'U9WDT23C3']
Reaction count : 
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  3.  0.  4.  0.  0.  4.  5.  1.
  1.  0.  4.  0.  0.  4.  9.  4. 30.  1.  0.  0. 13.  0.  7.  4.  4.  2.
  5. 13.]
Most popular : 
 mentor Shun Nakamura


  """


中村さんのコメントへのリアクションが一番多かったです。

###### 【問題5】Mr.Noro or Not Mr.Noro
【問】
ある発言に対して、
野呂さんの発言か別の人の発言かを予測するモデルを作成してください。
2019年4月5日13:00以降がテストデータになります。
下記のデータセットも参考にして構いません。

In [57]:
from __future__ import print_function

from keras.layers import SimpleRNN
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Embedding
from keras.layers import LSTM
from keras.datasets import imdb
import numpy as np
import keras
from sklearn.preprocessing import OneHotEncoder

Using TensorFlow backend.


In [58]:
def run_calculation(data_x, data_y, func):
    max_features = np.max(data_x)+1
    #max_features = 500
    num_of_seq = data_x.shape[0]
    # cut texts after this number of words (among top max_features most common words)
    maxlen = 350
    batch_size = 50
    tt_rate = 0.4

    print('Loading data...')
    train_end = (int)(data_x.shape[0] * (1-tt_rate))
    y_train = data_y[0:train_end]  
    x_train = data_x[0:train_end]
    #x_train = x_train[:,np.newaxis]
    y_test =  data_y[train_end:data_y.shape[0]]
    x_test =  data_x[train_end:data_x.shape[0]]
    #x_test =  x_test[:,np.newaxis]
    
    #print('Pad sequences (samples x time)')
    #x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
    #x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
    print('x_train shape:', x_train.shape)
    print('x_test shape:', x_test.shape)

    print('Build model...')
    model = Sequential()
    model = func(model, max_features, num_of_seq, 32 )
    model.summary()

    print('Train...')
    
    model.fit(x_train, y_train,
            batch_size=batch_size,
            epochs=6,
            validation_split=0.2)
    score, acc = model.evaluate(x_test, y_test,
                              batch_size=batch_size)
    print('Test score:', score)
    print('Test accuracy:', acc)

In [59]:
def build_model(model, max_features, num_of_seq, nodes):
    model.add(Embedding(max_features, nodes))
    #model.add(SimpleRNN(nodes, dropout=0.2, recurrent_dropout=0.2))
    #model.add(LSTM(nodes, input_shape=(num_of_seq, nodes)))
    model.add(LSTM(nodes))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(loss='binary_crossentropy',
                  optimizer='adam',
                  metrics=['accuracy'])
        
    return model

In [60]:
def pick_user_comment(user, message):
    user_post = []
    other_post = []
    for i in range(len(message)):
        if message[i]['user'] == user:
            user_post.append(message[i]['text'])
        else:
            other_post.append(message[i]['text'])
    
    t = Tokenizer()
    user_post_string = []
    for i in range(len(user_post)):
        tmp = np.array([""])
        for token in t.tokenize(text_cleaning(user_post[i])):
            if token.part_of_speech.split(',')[0] == "名詞" or token.part_of_speech.split(',')[0] == "動詞" or token.part_of_speech.split(',')[0] == "形容詞":
                tmp = np.append(tmp, format(token.surface))
        
        if tmp.shape[0] > 1:
            user_post_string.append(tmp)

    other_post_string = []
    for i in range(len(other_post)):
        tmp = np.array([""])
        for token in t.tokenize( text_cleaning(other_post[i])):
            if token.part_of_speech.split(',')[0] == "名詞" or token.part_of_speech.split(',')[0] == "動詞" or token.part_of_speech.split(',')[0] == "形容詞":
                tmp = np.append(tmp, format(token.surface))
        
        if tmp.shape[0] > 1:
            other_post_string.append(tmp)
            
    return user_post_string, other_post_string

In [61]:
f = open('slack_data/global.json', 'r')
# jsonをdict型に変換
global_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(global_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [62]:
message1 = global_dict_from_json['messages']

In [63]:
f = open('slack_data/2019-01-ai.json', 'r')
# jsonをdict型に変換
sample_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(sample_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [64]:
message2 = sample_dict_from_json['messages']

In [65]:
f = open('slack_data/random.json', 'r')
# jsonをdict型に変換
random_dict_from_json = json.load(f)
# fiel開いたら閉じる
f.close()
# どのような構造になっているかを確認してください
print(random_dict_from_json.keys())

dict_keys(['ok', 'messages', 'has_more', 'is_limited'])


In [66]:
message3 = random_dict_from_json['messages']

In [67]:
message = []
message += message1
message += message2
message += message3

In [68]:
#野呂山のコメントとその他のコメントを分ける
noro_post, other_post = pick_user_comment('U0CGPM9T2', message)

In [69]:
noro = np.array(noro_post)
label = np.ones_like(noro)
noro = np.vstack([noro, label])
noro = noro.T

In [70]:
noro.shape

(42, 2)

In [71]:
other = np.array(other_post)
label = np.zeros_like(other)
other = np.vstack([other, label])
other = other.T

In [72]:
other.shape

(87, 2)

In [73]:
data = np.vstack([noro, other])

In [74]:
data.shape

(129, 2)

In [75]:
x = data[1,0]
x.shape

(154,)

In [76]:
y = data[:,1]
y

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
      dtype=object)

In [77]:
seq_max = 0
for i in range(data.shape[0]):
    if seq_max < data[i][0].shape[0]:
        seq_max = data[i][0].shape[0]

In [78]:
pad_base = np.array([["pad" for _ in range(seq_max) ] for _ in range(data.shape[0])])

In [79]:
seq_max - data[0][0].shape[0]

280

In [80]:
end = pad_base.shape[1]
for i in range(pad_base.shape[0]):
    start = seq_max - data[i][0].shape[0]
    pad_base[i][start:end] = data[i][0]

In [81]:
data_padded = pad_base

In [82]:
data_padded

array([['pad', 'pad', 'pad', ..., '申し上', 'お願い', 'し'],
       ['pad', 'pad', 'pad', ..., '協力', 'いただ', '幸い'],
       ['pad', 'pad', 'pad', ..., '時間', 'ため', '使い'],
       ...,
       ['pad', 'pad', 'pad', ..., '以上', 'お願い', 'いたし'],
       ['pad', 'pad', 'pad', ..., 'コンタ', '取っ', 'い'],
       ['pad', 'pad', 'pad', ..., 'し', '記事', '振り返']], dtype='<U3')

In [None]:
def word2val(data):
    key = np.unique(data)
    d = {word : i for i, word in enumerate(key)}
    
    tmp = pd.DataFrame(data).T
    val = np.array([tmp[1].map(d) for i in range(len(tmp.columns))])
    
    return val

In [None]:
data_x = word2val(data_padded)
data_x.shape

(129, 344)

In [None]:
y.shape

(129,)

モデルを学習

In [None]:
run_calculation(data_x,  y, build_model)

Loading data...
x_train shape: (77, 344)
x_test shape: (52, 344)
Build model...
Instructions for updating:
Colocations handled automatically by placer.
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, None, 32)          40288     
_________________________________________________________________
lstm_1 (LSTM)                (None, 32)                8320      
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 33        
Total params: 48,641
Trainable params: 48,641
Non-trainable params: 0
_________________________________________________________________
Train...
Instructions for updating:
Use tf.cast instead.
Train on 61 samples, validate on 16 samples
Epoch 1/6


ローカル環境ではリソースが足りないためGoogle colabratorで計算した。  
結果は以下の通り。  
野呂さんのコメントに対して、確率70%で野呂さんのコメントだと予測された。

Input data
['' '逆境' '地' 'アフリカ' '全土' '持続' '可能' '教育' '雇用' '機会' '循環' 'さ' 'せる' '若者' '自立'
 '支援' 'エコ' 'システム' 'つくり' 'ん' 'エコ' 'システム' '詳細' '写真' 'ご覧' 'ください' 'いただい' '支援'
 'ルワンダ' '若者' '未来' '希望' 'チャンス' '変え' '届け' '私' 'カラダ' '張っ' '創業' '期' 'よう' '学び'
 '合う' 'コミュニティ' '届け' 'き' 'プロジェクト' '成立' 'し' 'い' '実現' '可能' '性' '高め' 'スピード'
 '加速' 'する' 'ため' '支援' '賜り' 'お願い' '申し上げ' 'お願い' 'し']
Answer
[[0.7045543]]

###### (オプション)【問題6】独自の分析
Slackのjsonファイルから独自の分析をしてください。