In [1]:
# -*- coding: utf-8 -*-
%matplotlib inline
import numpy as np
import pandas as pd
from collections import Counter
import re
import pickle
import MeCab
mc = MeCab.Tagger("-Ochasen")

In [2]:
new_excel = pd.ExcelFile("data/excel/new_data.xlsx")
sheet_name = new_excel.sheet_names[0]
new_df = new_excel.parse(sheet_name)

In [3]:
new_df

Unnamed: 0,id,reply,group_id,cname,body,label
0,10730,0,1,飼育係,よろしくー\r\n,NAN
1,10749,0,1,ドラ,よろしくお願いします～,NAN
2,10754,0,1,海の日,よろしくお願いしまーす,NAN
3,10849,0,1,飼育係,なんかやり方違うｗｗｗｗｗｗｗｗｗｗｗｗｗｗ,NAN
4,10903,0,1,飼育係,拝見しましたが特に問題はないです,NAN
5,10908,0,1,ドラ,とりあえずこのまま進めてみますか？,NAN
6,10923,0,1,飼育係,そうしてくれると助かります,NAN
7,11065,0,1,ドラ,お二人のワード拝見しました。\r\n内容については特に疑問点はありませんでした。,NAN
8,11070,0,1,ドラ,お二人のワード拝見しました。\r\n内容については特に疑問点はありませんでした。,NAN
9,11135,0,1,海の日,私も特にありませんでした。,NAN


In [4]:
print(type(new_df))
counter = Counter(new_df['label'])
print(counter)

<class 'pandas.core.frame.DataFrame'>
Counter({'NAN': 2743})


In [5]:
new_data = new_df.values

id = 0
reply = 1
group_id = 2
cname = 3
body = 4
label = 5

In [6]:
def preprocess(xs, trim_citation=False):
    zs = [""] * len(xs)
    '''全角空白'''
    for i, l in enumerate(xs):
        xs[i] = re.sub('　', ' ', str(l))
    '''多重引用'''
    for i, l in enumerate(xs):
        xs[i] = re.sub('＆ｇｔ；', '＞', l)
    '''引用部分は除外'''
    count_refer = 0
    for i, l in enumerate(xs):
        sen = ""
        have_refer = 1
        for x in l.split('\n'):
            if len(x) == 0:
                continue
            elif x[0].encode('utf-8') == '＞'.encode('utf-8'):
                have_refer = 1
                x = x[1:]
                if len(x) > 0 and x[0].encode('utf-8') != '＞'.encode('utf-8') and \
                        x[0:2].encode('utf-8') != ' ＞'.encode('utf-8') and x != ' ':
                    if trim_citation:
                        zs[i] += x + '\n'
                    else:
                        sen = sen + "＞ " + x + '\n'
                continue
            else:
                sen = sen + x + '\n'
        xs[i] = sen.strip()
        count_refer += have_refer
    '''顔文字'''
    pat = re.compile('（[^ぁ-んァ-ン一-龠]+?）', re.U)
    for i, l in enumerate(xs):
        xs[i] = re.sub(pat, ' KAOMOJI ', l)
    '''日本語及び記号{？！ー〜。、} のみ有効'''
    pat = re.compile('[^＞ Ａ-Ｚａ-ｚ０-９ぁ-んァ-ン一-龠？！ー〜。、\n]+?', re.U)
    for i, l in enumerate(xs):
        xs[i] = re.sub(pat, '', l)
    '''記号繰り返し'''
    pat_1 = re.compile('[ｗ]{1,}', re.U)
    pat_2 = re.compile('[？]{1,}', re.U)
    pat_3 = re.compile('[！]{1,}', re.U)
    pat_4 = re.compile('[～]{1,}', re.U)
    pat_5 = re.compile('[ー]{1,}', re.U)
    pat_6 = re.compile('[。]{1,}', re.U)

    for i, l in enumerate(xs):
        l = re.sub(pat_1, 'ｗ', l)
        l = re.sub(pat_2, '？', l)
        l = re.sub(pat_3, '！', l)
        l = re.sub(pat_4, '～', l)
        l = re.sub(pat_5, 'ー', l)
        l = re.sub(pat_6, '。', l)
        xs[i] = l

    if trim_citation:
        return zs
    else:
        return None

In [7]:
def make_xs(orig, trim_citation=False, use_seq2seq=False):

    tmp = np.copy(orig)
    xs = tmp[:, body]
    zs = preprocess(xs, trim_citation=(trim_citation or use_seq2seq))

    if use_seq2seq:
        tmp_prev = np.roll(tmp, 1, axis=0)
        tmp_prev[0, 0] = ""
        ts = tmp[:, [1, 2]]
        xs_prev = tmp_prev[:, body]

        for i in range(len(tmp)):
            if tmp[i, group_id] != tmp_prev[i, group_id]:  # group が異なる
                xs_prev[i] = ""
        preprocess(xs_prev, trim_citation=True)

        for i in range(len(xs)):
            replay_to = tmp[i, 2]
            if zs[i] != "":
                xs_prev[i] = zs[i]
            elif replay_to != -1:
                a = xs[:i][tmp[:i, 1] == replay_to]
                if len(a) != 0:
                    xs_prev[i] = a[-1]

        return xs, xs_prev
    else:
        return xs

In [8]:
def get_doc(xs):
    doc = []
    for ll in xs:
        sen = []
        for l in ll.split('\n'):
            for w in mc.parse(l).split('\n'):
                mx = w.split('\t')
                if len(mx[0]) > 0:
                    sen.append(mx[0])
        doc.append(sen)
    return doc

In [9]:
new_xs,new_xs_pre = make_xs(new_data, trim_citation=True, use_seq2seq=True)
new_doc = get_doc(new_xs)
new_doc_pre = get_doc(new_xs_pre)

In [10]:
for i in new_doc[:10]:
    print(" ".join(i))

よろしく ー EOS
よろしく お願い し ます EOS
よろしく お願い しま ー す EOS
なんか やり方 違う ｗ EOS
拝見 し まし た が 特に 問題 は ない です EOS
とりあえず この まま 進め て み ます か ？ EOS
そう し て くれる と 助かり ます EOS
お 二 人 の ワード 拝見 し まし た 。 EOS 内容 について は 特に 疑問 点 は あり ませ ん でし た 。 EOS
お 二 人 の ワード 拝見 し まし た 。 EOS 内容 について は 特に 疑問 点 は あり ませ ん でし た 。 EOS
私 も 特に あり ませ ん でし た 。 EOS


In [11]:
wd_set = Counter([x for sen in new_doc + new_doc_pre for x in sen])
wd_ary = np.array(list(wd_set.keys()))
wd_cnt = np.array(list(wd_set.values()))
wd_ary = wd_ary[np.argsort(wd_cnt)[::-1]]
wd_cnt.sort()
wd_cnt = wd_cnt[::-1]
wd_to_id = {wd: i for i, wd in enumerate(wd_ary)}
lb_to_id = {lb: i for i, lb in enumerate({x for x in new_data[:, label]})}
id_to_wd = {wd_to_id[wd]: wd for wd in wd_to_id.keys()}
id_to_lb = {lb_to_id[lb]: lb for lb in lb_to_id.keys()}

In [12]:
for i in range(10):
    print(list(wd_ary)[i], list(wd_cnt)[i])
    #print(list(wd_set.keys())[i], list(wd_set.values())[i])

EOS 8321
の 3017
ます 2793
です 2676
か 2369
て 2349
は 2103
と 2097
が 2037
、 1963


In [13]:
KIND = len(list(lb_to_id.keys()))
CUT_OFF = 2

print("words kinds:",
      len(wd_cnt), "words>=" + str(CUT_OFF) + ":", np.sum(wd_cnt >= CUT_OFF))
print("all words num:", np.sum(wd_cnt))
print("all words num:", np.sum(wd_cnt[wd_cnt >= CUT_OFF]))

other_id = np.sum(wd_cnt >= CUT_OFF)
wd_to_id.update({wd: other_id for wd in wd_ary[wd_cnt < CUT_OFF]})
print(other_id)
id_to_wd[other_id] = '[X]'

print(max(wd_to_id.values()))

with open('data/New_id_to_wd.pickle', mode='wb') as f:
    pickle.dump(id_to_wd, f)
with open('data/New_wd_to_id.pickle', mode='wb') as f:
    pickle.dump(wd_to_id, f)
with open('data/New_wd_set.pickle', mode='wb') as f:
    pickle.dump(wd_set, f)
with open('data/New_id_to_lb.pickle', mode='wb') as f:
    pickle.dump(id_to_lb, f)
pd.DataFrame(
    np.array(list(id_to_lb.items())).T, index=["ラベルid", "ラベルname"])

words kinds: 2597 words>=2: 2590
all words num: 98075
all words num: 98068
2590
2590


Unnamed: 0,0
ラベルid,0
ラベルname,NAN


In [14]:
of = open("data/New_edu_data.txt", "w")
for i, (sen, lb) in enumerate(zip(np.array(new_doc), new_data[:, label])):
    sen_str = "".join([str(wd_to_id[wd]) + " " for wd in sen])
    print_str = str(lb_to_id[lb]) + " " + str(lb_to_id[lb]) + " " + sen_str
    print(print_str, file=of)
of.close()

of = open("data/New_edu_data_pre.txt", "w")
for i, sen in enumerate(np.array(new_doc_pre)):
    sen_str = "".join([str(wd_to_id[wd]) + " " for wd in sen])
    print(sen_str, file=of)
of.close()

print(max([len(sen) for sen in new_doc]))

print(KIND)

151
1
