# 基礎集計

1. 形態素解析  
1. 係り受け解析  
1. N-gram解析  
上記を行い、カテゴリ別に出現する単語の傾向把握と、全カテゴリとのリフト値から差分を確認する

# 出力ディレクトリの指定

In [10]:
# 変更箇所
input_dir = "../data/preprocessing/"
output_dir = "../data/basic_agg/"

In [11]:
import os

if os.path.isdir(output_dir):
    print("存在するディレクトリです")
else:
    os.makedirs(output_dir)
    print("出力ディレクトリを作成しました")

存在するディレクトリです


In [12]:
import glob

input_paths = glob.glob(f"{input_dir}*.csv")
print("データ数: ", len(input_paths))
print(input_paths)

データ数:  1
['../data/preprocessing/all_category_df.csv']


In [13]:
# 基礎集計に使用するDataFrameのパスを指定
input_path = input_paths[0]

----

In [24]:
import itertools
from tqdm import tqdm
import re

import pandas as pd
import MeCab

mc = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd")

In [25]:
all_category_df = pd.read_csv(input_path)
all_category_df.head(2)

Unnamed: 0,category,text
0,dokujo-tsushin,友人代表のスピーチ、独女はどうこなしている?\n もうすぐジューン・ブライドと呼ばれる0月。...
1,dokujo-tsushin,ネットで断ち切れない元カレとの縁\n 携帯電話が普及する以前、恋人への連絡ツールは一般電話が...


# 形態素解析

In [26]:
def extract_noun(text):
    """ テキストから名詞を抜き出してカウンターを作成"""
    
    counter = {} # (名詞, 出現数)のcounter

    for one_pos in mc.parse(text).split("\n"):
        if (one_pos == "EOS") or (len(one_pos) == 0):
            continue
        surf, mc_result = one_pos.split("\t")
        #品詞, 品詞細分類1,_,_,_,_,原型, _ 
        pos0, pos1, _, _, _, _, base, *_ = mc_result.split(",")
        if (pos0 == "名詞") & (pos1 == "一般"):

            if base == "*":
                noun = surf
            else:
                noun = base

            if noun in counter:
                counter[noun] += 1
            else:
                counter[noun] = 1
    
    counter = sorted(counter.items(), 
                          key=lambda x:x[1], 
                          reverse=True)
    return counter

def extract_verb(text):
    """ テキストから動詞を抜き出してカウンターを作成"""
    
    # Dockerfileで未知語の更新ができなかったため無理やり
    # 記号系が後述の[名詞　サ変接続]に引っかかることを回避
    mark = "[!#$%&\'\\\\()*+,-./:;<=>?@[\\]^_`"\
           "\{|}~「」〔〕“”〈〉『』【】＆＊・（）＄＃＠。、？！｀＋￥％ 　]"
    stop_mark = re.compile(mark)
    word = "(する|いる|れる|なる|ある|できる|られる|せる|おる|てる)"
    stop_word = re.compile(word)
    
    counter = {} # (名詞, 出現数)のcounter
    for one_pos in mc.parse(text).split("\n"):
        if (one_pos == "EOS") or (len(one_pos) == 0):
            continue

        surf, mc_result = one_pos.split("\t")
        #品詞, 品詞細分類1,_,_,_,_,原型, _ 
        pos0, pos1, _, _, _, _, base, *_ = mc_result.split(",")

        if (stop_mark.search(surf)) or (stop_word.search(base)):
            continue
    
        if pos0 == "動詞":
            if base == "*":
                verb = surf
            else:
                verb = base
            if verb in counter:

                counter[verb] += 1
            else:
                counter[verb] = 1

        elif (pos0 == "名詞") & (pos1 == "サ変接続"):
                
            if base == "*":
                verb = f"{surf}する"
            else:
                verb = f"{base}する"

            if verb in counter:
                counter[verb] += 1
            else:
                counter[verb] = 1
    
    counter = sorted(counter.items(), 
                          key=lambda x:x[1], 
                          reverse=True)
    return counter

def extract_adjective(text):
    """ テキストから名詞を抜き出してカウンターを作成"""
    
    counter = {} # (名詞, 出現数)のcounter

    for one_pos in mc.parse(text).split("\n"):
        if (one_pos == "EOS") or (len(one_pos) == 0):
            continue
        surf, mc_result = one_pos.split("\t")
        #品詞, 品詞細分類1,_,_,_,_,原型, _ 
        pos0, pos1, _, _, _, _, base, *_ = mc_result.split(",")
        if ((pos0 == "形容詞") & (pos1 == "自立")) or \
           ((pos0 == "名詞") & (pos1 == "形容動詞語幹")):

            if base == "*":
                noun = surf
            else:
                noun = base

            if noun in counter:
                counter[noun] += 1
            else:
                counter[noun] = 1
    
    counter = sorted(counter.items(), 
                          key=lambda x:x[1], 
                          reverse=True)
    return counter

In [27]:
def create_pos_counter_df(texts, pos=""):
    """ 品詞別のカウントDataFrame作成
    
        args:
            texts(list): データフレームの1カラムをリスト化
            pos(str): noun or verb or adjective
    """
    
    counter = {}
    for text in tqdm(texts):

        if pos == "noun":
            counter_1text = extract_noun(text)
        elif pos == "verb":
            counter_1text = extract_verb(text)
        elif pos == "adjective":
            counter_1text = extract_adjective(text)
        else:
            print("posを指定してください。空DFを返します")
            return pd.DataFrame()

        for key, val in counter_1text:
            if key in counter:
                counter[key] += 1
            else:
                counter[key] = 1

    counter = sorted(counter.items(), 
                          key=lambda x:x[1], 
                          reverse=True)

    result = pd.DataFrame(counter, columns=[pos, "count"])
    
    return result

## 全体

In [28]:
texts = all_category_df["text"].tolist()

for pos in ["noun", "verb", "adjective"]:
    result = create_pos_counter_df(texts, pos=pos)

    # カテゴリ別リフト値を算出するために使用
    count_sum = result["count"].sum()
    result["ratio"] = result["count"].apply(lambda x: x / count_sum)

    result.to_csv(f"{output_dir}all_{pos}.csv", 
                  encoding="utf-8-sig", index=False)

100%|██████████| 7367/7367 [00:18<00:00, 407.72it/s]
100%|██████████| 7367/7367 [00:18<00:00, 401.00it/s]
100%|██████████| 7367/7367 [00:16<00:00, 448.25it/s]


## カテゴリ別

In [29]:
for pos in ["noun", "verb", "adjective"]:
    print(pos)
    all_df = pd.read_csv(f"{output_dir}all_{pos}.csv")
    all_df = all_df.rename(columns={"count": "all_count",
                                    "ratio": "all_ratio"})

    for category in all_category_df["category"].unique():
        texts = all_category_df.query("category == @category")["text"].tolist()

        result = create_pos_counter_df(texts, pos=pos)
        # カテゴリ別リフト値を算出するために使用
        count_sum = result["count"].sum()
        result["ratio"] = result["count"].apply(lambda x: x / count_sum)
        
        result = pd.merge(result, all_df, on=pos, how="left")
        result["lift"] = result["ratio"] / result["all_ratio"]
        
        result.to_csv(f"{output_dir}{category}_{pos}.csv", 
                      encoding="utf-8-sig", index=False)

noun


100%|██████████| 870/870 [00:02<00:00, 368.31it/s]
100%|██████████| 870/870 [00:01<00:00, 439.61it/s]
100%|██████████| 864/864 [00:01<00:00, 664.60it/s]
100%|██████████| 511/511 [00:01<00:00, 299.60it/s]
100%|██████████| 870/870 [00:02<00:00, 391.11it/s]
100%|██████████| 842/842 [00:02<00:00, 389.36it/s]
100%|██████████| 870/870 [00:02<00:00, 378.63it/s]
100%|██████████| 900/900 [00:01<00:00, 768.57it/s]
100%|██████████| 770/770 [00:01<00:00, 765.52it/s]


verb


100%|██████████| 870/870 [00:02<00:00, 316.96it/s]
100%|██████████| 870/870 [00:02<00:00, 388.22it/s]
100%|██████████| 864/864 [00:01<00:00, 580.30it/s]
100%|██████████| 511/511 [00:01<00:00, 300.86it/s]
100%|██████████| 870/870 [00:02<00:00, 350.29it/s]
100%|██████████| 842/842 [00:02<00:00, 378.39it/s]
100%|██████████| 870/870 [00:02<00:00, 331.68it/s]
100%|██████████| 900/900 [00:01<00:00, 665.29it/s]
100%|██████████| 770/770 [00:01<00:00, 683.51it/s]


adjective


100%|██████████| 870/870 [00:02<00:00, 359.52it/s]
100%|██████████| 870/870 [00:01<00:00, 454.59it/s]
100%|██████████| 864/864 [00:01<00:00, 682.25it/s]
100%|██████████| 511/511 [00:01<00:00, 364.52it/s]
100%|██████████| 870/870 [00:02<00:00, 401.31it/s]
100%|██████████| 842/842 [00:01<00:00, 429.84it/s]
100%|██████████| 870/870 [00:02<00:00, 384.27it/s]
100%|██████████| 900/900 [00:01<00:00, 802.23it/s]
100%|██████████| 770/770 [00:00<00:00, 801.35it/s]


# N-gram

In [30]:
def n_gram(text_list, n):
    return [text_list[idx:idx+n] for idx in range(len(text_list))]

def create_n_gram_counter_df(texts, n):
    """ 品詞別のカウントDataFrame作成
    
        args:
            texts(list): データフレームの1カラムをリスト化
            n(int): n-gramの数
        Note:
            バグ：前単語と後単語のn-gramが入っている
                例　["スマート", "フォン", "関連する", "記事"]の場合
                    理想： "スマート-フォン", "関連する-記事"
                    現実: "スマート-フォン", "フォン-関連する", "関連する-記事"
    """
    # Dockerfileで未知語の更新ができなかったため無理やり
    # 記号系が後述の[名詞　サ変接続]に引っかかることを回避
    mark = "[!#$%&\'\\\\()*+,-./:;<=>?@[\\]^_`"\
           "\{|}~「」〔〕“”〈〉『』【】＆＊・（）＄＃＠。、？！｀＋￥％ 　]"
    stop_mark = re.compile(mark)
    word = "(する|いる|れる|なる|ある|できる|られる|せる|おる|てる)"
    stop_word = re.compile(word)
    
    counter  = {}
    for text in tqdm(texts):
        
        surf_list = []
        past_i = 0
        past_pos = ""
        for i, one_pos in enumerate(mc.parse(text).split("\n")):
            if (one_pos == "EOS") or (len(one_pos) == 0):
                continue

            # n-gramに使用する品詞のみのリスト作成
            surf, mc_result = one_pos.split("\t")
            #品詞, 品詞細分類1,_,_,_,_,原型, _ 
            pos0, pos1, _, _, _, _, base, *_ = mc_result.split(",")
            if (stop_mark.search(surf)) or (stop_word.search(base)):
                continue
            
            if (pos0 in ["名詞", "動詞", "形容詞"]) & \
               (pos1 in ["一般", "固有名詞", "自立",
                         "サ変接続", "形容動詞語幹"]):

                if (pos0 == "名詞") & (pos1 == "サ変接続"):
                    if base == "*":
                        pos = f"{surf}する"
                    else:
                        pos = f"{base}する"
                else:
                    if base == "*":
                        pos = surf
                    else:
                        pos = base
                
                if (i - past_i) == 1:
                    if surf_list:
                        if surf_list[-1] != past_pos:
                            surf_list.append(past_pos)
                    surf_list.append(pos)
                    
                past_i = i
                past_pos = pos

            else:
                past_i = 0
                past_pos = ""

        # n-gramによるカウンター作成
        n_gram_list = n_gram(surf_list, n)
        for one_n_gram in n_gram_list:
            one_n_gram_str = "-".join(one_n_gram)

            if one_n_gram_str in counter:
                counter[one_n_gram_str] += 1
            else:
                counter[one_n_gram_str] = 1

    counter = sorted(counter.items(), 
                     key=lambda x:x[1], 
                     reverse=True)
    result = pd.DataFrame(counter, columns=[f"{n}gram", "count"])
    return result

## 全体

In [31]:
texts = all_category_df["text"].tolist()
n = 2
result = create_n_gram_counter_df(texts, n=n)

# カテゴリ別リフト値を算出するために使用
count_sum = result["count"].sum()
result["ratio"] = result["count"].apply(lambda x: x / count_sum)

result.to_csv(f"{output_dir}all_{n}gram.csv", 
              encoding="utf-8-sig", index=False)

100%|██████████| 7367/7367 [00:19<00:00, 384.85it/s]


## カテゴリ別

In [32]:
all_df = pd.read_csv(f"{output_dir}all_{n}gram.csv")
all_df = all_df.rename(columns={"count": "all_count",
                                "ratio": "all_ratio"})
for category in all_category_df["category"].unique():

    texts = all_category_df.query("category == @category")["text"].tolist()
    n = 2
    result = create_n_gram_counter_df(texts, n=n)

    # カテゴリ別リフト値を算出するために使用
    count_sum = result["count"].sum()
    result["ratio"] = result["count"].apply(lambda x: x / count_sum)
    result = pd.merge(result, all_df, on=f"{n}gram", how="left")
    result["lift"] = result["ratio"] / result["all_ratio"]

    result.to_csv(f"{output_dir}{category}_{n}gram.csv", 
                  encoding="utf-8-sig", index=False)

100%|██████████| 870/870 [00:02<00:00, 291.11it/s]
100%|██████████| 870/870 [00:02<00:00, 347.13it/s]
100%|██████████| 864/864 [00:01<00:00, 539.32it/s]
100%|██████████| 511/511 [00:01<00:00, 287.28it/s]
100%|██████████| 870/870 [00:02<00:00, 335.99it/s]
100%|██████████| 842/842 [00:02<00:00, 339.71it/s]
100%|██████████| 870/870 [00:02<00:00, 300.41it/s]
100%|██████████| 900/900 [00:01<00:00, 652.97it/s]
100%|██████████| 770/770 [00:01<00:00, 615.32it/s]


# Word2Vec

In [33]:
# ! pip install -U numpy

In [34]:
import numpy

In [35]:
from gensim.models import Word2Vec

In [36]:
text = all_category_df["text"][0]
text

'友人代表のスピーチ、独女はどうこなしている?\n もうすぐジューン・ブライドと呼ばれる0月。独女の中には自分の式はまだなのに呼ばれてばかり......という「お祝い貧乏」状態の人も多いのではないだろうか? さらに出席回数を重ねていくと、こんなお願いごとをされることも少なくない。\n\n 「お願いがあるんだけど......友人代表のスピーチ、やってくれないかな?」\n\n さてそんなとき、独女はどう対応したらいいか?\n\n 最近だとインターネット等で検索すれば友人代表スピーチ用の例文サイトがたくさん出てくるので、それらを参考にすれば、無難なものは誰でも作成できる。しかし由利さん(00歳)はネットを参考にして作成したものの「これで本当にいいのか不安でした。一人暮らしなので聞かせて感想をいってくれる人もいないし、かといって他の友人にわざわざ聞かせるのもどうかと思うし......」ということで活用したのが、なんとインターネットの悩み相談サイトに。そこに作成したスピーチ文を掲載し「これで大丈夫か添削してください」とメッセージを送ったというのである。\n\n 「一晩で0人位の人が添削してくれましたよ。ちなみに自分以外にもそういう人はたくさんいて、その相談サイトには同じように添削をお願いする投稿がいっぱいありました」(由利さん)。ためしに教えてもらったそのサイトをみてみると、確かに「結婚式のスピーチの添削お願いします」という投稿が0000件を超えるくらいあった。めでたい結婚式の影でこんなネットコミュニティがあったとは知らなかった。\n\n しかし「事前にお願いされるスピーチなら準備ができるしまだいいですよ。一番嫌なのは何といってもサプライズスピーチ!」と語るのは昨年だけで00万以上お祝いにかかったというお祝い貧乏独女の薫さん(00歳)\n\n 「私は基本的に人前で話すのが苦手なんですよ。だからいきなり指名されるとしどろもどろになって何もいえなくなる。そうすると自己嫌悪に陥って終わった後でもまったく楽しめなくなりますね」\n \n サプライズスピーチのメリットとしては、準備していない状態なので、フランクな本音をしゃべってもらえるという楽しさがあるようだ。しかしそれも上手に対応できる人ならいいが、苦手な人の場合だと「フランク」ではなく「しどろもどろ」になる危険性大。ちなみにプロの

In [56]:
all_sentences = []
for text in tqdm(texts):
    # Word2Vecを行うための分かち書きリスト作成
    sentences = [] # 基本系があれば変換
    for one_pos in mc.parse(text).split("\n"): 
        if (one_pos == "EOS") or (len(one_pos) == 0):
            continue

        # n-gramに使用する品詞のみのリスト作成
        surf, mc_result = one_pos.split("\t")
        #品詞, 品詞細分類1,_,_,_,_,原型, _ 
        pos0, pos1, _, _, _, _, base, *_ = mc_result.split(",")

        if base != "*":
            sentences.append(base)
        else:
            sentences.append(surf)
        
    all_sentences.append(sentences)

100%|██████████| 770/770 [00:01<00:00, 599.95it/s]


In [63]:
model = Word2Vec(
    all_sentences,
    vector_size=300,
    window=3,
    min_count=3
    )
model.save("word2vec.model")

In [65]:
# 似た意味の単語Top 10
# 0から1の値をとり、0が似ていない、1が同じ意味。

model.wv.most_similar("女性")

[('男性', 0.988882303237915),
 ('怒り', 0.9864601492881775),
 ('やりとり', 0.9852823615074158),
 ('ジャニーズ事務所', 0.9832420945167542),
 ('毎回', 0.983031153678894),
 ('同様', 0.9829829931259155),
 ('距離', 0.982469379901886),
 ('たち', 0.9822290539741516),
 ('松嶋', 0.9818447232246399),
 ('前田', 0.9816654324531555)]