<a href="https://colab.research.google.com/github/ShinAsakawa/ShinAsakawa.github.io/blob/master/2022notebooks/2022_0108bccwj_yahoo_knowledge_bag.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

- date: 2022_0108
- filename: `2022_0108bccwj_yahoo_knowledge_bag.ipynb`
- memo: BCCWJ のうちヤフー知恵袋のデータを一文づつ取り出すサンプルプログラム
- author: 浅川伸一

In [None]:
# BCCWJ 日本語均衡コーパスのうち Yahoo 知恵袋データ を読み込みます。
# 著作権の問題が有りますので，公開はしないようにしてください。
!!wget -O bccwj_yahoo_knowledge_bag.json.gz https://raw.githubusercontent.com/ShinAsakawa/ShinAsakawa.github.io/master/2022notebooks/bccwj_yahoo_knowledge_bag.json.gz > /dev/null 2>&1

In [None]:
%%time
#上で取得したデータを python 内に読み込みます。
#このセルの 1 行目は，読み込み時間を表示しています。
import gzip
import json
from collections import OrderedDict
from termcolor import colored

jsonfilename = 'bccwj_yahoo_knowledge_bag.json.gz'
with gzip.open(jsonfilename, 'r') as fin:
    json_bytes = fin.read()

json_str = json_bytes.decode('utf-8')
doc = json.loads(json_str)

print(f'ヤフー知恵袋のデータ件数: {len(doc)}')

In [None]:
def get_sent(d):
    """ヤフー知恵袋のデータが xml ファイルなので，解析して表示する関数"""
    xml_tags = ['#text', 'sentence'] #
    if isinstance(d, list):
        for x in d:
            if isinstance(x, dict):
                get_sent(x)
            elif isinstance(x, list):
                get_sent(x)
            elif isinstance(x, str):
                if x in xml_tags:
                    print(x)
    elif isinstance(d, dict):
        for x, v in d.items():
            if isinstance(v, dict):
                get_sent(v)
            elif isinstance(v, list):
                get_sent(v)
            elif isinstance(v, str):
                if x in xml_tags:
                    print(v)

In [None]:
import numpy as np

#ランダムサンプリングするために乱数を発生させる
#このセルを繰り返し実行するたびに異なる結果が得られます
N = np.random.randint(len(doc))
sent = get_sent(doc[list(doc.keys())[N]])

print(f"データ番号:{N}")
print(sent)

## 4.5 Yahoo!知恵袋タグセット

「Yahoo!知恵袋」レジスターのサンプルは、質問と回答の組という、一定の論理構造で構成される。
しかし、可変長、固定長タグセットでは、この構造を十分記述することができないため、独立した文書型として定義した。
タグの種類は、9 種類である。
タグの一覧を 表4-3 に示す。また、サンプル例を図 4-2 に示す。

|タグ名 |内容|
|:---|:---|
|sample |質問本文と回答本文を対にしたもの|
|OCQuestion |質問本文を表す|
|OCAnswer |回答本文を表す|
|br |改行を表す|
|webLine Web |データに対して、自動で付与される、論理行相当の行を表す|
|sentence |文に相当するまとまりを表す|
|rejectedBlock |削除要素を表す|
|ncr |変換元データの数値文字参照を削除、または「〓」に置換したことを表す|
|info 補助的な付与情報|

