In [1]:
path="dump/jawikibooks-20240320-pages-articles-multistream.xml"

In [2]:
import xml.etree.ElementTree as ET

# XMLファイルを読み込む
tree = ET.parse(path)
root = tree.getroot()

In [5]:
import glob
import unicodedata
import re
from bs4 import BeautifulSoup

tag="{http://www.mediawiki.org/xml/export-0.10/}page"
elems=root.findall(tag)
## スキップするセクションを設定する
skip_section = False  # スキップするセクションのトラッキングに使用
skip_section_headers = [
    '== 目次 ==',
    '==目次==',
    '== 外部リンク ==',
    '==外部リンク==',
    '== 参考文献 ==',
    '== 関連項目 ==',
    '===関連項目===',
    '=== 連絡先 ===',
    '=== 割と高度な内容 ===', #https://ja.wikibooks.org/wiki/C%E8%A8%80%E8%AA%9E#%E5%89%B2%E3%81%A8%E9%AB%98%E5%BA%A6%E3%81%AA%E5%86%85%E5%AE%B9
]

## 接頭辞
prefix_word = r'^[\*:#;]+\s*'

## 複数行にわたって削除する
delete_objects =[
  r'\{\|.*?\|\}', # wikitable などを削除する {| 任意の複数行のテキスト |}
  r'\{\{cite book.*?\}\}', # cite book などを削除する {{cite book }}
  r'<gallery>.*?</gallery>', # <gallery> タグを削除する
  r'<ref>.*?</ref>', # <ref> タグを削除する
]

## 行全体を削除する
delete_lines = [
  r'^\d{4}年\d{1,2}月\d{1,2}日 \(.\) \d{2}:\d{2}.*\n?', # 正規表現で日付、日時で始まる行を探して削除
  r'^<.*？>$', # html タグの行を削除する
  r'^File:.*$', # 例: File:四角形.png|thumb|1300px|* これも、しかくけい　です。
  r'^\[\[Image:.*?\]\]$', # 例: [[Image:Square (polygon).png|200px|]]
  r'^\[\[画像:.*?\]\]$', # 例: [[画像:Circle - black simple.svg|thumb|150px|left|円（えん） ]]
]

## 削除する単語（前処理）
pre_delete_words = [
  r'\{\{進捗.*?\}\}',       #{{進捗 任意のテキスト}}
  r'Wikipedia:',
  r'\{\{NDC|.*?\}\}',      # 例 {{NDC|007.64}}
  r'\[\[カテゴリ:.*?\]\]',    # 例 [[カテゴリ:アジアの言語]]
  r'\[\[Category:.*?\]\]',  # 例 [[Category:日本語|*]]
  r'\u3000',              # 全角スペース削除
  ]

## 任意のテキストを取り出す
pickup_words = [
  r'\[\[w:.*?\|(.*?)\]\]',    # [[w:不要な任意のテキスト|任意のテキスト]]
  r'\[\[.*?\|(.*?)\]\]',      # [[不要な任意のテキスト|任意のテキスト]]
  r'\[\[:.*?:.*?\:(.*?)\]\]', # [[:不要な任意のテキスト:不要な任意のテキスト:任意のテキスト]]
  r'\[\[.*?:(.*?)\]\]',      # [[不要な任意のテキスト:任意のテキスト]]
  r'\{\{[^|]*\|(.*?)\}\}',    # {{不要な任意のテキスト|任意のテキスト}}
  r"'''(.*?)'''",              # '''任意のテキスト'''
  r'\[\[(.*?)\]\]',           # [[任意のテキスト]]
  ]

## 削除する単語
delete_words = [
  r'\{\{.*?\}\}',             #{{任意のテキスト}}
  ]

In [51]:
from tqdm import tqdm

# 処理されたテキストを格納するための空リスト
docs=[]
n_data=10**6
start_id=0
cnt=0


for elem in tqdm(elems):
  cnt+=1
  #はじめの方は､議論など､本文ではないものが多いので､スキップする
  if cnt<start_id:
    continue
  if cnt>n_data+start_id:
    break

  for elem2 in elem:
    for elem3 in elem2:
      if elem3 is not None and elem3.text is not None:
        processed_lines = []
        xml_text = elem3.text
        soup = BeautifulSoup(xml_text, 'html.parser')
        text = soup.get_text()
        # print('-----------')
        # print(text)
        # print('-----------')

        # ページタイトルを取得したいがうまくいかない。
        # match = re.search(r'<title>(.*?)</title>', xml_text)
        # if match:
        #     # グループ1に対応するテキスト（タグ内の内容）を出力
        #     print(match.group(1))
        # else:
        #     print("タイトルタグが見つかりません。")

        ##### ページ全体に関わる処理はここで実施する
        for delete_object in delete_objects:
          text = re.sub(delete_object, '', text, flags=re.DOTALL)

        for delete_line in delete_lines:
          text= re.sub(delete_line, '', text, flags=re.MULTILINE)

        for pre_delete_word in pre_delete_words:
          text = re.sub(pre_delete_word, '', text)

        for pickup_word in pickup_words:
          text = re.sub(pickup_word, r'\1', text)

        for delete_word in delete_words:
          text = re.sub(delete_word, '', text)

        if len(text)<100:
          continue

        lines = text.split('\n')

        ##### 一行ずつ判定する処理はここで実施する
        for line in lines:
          cleaned_line = line.strip()  # 先頭と末尾の空白を削除
          # 任意のセクションヘッダーにマッチするかチェック
          is_section_header = any(cleaned_line == header for header in skip_section_headers)

          if is_section_header:
            skip_section = True  # スキップ開始
            continue

          if skip_section and cleaned_line.startswith("==") and cleaned_line.endswith("=="):
            skip_section = False  # スキップ終了
            continue

          if not skip_section:

            # セクションをスキップする
            if cleaned_line.startswith("=") and cleaned_line.endswith("="):
              continue

            # 箇条書きのリストをスキップする。「。」で終わっている場合は、文章とみなす。
            if re.match(r'^[\*:#]+\s*', line) and not line.endswith('。'):
              continue

            line = re.sub(prefix_word, '', line)
            # print(line)  # スキップフラグが立っていない行を出力
            processed_lines.append(line)

        final_text = '\n'.join(processed_lines).strip()
        #二回以上改行がある場合は、一回にする
        final_text = re.sub(r'\n{2,}', '\n', final_text)
        docs.append(final_text)

  soup = BeautifulSoup(xml_text, 'html.parser')
  soup = BeautifulSoup(xml_text, 'html.parser')
100%|██████████| 22816/22816 [00:52<00:00, 430.79it/s]


In [52]:
print(len(docs))
docs=list(set(docs))
len(docs)

16988


16329

In [56]:
#さらに清掃
cleaned_docs=[]
for doc in docs:
    if len(doc)<100:
        continue
    lines=[]
    for i,line in enumerate(doc.split('\n')):
        line=line.strip()
        #見出し
        if i==0 and line.find("＞"):
            continue
        lines.append(line)
    
    doc='\n'.join(lines)
    cleaned_docs.append(doc)

In [61]:
cleaned_docs[-101]

'（電子証明書に係る証明）\n第33条の15\n法第12条の2第8項の規定による証明の請求は、法務大臣の指定する方式に従い、電子証明書の番号その他の事項を送信する方法によらなければならない。\n----\n{{前後\n|商業登記規則\n|第1章 登記簿等\n|商業登記規則第33条の14（識別符号の変更）\n|商業登記規則第33条の16（証明が相当でない場合の措置）\n033の15'

In [62]:
import pandas as pd


df = pd.DataFrame(docs, columns=["text"]).reset_index()
#df.to_parquet("parquet/jawikibooks.parquet", index=False)
chunk_size = 100000  # 分割するチャンクのサイズ
num_chunks = len(df) // chunk_size + (1 if len(df) % chunk_size > 0 else 0)  # 必要なチャンクの数を計算

for i in range(num_chunks):
    chunk = df[i*chunk_size:(i+1)*chunk_size]
    chunk.to_parquet(f"parquet/jawikibooks_{i+1}.parquet", index=False)