In [4]:
import gzip
import json
import re

# —————————————————————————
# 1. Wikipedia JSON ファイルの読み込み
# —————————————————————————
path = 'jawiki-country.json.gz'
with gzip.open(path, 'rt', encoding='utf-8') as f:
    text = None
    for line in f:
        article = json.loads(line)
        if article['title'] == 'イギリス':
            text = article['text']
            break

if text is None:
    raise ValueError('「イギリス」記事が見つかりませんでした。')

# —————————————————————————
# 2. カテゴリ宣言行の抽出
# —————————————————————————
# 本文を行ごとに分割
lines = text.split('\n')

# 方法①：単純な文字列検索
print('--- [[Category:…]] を含む行（単純検索） ---')
for line in lines:
    if '[[Category:' in line:
        print(line)

# 方法②：正規表現でマッチング
print('\n--- [[Category:…]] を含む行（正規表現） ---')
pattern = re.compile(r'\[\[Category:.*?\]\]')
for line in lines:
    if pattern.search(line):
        print(line)



--- [[Category:…]] を含む行（単純検索） ---
[[Category:イギリス|*]]
[[Category:イギリス連邦加盟国]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国|元]]
[[Category:海洋国家]]
[[Category:現存する君主国]]
[[Category:島国]]
[[Category:1801年に成立した国家・領域]]

--- [[Category:…]] を含む行（正規表現） ---
[[Category:イギリス|*]]
[[Category:イギリス連邦加盟国]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国|元]]
[[Category:海洋国家]]
[[Category:現存する君主国]]
[[Category:島国]]
[[Category:1801年に成立した国家・領域]]
