In [1]:
import gzip
import json
import re

# —————————————————————————
# 1. Wikipedia JSON ファイルから「イギリス」記事の本文を取得
# —————————————————————————
path = 'jawiki-country.json.gz'
with gzip.open(path, 'rt', encoding='utf-8') as f:
    text = None
    for line in f:
        article = json.loads(line)
        if article['title'] == 'イギリス':
            text = article['text']
            break

if text is None:
    raise ValueError('「イギリス」記事が見つかりませんでした。')

# —————————————————————————
# 2. セクション名とレベルの抽出
# —————————————————————————
# 正規表現パターン：
#  行頭から「=」が1文字以上続き、空白→セクション名→空白、
#  末尾に同数の「=」が続く行をキャプチャする
pattern = re.compile(r'^(=+)\s*(.+?)\s*\1$')

for line in text.split('\n'):
    m = pattern.match(line)
    if m:
        eqs = m.group(1)
        title = m.group(2)
        level = len(eqs) - 1
        print(f'Level {level}: {title}')


Level 1: 国名
Level 1: 歴史
Level 1: 地理
Level 2: 主要都市
Level 2: 気候
Level 1: 政治
Level 2: 元首
Level 2: 法
Level 2: 内政
Level 2: 地方行政区分
Level 2: 外交・軍事
Level 1: 経済
Level 2: 鉱業
Level 2: 農業
Level 2: 貿易
Level 2: 不動産
Level 2: エネルギー政策
Level 2: 通貨
Level 2: 企業
Level 3: 通信
Level 1: 交通
Level 2: 道路
Level 2: 鉄道
Level 2: 海運
Level 2: 航空
Level 1: 科学技術
Level 1: 国民
Level 2: 言語
Level 2: 宗教
Level 2: 婚姻
Level 2: 移住
Level 2: 教育
Level 2: 医療
Level 1: 文化
Level 2: 食文化
Level 2: 文学
Level 2: 哲学
Level 2: 音楽
Level 3: ポピュラー音楽
Level 2: 映画
Level 2: コメディ
Level 2: 国花
Level 2: 世界遺産
Level 2: 祝祭日
Level 2: スポーツ
Level 3: サッカー
Level 3: クリケット
Level 3: 競馬
Level 3: モータースポーツ
Level 3: 野球
Level 3: カーリング
Level 3: 自転車競技
Level 1: 脚注
Level 1: 関連項目
Level 1: 外部リンク
