# 23. セクション構造

記事中に含まれるセクション名とそのレベル（例えば"== セクション名 =="なら1）を表示せよ．

In [None]:
# 問題23: セクション構造

import os
import re

# イギリスの記事ファイルのパス
data_dir = "../data"
uk_article_file = os.path.join(data_dir, "uk_article.txt")

# セクション名とそのレベルを抽出する関数
def extract_sections(text):
    """記事からセクション名とそのレベルを抽出する関数
    
    Args:
        text: 記事のテキスト
        
    Returns:
        (セクション名, レベル)のタプルのリスト
    """
    # セクションのパターン
    # == セクション名 == または === セクション名 === などの形式
    pattern = r"^(={2,})\s*(.+?)\s*\1$"
    
    sections = []
    for line in text.split("\n"):
        match = re.match(pattern, line)
        if match:
            level = len(match.group(1)) - 1  # レベルは = の数 - 1
            section_name = match.group(2)
            sections.append((section_name, level))
    
    return sections

# メイン処理
try:
    # イギリスの記事を読み込む
    if os.path.exists(uk_article_file):
        with open(uk_article_file, "r", encoding="utf-8") as f:
            uk_article = f.read()
        
        # セクション名とそのレベルを抽出
        sections = extract_sections(uk_article)
        
        # 結果を表示
        print(f"セクションの数: {len(sections)}\n")
        print("セクション構造:")
        for i, (name, level) in enumerate(sections):
            indent = "  " * (level - 1)  # レベルに応じてインデント
            print(f"{i+1}. {indent}{name} (レベル{level})")
    else:
        print(f"イギリスの記事ファイルが見つかりません: {uk_article_file}")
        print("問題20を先に実行して、イギリスの記事を抽出してください。")
        
except Exception as e:
    print(f"エラーが発生しました: {e}")

In [None]:
# 別の方法: 正規表現のマルチラインモードを使用

def extract_sections_multiline(text):
    """正規表現のマルチラインモードを使用してセクション名とそのレベルを抽出する関数
    
    Args:
        text: 記事のテキスト
        
    Returns:
        (セクション名, レベル)のタプルのリスト
    """
    # セクションのパターン
    pattern = r"^(={2,})\s*(.+?)\s*\1$"
    
    # re.MULTILINE フラグを使用して、複数行にまたがるマッチングを行う
    matches = re.finditer(pattern, text, re.MULTILINE)
    
    sections = []
    for match in matches:
        level = len(match.group(1)) - 1  # レベルは = の数 - 1
        section_name = match.group(2)
        sections.append((section_name, level))
    
    return sections

# イギリスの記事ファイルが存在する場合のみ実行
if os.path.exists(uk_article_file):
    with open(uk_article_file, "r", encoding="utf-8") as f:
        uk_article = f.read()
    
    # マルチラインモードを使用してセクション名とそのレベルを抽出
    sections_multiline = extract_sections_multiline(uk_article)
    
    # 結果を表示
    print(f"\nマルチラインモードを使用した場合のセクションの数: {len(sections_multiline)}\n")
    
    # 2つの方法の結果を比較
    if sections == sections_multiline:
        print("2つの方法の結果は一致しています。")
    else:
        print("2つの方法の結果は一致していません。")
        print(f"方法1の結果数: {len(sections)}")
        print(f"方法2の結果数: {len(sections_multiline)}")

In [None]:
# セクション構造をツリー形式で表示

def print_section_tree(sections):
    """セクション構造をツリー形式で表示する関数
    
    Args:
        sections: (セクション名, レベル)のタプルのリスト
    """
    print("セクション構造（ツリー形式）:")
    
    # 最小レベルを取得
    min_level = min(level for _, level in sections) if sections else 0
    
    for name, level in sections:
        # レベルに応じてインデントとマーカーを設定
        indent = "  " * (level - min_level)
        marker = "■" if level == min_level else "●" if level == min_level + 1 else "◆" if level == min_level + 2 else "◇"
        
        print(f"{indent}{marker} {name}")

# イギリスの記事ファイルが存在する場合のみ実行
if os.path.exists(uk_article_file):
    # セクション構造をツリー形式で表示
    print_section_tree(sections)

## 解説

この問題では、記事中に含まれるセクション名とそのレベルを抽出する方法を学びます。

### セクションの形式

Wikipediaの記事では、セクションは以下の形式で表現されています：

```
== セクション名 ==    （レベル1）
=== サブセクション名 ===    （レベル2）
==== サブサブセクション名 ====    （レベル3）
```

セクションのレベルは、`=` の数によって決まります。この問題では、`=` の数から1を引いたものをレベルとしています。

### 正規表現を使用した抽出

正規表現を使用して、セクション名とそのレベルを抽出します。

```python
pattern = r"^(={2,})\s*(.+?)\s*\1$"
```

この正規表現は以下のように解釈されます：

- `^` : 行の先頭にマッチ
- `(={2,})` : 2つ以上の連続する `=` にマッチし、グループ化（`()`）
- `\s*` : 0個以上の空白文字にマッチ
- `(.+?)` : 1つ以上の任意の文字（`.`）にマッチし、非貪欲（`?`）でグループ化（`()`）
- `\s*` : 0個以上の空白文字にマッチ
- `\1` : 1番目のグループ（`(={2,})`）と同じ文字列にマッチ（後方参照）
- `$` : 行の末尾にマッチ

### 2つの実装方法

1. **行ごとに処理する方法**：
   - テキストを行ごとに分割し、各行に対して正規表現を適用します。
   - セクション行にマッチした場合、セクション名とレベルを抽出します。

2. **正規表現のマルチラインモードを使用する方法**：
   - `re.MULTILINE` フラグを使用して、複数行にまたがるマッチングを行います。
   - `re.finditer()` を使用して、すべてのマッチを取得します。

### セクション構造の表示

セクション構造を視覚的に理解しやすくするために、ツリー形式で表示する関数も実装しています。レベルに応じてインデントとマーカーを変更することで、階層構造を表現しています。

### 注意点

- セクション名に `=` が含まれる場合、正規表現のパターンを調整する必要があります。
- 実際のWikipediaの記事では、セクションの階層構造が複雑な場合があります。
- 後方参照（`\1`）を使用することで、セクションの開始と終了の `=` の数が同じであることを確認しています。