# 21. カテゴリ名を含む行を抽出

記事中でカテゴリ名を宣言している行を抽出せよ．

In [None]:
# 問題21: カテゴリ名を含む行を抽出

import os
import re

# イギリスの記事ファイルのパス
data_dir = "../data"
uk_article_file = os.path.join(data_dir, "uk_article.txt")

# カテゴリ名を宣言している行を抽出する関数
def extract_category_lines(text):
    """カテゴリ名を宣言している行を抽出する関数
    
    Args:
        text: 記事のテキスト
        
    Returns:
        カテゴリ名を宣言している行のリスト
    """
    # カテゴリ名を宣言している行のパターン
    # [[Category:カテゴリ名]] または [[Category:カテゴリ名|ソート用キー]] の形式
    pattern = r"\[\[Category:.*?\]\]"
    
    # 行ごとに処理
    category_lines = []
    for line in text.split("\n"):
        if re.search(pattern, line):
            category_lines.append(line)
    
    return category_lines

# メイン処理
try:
    # イギリスの記事を読み込む
    if os.path.exists(uk_article_file):
        with open(uk_article_file, "r", encoding="utf-8") as f:
            uk_article = f.read()
        
        # カテゴリ名を宣言している行を抽出
        category_lines = extract_category_lines(uk_article)
        
        # 結果を表示
        print(f"カテゴリ名を宣言している行の数: {len(category_lines)}\n")
        print("カテゴリ名を宣言している行の例:")
        for i, line in enumerate(category_lines):
            if i < 10:  # 最初の10行だけ表示
                print(f"{i+1}. {line}")
            else:
                print("...")
                break
    else:
        print(f"イギリスの記事ファイルが見つかりません: {uk_article_file}")
        print("問題20を先に実行して、イギリスの記事を抽出してください。")
        
except Exception as e:
    print(f"エラーが発生しました: {e}")

In [None]:
# 別の方法: 正規表現のマルチラインモードを使用

def extract_category_lines_multiline(text):
    """正規表現のマルチラインモードを使用してカテゴリ名を宣言している行を抽出する関数
    
    Args:
        text: 記事のテキスト
        
    Returns:
        カテゴリ名を宣言している行のリスト
    """
    # カテゴリ名を宣言している行のパターン
    # ^ は行の先頭、$ は行の末尾を表す（マルチラインモードの場合）
    pattern = r"^.*\[\[Category:.*?\]\].*$"
    
    # re.MULTILINE フラグを使用して、複数行にまたがるマッチングを行う
    matches = re.findall(pattern, text, re.MULTILINE)
    
    return matches

# イギリスの記事ファイルが存在する場合のみ実行
if os.path.exists(uk_article_file):
    with open(uk_article_file, "r", encoding="utf-8") as f:
        uk_article = f.read()
    
    # マルチラインモードを使用してカテゴリ名を宣言している行を抽出
    category_lines_multiline = extract_category_lines_multiline(uk_article)
    
    # 結果を表示
    print(f"\nマルチラインモードを使用した場合のカテゴリ名を宣言している行の数: {len(category_lines_multiline)}\n")
    print("カテゴリ名を宣言している行の例（マルチラインモード）:")
    for i, line in enumerate(category_lines_multiline):
        if i < 10:  # 最初の10行だけ表示
            print(f"{i+1}. {line}")
        else:
            print("...")
            break

## 解説

この問題では、記事中でカテゴリ名を宣言している行を抽出する方法を学びます。

### カテゴリ名の宣言形式

Wikipediaの記事では、カテゴリ名は以下の形式で宣言されています：

```
[[Category:カテゴリ名]]
```

または

```
[[Category:カテゴリ名|ソート用キー]]
```

### 正規表現を使用した抽出

正規表現を使用して、カテゴリ名を宣言している行を抽出します。

```python
pattern = r"\[\[Category:.*?\]\]"
```

この正規表現は以下のように解釈されます：

- `\[\[` : 文字列 `[[` にマッチ（`[` は正規表現の特殊文字なのでエスケープが必要）
- `Category:` : 文字列 `Category:` にマッチ
- `.*?` : 任意の文字（`.`）が0回以上（`*`）、非貪欲（`?`）にマッチ
- `\]\]` : 文字列 `]]` にマッチ

### 2つの実装方法

1. **行ごとに処理する方法**：
   - テキストを行ごとに分割し、各行に対して正規表現を適用します。
   - カテゴリ名を含む行だけをリストに追加します。

2. **正規表現のマルチラインモードを使用する方法**：
   - `re.MULTILINE` フラグを使用して、複数行にまたがるマッチングを行います。
   - 行の先頭（`^`）と行の末尾（`$`）を表す特殊文字を使用できます。

### 注意点

- 正規表現の `.*?` は非貪欲（non-greedy）マッチングを行います。これにより、最初の `]]` までの文字列にマッチします。
- カテゴリ名が複数行にまたがる場合は、適切に処理する必要があります（この問題では考慮していません）。
- 実際のWikipediaの記事では、カテゴリ名は通常、記事の末尾に集中しています。