# 22. カテゴリ名の抽出

記事のカテゴリ名を（行単位ではなく名前で）抽出せよ．

In [None]:
# 問題22: カテゴリ名の抽出

import os
import re

# イギリスの記事ファイルのパス
data_dir = "../data"
uk_article_file = os.path.join(data_dir, "uk_article.txt")

# カテゴリ名を抽出する関数
def extract_category_names(text):
    """記事からカテゴリ名を抽出する関数
    
    Args:
        text: 記事のテキスト
        
    Returns:
        カテゴリ名のリスト
    """
    # カテゴリ名のパターン
    # [[Category:カテゴリ名]] または [[Category:カテゴリ名|ソート用キー]] の形式
    pattern = r"\[\[Category:(.*?)(?:\|.*?)?\]\]"
    
    # カテゴリ名を抽出
    category_names = re.findall(pattern, text)
    
    return category_names

# メイン処理
try:
    # イギリスの記事を読み込む
    if os.path.exists(uk_article_file):
        with open(uk_article_file, "r", encoding="utf-8") as f:
            uk_article = f.read()
        
        # カテゴリ名を抽出
        category_names = extract_category_names(uk_article)
        
        # 結果を表示
        print(f"カテゴリ名の数: {len(category_names)}\n")
        print("カテゴリ名一覧:")
        for i, name in enumerate(category_names):
            print(f"{i+1}. {name}")
    else:
        print(f"イギリスの記事ファイルが見つかりません: {uk_article_file}")
        print("問題20を先に実行して、イギリスの記事を抽出してください。")
        
except Exception as e:
    print(f"エラーが発生しました: {e}")

In [None]:
# 別の方法: 行ごとに処理してカテゴリ名を抽出

def extract_category_names_by_line(text):
    """行ごとに処理してカテゴリ名を抽出する関数
    
    Args:
        text: 記事のテキスト
        
    Returns:
        カテゴリ名のリスト
    """
    category_names = []
    pattern = r"\[\[Category:(.*?)(?:\|.*?)?\]\]"
    
    # 行ごとに処理
    for line in text.split("\n"):
        matches = re.findall(pattern, line)
        category_names.extend(matches)
    
    return category_names

# イギリスの記事ファイルが存在する場合のみ実行
if os.path.exists(uk_article_file):
    with open(uk_article_file, "r", encoding="utf-8") as f:
        uk_article = f.read()
    
    # 行ごとに処理してカテゴリ名を抽出
    category_names_by_line = extract_category_names_by_line(uk_article)
    
    # 結果を表示
    print(f"\n行ごとに処理した場合のカテゴリ名の数: {len(category_names_by_line)}\n")
    
    # 2つの方法の結果を比較
    if set(category_names) == set(category_names_by_line):
        print("2つの方法の結果は一致しています。")
    else:
        print("2つの方法の結果は一致していません。")
        print("差分:")
        print(f"方法1のみに含まれる要素: {set(category_names) - set(category_names_by_line)}")
        print(f"方法2のみに含まれる要素: {set(category_names_by_line) - set(category_names)}")

## 解説

この問題では、記事からカテゴリ名を抽出する方法を学びます。前の問題では行単位でカテゴリ宣言を抽出しましたが、今回はカテゴリ名そのものを抽出します。

### カテゴリ名の形式

Wikipediaの記事では、カテゴリ名は以下の形式で宣言されています：

```
[[Category:カテゴリ名]]
```

または

```
[[Category:カテゴリ名|ソート用キー]]
```

### 正規表現を使用した抽出

正規表現を使用して、カテゴリ名部分だけを抽出します。

```python
pattern = r"\[\[Category:(.*?)(?:\|.*?)?\]\]"
```

この正規表現は以下のように解釈されます：

- `\[\[` : 文字列 `[[` にマッチ
- `Category:` : 文字列 `Category:` にマッチ
- `(.*?)` : 任意の文字（`.`）が0回以上（`*`）、非貪欲（`?`）にマッチし、グループ化（`()`）
- `(?:\|.*?)?` : パイプ記号（`\|`）とそれに続く任意の文字（`.*?`）にマッチするが、これは省略可能（`?`）で、グループ化しない（`?:`）
- `\]\]` : 文字列 `]]` にマッチ

### 2つの実装方法

1. **テキスト全体に対して正規表現を適用する方法**：
   - `re.findall()` を使用して、テキスト全体からカテゴリ名を抽出します。

2. **行ごとに処理する方法**：
   - テキストを行ごとに分割し、各行に対して正規表現を適用します。
   - 各行から抽出したカテゴリ名をリストに追加します。

### 注意点

- 正規表現の `(.*?)` は非貪欲（non-greedy）マッチングを行い、カテゴリ名部分だけをキャプチャします。
- `(?:\|.*?)?` は、ソート用キーが存在する場合（`|` 以降の部分）を無視するための表現です。
- 2つの方法の結果を比較することで、実装の正確性を確認しています。