# 24. ファイル参照の抽出

記事から参照されているメディアファイルをすべて抽出せよ．

In [None]:
# 問題24: ファイル参照の抽出

import os
import re

# イギリスの記事ファイルのパス
data_dir = "../data"
uk_article_file = os.path.join(data_dir, "uk_article.txt")

# メディアファイルの参照を抽出する関数
def extract_media_references(text):
    """記事から参照されているメディアファイルを抽出する関数
    
    Args:
        text: 記事のテキスト
        
    Returns:
        メディアファイル名のリスト
    """
    # メディアファイル参照のパターン
    # [[ファイル:ファイル名|オプション]] または [[File:ファイル名|オプション]] の形式
    pattern = r"\[\[(ファイル|File):([^|\]]+)(?:\|[^\]]*)?\]\]"
    
    # メディアファイル名を抽出
    media_files = re.findall(pattern, text)
    
    # タプルのリストから、ファイル名のみを取得
    media_filenames = [filename for _, filename in media_files]
    
    return media_filenames

# メイン処理
try:
    # イギリスの記事を読み込む
    if os.path.exists(uk_article_file):
        with open(uk_article_file, "r", encoding="utf-8") as f:
            uk_article = f.read()
        
        # メディアファイルの参照を抽出
        media_files = extract_media_references(uk_article)
        
        # 結果を表示
        print(f"メディアファイルの参照数: {len(media_files)}\n")
        print("メディアファイル一覧:")
        for i, filename in enumerate(media_files):
            print(f"{i+1}. {filename}")
    else:
        print(f"イギリスの記事ファイルが見つかりません: {uk_article_file}")
        print("問題20を先に実行して、イギリスの記事を抽出してください。")
        
except Exception as e:
    print(f"エラーが発生しました: {e}")

In [None]:
# ファイル拡張子ごとにメディアファイルを分類

def classify_media_files_by_extension(filenames):
    """メディアファイルを拡張子ごとに分類する関数
    
    Args:
        filenames: メディアファイル名のリスト
        
    Returns:
        拡張子ごとのファイル名のディクショナリ
    """
    extensions = {}
    
    for filename in filenames:
        # ファイル名から拡張子を取得
        parts = filename.split(".")
        if len(parts) > 1:
            ext = parts[-1].lower()  # 拡張子を小文字に変換
            
            # 拡張子ごとにファイル名をリストに追加
            if ext not in extensions:
                extensions[ext] = []
            extensions[ext].append(filename)
    
    return extensions

# イギリスの記事ファイルが存在する場合のみ実行
if os.path.exists(uk_article_file):
    # 拡張子ごとにメディアファイルを分類
    extensions = classify_media_files_by_extension(media_files)
    
    # 結果を表示
    print("\n拡張子ごとのメディアファイル数:")
    for ext, files in sorted(extensions.items()):
        print(f"{ext}: {len(files)}ファイル")
    
    # 各拡張子の最初のファイル名を表示
    print("\n各拡張子の最初のファイル例:")
    for ext, files in sorted(extensions.items()):
        print(f"{ext}: {files[0]}")

## 解説

この問題では、記事から参照されているメディアファイルを抽出する方法を学びます。

### メディアファイル参照の形式

Wikipediaの記事では、メディアファイル（画像、音声、動画など）は以下の形式で参照されています：

```
[[ファイル:ファイル名|オプション]]
```

または

```
[[File:ファイル名|オプション]]
```

「ファイル」は日本語版Wikipediaで使用され、「File」は英語版Wikipediaで使用されます。どちらも同じ機能を持ちます。

### 正規表現を使用した抽出

正規表現を使用して、メディアファイル参照からファイル名を抽出します。

```python
pattern = r"\[\[(ファイル|File):([^|\]]+)(?:\|[^\]]*)?\]\]"
```

この正規表現は以下のように解釈されます：

- `\[\[` : 文字列 `[[` にマッチ
- `(ファイル|File)` : 「ファイル」または「File」にマッチし、グループ化（`()`）
- `:` : コロンにマッチ
- `([^|\]]+)` : パイプ記号（`|`）または閉じ括弧（`]`）以外の1つ以上の文字にマッチし、グループ化（`()`）
- `(?:\|[^\]]*)?` : パイプ記号（`\|`）とそれに続く閉じ括弧（`]`）以外の任意の文字（`[^\]]*`）にマッチするが、これは省略可能（`?`）で、グループ化しない（`?:`）
- `\]\]` : 文字列 `]]` にマッチ

### 拡張子による分類

抽出したメディアファイル名を拡張子ごとに分類することで、どのような種類のメディアが記事で使用されているかを分析できます。

```python
parts = filename.split(".")
if len(parts) > 1:
    ext = parts[-1].lower()  # 拡張子を小文字に変換
```

### 注意点

- ファイル名に特殊文字（スペースや記号など）が含まれる場合があります。
- 同じファイルが記事内で複数回参照されている場合、重複して抽出される可能性があります。
- Wikipediaのメディアファイルは、実際にはWikimedia Commonsというリポジトリに保存されています。
- ファイル名の大文字と小文字は区別されますが、拡張子の分類では小文字に統一しています。