# 第3章: 正規表現

In [None]:
import json
import re

## 20. JSONデータの読み込み
Wikipedia記事のJSONファイルを読み込み、「イギリス」に関する記事本文を表示せよ。問題21-29では、ここで抽出した記事本文に対して実行せよ。

In [None]:
with open("./jawiki-country.json", mode="r", encoding="utf-8") as f:
    country_data =  [json.loads(l) for l in f.readlines()]
england_data =  [country for country in country_data if country["title"] == "イギリス"][0]

## 21. カテゴリ名を含む行を抽出
記事中でカテゴリ名を宣言している行を抽出せよ。

In [None]:
body = england_data["text"]
pattern = re.compile(r"\[\[Category:.+\]\]")
category_line = pattern.findall(body)
print(category_line)

## 22. カテゴリ名の抽出
記事のカテゴリ名を（行単位ではなく名前で）抽出せよ。

In [None]:
pattern = re.compile(r"\[\[Category:(.+)\]\]")
category_name = pattern.findall(body)
print(category_name)

## 23. セクション構造
記事中に含まれるセクション名とそのレベル（例えば”== セクション名 ==”なら1）を表示せよ。

In [None]:
pattern = re.compile(r"={2,6}.+={2,6}")
sections_list = pattern.findall(body)
for section in sections_list:
    print(f"name : {section} | level : {section.count('=')}")

## 24. ファイル参照の抽出
記事から参照されているメディアファイルをすべて抜き出せ。

In [None]:
body = england_data["text"]
pattern = re.compile(r"<ref>.+?</ref>")
media_list = pattern.findall(body)
for media in media_list:
    print(media)

## 25. テンプレートの抽出
記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し、辞書オブジェクトとして格納せよ。

In [None]:
pattern = re.compile(r'\|(.+ = .+)')
base_info = pattern.findall(body)
base_dict = {base.split("=")[0] : "".join(base.split("=")[1:]) for base in base_info}
for key,value in base_dict.items():
    print(f"{key} : {value}")

## 26. 強調マークアップの除去
25の処理時に、テンプレートの値からMediaWikiの強調マークアップ（弱い強調、強調、強い強調のすべて）を除去してテキストに変換せよ（参考: マークアップ早見表）。

In [None]:
emphasis_pattern = re.compile(r'\'+(.+?)\'+')
internal_link_pattern = re.compile(r'\[\[(.+?)\]\]')

for key,value in base_dict.items():
    origin_value = value
    value = emphasis_pattern.sub('\\1',value)    
    value = internal_link_pattern.sub('\\1',value)   
    print(f"{key} : {value}")

## 27. 内部リンクの除去
26の処理に加えて、テンプレートの値からMediaWikiの内部リンクマークアップを除去し、テキストに変換せよ（参考: マークアップ早見表）。

In [None]:
emphasis_pattern = re.compile(r'\'+(.+?)\'+')
internal_link_pattern = re.compile(r'\[\[(.+?)\]\]')

for key,value in base_dict.items():
    origin_value = value
    value = emphasis_pattern.sub('\\1',value)    
    value = internal_link_pattern.sub('\\1',value)   
    print(f"{key} : {value}")

## 28. MediaWikiマークアップの除去
27の処理に加えて、テンプレートの値からMediaWikiマークアップを可能な限り除去し、国の基本情報を整形せよ。

In [None]:
emphasis_pattern = re.compile(r'\'+(.+?)\'+')
internal_link_pattern = re.compile(r'\[\[(.+?)\]\]')
br_pattern = re.compile(r'<br />')
ref_pattern = re.compile(r'<ref .+ />')
ref_pattern2 = re.compile(r'<ref.*>.+</ref>')

for key,value in base_dict.items():
    origin_value = value
    value = emphasis_pattern.sub('\\1',value)    
    value = internal_link_pattern.sub('\\1',value)   
    value = br_pattern.sub("",value)
    value = ref_pattern.sub("",value)
    value = ref_pattern2.sub("",value)
    print(f"{key} : {value}")

## 29. 国旗画像のURLを取得する
テンプレートの内容を利用し、国旗画像のURLを取得せよ。（ヒント: MediaWiki APIのimageinfoを呼び出して、ファイル参照をURLに変換すればよい）