# 第3章: 正規表現

In [1]:
import json
import requests
import re

## 20. JSONデータの読み込み
Wikipedia記事のJSONファイルを読み込み、「イギリス」に関する記事本文を表示せよ。問題21-29では、ここで抽出した記事本文に対して実行せよ。

In [3]:
with open("./jawiki-country.json", mode="r", encoding="utf-8") as f:
    country_data =  [json.loads(l) for l in f.readlines()]
    
england_data =  [country for country in country_data if country["title"] == "イギリス"][0]

## 21. カテゴリ名を含む行を抽出
記事中でカテゴリ名を宣言している行を抽出せよ。

In [5]:
body = england_data["text"]
pattern = re.compile(r"\[\[Category:.+\]\]")
category_line = pattern.findall(body)
print(category_line)

['[[Category:イギリス|*]]', '[[Category:イギリス連邦加盟国]]', '[[Category:英連邦王国|*]]', '[[Category:G8加盟国]]', '[[Category:欧州連合加盟国|元]]', '[[Category:海洋国家]]', '[[Category:現存する君主国]]', '[[Category:島国]]', '[[Category:1801年に成立した国家・領域]]']


## 22. カテゴリ名の抽出
記事のカテゴリ名を（行単位ではなく名前で）抽出せよ。

In [6]:
pattern = re.compile(r"\[\[Category:(.+)\]\]")
category_name = pattern.findall(body)
print(category_name)

['イギリス|*', 'イギリス連邦加盟国', '英連邦王国|*', 'G8加盟国', '欧州連合加盟国|元', '海洋国家', '現存する君主国', '島国', '1801年に成立した国家・領域']


## 23. セクション構造
記事中に含まれるセクション名とそのレベル（例えば”== セクション名 ==”なら1）を表示せよ。

In [13]:
pattern = re.compile(r"={2,6}.+={2,6}")
sections_list = pattern.findall(body)
for section in sections_list:
    print(f"name : {section} | level : {section.count('=') // 2}")

name : ==国名== | level : 2
name : ==歴史== | level : 2
name : ==地理== | level : 2
name : ===主要都市=== | level : 3
name : ===気候=== | level : 3
name : ==政治== | level : 2
name : ===元首=== | level : 3
name : ===法=== | level : 3
name : ===内政=== | level : 3
name : ===地方行政区分=== | level : 3
name : ===外交・軍事=== | level : 3
name : ==経済== | level : 2
name : ===鉱業=== | level : 3
name : ===農業=== | level : 3
name : ===貿易=== | level : 3
name : ===不動産=== | level : 3
name : ===エネルギー政策=== | level : 3
name : ===通貨=== | level : 3
name : ===企業=== | level : 3
name : ====通信==== | level : 4
name : ==交通== | level : 2
name : ===道路=== | level : 3
name : ===鉄道=== | level : 3
name : ===海運=== | level : 3
name : ===航空=== | level : 3
name : ==科学技術== | level : 2
name : ==国民== | level : 2
name : ===言語=== | level : 3
name : ===宗教=== | level : 3
name : ===婚姻=== | level : 3
name : ===移住=== | level : 3
name : ===教育=== | level : 3
name : ===医療=== | level : 3
name : ==文化== | level : 2
name : ===食文化=== | level : 3
name : ===文学=== | l

## 24. ファイル参照の抽出
記事から参照されているメディアファイルをすべて抜き出せ。

In [14]:
body = england_data["text"]
pattern = re.compile(r"<ref>.+?</ref>")
media_list = pattern.findall(body)
for media in media_list:
    print(media)

<ref>{{Cite web|url=https://www.ons.gov.uk/peoplepopulationandcommunity/populationandmigration/populationestimates|title=Population estimates - Office for National Statistics|accessdate=2019-06-26|date=2019-06-26}}</ref>
<ref>使用は.ukに比べ圧倒的少数。</ref>
<ref>[[日本放送協会|NHK]]で採用している他、原則として「英国」を用いるメディアでも「[[イギリス英語]]」のような形では使用する。</ref>
<ref>[http://warp.da.ndl.go.jp/info:ndljp/pid/1368617/www.meti.go.jp/policy/anpo/moto/topics/country/country.pdf 輸出貿易管理令等における国名表記の変更について]（[[経済産業省]]） 国立国会図書館のアーカイブより''2019-2-5閲覧''</ref>
<ref>[https://kotobank.jp/word/%E3%82%A8%E3%82%B2%E3%83%AC%E3%82%B9-444373 コトバンク「エゲレス」]</ref>
<ref>また、[[アメリカ合衆国]]に渡ることを「渡米」と言うように、イギリス、特にイングランドへ渡ることを「渡英」と言う（[[二字熟語による往来表現の一覧]]を参照）。</ref>
<ref>{{cite web |url=http://www.scotshistoryonline.co.uk/union.html |title=Treaty of Union, 1706 |publisher=Scots History Online |accessdate=23 August 2011}}</ref>
<ref>{{cite book |url=http://books.google.com/?id=LYc1tSYonrQC&pg=PA165 |title=Constitutional & Administrative Law |page=165 |author=Barne

## 25. テンプレートの抽出
記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し、辞書オブジェクトとして格納せよ。

In [25]:
pattern = re.compile(r'\|(.+ = .+)')
base_info = pattern.findall(body)
base_dict = {base.split("=")[0].strip() : "".join(base.split("=")[1:]).strip() for base in base_info}
for key,value in base_dict.items():
    print(f"{key} : {value}")

日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
国旗画像 : Flag of the United Kingdom.svg
国章画像 : [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
標語 : {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）
国歌 : [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />''神よ女王を護り賜え''<br />{{center|[[ファイル:United States Navy Band - God Save the Queen.ogg]]}}
地図画像 : Europe-UK.svg
位置画像 : United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
公用語 : [[英語]]
首都 : [[ロンドン]]（事実上）
最大都市 : ロンドン
元首等肩書 : [[イギリスの君主|女王]]
元首等氏名 : [[エリザベス2世]]
首相等肩書 : [[イギリスの首相|首相]]
首相等氏名 : [[ボリス・ジョンソン]]
他元首等肩書1 : [[貴族院 (イギリス)|貴族院議長]]
他元首等氏名1 : [[:en:Norman Fowler, Baron Fowler|ノーマン・ファウラー]]
他元首等肩書2 : [[庶民院 (イギリス)|庶民院議長]]
他元首等氏名2 : {{仮リンク|リンゼイ・ホイル|en|Lindsay Hoyle}}
他元首等肩書3 : [[連合王国最高裁判所|最高裁判所長官]]
他元首等氏名3 : [[:en:Brenda Hale, Baroness Hale of Richmond|ブレンダ・ヘイル]]
面積順位 : 76
面積大きさ : 1 E11
面積値 :

## 26. 強調マークアップの除去
25の処理時に、テンプレートの値からMediaWikiの強調マークアップ（弱い強調、強調、強い強調のすべて）を除去してテキストに変換せよ（参考: マークアップ早見表）。

In [26]:
emphasis_pattern = re.compile(r'\'+(.+?)\'+')
internal_link_pattern = re.compile(r'\[\[(.+?)\]\]')

for key,value in base_dict.items():
    origin_value = value
    value = emphasis_pattern.sub('\\1',value)    
    value = internal_link_pattern.sub('\\1',value)   
    print(f"{key} : {value}")

日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
国旗画像 : Flag of the United Kingdom.svg
国章画像 : ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章
標語 : {{lang|fr|Dieu et mon droit}}<br />（フランス語:Dieu et mon droit|神と我が権利）
国歌 : 女王陛下万歳|{{lang|en|God Save the Queen}}{{en icon}}<br />神よ女王を護り賜え<br />{{center|ファイル:United States Navy Band - God Save the Queen.ogg}}
地図画像 : Europe-UK.svg
位置画像 : United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
公用語 : 英語
首都 : ロンドン（事実上）
最大都市 : ロンドン
元首等肩書 : イギリスの君主|女王
元首等氏名 : エリザベス2世
首相等肩書 : イギリスの首相|首相
首相等氏名 : ボリス・ジョンソン
他元首等肩書1 : 貴族院 (イギリス)|貴族院議長
他元首等氏名1 : :en:Norman Fowler, Baron Fowler|ノーマン・ファウラー
他元首等肩書2 : 庶民院 (イギリス)|庶民院議長
他元首等氏名2 : {{仮リンク|リンゼイ・ホイル|en|Lindsay Hoyle}}
他元首等肩書3 : 連合王国最高裁判所|最高裁判所長官
他元首等氏名3 : :en:Brenda Hale, Baroness Hale of Richmond|ブレンダ・ヘイル
面積順位 : 76
面積大きさ : 1 E11
面積値 : 244,820
水面積率 : 1.3%
人口統計年 : 2018
人口順位 : 22
人口大きさ : 1 E7
人口値 : 6643万5600

## 27. 内部リンクの除去
26の処理に加えて、テンプレートの値からMediaWikiの内部リンクマークアップを除去し、テキストに変換せよ（参考: マークアップ早見表）。

In [27]:
emphasis_pattern = re.compile(r'\'+(.+?)\'+')
internal_link_pattern = re.compile(r'\[\[(.+?)\]\]')

for key,value in base_dict.items():
    origin_value = value
    value = emphasis_pattern.sub('\\1',value)    
    value = internal_link_pattern.sub('\\1',value)   
    print(f"{key} : {value}")

日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
国旗画像 : Flag of the United Kingdom.svg
国章画像 : ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章
標語 : {{lang|fr|Dieu et mon droit}}<br />（フランス語:Dieu et mon droit|神と我が権利）
国歌 : 女王陛下万歳|{{lang|en|God Save the Queen}}{{en icon}}<br />神よ女王を護り賜え<br />{{center|ファイル:United States Navy Band - God Save the Queen.ogg}}
地図画像 : Europe-UK.svg
位置画像 : United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
公用語 : 英語
首都 : ロンドン（事実上）
最大都市 : ロンドン
元首等肩書 : イギリスの君主|女王
元首等氏名 : エリザベス2世
首相等肩書 : イギリスの首相|首相
首相等氏名 : ボリス・ジョンソン
他元首等肩書1 : 貴族院 (イギリス)|貴族院議長
他元首等氏名1 : :en:Norman Fowler, Baron Fowler|ノーマン・ファウラー
他元首等肩書2 : 庶民院 (イギリス)|庶民院議長
他元首等氏名2 : {{仮リンク|リンゼイ・ホイル|en|Lindsay Hoyle}}
他元首等肩書3 : 連合王国最高裁判所|最高裁判所長官
他元首等氏名3 : :en:Brenda Hale, Baroness Hale of Richmond|ブレンダ・ヘイル
面積順位 : 76
面積大きさ : 1 E11
面積値 : 244,820
水面積率 : 1.3%
人口統計年 : 2018
人口順位 : 22
人口大きさ : 1 E7
人口値 : 6643万5600

## 28. MediaWikiマークアップの除去
27の処理に加えて、テンプレートの値からMediaWikiマークアップを可能な限り除去し、国の基本情報を整形せよ。

In [28]:
emphasis_pattern = re.compile(r'\'+(.+?)\'+')
internal_link_pattern = re.compile(r'\[\[(.+?)\]\]')
br_pattern = re.compile(r'<br />')
ref_pattern = re.compile(r'<ref .+ />')
ref_pattern2 = re.compile(r'<ref.*>.+</ref>')

for key,value in base_dict.items():
    origin_value = value
    value = emphasis_pattern.sub('\\1',value)    
    value = internal_link_pattern.sub('\\1',value)   
    value = br_pattern.sub("",value)
    value = ref_pattern.sub("",value)
    value = ref_pattern2.sub("",value)
    base_dict[key] = value
    print(f"{key} : {value}")

日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:
国旗画像 : Flag of the United Kingdom.svg
国章画像 : ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章
標語 : {{lang|fr|Dieu et mon droit}}（フランス語:Dieu et mon droit|神と我が権利）
国歌 : 女王陛下万歳|{{lang|en|God Save the Queen}}{{en icon}}神よ女王を護り賜え{{center|ファイル:United States Navy Band - God Save the Queen.ogg}}
地図画像 : Europe-UK.svg
位置画像 : United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
公用語 : 英語
首都 : ロンドン（事実上）
最大都市 : ロンドン
元首等肩書 : イギリスの君主|女王
元首等氏名 : エリザベス2世
首相等肩書 : イギリスの首相|首相
首相等氏名 : ボリス・ジョンソン
他元首等肩書1 : 貴族院 (イギリス)|貴族院議長
他元首等氏名1 : :en:Norman Fowler, Baron Fowler|ノーマン・ファウラー
他元首等肩書2 : 庶民院 (イギリス)|庶民院議長
他元首等氏名2 : {{仮リンク|リンゼイ・ホイル|en|Lindsay Hoyle}}
他元首等肩書3 : 連合王国最高裁判所|最高裁判所長官
他元首等氏名3 : :en:Brenda Hale, Baroness Hale of Richmond|ブレンダ・ヘイル
面積順位 : 76
面積大きさ : 1 E11
面積値 : 244,820
水面積率 : 1.3%
人口統計年 : 2018
人口順位 : 22
人口大きさ : 1 E7
人口値 : 6643万5600
人口密度値 : 271
GDP統計年元 : 2

## 29. 国旗画像のURLを取得する
テンプレートの内容を利用し、国旗画像のURLを取得せよ。（ヒント: MediaWiki APIのimageinfoを呼び出して、ファイル参照をURLに変換すればよい）

In [54]:
# pattern = re.compile(r"+.\.svg")
# flag_img = pattern.search(base_dict["国旗画像"])

S = requests.Session()
URL = "https://en.wikipedia.org/w/api.php"


PARAMS = {
    "action": "query",
    "format": "json",
    "prop": "imageinfo",
    "titles": f"File:{base_dict['国旗画像']}",
    "iiprop": "url"
}

R = S.get(url=URL, params=PARAMS)
data = R.json()

pages = data["query"]["pages"]
page_contents = list(pages.values())[0]
# PAGES
page_contents["imageinfo"][0]["url"]

'https://upload.wikimedia.org/wikipedia/en/a/ae/Flag_of_the_United_Kingdom.svg'