# 第3章: 正規表現

## 20. JSONデータの読み込み
Wikipedia記事のJSONファイルを読み込み，「イギリス」に関する記事本文を表示せよ．問題21-29では，ここで抽出した記事本文に対して実行せよ．

In [28]:
import json
with open('./jawiki-country.json', 'r') as f:
    line = f.readline()
    while line:
        d = json.loads(line)
        if d['title'] == 'イギリス':
            uk = d
            break
        line = f.readline()
        
with open('uk.txt', 'w') as f:
    f.write(uk['text'])

## 21. カテゴリ名を含む行を抽出
記事中でカテゴリ名を宣言している行を抽出せよ．

In [29]:
import re

pat = re.compile(r'^\[\[Category:(.+)\]\]')

with open('uk.txt', 'r') as f:
    line = f.readline()
    while line:
        matcher = pat.match(line)
        if matcher:
            print(line)
        line = f.readline()

[[Category:イギリス|*]]

[[Category:英連邦王国|*]]

[[Category:G8加盟国]]

[[Category:欧州連合加盟国]]

[[Category:海洋国家]]

[[Category:君主国]]

[[Category:島国|くれいとふりてん]]

[[Category:1801年に設立された州・地域]]


In [30]:
with open('uk.txt', 'r') as f:
    line = f.readline()
    while line:
        matcher = pat.match(line)
        if matcher:
            print(matcher.group(1))
        line = f.readline()

イギリス|*
英連邦王国|*
G8加盟国
欧州連合加盟国
海洋国家
君主国
島国|くれいとふりてん
1801年に設立された州・地域


## 23. セクション構造
記事中に含まれるセクション名とそのレベル（例えば"== セクション名 =="なら1）を表示せよ．

In [41]:
pat = re.compile(r'^=(=+)([^=]*)=+$')
with open('uk.txt', 'r') as f:
    line = f.readline()
    while line:
        matcher = pat.match(line)
        if matcher:
            level = len(matcher.group(1))
            print(level, matcher.group(2))
        line = f.readline()

1 国名
1 歴史
1 地理
2 気候
1 政治
1 外交と軍事
1 地方行政区分
2 主要都市
1 科学技術
1 経済
2 鉱業
2 農業
2 貿易
2 通貨
2 企業
1 交通
2 道路
2 鉄道
2 海運
2 航空
1 通信
1 国民
2 言語
2 宗教
2  婚姻 
2 教育
1 文化
2 食文化
2 文学
2  哲学 
2 音楽
3 イギリスのポピュラー音楽
2 映画
2 コメディ
2 国花
2 世界遺産
2 祝祭日
1 スポーツ
2 サッカー
2 競馬
2 モータースポーツ
1 脚注
1 関連項目
1 外部リンク


## 24. ファイル参照の抽出
記事から参照されているメディアファイルをすべて抜き出せ．

## 25. テンプレートの抽出
記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し，辞書オブジェクトとして格納せよ．

In [44]:
pat = re.compile(r'^\|(.+) = (.+)$')
base_info_dict = {}
with open('uk.txt', 'r') as f:
    line = f.readline()
    while line:
        matcher = pat.match(line)
        if matcher:
            base_info_dict[matcher.group(1)] = matcher.group(2)
        line = f.readline()
        
print(base_info_dict)

{'国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]', 'GDP順位': '6', 'GDP値元': '1兆5478億<ref name="imf-statistics-gdp">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&pr.y=13&sy=2010&ey=2012&scsm=1&ssd=1&sort=country&ds=.&br=1&c=112&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a= IMF>Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref>', '国際電話番号': '44', '確立形態2': '[[グレートブリテン王国]]建国<br />（[[連合法 (1707年)|1707年連合法]]）', '位置画像': 'Location_UK_EU_Europe_001.svg', '略名': 'イギリス', '首都': '[[ロンドン]]', '水面積率': '1.3%', 'GDP順位MER': '5', '国章リンク': '（[[イギリスの国章|国章]]）', '元首等氏名': '[[エリザベス2世]]', '注記': '<references />', '面積順位': '76', '最大都市': 'ロンドン', 'ccTLD': '[[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>', '公用語': '[[英語]]（事実上）', '通貨': '[[スターリング・ポンド|UKポンド]] (&pound;)', 'GDP統計年': '2012', '国旗画像': 'Flag of the United Kingdom.svg', 'GDP値': '2兆3162億<ref name="imf-statistics-gdp" />', '確立形態3': '[[グレートブリテン及びアイルランド連合王国]]建国<br />（[[連合法 (1800年)|180

## 26. 強調マークアップの除去
25の処理時に，テンプレートの値からMediaWikiの強調マークアップ（弱い強調，強調，強い強調のすべて）を除去してテキストに変換せよ（参考: マークアップ早見表）．

In [55]:
pat = re.compile(r'^\|(.+) = (.+)$')
emphasis_pat = re.compile("'+(.+)'+")

base_info_dict = {}
with open('uk.txt', 'r') as f:
    line = f.readline()
    while line:
        matcher = pat.match(line)
        if matcher:
            base_info_dict[matcher.group(1)] = re.sub(emphasis_pat, r'\1', matcher.group(2))
        line = f.readline()
        
print(base_info_dict)

{'国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]', 'GDP順位': '6', 'GDP値元': '1兆5478億<ref name="imf-statistics-gdp">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&pr.y=13&sy=2010&ey=2012&scsm=1&ssd=1&sort=country&ds=.&br=1&c=112&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a= IMF>Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref>', '国際電話番号': '44', '確立形態2': '[[グレートブリテン王国]]建国<br />（[[連合法 (1707年)|1707年連合法]]）', '位置画像': 'Location_UK_EU_Europe_001.svg', '略名': 'イギリス', '首都': '[[ロンドン]]', '水面積率': '1.3%', 'GDP順位MER': '5', '国章リンク': '（[[イギリスの国章|国章]]）', '元首等氏名': '[[エリザベス2世]]', '注記': '<references />', '面積順位': '76', '最大都市': 'ロンドン', 'ccTLD': '[[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>', '公用語': '[[英語]]（事実上）', '通貨': '[[スターリング・ポンド|UKポンド]] (&pound;)', 'GDP統計年': '2012', '国旗画像': 'Flag of the United Kingdom.svg', 'GDP値': '2兆3162億<ref name="imf-statistics-gdp" />', '確立形態3': '[[グレートブリテン及びアイルランド連合王国]]建国<br />（[[連合法 (1800年)|180