# 第３章：正規表現

Wikipediaの記事を以下のフォーマットで書き出したファイル[jawiki-country.json.gz](./jawiki-country.json.gz)がある．

- 1行に1記事の情報がJSON形式で格納される
- 各行には記事名が”title”キーに，記事本文が”text”キーの辞書オブジェクトに格納され，そのオブジェクトがJSON形式で書き出される
- ファイル全体はgzipで圧縮される

以下の処理を行うプログラムを作成せよ．

## 20. JSONデータの読み込み

Wikipedia記事のJSONファイルを読み込み，「イギリス」に関する記事本文を表示せよ．問題21-29では，ここで抽出した記事本文に対して実行せよ．

In [49]:
import json
import gzip
import os

src_path = "./jawiki-country.json.gz"
trg_path = "./jawiki-country.json"

# gzipファイルの解凍
if(not os.path.isfile(trg_path)):
    with gzip.open(src_path, mode="rb") as zip_f:
        content = zip_f.read()
        with open(trg_path, mode="wb") as f:
            f.write(content)


# jsonファイルの読み込み
with open(trg_path, 'r') as f:
    wiki_data = [json.loads(line) for line in f]

# タイトルがイギリスのtextを抽出し、ファイルに出力
UK_data = [data['text'] for data in wiki_data if data['title'] == "イギリス"]
UK_data = UK_data[0] if len(UK_data) else None
with open("wiki_UK.txt", "w", encoding='utf-8') as f:
    f.write(UK_data)

## 21. カテゴリ名を含む行を抽出

記事中でカテゴリ名を宣言している行を抽出せよ．

In [23]:
# 記事データの読み込み
with open("./wiki_UK.txt", "r") as f:
    lines = f.read().rstrip().split("\n")

# 正規表現でカテゴリ名を抽出
from re import match

pattern = r'^\[\[Category:'
categories = []
for line in lines:
    if(match(pattern, line)):
        categories.append(line)

print(*categories, sep="\n")

# 結果をファイルに出力
with open("./wiki_UK_categories.txt", "w") as f:
    f.write("\n".join(categories) + "\n")

[[Category:イギリス|*]]
[[Category:イギリス連邦加盟国]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国|元]]
[[Category:海洋国家]]
[[Category:現存する君主国]]
[[Category:島国]]
[[Category:1801年に成立した国家・領域]]


## 22. カテゴリ名の抽出

記事のカテゴリ名を（行単位ではなく名前で）抽出せよ．

In [6]:
# カテゴリの行を読み込み
with open("./wiki_UK_categories.txt", "r") as f:
    categories = f.read().rstrip().split("\n")
# 正規表現でカテゴリ名を抽出
from re import search

pattern = r':[^(\||\])]+[\] \|]'
names = []
for category in categories:
    name = search(pattern, category).group()
    if(len(name)):
        names.append(name[1:-1])

print(*names, sep="\n")

イギリス
イギリス連邦加盟国
英連邦王国
G8加盟国
欧州連合加盟国
海洋国家
現存する君主国
島国
1801年に成立した国家・領域


## 23. セクション構造

記事中に含まれるセクション名とそのレベル（例えば”== セクション名 ==”なら1）を表示せよ．

In [None]:
# 記事データの読み込み
with open("./wiki_UK.txt", "r") as f:
    lines = f.read().rstrip().split("\n")

# 正規表現でセクション名を抽出
from re import match

pattern = r'={2,}[^=]+={2,}'
with open("wiki_UK_sections.txt", "w") as f:
    for line in lines:
        if(match(pattern, line)):
            eq_cnt = line.count("=")// 2
            level = eq_cnt - 1
            section_name = line[eq_cnt:-eq_cnt]
            f.write(str(level)+ "\t" + section_name + "\n")
            print(level, section_name, sep="\t")

1	国名
1	歴史
1	地理
2	主要都市
2	気候
1	政治
2	元首
2	法
2	内政
2	地方行政区分
2	外交・軍事
1	経済
2	鉱業
2	農業
2	貿易
2	不動産
2	エネルギー政策
2	通貨
2	企業
3	通信
1	交通
2	道路
2	鉄道
2	海運
2	航空
1	科学技術
1	国民
2	言語
2	宗教
2	婚姻
2	移住
2	教育
2	医療
1	文化
2	食文化
2	文学
2	哲学
2	音楽
3	ポピュラー音楽
2	映画
2	コメディ
2	国花
2	世界遺産
2	祝祭日
2	スポーツ
3	サッカー
3	クリケット
3	競馬
3	モータースポーツ
3	野球
3	 カーリング 
3	 自転車競技 
1	脚注
1	関連項目
1	外部リンク


## 24. ファイル参照の抽出

記事から参照されているメディアファイルをすべて抜き出せ．

In [20]:
# 記事データの読み込み
with open("./wiki_UK.txt", "r") as f:
    lines = f.read().rstrip().split("\n")

# 正規表現でメディアファイルを抽出
from re import search

pattern = r'ファイル:[^(\|)]+\|'
with open("wiki_UK_mediafiles.txt", "w") as f:
    for line in lines:
        media_file = search(pattern, line)
        if(media_file):
            f.write(media_file.group()[5:-1] + "\n")
            print(media_file.group()[5:-1])
            

Royal Coat of Arms of the United Kingdom.svg
Descriptio Prime Tabulae Europae.jpg
Lenepveu, Jeanne d'Arc au siège d'Orléans.jpg
London.bankofengland.arp.jpg
Battle of Waterloo 1815.PNG
Uk topo en.jpg
BenNevis2005.jpg
Population density UK 2011 census.png
2019 Greenwich Peninsula & Canary Wharf.jpg
Leeds CBD at night.jpg
Palace of Westminster, London - Feb 2007.jpg
Scotland Parliament Holyrood.jpg
Soldiers Trooping the Colour, 16th June 2007.jpg
City of London skyline from London City Hall - Oct 2008.jpg
Oil platform in the North SeaPros.jpg
Eurostar at St Pancras Jan 2008.jpg
Heathrow Terminal 5C Iwelumo-1.jpg
UKpop.svg
Anglospeak.svg
Royal Aberdeen Children's Hospital.jpg
CHANDOS3.jpg
The Fabs.JPG
Wembley Stadium, illuminated.jpg


## 25. テンプレートの抽出
記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し，辞書オブジェクトとして格納せよ．

In [43]:
# 記事データの読み込み
with open("./wiki_UK.txt", "r") as f:
    data = f.read()

from re import findall

pattern = r'\|.+ = [^\|]+\n\|'
items = findall(pattern, data)
for item in items:
    print(item[1:-2])

日本語国名 = グレートブリテン及び北アイルランド連合王国
国旗画像 = Flag of the United Kingdom.svg
地図画像 = Europe-UK.svg
公用語 = [[英語]]
最大都市 = ロンドン
元首等氏名 = [[エリザベス2世]]
首相等氏名 = [[ボリス・ジョンソン]]
面積順位 = 76
面積値 = 244,820
人口統計年 = 2018
人口大きさ = 1 E7
人口密度値 = 271
GDP値元 = 1兆5478億<ref name="imf-statistics-gdp">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&pr.y=13&sy=2010&ey=2012&scsm=1&ssd=1&sort=country&ds=.&br=1&c=112&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=IMF>Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref>
GDP順位MER = 6
GDP統計年 = 2012
GDP値 = 2兆3162億<ref name="imf-statistics-gdp" />
建国形態 = 建国
確立年月日1 = 927年／843年
確立年月日2 = 1707年{{0}}5月{{0}}1日
確立年月日3 = 1801年{{0}}1月{{0}}1日
確立年月日4 = 1927年{{0}}4月12日
通貨コード = GBP
夏時間 = +1
ccTLD = [[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>


## 26. 強調マークアップの除去
25の処理時に，テンプレートの値からMediaWikiの強調マークアップ（弱い強調，強調，強い強調のすべて）を除去してテキストに変換せよ（参考: [マークアップ早見表](http://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8)）．

In [None]:
s = 0

## 27. 内部リンクの除去
26の処理に加えて，テンプレートの値からMediaWikiの内部リンクマークアップを除去し，テキストに変換せよ（参考: [マークアップ早見表](http://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8)）．

## 28. MediaWikiマークアップの除去
27の処理に加えて，テンプレートの値からMediaWikiマークアップを可能な限り除去し，国の基本情報を整形せよ．

## 29. 国旗画像のURLを取得する
テンプレートの内容を利用し，国旗画像のURLを取得せよ．（ヒント: [MediaWiki API](http://www.mediawiki.org/wiki/API:Main_page/ja)の[imageinfo](https://www.mediawiki.org/wiki/API:Imageinfo)を呼び出して，ファイル参照をURLに変換すればよい）