# 第3章: 正規表現
【2020/04/08】<br>
現在配布されているデータにセクション情報等が確認できないため、2015年度版のデータを使用

## 20. JSONデータの読み込み

In [1]:
import gzip
import json

In [2]:
jawiki_data = {}
with gzip.open('../data/jawiki-country.json.gz', 'rt') as fr:
    for i, json_data in enumerate(fr):
        data = json.loads(json_data)
        jawiki_data[data['title']] = data
print(len(jawiki_data))

206


In [3]:
britwiki = jawiki_data['イギリス']['text']

## 21. カテゴリ名を含む行を抽出
[[Category:カテゴリ名]]

In [4]:
import re

In [5]:
categoryline_pattern = re.compile(r'(.*\[\[Category:.*?\]\].*)')
re.findall(categoryline_pattern, britwiki)

['[[Category:イギリス|*]]',
 '[[Category:英連邦王国|*]]',
 '[[Category:G8加盟国]]',
 '[[Category:欧州連合加盟国]]',
 '[[Category:海洋国家]]',
 '[[Category:君主国]]',
 '[[Category:島国|くれいとふりてん]]',
 '[[Category:1801年に設立された州・地域]]']

## 22. カテゴリ名の抽出

In [6]:
categoryname_pattern = re.compile(r'\[\[Category:(.*?)\]\]')
re.findall(categoryname_pattern, britwiki)

['イギリス|*',
 '英連邦王国|*',
 'G8加盟国',
 '欧州連合加盟国',
 '海洋国家',
 '君主国',
 '島国|くれいとふりてん',
 '1801年に設立された州・地域']

## 23. セクション構造
==section==

In [7]:
section_pattern = re.compile(r'(={2,})(.*?)={2,}')
for result in re.findall(section_pattern, britwiki):
    section_level = len(result[0]) - 1
    section_name = result[1]
    print(section_level, ":", section_name)

1 : 国名
1 : 歴史
1 : 地理
2 : 気候
1 : 政治
1 : 外交と軍事
1 : 地方行政区分
2 : 主要都市
1 : 科学技術
1 : 経済
2 : 鉱業
2 : 農業
2 : 貿易
2 : 通貨
2 : 企業
1 : 交通
2 : 道路
2 : 鉄道
2 : 海運
2 : 航空
1 : 通信
1 : 国民
2 : 言語
2 : 宗教
2 :  婚姻 
2 : 教育
1 : 文化
2 : 食文化
2 : 文学
2 :  哲学 
2 : 音楽
3 : イギリスのポピュラー音楽
2 : 映画
2 : コメディ
2 : 国花
2 : 世界遺産
2 : 祝祭日
1 : スポーツ
2 : サッカー
2 : 競馬
2 : モータースポーツ
1 : 脚注
1 : 関連項目
1 : 外部リンク


## 24. ファイル参照の抽出
[File:Battle of Waterloo 1815.PNG|thumb|left|[[ワーテルローの戦い]]

In [8]:
file_ref_pattern = re.compile(r'\[File:(.*?)\|.*\]')
re.findall(file_ref_pattern, britwiki)

['Battle of Waterloo 1815.PNG',
 'The British Empire.png',
 'Uk topo en.jpg',
 'BenNevis2005.jpg',
 'Elizabeth II greets NASA GSFC employees, May 8, 2007 edit.jpg',
 'Palace of Westminster, London - Feb 2007.jpg',
 'David Cameron and Barack Obama at the G20 Summit in Toronto.jpg',
 'Soldiers Trooping the Colour, 16th June 2007.jpg',
 'Scotland Parliament Holyrood.jpg',
 'London.bankofengland.arp.jpg',
 'City of London skyline from London City Hall - Oct 2008.jpg',
 'Oil platform in the North SeaPros.jpg',
 'Eurostar at St Pancras Jan 2008.jpg',
 'Heathrow T5.jpg',
 'Anglospeak.svg']

## 25. テンプレートの抽出
{{基礎情報 国<br>
|a = b<br>
|c = d<br>
}}

In [9]:
template_pattern = re.compile(r'(^|(?<=[\n|\r\n|\r]))(\{\{基礎情報[\s\S]*)(?=[\n|\r\n|\r]\}\})')
field_pattern = re.compile(r'^|(?<=[\n|\r\n|\r]\|)(.*)=(.*)')

template_fields = {}
template = re.search(template_pattern, britwiki).group()
for k, v in re.findall(field_pattern, template):
    if k == "" or v == "":
        continue
    template_fields[k] = v

In [10]:
template_fields

{'略名 ': ' イギリス',
 '日本語国名 ': ' グレートブリテン及び北アイルランド連合王国',
 '公式国名 ': ' {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/>',
 '国旗画像 ': ' Flag of the United Kingdom.svg',
 '国章画像 ': ' [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]',
 '国章リンク ': ' （[[イギリスの国章|国章]]）',
 '標語 ': ' {{lang|fr|Dieu et mon droit}}<br/>（[[フランス語]]:神と私の権利）',
 '国歌 ': ' [[女王陛下万歳|神よ女王陛下を守り給え]]',
 '位置画像 ': ' Location_UK_EU_Europe_001.svg',
 '公用語 ': ' [[英語]]（事実上）',
 '首都 ': ' [[ロンドン]]',
 '最大都市 ': ' ロンドン',
 '元首等肩書 ': ' [[イギリスの君主|女王]]',
 '元首等氏名 ': ' [[エリザベス2世]]',
 '首相等肩書 ': ' [[イギリスの首相|首相]]',
 '首相等氏名 ': ' [[デーヴィッド・キャメロン]]',
 '面積順位 ': ' 76',
 '面積大きさ ': ' 1 E11',
 '面積値 ': ' 244,820',
 '水面積率 ': ' 1.3%',
 '人口統計年 ': ' 2011',
 '人口順位 ': ' 22',
 '人口大きさ ': ' 1 E7',
 '人口値 ': ' 63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref>',
 '人口密度値 ': ' 246',
 'GDP統計

## 26. 強調マークアップの除去

In [11]:
template_pattern = re.compile(r'(^|(?<=[\n|\r\n|\r]))(\{\{基礎情報[\s\S]*)(?=[\n|\r\n|\r]\}\})')
emphasis_pattern = re.compile(r"'{5}|'{3}|'{2}")
field_pattern = re.compile(r'^|(?<=[\n|\r\n|\r]\|)(.*)=(.*)')

template_fields = {}
template = re.search(template_pattern, britwiki).group()
template = re.sub(emphasis_pattern, '', template)
for k, v in re.findall(field_pattern, template):
    if k == "" or v == "":
        continue
    template_fields[k] = v
    
template_fields

{'略名 ': ' イギリス',
 '日本語国名 ': ' グレートブリテン及び北アイルランド連合王国',
 '公式国名 ': ' {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/>',
 '国旗画像 ': ' Flag of the United Kingdom.svg',
 '国章画像 ': ' [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]',
 '国章リンク ': ' （[[イギリスの国章|国章]]）',
 '標語 ': ' {{lang|fr|Dieu et mon droit}}<br/>（[[フランス語]]:神と私の権利）',
 '国歌 ': ' [[女王陛下万歳|神よ女王陛下を守り給え]]',
 '位置画像 ': ' Location_UK_EU_Europe_001.svg',
 '公用語 ': ' [[英語]]（事実上）',
 '首都 ': ' [[ロンドン]]',
 '最大都市 ': ' ロンドン',
 '元首等肩書 ': ' [[イギリスの君主|女王]]',
 '元首等氏名 ': ' [[エリザベス2世]]',
 '首相等肩書 ': ' [[イギリスの首相|首相]]',
 '首相等氏名 ': ' [[デーヴィッド・キャメロン]]',
 '面積順位 ': ' 76',
 '面積大きさ ': ' 1 E11',
 '面積値 ': ' 244,820',
 '水面積率 ': ' 1.3%',
 '人口統計年 ': ' 2011',
 '人口順位 ': ' 22',
 '人口大きさ ': ' 1 E7',
 '人口値 ': ' 63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref>',
 '人口密度値 ': ' 246',
 'GDP統計

## 27. 内部リンクの除去

In [12]:
template_pattern = re.compile(r'(^|(?<=[\n|\r\n|\r]))(\{\{基礎情報[\s\S]*)(?=[\n|\r\n|\r]\}\})')
emphasis_pattern = re.compile(r"'{5}|'{3}|'{2}")
file_pattern = re.compile(r'(\[\[ファイル:)(.*?)(\|.*?)(\]\])')
link_pattern = re.compile(r'(\[\[)(.*?\|)?(.*?)(\]\])')
field_pattern = re.compile(r'^|(?<=[\n|\r\n|\r]\|)(.*)=(.*)')

template_fields = {}
template = re.search(template_pattern, britwiki).group()
template = re.sub(emphasis_pattern, '', template)
template = re.sub(file_pattern, r'\2', template)
template = re.sub(link_pattern, r'\3', template)

for k, v in re.findall(field_pattern, template):
    if k == "" or v == "":
        continue
    template_fields[k] = v

template_fields

{'略名 ': ' イギリス',
 '日本語国名 ': ' グレートブリテン及び北アイルランド連合王国',
 '公式国名 ': ' {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/>',
 '国旗画像 ': ' Flag of the United Kingdom.svg',
 '国章画像 ': ' Royal Coat of Arms of the United Kingdom.svg',
 '国章リンク ': ' （国章）',
 '標語 ': ' {{lang|fr|Dieu et mon droit}}<br/>（フランス語:神と私の権利）',
 '国歌 ': ' 神よ女王陛下を守り給え',
 '位置画像 ': ' Location_UK_EU_Europe_001.svg',
 '公用語 ': ' 英語（事実上）',
 '首都 ': ' ロンドン',
 '最大都市 ': ' ロンドン',
 '元首等肩書 ': ' 女王',
 '元首等氏名 ': ' エリザベス2世',
 '首相等肩書 ': ' 首相',
 '首相等氏名 ': ' デーヴィッド・キャメロン',
 '面積順位 ': ' 76',
 '面積大きさ ': ' 1 E11',
 '面積値 ': ' 244,820',
 '水面積率 ': ' 1.3%',
 '人口統計年 ': ' 2011',
 '人口順位 ': ' 22',
 '人口大きさ ': ' 1 E7',
 '人口値 ': ' 63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref>',
 '人口密度値 ': ' 246',
 'GDP統計年元 ': ' 2012',
 'GDP値元 = 1兆5478億<ref name="imf-statistics-gdp">[http://www.imf.org/extern

## 28. MediaWikiマークアップの除去

In [13]:
template_pattern = re.compile(r'(^|(?<=[\n|\r\n|\r]))(\{\{基礎情報[\s\S]*)(?=[\n|\r\n|\r]\}\})')
emphasis_pattern = re.compile(r"'{5}|'{3}|'{2}")
file_pattern = re.compile(r'(\[\[ファイル:)(.*?)(\|.*?)(\]\])')
link_pattern = re.compile(r'(\[\[)(.*?\|)?(.*?)(\]\])')
lang_pattern = re.compile(r'(\{\{lang\|)(.*?\|)(.*?)(\}\})')
br_pattern = re.compile(r'<br/>')
url_pattern = re.compile(r'\[http.*?\]')
ref_pattern = re.compile(r'<ref.*?[\s\S]*?/.*?>')
field_pattern = re.compile(r'^|(?<=[\n|\r\n|\r]\|)(.*)=(.*)')

template_fields = {}
template = re.search(template_pattern, britwiki).group()
template = re.sub(emphasis_pattern, '', template)
template = re.sub(file_pattern, r'\2', template)
template = re.sub(link_pattern, r'\3', template)
template = re.sub(lang_pattern, r'\3', template)
template = re.sub(br_pattern, '', template)
template = re.sub(url_pattern, '', template)
template = re.sub(ref_pattern, '', template)

for k, v in re.findall(field_pattern, template):
    if k == "" or v == "":
        continue
    if k[-1] == " ":
        k = k[:-1]
    if v[0] == " ":
        v = v[1:]
    template_fields[k] = v

template_fields

{'略名': 'イギリス',
 '日本語国名': 'グレートブリテン及び北アイルランド連合王国',
 '公式国名': 'United Kingdom of Great Britain and Northern Ireland',
 '国旗画像': 'Flag of the United Kingdom.svg',
 '国章画像': 'Royal Coat of Arms of the United Kingdom.svg',
 '国章リンク': '（国章）',
 '標語': 'Dieu et mon droit（フランス語:神と私の権利）',
 '国歌': '神よ女王陛下を守り給え',
 '位置画像': 'Location_UK_EU_Europe_001.svg',
 '公用語': '英語（事実上）',
 '首都': 'ロンドン',
 '最大都市': 'ロンドン',
 '元首等肩書': '女王',
 '元首等氏名': 'エリザベス2世',
 '首相等肩書': '首相',
 '首相等氏名': 'デーヴィッド・キャメロン',
 '面積順位': '76',
 '面積大きさ': '1 E11',
 '面積値': '244,820',
 '水面積率': '1.3%',
 '人口統計年': '2011',
 '人口順位': '22',
 '人口大きさ': '1 E7',
 '人口値': '63,181,775',
 '人口密度値': '246',
 'GDP統計年元': '2012',
 'GDP値元': '1兆5478億',
 'GDP統計年MER': '2012',
 'GDP順位MER': '5',
 'GDP値MER': '2兆4337億',
 'GDP統計年': '2012',
 'GDP順位': '6',
 'GDP値': '2兆3162億',
 'GDP/人': '36,727',
 '建国形態': '建国',
 '確立形態1': '1707年連合法まで）',
 '確立年月日1': '927年／843年',
 '確立形態2': '1707年連合法）',
 '確立年月日2': '1707年',
 '確立形態3': '1800年連合法）',
 '確立年月日3': '1801年',
 '確立形態4': '現在の国号「グレートブリテン及び北アイルランド連合王国」に変更'

## 29. 国旗画像のURLを取得する
[参考]<br>
requestsモジュールの使い方: https://requests-docs-ja.readthedocs.io/en/latest/user/quickstart/ <br>
URLエンドポイントの仕組み: https://www.mediawiki.org/wiki/API:Tutorial <br>
パラメータの選択: https://www.mediawiki.org/w/api.php?action=help&modules=main

In [14]:
import requests

In [15]:
params = {
    'action': 'query',
    'prop': 'imageinfo',
    'titles': 'File:'+template_fields['国旗画像'],
    'iiprop': 'url',
    'format': 'json',
}
r = requests.get('https://www.mediawiki.org/w/api.php', params=params)

In [16]:
print("[request url]\n ", r.url)
r.json()

[request url]
  https://www.mediawiki.org/w/api.php?action=query&prop=imageinfo&titles=File%3AFlag+of+the+United+Kingdom.svg&iiprop=url&format=json


{'continue': {'iistart': '2019-09-10T16:52:58Z', 'continue': '||'},
 'query': {'pages': {'-1': {'ns': 6,
    'title': 'File:Flag of the United Kingdom.svg',
    'missing': '',
    'known': '',
    'imagerepository': 'shared',
    'imageinfo': [{'url': 'https://upload.wikimedia.org/wikipedia/commons/a/ae/Flag_of_the_United_Kingdom.svg',
      'descriptionurl': 'https://commons.wikimedia.org/wiki/File:Flag_of_the_United_Kingdom.svg',
      'descriptionshorturl': 'https://commons.wikimedia.org/w/index.php?curid=347935'}]}}}}

In [17]:
print(r.json()['query']['pages']['-1']['imageinfo'][0]['url'])

https://upload.wikimedia.org/wikipedia/commons/a/ae/Flag_of_the_United_Kingdom.svg
