# 第3章: 正規表現
Wikipediaの記事を以下のフォーマットで書き出したファイル[jawiki-country.json.gz](https://nlp100.github.io/data/jawiki-country.json.gz)がある．

- 1行に1記事の情報がJSON形式で格納される
- 各行には記事名が”title”キーに，記事本文が”text”キーの辞書オブジェクトに格納され，そのオブジェクトがJSON形式で書き出される
- ファイル全体はgzipで圧縮される  

以下の処理を行うプログラムを作成せよ．

## 20. JSONデータの読み込み  
Wikipedia記事のJSONファイルを読み込み，「イギリス」に関する記事本文を表示せよ．問題21-29では，ここで抽出した記事本文に対して実行せよ．

In [1]:
!wget https://nlp100.github.io/data/jawiki-country.json.gz

--2021-05-13 12:41:15--  https://nlp100.github.io/data/jawiki-country.json.gz
Resolving nlp100.github.io (nlp100.github.io)... 185.199.108.153, 185.199.109.153, 185.199.110.153, ...
Connecting to nlp100.github.io (nlp100.github.io)|185.199.108.153|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5068362 (4.8M) [application/gzip]
Saving to: ‘jawiki-country.json.gz’


2021-05-13 12:41:16 (79.9 MB/s) - ‘jawiki-country.json.gz’ saved [5068362/5068362]



In [2]:
!gunzip jawiki-country.json.gz

gzip: jawiki-country.json already exists; do you wish to overwrite (y or n)? n
	not overwritten


In [4]:
import json
wiki_uk = []
with open('jawiki-country.json', 'r') as f:
  for line in f:
    if not line:
      continue
    line = json.loads(line)
    if line['title'] == 'イギリス':
      wiki_uk.append(line)

## 21. カテゴリ名を含む行を抽出
記事中でカテゴリ名を宣言している行を抽出せよ．

In [6]:
len(wiki_uk)

1

In [7]:
wiki_uk = wiki_uk[0]

In [10]:
import re 

result = re.findall(r'\[\[Category:.*\]\]+',wiki_uk['text']) 

In [11]:
result

['[[Category:イギリス|*]]',
 '[[Category:イギリス連邦加盟国]]',
 '[[Category:英連邦王国|*]]',
 '[[Category:G8加盟国]]',
 '[[Category:欧州連合加盟国|元]]',
 '[[Category:海洋国家]]',
 '[[Category:現存する君主国]]',
 '[[Category:島国]]',
 '[[Category:1801年に成立した国家・領域]]']

## 22. カテゴリ名の抽出
記事のカテゴリ名を（行単位ではなく名前で）抽出せよ．

In [12]:
result = re.findall(r'.*\[\[Category:(.*?)(?:\|.*)?\]\].*',wiki_uk['text']) 

In [13]:
result

['イギリス',
 'イギリス連邦加盟国',
 '英連邦王国',
 'G8加盟国',
 '欧州連合加盟国',
 '海洋国家',
 '現存する君主国',
 '島国',
 '1801年に成立した国家・領域']

## 23. セクション構造
記事中に含まれるセクション名とそのレベル（例えば”== セクション名 ==”なら1）を表示せよ．  
==の数でセクションレベルを判定する。

In [125]:
result = re.findall(r'^(\={2,})\s*(.+?)\s*(\={2,}).*', wiki_uk['text'], re.MULTILINE)

In [129]:
result

[('==', '国名', '=='),
 ('==', '歴史', '=='),
 ('==', '地理', '=='),
 ('===', '主要都市', '==='),
 ('===', '気候', '==='),
 ('==', '政治', '=='),
 ('===', '元首', '==='),
 ('===', '法', '==='),
 ('===', '内政', '==='),
 ('===', '地方行政区分', '==='),
 ('===', '外交・軍事', '==='),
 ('==', '経済', '=='),
 ('===', '鉱業', '==='),
 ('===', '農業', '==='),
 ('===', '貿易', '==='),
 ('===', '不動産', '==='),
 ('===', 'エネルギー政策', '==='),
 ('===', '通貨', '==='),
 ('===', '企業', '==='),
 ('====', '通信', '===='),
 ('==', '交通', '=='),
 ('===', '道路', '==='),
 ('===', '鉄道', '==='),
 ('===', '海運', '==='),
 ('===', '航空', '==='),
 ('==', '科学技術', '=='),
 ('==', '国民', '=='),
 ('===', '言語', '==='),
 ('===', '宗教', '==='),
 ('===', '婚姻', '==='),
 ('===', '移住', '==='),
 ('===', '教育', '==='),
 ('===', '医療', '==='),
 ('==', '文化', '=='),
 ('===', '食文化', '==='),
 ('===', '文学', '==='),
 ('===', '哲学', '==='),
 ('===', '音楽', '==='),
 ('====', 'ポピュラー音楽', '===='),
 ('===', '映画', '==='),
 ('===', 'コメディ', '==='),
 ('===', '国花', '==='),
 ('===', '世界遺産', '==='),

In [127]:
from collections import defaultdict
section = defaultdict(int)
for r in result:
  section[r[1]] += len(r[2])

print(section)

defaultdict(<class 'int'>, {'国名': 2, '歴史': 2, '地理': 2, '主要都市': 3, '気候': 3, '政治': 2, '元首': 3, '法': 3, '内政': 3, '地方行政区分': 3, '外交・軍事': 3, '経済': 2, '鉱業': 3, '農業': 3, '貿易': 3, '不動産': 3, 'エネルギー政策': 3, '通貨': 3, '企業': 3, '通信': 4, '交通': 2, '道路': 3, '鉄道': 3, '海運': 3, '航空': 3, '科学技術': 2, '国民': 2, '言語': 3, '宗教': 3, '婚姻': 3, '移住': 3, '教育': 3, '医療': 3, '文化': 2, '食文化': 3, '文学': 3, '哲学': 3, '音楽': 3, 'ポピュラー音楽': 4, '映画': 3, 'コメディ': 3, '国花': 3, '世界遺産': 3, '祝祭日': 3, 'スポーツ': 3, 'サッカー': 4, 'クリケット': 4, '競馬': 4, 'モータースポーツ': 4, '野球': 4, 'カーリング': 4, '自転車競技': 4, '脚注': 2, '関連項目': 2, '外部リンク': 2})


## 24. ファイル参照の抽出
記事から参照されているメディアファイルをすべて抜き出せ

In [21]:
result = re.findall(r'.*\[ファイル:(.*?)(?:\|.*)?\].*',wiki_uk['text']) 

In [22]:
result

['Royal Coat of Arms of the United Kingdom.svg',
 'United States Navy Band - God Save the Queen.ogg',
 'Descriptio Prime Tabulae Europae.jpg',
 "Lenepveu, Jeanne d'Arc au siège d'Orléans.jpg",
 'London.bankofengland.arp.jpg',
 'Battle of Waterloo 1815.PNG',
 'Uk topo en.jpg',
 'BenNevis2005.jpg',
 'Population density UK 2011 census.png',
 'Birmingham Skyline from Edgbaston Cricket Ground crop.jpg',
 'Glasgow and the Clyde from the air (geograph 4665720).jpg',
 'Palace of Westminster, London - Feb 2007.jpg',
 'Scotland Parliament Holyrood.jpg',
 'Donald Trump and Theresa May (33998675310) (cropped).jpg',
 'Soldiers Trooping the Colour, 16th June 2007.jpg',
 'City of London skyline from London City Hall - Oct 2008.jpg',
 'Oil platform in the North SeaPros.jpg',
 'Eurostar at St Pancras Jan 2008.jpg',
 'Airbus A380-841 G-XLEB British Airways (10424102995).jpg',
 'UKpop.svg',
 'Anglospeak.svg',
 "Royal Aberdeen Children's Hospital.jpg",
 'CHANDOS3.jpg',
 'The Fabs.JPG',
 'Wembley Stadium, 

## 25. テンプレートの抽出
記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し，辞書オブジェクトとして格納せよ．

In [47]:
template = re.findall(r'^\{\{基礎情報.*?$(.*?)^\}\}',wiki_uk['text'], re.MULTILINE + re.DOTALL) 
print(template)

template = re.findall(r'^\|(.+?)\s*=\s*(.+?)(?:(?=\n\|)|(?=\n$))', template[0], re.MULTILINE + re.DOTALL)
print(template)
result = dict(template)
print(result)

['\n|略名  =イギリス\n|日本語国名 = グレートブリテン及び北アイルランド連合王国\n|公式国名 = {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>\n|国旗画像 = Flag of the United Kingdom.svg\n|国章画像 = [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]\n|国章リンク =（[[イギリスの国章|国章]]）\n|標語 = {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）\n|国歌 = [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en ico

## 26. 強調マークアップの除去

25の処理時に，テンプレートの値からMediaWikiの強調マークアップ（弱い強調，強調，強い強調のすべて）を除去してテキストに変換せよ（参考: [マークアップ早見表](http://ja.wikipedia.org/wiki/Help:早見表)）．

In [50]:
template = re.findall(r'^\{\{基礎情報.*?$(.*?)^\}\}',wiki_uk['text'], re.MULTILINE + re.DOTALL) 
print(template)
template = re.sub(r'\'{2,5}','',template[0])
template = re.findall(r'^\|(.+?)\s*=\s*(.+?)(?:(?=\n\|)|(?=\n$))', template, re.MULTILINE + re.DOTALL)
print(template)


['\n|略名  =イギリス\n|日本語国名 = グレートブリテン及び北アイルランド連合王国\n|公式国名 = {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>\n|国旗画像 = Flag of the United Kingdom.svg\n|国章画像 = [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]\n|国章リンク =（[[イギリスの国章|国章]]）\n|標語 = {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）\n|国歌 = [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en ico

## 27. 内部リンクの除去

26の処理に加えて，テンプレートの値からMediaWikiの内部リンクマークアップを除去し，テキストに変換せよ（参考: マークアップ早見表）

In [55]:
template = re.findall(r'^\{\{基礎情報.*?$(.*?)^\}\}',wiki_uk['text'], re.MULTILINE + re.DOTALL) 
print(template)
template = re.sub(r'\'{2,5}','',template[0])
template = re.sub(r'\[\[.*\]\]','',template)
template = re.findall(r'^\|(.+?)\s*=\s*(.+?)(?:(?=\n\|)|(?=\n$))', template, re.MULTILINE + re.DOTALL)
print(template)


['\n|略名  =イギリス\n|日本語国名 = グレートブリテン及び北アイルランド連合王国\n|公式国名 = {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>\n|国旗画像 = Flag of the United Kingdom.svg\n|国章画像 = [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]\n|国章リンク =（[[イギリスの国章|国章]]）\n|標語 = {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）\n|国歌 = [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en ico

## 28. MediaWikiマークアップの除去

27の処理に加えて，テンプレートの値からMediaWikiマークアップを可能な限り除去し，国の基本情報を整形せよ．



In [65]:
template = re.findall(r'^\{\{基礎情報.*?$(.*?)^\}\}',wiki_uk['text'], re.MULTILINE + re.DOTALL) 
print(template)
template = re.sub(r'\'{2,5}','',template[0])
template = re.sub(r'\[\[.*\]\]','',template)
template = re.sub(r'<.*>','',template)
template = re.sub(r'{{.*}}','',template)
template = re.findall(r'^\|(.+?)\s*=\s*(.+?)(?:(?=\n\|)|(?=\n$))', template, re.MULTILINE + re.DOTALL)
print(template)


['\n|略名  =イギリス\n|日本語国名 = グレートブリテン及び北アイルランド連合王国\n|公式国名 = {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>\n|国旗画像 = Flag of the United Kingdom.svg\n|国章画像 = [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]\n|国章リンク =（[[イギリスの国章|国章]]）\n|標語 = {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）\n|国歌 = [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en ico

## 29. 国旗画像のURLを取得する

テンプレートの内容を利用し，国旗画像のURLを取得せよ．（ヒント: [MediaWiki API](http://www.mediawiki.org/wiki/API:Main_page/ja)の[imageinfo](https://www.mediawiki.org/wiki/API:Imageinfo)を呼び出して，ファイル参照をURLに変換すればよい）

In [70]:
uk = dict(template)

In [71]:
uk['国旗画像']

'Flag of the United Kingdom.svg'

In [83]:
import requests
S = requests.Session()

title = uk['国旗画像'].replace(' ','_')
URL = "https://en.wikipedia.org/w/api.php"
PARAMS = {
    "action": "query",
    "format": "json",
    "prop": "imageinfo",
    "titles": title
}
R = S.get(url=URL, params=PARAMS)
DATA = R.json()

In [84]:
R # 200なら成功

<Response [200]>

In [85]:
DATA

{'batchcomplete': '',
 'query': {'normalized': [{'from': 'Flag_of_the_United_Kingdom.svg',
    'to': 'Flag of the United Kingdom.svg'}],
  'pages': {'-1': {'missing': '',
    'ns': 0,
    'title': 'Flag of the United Kingdom.svg'}}}}