# 20.JSONデータの読み込み

In [2]:
import json


with open('jawiki-country.json','r') as f:
    for line in f:
        data = json.loads(line)
        if ('title', 'イギリス') in data.items():
            text = data['text']

print(text[:500])

{{redirect|UK}}
{{redirect|英国|春秋時代の諸侯国|英 (春秋)}}
{{Otheruses|ヨーロッパの国|長崎県・熊本県の郷土料理|いぎりす}}
{{基礎情報 国
|略名  =イギリス
|日本語国名 = グレートブリテン及び北アイルランド連合王国
|公式国名 = {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）
*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）
*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）
*{{lang|k


# 21.カテゴリ名を含む行を抽出

In [2]:
import re

pattern = r'^\[\[Category:.+'

result = re.findall(pattern, text,re.MULTILINE)

print('\n'.join(result))

[[Category:イギリス|*]]
[[Category:イギリス連邦加盟国]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国|元]]
[[Category:海洋国家]]
[[Category:現存する君主国]]
[[Category:島国]]
[[Category:1801年に成立した国家・領域]]


# 22.カテゴリ名の抽出

In [3]:

pattern = r'^\[\[Category:(.*?)(?:\|.*)?\]\]'
result = re.findall(pattern, text , re.MULTILINE)

print(result)

['イギリス', 'イギリス連邦加盟国', '英連邦王国', 'G8加盟国', '欧州連合加盟国', '海洋国家', '現存する君主国', '島国', '1801年に成立した国家・領域']


# 23.セクション構造

In [4]:
pattern = r'^(\=+)(.+?)(\=+)'
result = re.findall(pattern, text , re.MULTILINE)


print('\n'.join('name:' + s[1] + ' ' + 'level:' + str(len(s[0])-1) for s in result))


name:国名 level:1
name:歴史 level:1
name:地理 level:1
name:主要都市 level:2
name:気候 level:2
name:政治 level:1
name:元首 level:2
name:法 level:2
name:内政 level:2
name:地方行政区分 level:2
name:外交・軍事 level:2
name:経済 level:1
name:鉱業 level:2
name:農業 level:2
name:貿易 level:2
name:不動産 level:2
name:エネルギー政策 level:2
name:通貨 level:2
name:企業 level:2
name:通信 level:3
name:交通 level:1
name:道路 level:2
name:鉄道 level:2
name:海運 level:2
name:航空 level:2
name:科学技術 level:1
name:国民 level:1
name:言語 level:2
name:宗教 level:2
name:婚姻 level:2
name:移住 level:2
name:教育 level:2
name:医療 level:2
name:文化 level:1
name:食文化 level:2
name:文学 level:2
name:哲学 level:2
name:音楽 level:2
name:ポピュラー音楽 level:3
name:映画 level:2
name:コメディ level:2
name:国花 level:2
name:世界遺産 level:2
name:祝祭日 level:2
name:スポーツ level:2
name:サッカー level:3
name:クリケット level:3
name:競馬 level:3
name:モータースポーツ level:3
name:野球 level:3
name: カーリング  level:3
name: 自転車競技  level:3
name:脚注 level:1
name:関連項目 level:1
name:外部リンク level:1


# 24.ファイル参照の抽出

In [5]:
pattern = r'\[\[ファイル:(.*?)\|'
result = re.findall(pattern, text, re.MULTILINE)

print('\n'.join(result))

Royal Coat of Arms of the United Kingdom.svg
Descriptio Prime Tabulae Europae.jpg
Lenepveu, Jeanne d'Arc au siège d'Orléans.jpg
London.bankofengland.arp.jpg
Battle of Waterloo 1815.PNG
Uk topo en.jpg
BenNevis2005.jpg
Population density UK 2011 census.png
2019 Greenwich Peninsula & Canary Wharf.jpg
Birmingham Skyline from Edgbaston Cricket Ground crop.jpg
Leeds CBD at night.jpg
Glasgow and the Clyde from the air (geograph 4665720).jpg
Palace of Westminster, London - Feb 2007.jpg
Scotland Parliament Holyrood.jpg
Donald Trump and Theresa May (33998675310) (cropped).jpg
Soldiers Trooping the Colour, 16th June 2007.jpg
City of London skyline from London City Hall - Oct 2008.jpg
Oil platform in the North SeaPros.jpg
Eurostar at St Pancras Jan 2008.jpg
Heathrow Terminal 5C Iwelumo-1.jpg
Airbus A380-841 G-XLEB British Airways (10424102995).jpg
UKpop.svg
Anglospeak.svg
Royal Aberdeen Children's Hospital.jpg
CHANDOS3.jpg
The Fabs.JPG
Wembley Stadium, illuminated.jpg


# 25.テンプレートの抽出

In [6]:
result = {}
pattern1 = r'^\{\{基礎情報.*?$(.+?)^\}\}$'
template = re.findall(pattern1,text, re.MULTILINE + re.DOTALL)

pattern2 = r'^\|(.+?)\s*=\s*(.+?)((?=\n\|)|(?=\n$))'
template2 = re.findall(pattern2,template[0], re.MULTILINE + re.DOTALL)

for s in template2:
    result[s[0]] = s[1]

result

{'略名': 'イギリス',
 '日本語国名': 'グレートブリテン及び北アイルランド連合王国',
 '公式国名': '{{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>',
 '国旗画像': 'Flag of the United Kingdom.svg',
 '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]',
 '国章リンク': '（[[イギリスの国章|国章]]）',
 '標語': '{{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）',
 '国歌': "[[女王陛下万歳|{{lang|en|God Save t

# 26.強調マークアップの除去

In [7]:
pattern = r'\'{2,}'
res = {}
for k , v in result.items():
    res[k] = re.sub(pattern , '', v)
    
res

{'略名': 'イギリス',
 '日本語国名': 'グレートブリテン及び北アイルランド連合王国',
 '公式国名': '{{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>',
 '国旗画像': 'Flag of the United Kingdom.svg',
 '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]',
 '国章リンク': '（[[イギリスの国章|国章]]）',
 '標語': '{{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）',
 '国歌': '[[女王陛下万歳|{{lang|en|God Save t

# 27.内部リンクの除去

In [8]:
pattern = r'\[\[(?:[^|]*?\|)?([^|]*?)\]\]'
res1 = {}
for k , v in res.items():
    res1[k] = re.sub(pattern , r'\1', v)
res1

{'略名': 'イギリス',
 '日本語国名': 'グレートブリテン及び北アイルランド連合王国',
 '公式国名': '{{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（スコットランド・ゲール語）\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（ウェールズ語）\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（アイルランド語）\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（コーンウォール語）\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（スコットランド語）\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>',
 '国旗画像': 'Flag of the United Kingdom.svg',
 '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]',
 '国章リンク': '（国章）',
 '標語': '{{lang|fr|神と我が権利）',
 '国歌': '[[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />神よ女王を護り賜え<br />{{center|ファイル:United States Navy Band - God Save t

# 28.MediaWikiマークアップの除去

In [9]:
def markup(v):
    #HTML
    pattern = r'<.+?>' 
    v = re.sub(pattern, '', v)
    #lang
    pattern =r'{\{(?:lang)(?:[^|]*?\|)*?([^|]*?)\}\}'
    v = re.sub(pattern, r'\1', v)
    #https
    pattern = r'\[https?://(?:[^\s]*?\s)?([^]]*?)\]'
    v = re.sub(pattern, r'\1', v)
     
    return v

res2 = {}
for k , v in res1.items():
    
    res2[k] = markup(v)
res2

{'略名': 'イギリス',
 '日本語国名': 'グレートブリテン及び北アイルランド連合王国',
 '公式国名': 'United Kingdom of Great Britain and Northern Ireland英語以外での正式国名:\n*An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath（スコットランド・ゲール語）\n*Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon（ウェールズ語）\n*Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann（アイルランド語）\n*An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh（コーンウォール語）\n*Unitit Kinrick o Great Breetain an Northren Ireland（スコットランド語）\n**Claught Kängrick o Docht Brätain an Norlin Airlann、Unitet Kängdom o Great Brittain an Norlin Airlann（アルスター・スコットランド語）',
 '国旗画像': 'Flag of the United Kingdom.svg',
 '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]',
 '国章リンク': '（国章）',
 '標語': '{{lang|fr|神と我が権利）',
 '国歌': '[[女王陛下万歳|God Save the Queen]]{{en icon}}神よ女王を護り賜え{{center|ファイル:United States Navy Band - God Save the Queen.ogg}}',
 '地図画像': 'Europe-UK.svg',
 '位置画像': 'United Kingdom (+overseas territories) in the World (+Antarctica claims).svg',
 '公用語': 

# 29.国旗画像のURLを取得する

In [14]:
import requests

filename = res2['国旗画像']
s = requests.Session()
url = "https://en.wikipedia.org/w/api.php"
params = {
    "action": "query",
    "format": "json",
    "prop": "imageinfo",
    "titles": "File:" + filename,
    "iiprop": "url"
}
r = s.get(url=url,params=params)
data = r.json()
pages = data["query"]["pages"]

for k, v in pages.items():
    print(v["imageinfo"][0]["url"])

https://upload.wikimedia.org/wikipedia/en/a/ae/Flag_of_the_United_Kingdom.svg
