In [1]:
#coding:utf-8

import re
import json

## memo
re --- 正規表現操作 (https://docs.python.org/ja/3/library/re.html )

# Problem 20: Read JSON documents

In [3]:
with open('jawiki-country.json', 'r') as f:
    for line in f:
        df = json.loads(line)
        if df['title']=='イギリス':
            text_uk = df['text']
            break
            
with open('text_uk.txt', mode='w') as f:
    f.write(text_uk)

## memo
json.loads: json文字列を辞書型に変換 <br>
json.load:  jsonファイルを辞書型として読み込み

# Problem 21: Lines with category names

In [4]:
pattern = '^(\[\[Category:.*?\]\])'
category = re.findall(pattern, text_uk, re.MULTILINE)
result = '\n'.join(category)

print(result)

[[Category:イギリス|*]]
[[Category:イギリス連邦加盟国]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国|元]]
[[Category:海洋国家]]
[[Category:現存する君主国]]
[[Category:島国]]
[[Category:1801年に成立した国家・領域]]


# Problem 22: Category names

In [19]:
pattern = '^\[\[Category:(.*?)(?:\|.*)?\]\]'
category_names = re.findall(pattern, text_uk, re.MULTILINE)
result = '\n'.join(category_names)

print(result)

イギリス
イギリス連邦加盟国
英連邦王国
G8加盟国
欧州連合加盟国
海洋国家
現存する君主国
島国
1801年に成立した国家・領域


# Problem 23: Section Structure

In [38]:
pattern = '^(={2,})(.*?)={2,}$'
section_name = re.findall(pattern, text_uk, re.MULTILINE)
result = '\n'.join(i[1]+':'+str(len(i[0])-1) for i in section_name)

print(result)

国名:1
歴史:1
地理:1
主要都市:2
気候:2
政治:1
元首:2
法:2
内政:2
地方行政区分:2
外交・軍事:2
経済:1
鉱業:2
農業:2
貿易:2
不動産:2
エネルギー政策:2
通貨:2
企業:2
通信:3
交通:1
道路:2
鉄道:2
海運:2
航空:2
科学技術:1
国民:1
言語:2
宗教:2
婚姻:2
移住:2
教育:2
医療:2
文化:1
食文化:2
文学:2
哲学:2
音楽:2
ポピュラー音楽:3
映画:2
コメディ:2
国花:2
世界遺産:2
祝祭日:2
スポーツ:2
サッカー:3
クリケット:3
競馬:3
モータースポーツ:3
野球:3
 カーリング :3
 自転車競技 :3
脚注:1
関連項目:1
外部リンク:1


# Problem 24: Media references

In [60]:
pattern = '\[\[ファイル:(.*?)\|(?:.*?)\]\]'
media = re.findall(pattern, text_uk)
result = '\n'.join(media)

print(result)

Royal Coat of Arms of the United Kingdom.svg
Descriptio Prime Tabulae Europae.jpg
Lenepveu, Jeanne d'Arc au siège d'Orléans.jpg
London.bankofengland.arp.jpg
Battle of Waterloo 1815.PNG
Uk topo en.jpg
BenNevis2005.jpg
Population density UK 2011 census.png
2019 Greenwich Peninsula & Canary Wharf.jpg
Birmingham Skyline from Edgbaston Cricket Ground crop.jpg
Leeds CBD at night.jpg
Glasgow and the Clyde from the air (geograph 4665720).jpg
Palace of Westminster, London - Feb 2007.jpg
Scotland Parliament Holyrood.jpg
Donald Trump and Theresa May (33998675310) (cropped).jpg
Soldiers Trooping the Colour, 16th June 2007.jpg
City of London skyline from London City Hall - Oct 2008.jpg
Oil platform in the North SeaPros.jpg
Eurostar at St Pancras Jan 2008.jpg
Heathrow Terminal 5C Iwelumo-1.jpg
Airbus A380-841 G-XLEB British Airways (10424102995).jpg
UKpop.svg
Anglospeak.svg
Royal Aberdeen Children's Hospital.jpg
CHANDOS3.jpg
The Fabs.JPG
Wembley Stadium, illuminated.jpg


# Problem 25: Infobox

re.DOTALLを指定すると'.'が改行にもマッチするようになる

In [79]:
pattern = '^\{\{基礎情報.*?(.*?)^\}\}'
infobox = re.findall(pattern, text_uk, re.MULTILINE+re.DOTALL)

pattern = '^\|(.*?)\s*=\s*(.*?)$'
result = dict(re.findall(pattern, infobox[0], re.MULTILINE+re.DOTALL))

for k,v in result.items():
    print(k, ':', v)

略名 : イギリス
日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
国旗画像 : Flag of the United Kingdom.svg
国章画像 : [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
国章リンク : （[[イギリスの国章|国章]]）
標語 : {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）
国歌 : [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />''神よ女王を護り賜え''<br />{{center|[[ファイル:United States Navy Band - God Save the Queen.ogg]]}}
地図画像 : Europe-UK.svg
位置画像 : United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
公用語 : [[英語]]
首都 : [[ロンドン]]（事実上）
最大都市 : ロンドン
元首等肩書 : [[イギリスの君主|女王]]
元首等氏名 : [[エリザベス2世]]
首相等肩書 : [[イギリスの首相|首相]]
首相等氏名 : [[ボリス・ジョンソン]]
他元首等肩書1 : [[貴族院 (イギリス)|貴族院議長]]
他元首等氏名1 : [[:en:Norman Fowler, Baron Fowler|ノーマン・ファウラー]]
他元首等肩書2 : [[庶民院 (イギリス)|庶民院議長]]
他元首等氏名2 : {{仮リンク|リンゼイ・ホイル|en|Lindsay Hoyle}}
他元首等肩書3 : [[連合王国最高裁判所|最高裁判所長官]]
他元首等氏名3 : [[:en:Brenda Hale, Baroness Hale of Richmond|ブレンダ・

# Problem 26: Remove emphasis markups
# Problem 27: Remove internal links
# Problem 28: Remove Mediawiki markups

マークアップ早見表(http://ja.wikipedia.org/wiki/Help:早見表 )

In [115]:
pattern = '^\{\{基礎情報.*?(.*?)^\}\}'
infobox = re.findall(pattern, text_uk, re.MULTILINE+re.DOTALL)

# problem26
pattern = '\'{2,5}'
rep = re.sub(pattern, '', infobox[0])

# problem27
rep = re.sub('\[\[', '', rep)
rep = re.sub('\]\]', '', rep)

# problem28
# remove external link
rep = re.sub('\[?http.*?\]', '', rep)

# remove <ref> tags
rep = re.sub('<.+?>', '', rep)
rep = re.sub('\{\{.*?\}\}', '', rep)

# remove links
rep = re.sub('\{\{.*?\|.*?\}\}', '', rep)

pattern = '^\|(.*?)\s*=\s*(.*?)$'
result = dict(re.findall(pattern, rep, re.MULTILINE+re.DOTALL))

for k,v in result.items():
    print(k, ':', v)

略名 : イギリス
日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : 英語以外での正式国名:
国旗画像 : Flag of the United Kingdom.svg
国章画像 : ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章
国章リンク : （イギリスの国章|国章）
標語 : （フランス語:Dieu et mon droit|神と我が権利）
国歌 : 女王陛下万歳|神よ女王を護り賜え
地図画像 : Europe-UK.svg
位置画像 : United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
公用語 : 英語
首都 : ロンドン（事実上）
最大都市 : ロンドン
元首等肩書 : イギリスの君主|女王
元首等氏名 : エリザベス2世
首相等肩書 : イギリスの首相|首相
首相等氏名 : ボリス・ジョンソン
他元首等肩書1 : 貴族院 (イギリス)|貴族院議長
他元首等氏名1 : :en:Norman Fowler, Baron Fowler|ノーマン・ファウラー
他元首等肩書2 : 庶民院 (イギリス)|庶民院議長
他元首等氏名2 : |他元首等肩書3 = 連合王国最高裁判所|最高裁判所長官
他元首等氏名3 : :en:Brenda Hale, Baroness Hale of Richmond|ブレンダ・ヘイル
面積順位 : 76
面積大きさ : 1 E11
面積値 : 244,820
水面積率 : 1.3%
人口統計年 : 2018
人口順位 : 22
人口大きさ : 1 E7
人口値 : 6643万5600
人口密度値 : 271
GDP統計年元 : 2012
GDP値元 : 1兆5478億
GDP統計年MER : 2012
GDP順位MER : 6
GDP値MER : 2兆4337億
GDP統計年 : 2012
GDP順位 : 6
GDP値 : 2兆3162億
GDP/人 : 36,727
建国形態 : 建国
確立形態1 : イングランド王国／スコットランド王国（両国とも合同法 (1707年)|1707年合同法まで）
確立年月日1 : 927年／843年


# Problem 29:  Country flag

mediawiki API(https://www.mediawiki.org/wiki/API:Main_page/jp )

よくわからんけど"https://commons.wikimedia.org/wiki/File:[[file]]&prop=imageinfo&iiprop=url&format=json" って形のurlをrequestsに投げればいいっぽい

(Get information about the file, File:Billy_Tipton.jpg <br>
api.php?action=query&format=json&prop=imageinfo&titles=File:Billy_Tipton.jpg)

iiprop=url:
(Gives URL to the file and the description page. If the file has been revision deleted, a filehidden property will be returned.)

group(): 正規表現でマッチした文字列を取得

In [152]:
url_file = re.sub('\s', '_', result['国旗画像'])
url = 'https://commons.wikimedia.org/w/api.php?action=query&titles=File:' + url_file + '&prop=imageinfo&iiprop=url&format=json'
data = requests.get(url)

url = re.search('\"url\":\"(.*?)\",', data.text)
print(url.group(1))

https://upload.wikimedia.org/wikipedia/commons/a/ae/Flag_of_the_United_Kingdom.svg
