In [1]:
## 20

import json

with open("./jawiki-country.json", 'r') as f:
    for line in f:
        json_data = json.loads(line)
        if json_data['title'] == "イギリス":
            uk_text = json_data['text']
            break


In [2]:
## 21

### note

# 正規表現では特殊な形式を表現するために \ を使うが、これはエスケープ文字と衝突する（\n, \t, ...）
# そこで、文字列を raw string で表現する: r"hoge"

# . は改行以外の文字列に一致。そのため、各行ごとにパターンが現れる場合にはこのような表記で良い。
# 逆に各行に何度もこのパターンが現れる時は、ネストの関係で余計なものが取れてしまう恐れがある

import re

category_pat = re.compile(r"^\[\[Category:.*\]\]$", re.MULTILINE)

cate_result = category_pat.findall(uk_text)

for cate in cate_result:
    print(cate)


[[Category:イギリス|*]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国]]
[[Category:海洋国家]]
[[Category:君主国]]
[[Category:島国|くれいとふりてん]]
[[Category:1801年に設立された州・地域]]


In [3]:
## 22

cate_name_pat = re.compile(r"\[\[Category:(.*)\]\]")
bar_pat = re.compile(r"(.*)\|.*")

name_result = []

for cate in cate_result:
    cat_name = cate_name_pat.search(cate).group(1)
    match_former = bar_pat.search(cat_name)
    if match_former:
        name_result.append(match_former.group(1))
    else:
        name_result.append(cat_name)

for name in name_result:
    print(name)

イギリス
英連邦王国
G8加盟国
欧州連合加盟国
海洋国家
君主国
島国
1801年に設立された州・地域


In [4]:
## 23

# MULTILINE によって行ごとに処理 -> ^$必須
# グループを複数用意して findall すると結果がタプルになる

sec_pat = re.compile(r"^(={2,})(.+)\1$", re.MULTILINE)
sec_result = sec_pat.findall(uk_text)

for level, sec_name in sec_result:
    print("{indent}{level} {name}".format(indent='  '*(len(level)-2), level=len(level), name=sec_name))

2 国名
2 歴史
2 地理
  3 気候
2 政治
2 外交と軍事
2 地方行政区分
  3 主要都市
2 科学技術
2 経済
  3 鉱業
  3 農業
  3 貿易
  3 通貨
  3 企業
2 交通
  3 道路
  3 鉄道
  3 海運
  3 航空
2 通信
2 国民
  3 言語
  3 宗教
  3  婚姻 
  3 教育
2 文化
  3 食文化
  3 文学
  3  哲学 
  3 音楽
    4 イギリスのポピュラー音楽
  3 映画
  3 コメディ
  3 国花
  3 世界遺産
  3 祝祭日
2 スポーツ
  3 サッカー
  3 競馬
  3 モータースポーツ
2 脚注
2 関連項目
2 外部リンク


In [5]:
## 24

# 早見表に従い、[[]]で囲まれたもののみ抽出（囲われていないケースもあるが今回は無視）

file_pat = re.compile(r"\[\[(?:File|ファイル):(.*)\]\]", re.MULTILINE)
bar_pat = re.compile(r"(.*?)\|.*")

file_result = file_pat.findall(uk_text)

file_name_result = []

for file in file_result:
    match_former = bar_pat.search(file)
    if match_former:
        file_name_result.append(match_former.group(1))
    else:
        file_name_result.append(file)

for file_name in file_name_result:
    print(file_name)

Royal Coat of Arms of the United Kingdom.svg
Battle of Waterloo 1815.PNG
The British Empire.png
Uk topo en.jpg
BenNevis2005.jpg
Elizabeth II greets NASA GSFC employees, May 8, 2007 edit.jpg
Palace of Westminster, London - Feb 2007.jpg
David Cameron and Barack Obama at the G20 Summit in Toronto.jpg
Soldiers Trooping the Colour, 16th June 2007.jpg
Scotland Parliament Holyrood.jpg
London.bankofengland.arp.jpg
City of London skyline from London City Hall - Oct 2008.jpg
Oil platform in the North SeaPros.jpg
Eurostar at St Pancras Jan 2008.jpg
Heathrow T5.jpg
Anglospeak.svg
CHANDOS3.jpg
The Fabs.JPG
Wembley Stadium, illuminated.jpg


In [33]:
## 25

kiso_pat = re.compile(r"""
    ^\{\{基礎情報 .*?$
    (.*?)
    ^\}\}$
    """, re.MULTILINE + re.VERBOSE + re.DOTALL)

kiso_map_pat = re.compile(r"\|(.*)\s=\s(.*)")

kiso_text = kiso_pat.search(uk_text).group(1)
# kiso_text = kiso_pat.search("{{基礎情報 おれ=お前}}").group(1)

kiso_match_list = kiso_map_pat.findall(kiso_text)

kiso_dict = {}
for field, value in kiso_match_list:
    kiso_dict[field] = value

print(kiso_dict)

{'略名': 'イギリス', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '公式国名': '{{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/>', '国旗画像': 'Flag of the United Kingdom.svg', '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]', '国章リンク': '（[[イギリスの国章|国章]]）', '標語': '{{lang|fr|Dieu et mon droit}}<br/>（[[フランス語]]:神と私の権利）', '国歌': '[[女王陛下万歳|神よ女王陛下を守り給え]]', '位置画像': 'Location_UK_EU_Europe_001.svg', '公用語': '[[英語]]（事実上）', '首都': '[[ロンドン]]', '最大都市': 'ロンドン', '元首等肩書': '[[イギリスの君主|女王]]', '元首等氏名': '[[エリザベス2世]]', '首相等肩書': '[[イギリスの首相|首相]]', '首相等氏名': '[[デーヴィッド・キャメロン]]', '面積順位': '76', '面積大きさ': '1 E11', '面積値': '244,820', '水面積率': '1.3%', '人口統計年': '2011', '人口順位': '22', '人口大きさ': '1 E7', '人口値': '63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref>', '人口密度値': '246', 'GDP統計年元': '2012', 'GDP値元': '1兆5478億<ref name="imf-statistics-gdp">[http://www.im

In [59]:
## 26

enhance_pat = re.compile(r"(?:''''')|(?:''')|(?:'')", re.MULTILINE)

# コピーの関係か、valueを変えるとそのままdictに反映される
for field, value in kiso_dict.items():
    enhance_pat.sub('', value)

print(kiso_dict)

{'略名': 'イギリス', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '公式国名': '{{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/>', '国旗画像': 'Flag of the United Kingdom.svg', '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]', '国章リンク': '（[[イギリスの国章|国章]]）', '標語': '{{lang|fr|Dieu et mon droit}}<br/>（[[フランス語]]:神と私の権利）', '国歌': '[[女王陛下万歳|神よ女王陛下を守り給え]]', '位置画像': 'Location_UK_EU_Europe_001.svg', '公用語': '[[英語]]（事実上）', '首都': '[[ロンドン]]', '最大都市': 'ロンドン', '元首等肩書': '[[イギリスの君主|女王]]', '元首等氏名': '[[エリザベス2世]]', '首相等肩書': '[[イギリスの首相|首相]]', '首相等氏名': '[[デーヴィッド・キャメロン]]', '面積順位': '76', '面積大きさ': '1 E11', '面積値': '244,820', '水面積率': '1.3%', '人口統計年': '2011', '人口順位': '22', '人口大きさ': '1 E7', '人口値': '63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref>', '人口密度値': '246', 'GDP統計年元': '2012', 'GDP値元': '1兆5478億<ref name="imf-statistics-gdp">[http://www.im

In [106]:
## 27

# (?! pattern) で、pattern を除く表現
link_pat = re.compile(r"\[\[(?!Category:|ファイル:|FILE:)(.*?)\]\]")

# 先に取り出して、取り出した内容について置換を行うという方針
for field, value in kiso_dict.items():
    link_list = link_pat.findall(value)
    for link in link_list:
        link_marked = "[[" + link + "]]"
        value = value.replace(link_marked, link)
        print(value)
    kiso_dict[field] = value
        
print(kiso_dict)                

{'略名': 'イギリス', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '公式国名': '{{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/>', '国旗画像': 'Flag of the United Kingdom.svg', '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]', '国章リンク': '（イギリスの国章|国章）', '標語': '{{lang|fr|Dieu et mon droit}}<br/>（フランス語:神と私の権利）', '国歌': '女王陛下万歳|神よ女王陛下を守り給え', '位置画像': 'Location_UK_EU_Europe_001.svg', '公用語': '英語（事実上）', '首都': 'ロンドン', '最大都市': 'ロンドン', '元首等肩書': 'イギリスの君主|女王', '元首等氏名': 'エリザベス2世', '首相等肩書': 'イギリスの首相|首相', '首相等氏名': 'デーヴィッド・キャメロン', '面積順位': '76', '面積大きさ': '1 E11', '面積値': '244,820', '水面積率': '1.3%', '人口統計年': '2011', '人口順位': '22', '人口大きさ': '1 E7', '人口値': '63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref>', '人口密度値': '246', 'GDP統計年元': '2012', 'GDP値元': '1兆5478億<ref name="imf-statistics-gdp">[http://www.imf.org/external/pubs/ft/weo/2012/02/w

In [123]:
## 28

lang_pat = re.compile(r"\{\{lang\|(.*)\|(.*)\}\}")
file_pat = re.compile(r"\[\[(File|ファイル):(.*)\]\]")
url_pat = re.compile(r"\[https?:\/\/.*\]")
tag_pat = re.compile(r"<.*?>")

for field, value in kiso_dict.items():
    value = lang_pat.sub(r"\2", value)
    value = file_pat.sub(r"\2", value)
    value = url_pat.sub("", value)
    value = tag_pat.sub("", value)
    kiso_dict[field] = value
    
print(kiso_dict)

{'略名': 'イギリス', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '公式国名': 'United Kingdom of Great Britain and Northern Ireland英語以外での正式国名:', '国旗画像': 'Flag of the United Kingdom.svg', '国章画像': 'Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章', '国章リンク': '（イギリスの国章|国章）', '標語': 'Dieu et mon droit（フランス語:神と私の権利）', '国歌': '女王陛下万歳|神よ女王陛下を守り給え', '位置画像': 'Location_UK_EU_Europe_001.svg', '公用語': '英語（事実上）', '首都': 'ロンドン', '最大都市': 'ロンドン', '元首等肩書': 'イギリスの君主|女王', '元首等氏名': 'エリザベス2世', '首相等肩書': 'イギリスの首相|首相', '首相等氏名': 'デーヴィッド・キャメロン', '面積順位': '76', '面積大きさ': '1 E11', '面積値': '244,820', '水面積率': '1.3%', '人口統計年': '2011', '人口順位': '22', '人口大きさ': '1 E7', '人口値': '63,181,775', '人口密度値': '246', 'GDP統計年元': '2012', 'GDP値元': '1兆5478億', 'GDP統計年MER': '2012', 'GDP順位MER': '5', 'GDP値MER': '2兆4337億', 'GDP統計年': '2012', 'GDP順位': '6', 'GDP値': '2兆3162億', 'GDP/人': '36,727', '建国形態': '建国', '確立形態1': 'イングランド王国／スコットランド王国（両国とも連合法 (1707年)|1707年連合法まで）', '確立年月日1': '927年／843年', '確立形態2': 'グレートブリテン王国建国（連合法 (1707年)|1707年連合法）', '確立年月日2': '1707年', '確立形態3': 

In [129]:
## 29

import requests

S = requests.Session()

URL = "https://www.mediawiki.org/w/api.php"

PARAMS = {
    "action": "query",
    "format": "json",
    "prop": "imageinfo",
    "iiprop": "url",
    "titles": "File:" + image_file
}

R = S.get(url=URL, params=PARAMS)
DATA = R.json()

url = DATA['query']['pages'].popitem()[1]['imageinfo'][0]['url']

ModuleNotFoundError: No module named 'requests'