In [None]:
## 20

import json

with open("./jawiki-country.json", 'r') as f:
    for line in f:
        json_data = json.loads(line)
        if json_data['title'] == "イギリス":
            uk_text = json_data['text']
            break

In [None]:
## 21

### note

# 正規表現では特殊な形式を表現するために \ を使うが、これはエスケープ文字と衝突する（\n, \t, ...）
# そこで、文字列を raw string で表現する: r"hoge"

# . は改行以外の文字列に一致。そのため、各行ごとにパターンが現れる場合にはこのような表記で良い。
# 逆に各行に何度もこのパターンが現れる時は、ネストの関係で余計なものが取れてしまう恐れがある

import re

category_pat = re.compile(r"^\[\[Category:.*\]\]$", re.MULTILINE)

cate_result = category_pat.findall(uk_text)

for cate in cate_result:
    print(cate)


In [None]:
## 22

cate_name_pat = re.compile(r"\[\[Category:(.*)\]\]")
bar_pat = re.compile(r"(.*)\|.*")

name_result = []

for cate in cate_result:
    cat_name = cate_name_pat.search(cate).group(1)
    match_former = bar_pat.search(cat_name)
    if match_former:
        name_result.append(match_former.group(1))
    else:
        name_result.append(cat_name)

for name in name_result:
    print(name)

In [None]:
## 23

# MULTILINE によって行ごとに処理 -> ^$必須
# グループを複数用意して findall すると結果がタプルになる

sec_pat = re.compile(r"^(={2,})(.+)\1$", re.MULTILINE)
sec_result = sec_pat.findall(uk_text)

for level, sec_name in sec_result:
    print("{indent}{level} {name}".format(indent='  '*(len(level)-2), level=len(level), name=sec_name))

In [None]:
## 24

# 早見表に従い、[[]]で囲まれたもののみ抽出（囲われていないケースもあるが今回は無視）

file_pat = re.compile(r"\[\[(?:File|ファイル):(.*)\]\]", re.MULTILINE)
bar_pat = re.compile(r"(.*?)\|.*")

file_result = file_pat.findall(uk_text)

file_name_result = []

for file in file_result:
    match_former = bar_pat.search(file)
    if match_former:
        file_name_result.append(match_former.group(1))
    else:
        file_name_result.append(file)

for file_name in file_name_result:
    print(file_name)

In [None]:
## 25

kiso_pat = re.compile(r"""
    ^\{\{基礎情報 .*?$
    (.*?)
    ^\}\}$
    """, re.MULTILINE + re.VERBOSE + re.DOTALL)

kiso_map_pat = re.compile(r"\|(.*)\s=\s(.*)")

kiso_text = kiso_pat.search(uk_text).group(1)
# kiso_text = kiso_pat.search("{{基礎情報 おれ=お前}}").group(1)

kiso_match_list = kiso_map_pat.findall(kiso_text)

kiso_dict = {}
for field, value in kiso_match_list:
    kiso_dict[field] = value

print(kiso_dict)

In [None]:
## 26

enhance_pat = re.compile(r"(?:''''')|(?:''')|(?:'')", re.MULTILINE)

# コピーの関係か、valueを変えるとそのままdictに反映される
for field, value in kiso_dict.items():
    enhance_pat.sub('', value)

print(kiso_dict)

In [None]:
## 27

# (?! pattern) で、pattern を除く表現
link_pat = re.compile(r"\[\[(?!Category:|ファイル:|FILE:)(.*?)\]\]")

# 先に取り出して、取り出した内容について置換を行うという方針
for field, value in kiso_dict.items():
    link_list = link_pat.findall(value)
    for link in link_list:
        link_marked = "[[" + link + "]]"
        value = value.replace(link_marked, link)
        print(value)
    kiso_dict[field] = value
        
print(kiso_dict)                

In [None]:
## 28

lang_pat = re.compile(r"\{\{lang\|(.*)\|(.*)\}\}")
file_pat = re.compile(r"\[\[(File|ファイル):(.*)\]\]")
url_pat = re.compile(r"\[https?:\/\/.*\]")
tag_pat = re.compile(r"<.*?>")

for field, value in kiso_dict.items():
    value = lang_pat.sub(r"\2", value)
    value = file_pat.sub(r"\2", value)
    value = url_pat.sub("", value)
    value = tag_pat.sub("", value)
    kiso_dict[field] = value
    
print(kiso_dict)

In [None]:
## 29

import requests

image_file = kiso_dict["国旗画像"]

S = requests.Session()

URL = "https://www.mediawiki.org/w/api.php"

PARAMS = {
    "action": "query",
    "format": "json",
    "prop": "imageinfo",
    "iiprop": "url",
    "titles": "File:" + image_file
}

R = S.get(url=URL, params=PARAMS)
DATA = R.json()

url = DATA['query']['pages'].popitem()[1]['imageinfo'][0]['url']
print(url)