# No25

In [1]:
import gzip
import json
import re


def read_json(filename: str, title: str):
    with gzip.open(filename, "rt", "utf_8") as f:
        for line in f:
            json_data = json.loads(line)  # jsonデータを辞書型に変換
            if json_data['title'] == title:
                return json_data['text']


def make_dict(text: str) -> dict:
    # 基礎情報の抽出
    pattern = re.compile(r'''
                            ^\{\{基礎情報.*?$   # '{{基礎情報'で始まる行
                            (.*?)       # キャプチャ対象
                            ^\}\}$      # '}}'の行
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)  # .を改行(\n)にもマッチさせるre.DOTALL

    contents = pattern.findall(text)

    # フィールド名の抽出 フィールド名は行頭が |
    pattern = re.compile(r'''
                            ^\|         # '|'で始まる行
                            (.+?)       # キャプチャ対象（フィールド名）
                            \s*         # 空白文字0文字以上
                            =
                            \s*         # 空白文字0文字以上
                            (.+?)       # キャプチャ対象（値）
                            (?:         # キャプチャ対象外のグループ開始
                                (?=\n\|)    # 改行+'|'の手前、基本的にはこっち
                                | (?=\n$)   # 改行+終端の手前、最終行のみ
                            )           # グループ終了
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    pattern_list = pattern.findall(contents[0])

    temp_dict = {}
    for i in pattern_list:
        temp_dict[i[0]] = i[1]

    return temp_dict


def main():
    text = read_json("jawiki-country.json.gz", "イギリス")
    temp_dict = make_dict(text)
    for key, value in temp_dict.items():
        print(key + ' -> ' + value)
        

if __name__ == '__main__':
    main()

略名 -> イギリス
日本語国名 -> グレートブリテン及び北アイルランド連合王国
公式国名 -> {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）
*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）
*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）
*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）
*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）
**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>
国旗画像 -> Flag of the United Kingdom.svg
国章画像 -> [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
国章リンク -> （[[イギリスの国章|国章]]）
標語 -> {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）
国歌 -> [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />''神よ女王を

# No26

In [2]:
import gzip
import json
import re


def read_json(filename: str, title: str):
    with gzip.open(filename, "rt", "utf_8") as f:
        for line in f:
            json_data = json.loads(line)  # jsonデータを辞書型に変換
            if json_data['title'] == title:
                return json_data['text']


def make_dict(text: str) -> dict:
    # 基礎情報の抽出
    pattern = re.compile(r'''
                            ^\{\{基礎情報.*?$   # '{{基礎情報'で始まる行
                            (.*?)       # キャプチャ対象
                            ^\}\}$      # '}}'の行
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)  # .を改行(\n)にもマッチさせるre.DOTALL

    contents = pattern.findall(text)

    # フィールド名の抽出 フィールド名は行頭が |
    pattern = re.compile(r'''
                            ^\|         # '|'で始まる行
                            (.+?)       # キャプチャ対象（フィールド名）
                            \s*         # 空白文字0文字以上
                            =
                            \s*         # 空白文字0文字以上
                            (.+?)       # キャプチャ対象（値）
                            (?:         # キャプチャ対象外のグループ開始
                                (?=\n\|)    # 改行+'|'の手前、基本的にはこっち
                                | (?=\n$)   # 改行+終端の手前、最終行のみ
                            )           # グループ終了
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    pattern_list = pattern.findall(contents[0])
    
    temp_dict = {}
    for i in pattern_list:
        temp_dict[i[0]] = i[1]

    return temp_dict


def markup_delete(text: str) -> str:
    pattern = re.compile(r'''
                            \'{2,} #二個以上の'
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    return pattern.sub('', text)


def main():
    text = read_json("jawiki-country.json.gz", "イギリス")
    temp_dict = make_dict(text)

    for key, value in temp_dict.items():
        temp_dict[key] = markup_delete(value)

    for i in temp_dict:
        print('{0} : {1}'.format(i, temp_dict[i]))


if __name__ == '__main__':
    main()

略名 : イギリス
日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）
*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）
*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）
*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）
*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）
**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>
国旗画像 : Flag of the United Kingdom.svg
国章画像 : [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
国章リンク : （[[イギリスの国章|国章]]）
標語 : {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）
国歌 : [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />神よ女王を護り賜え<br />

# No27

In [3]:
import gzip
import json
import re


def read_json(filename: str, title: str) -> str:
    with gzip.open(filename, "rt", "utf_8") as f:
        for line in f:
            json_data = json.loads(line)  # jsonデータを辞書型に変換
            if json_data['title'] == title:
                return json_data['text']
             

def make_dict(text: str) -> dict:
    # 基礎情報の抽出
    pattern = re.compile(r'''
                            ^\{\{基礎情報.*?$   # '{{基礎情報'で始まる行
                            (.*?)       # キャプチャ対象
                            ^\}\}$      # '}}'の行
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)  # .を改行(\n)にもマッチさせるre.DOTALL

    contents = pattern.findall(text)

    # フィールド名の抽出 フィールド名は行頭が |
    pattern = re.compile(r'''
                            ^\|         # '|'で始まる行
                            (.+?)       # キャプチャ対象（フィールド名）
                            \s*         # 空白文字0文字以上
                            =
                            \s*         # 空白文字0文字以上
                            (.+?)       # キャプチャ対象（値）
                            (?:         # キャプチャ対象外のグループ開始
                                (?=\n\|)    # 改行+'|'の手前、基本的にはこっち
                                | (?=\n$)   # 改行+終端の手前、最終行のみ
                            )           # グループ終了
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    pattern_list = pattern.findall(contents[0])

    temp_dict = {}
    for i in pattern_list:
        temp_dict[i[0]] = i[1]

    return temp_dict


def markup_delete(text: str) -> str:
    pattern = re.compile(r'''
                            \'{2,} #二個以上の'
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    delete_text = pattern.sub('', text)

    # 内部リンクの除去 [[イギリスの君主|女王]]の場合、女王のみ抽出
    pattern = re.compile(r'''
                            \[\[
                            (?:
                                [^|]*? # |以外の文字列
                                \|
                            )? # ? グループが0か1回出現
                            ([^|]*?)
                            \]\]
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    return pattern.sub(r'\1', delete_text)


def main():
    text = read_json("jawiki-country.json.gz", "イギリス")
    temp_dict = make_dict(text)

    for key, value in temp_dict.items():
        temp_dict[key] = markup_delete(value)

    for j in temp_dict:
        print('{0} : {1}'.format(j, temp_dict[j]))


if __name__ == '__main__':
    main()

略名 : イギリス
日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（スコットランド・ゲール語）
*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（ウェールズ語）
*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（アイルランド語）
*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（コーンウォール語）
*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（スコットランド語）
**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>
国旗画像 : Flag of the United Kingdom.svg
国章画像 : [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
国章リンク : （国章）
標語 : {{lang|fr|神と我が権利）
国歌 : [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />神よ女王を護り賜え<br />{{center|ファイル:United States Navy Band - God Save the Queen.ogg}}
地図画像 : Europe-UK.svg
位置画像 : U

# No28

In [4]:
import gzip
import json
import re


def read_json(filename: str, title: str) -> str:
    with gzip.open(filename, "rt", "utf_8") as f:
        for line in f:
            json_data = json.loads(line)  # jsonデータを辞書型に変換
            if json_data['title'] == title:
                return json_data['text']


def make_dict(text: str) -> dict:
    # 基礎情報の抽出
    pattern = re.compile(r'''
                            ^\{\{基礎情報.*?$   # '{{基礎情報'で始まる行
                            (.*?)       # キャプチャ対象
                            ^\}\}$      # '}}'の行
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)  # .を改行(\n)にもマッチさせるre.DOTALL

    contents = pattern.findall(text)

    # フィールド名の抽出 フィールド名は行頭が |
    pattern = re.compile(r'''
                            ^\|         # '|'で始まる行
                            (.+?)       # キャプチャ対象（フィールド名）
                            \s*         # 空白文字0文字以上
                            =
                            \s*         # 空白文字0文字以上
                            (.+?)       # キャプチャ対象（値）
                            (?:         # キャプチャ対象外のグループ開始
                                (?=\n\|)    # 改行+'|'の手前、基本的にはこっち
                                | (?=\n$)   # 改行+終端の手前、最終行のみ
                            )           # グループ終了
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    pattern_list = pattern.findall(contents[0])

    temp_dict = {}
    for i in pattern_list:
        temp_dict[i[0]] = i[1]

    return temp_dict


def markup_delete(text: str) -> str:

    # 強調マークアップ
    pattern = re.compile(r'''
                            \'{2,} #二個以上の'
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    s = pattern.sub('', text)

    # 内部リンク、ファイル
    pattern = re.compile(r'''
                            \[\[
                            (?:
                                [^|]*?
                                \|
                            )*?
                            ([^|]*?)
                            \]\]
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    s = pattern.sub(r'\1', s)

    # 外部リンク  [http://xxxx] 、[http://xxx xxx]
    pattern = re.compile(r'''
                            \[http:\/\/
                            (?:
                                [^\s]*? # 空白以外の文字が0文字以上
                                \s
                            )?
                            ([^]]*?)
                            \]
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    s = pattern.sub(r'\1', s)

    # Template:Lang  {{lang|言語タグ|文字列}}
    pattern = re.compile(r'''
                            \{\{
                            (?:
                                [^|]*?
                                \|
                            )*? # グループが0以上出現
                            ([^|]*?)
                            \}\}
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    s = pattern.sub(r'\1', s)

    # <br>、<ref>
    pattern = re.compile(r'''
                            <
                            \/?
                            [^>]*?
                            >
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    s = pattern.sub('', s)

    return s


def main():
    text = read_json("jawiki-country.json.gz", "イギリス")
    temp_dict = make_dict(text)

    for key, value in temp_dict.items():
        temp_dict[key] = markup_delete(value)

    for j in temp_dict:
        print('{0} : {1}'.format(j, temp_dict[j]))


if __name__ == '__main__':
    main()

略名 : イギリス
日本語国名 : グレートブリテン及び北アイルランド連合王国
公式国名 : United Kingdom of Great Britain and Northern Ireland英語以外での正式国名:
*An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath（スコットランド・ゲール語）
*Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon（ウェールズ語）
*Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann（アイルランド語）
*An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh（コーンウォール語）
*Unitit Kinrick o Great Breetain an Northren Ireland（スコットランド語）
**Claught Kängrick o Docht Brätain an Norlin Airlann、Unitet Kängdom o Great Brittain an Norlin Airlann（アルスター・スコットランド語）
国旗画像 : Flag of the United Kingdom.svg
国章画像 : イギリスの国章
国章リンク : （国章）
標語 : Dieu et mon droit（フランス語:神と我が権利）
国歌 : God Save the Queen}}en icon神よ女王を護り賜えファイル:United States Navy Band - God Save the Queen.ogg
地図画像 : Europe-UK.svg
位置画像 : United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
公用語 : 英語
首都 : ロンドン（事実上）
最大都市 : ロンドン
元首等肩書 : 女王
元首等氏名 : エリザベス2世
首相等肩書 : 首相
首相等氏名 : ボリス・ジョンソン
他元首等肩書1 : 貴族院議長
他元首等氏名1 : ノーマン・ファウラー
他元首等

# No29

In [6]:
import requests
import gzip
import json
import re
import urllib.parse, urllib.request


# def read_json(filename: str, title: str) -> str:
#     with gzip.open(filename, "rt", "utf_8") as f:
#         for line in f:
#             json_data = json.loads(line)  # jsonデータを辞書型に変換
#             if json_data['title'] == title:
#                 return json_data['text']

def read_json(filename: str, title: str) -> str:
    with gzip.open(filename, "rt", "utf_8") as f:
        for line in f:
            json_data = json.loads(line)  # jsonデータを辞書型に変換
            if json_data['title'] == title:
                return json_data['text']


def make_dict(text: str) -> dict:
    pattern = re.compile(r'''
                            ^\{\{基礎情報.*?$   # '{{基礎情報'で始まる行
                            (.*?)       # キャプチャ対象、任意の0文字以上、非貪欲
                            ^\}\}$      # '}}'の行
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)  # .を改行(\n)にもマッチさせるre.DOTALL

    contents = pattern.findall(text)

    pattern = re.compile(r'''
                            ^\|         # '|'で始まる行
                            (.+?)       # キャプチャ対象（フィールド名）、任意の1文字以上、非貪欲
                            \s*         # 空白文字0文字以上
                            =
                            \s*         # 空白文字0文字以上
                            (.+?)       # キャプチャ対象（値）、任意の1文字以上、非貪欲
                            (?:         # キャプチャ対象外のグループ開始
                                (?=\n\|)    # 改行+'|'の手前（肯定の先読み）
                                | (?=\n$)   # または、改行+終端の手前（肯定の先読み）
                            )           # グループ終了
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    pattern_list = pattern.findall(contents[0])

    temp_dict = {}
    for i in pattern_list:
        temp_dict[i[0]] = i[1]

    return temp_dict


def markup_delete(text: str) -> str:

    # 強調マークアップ
    pattern = re.compile(r'''
                            \'{2,} #二個以上の'
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)

    s = pattern.sub('', text)

    # 内部リンク、ファイル
    pattern = re.compile(r'''
                            \[\[
                            (?:
                                [^|]*?
                                \|
                            )*?
                            ([^|]*?)
                            \]\]
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    s = pattern.sub(r'\1', s)

    # 外部リンク  [http://xxxx] 、[http://xxx xxx]
    pattern = re.compile(r'''
                            \[http:\/\/
                            (?:
                                [^\s]*?
                                \s
                            )?
                            ([^]]*?)
                            \]
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    s = pattern.sub(r'\1', s)

    # Template:Lang  {{lang|言語タグ|文字列}}
    pattern = re.compile(r'''
                            \{\{
                            (?:
                                [^|]*?
                                \|
                            )*?
                            ([^|]*?)
                            \}\}
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    s = pattern.sub(r'\1', s)

    # <br>、<ref>
    pattern = re.compile(r'''
                            <
                            \/?
                            [^>]*?
                            >
                            ''', re.MULTILINE + re.VERBOSE + re.DOTALL)
    s = pattern.sub('', s)

    return s


def main():
    text = read_json("jawiki-country.json.gz", "オランダ")
    temp_dict = make_dict(text)

    for key, value in temp_dict.items():
        temp_dict[key] = markup_delete(value)

    # urllib.parse.quote 引数の文字列をエンコード
    url = 'https://www.mediawiki.org/w/api.php?' \
        + 'action=query' \
        + '&format=json' \
        + '&prop=imageinfo' \
        + '&titles=File:' + urllib.parse.quote(temp_dict['国旗画像']) \
        + '&iiprop=url'

    connection = urllib.request.urlopen(url)

    # urlのjsonとして受信
    data = json.loads(connection.read().decode())

    # URL取り出し
    url = data['query']['pages']['-1']['imageinfo'][0]['url']
    print(url)


if __name__ == '__main__':
    main()

https://upload.wikimedia.org/wikipedia/commons/2/20/Flag_of_the_Netherlands.svg
