In [13]:
#20. JSONデータの読み込み "4/8"

import gzip
import json

with gzip.open("./data/jawiki-country.json.gz") as f:  #gzipを展開してjsonファイルにする必要はなく、gzipファイルのまま操作可能
    for line in f:
        data = json.loads(line)    #一行ずつ文字列として読み込んでいるため、json.loads()を用いる。ファイルから読み込むのであればjson.load()でよい。
        if ("title", "イギリス") in data.items():    #key"title"のvalueが"イギリス"である場合に以下のコードを実行
            TextData = data["text"]    #TextDataという変数に本文データを格納
            #print(TextData)


In [4]:
#21. カテゴリ名を含むデータの読み込み　※本文データは#20にてTextDataという変数に格納済み
import re

pattern = r"^(\[\[Category:\w*\|?.*\]\])$"

#pattern = r"^(.*\[\[Category:.*\]\].*)$"
CategoryList = "\n".join(re.findall(pattern, TextData, re.MULTILINE))
print(CategoryList)

[[Category:イギリス|*]]
[[Category:イギリス連邦加盟国]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国|元]]
[[Category:海洋国家]]
[[Category:現存する君主国]]
[[Category:島国]]
[[Category:1801年に成立した国家・領域]]


In [5]:
#22. カテゴリ名の抽出
#pattern = r"^\[\[Category:(\w*)\|?.*\]\]$"

pattern = r"^\[\[Category:(.*?)(?:\|.*)?\]\]$"

CategoryName = "\n".join(re.findall(pattern, TextData, re.MULTILINE))
print(CategoryName)

イギリス
イギリス連邦加盟国
英連邦王国
G8加盟国
欧州連合加盟国
海洋国家
現存する君主国
島国
1801年に成立した国家・領域


In [6]:
#23. セクション構造
import pprint

#pattern = r"^(=+\w*=+)$"
pattern = r"^(=+.*=+)$"

SectionList = "\n".join(re.findall(pattern, TextData, re.MULTILINE))    #各セクションごとに改行が施された文字列

SectionKey = SectionList.split("\n")    #各セクションを要素に持つリスト

#print(SectionKey)

Section = []
SectionNumber = []
for i in SectionList:

    if i != "\n":
        Section.append(i)
        continue
    
    SectionNumber.append(int("".join(Section).count("=") / 2 - 1))
    Section = []
    
#print(SectionNumber)

Answer = {k: v for k, v in zip(SectionKey, SectionNumber)}
pprint.pprint(Answer, sort_dicts=False)

{'==国名==': 1,
 '==歴史==': 1,
 '==地理==': 1,
 '===主要都市===': 2,
 '===気候===': 2,
 '==政治==': 1,
 '===元首===': 2,
 '===法===': 2,
 '===内政===': 2,
 '===地方行政区分===': 2,
 '===外交・軍事===': 2,
 '==経済==': 1,
 '===鉱業===': 2,
 '===農業===': 2,
 '===貿易===': 2,
 '===不動産===': 2,
 '===エネルギー政策===': 2,
 '===通貨===': 2,
 '===企業===': 2,
 '====通信====': 3,
 '==交通==': 1,
 '===道路===': 2,
 '===鉄道===': 2,
 '===海運===': 2,
 '===航空===': 2,
 '==科学技術==': 1,
 '==国民==': 1,
 '===言語===': 2,
 '===宗教===': 2,
 '===婚姻===': 2,
 '===移住===': 2,
 '===教育===': 2,
 '===医療===': 2,
 '==文化==': 1,
 '===食文化===': 2,
 '===文学===': 2,
 '===哲学===': 2,
 '===音楽===': 2,
 '====ポピュラー音楽====': 3,
 '===映画===': 2,
 '===コメディ===': 2,
 '===国花===': 2,
 '===世界遺産===': 2,
 '===祝祭日===': 2,
 '===スポーツ===': 2,
 '====サッカー====': 3,
 '====クリケット====': 3,
 '====競馬====': 3,
 '====モータースポーツ====': 3,
 '====野球====': 3,
 '==== カーリング ====': 3,
 '==== 自転車競技 ====': 3,
 '==脚注==': 1,
 '==関連項目==': 1}


In [7]:
#24. ファイル参照の抽出

pattern = r"\[\[ファイル:(.+?)(?:\|.*?)?\]\]"

print(len(re.findall(pattern, TextData, re.MULTILINE)))

print("\n".join(re.findall(pattern, TextData, re.MULTILINE)))

28
Royal Coat of Arms of the United Kingdom.svg
United States Navy Band - God Save the Queen.ogg
Descriptio Prime Tabulae Europae.jpg
Lenepveu, Jeanne d'Arc au siège d'Orléans.jpg
London.bankofengland.arp.jpg
Battle of Waterloo 1815.PNG
Uk topo en.jpg
BenNevis2005.jpg
Population density UK 2011 census.png
2019 Greenwich Peninsula & Canary Wharf.jpg
Birmingham Skyline from Edgbaston Cricket Ground crop.jpg
Leeds CBD at night.jpg
Glasgow and the Clyde from the air (geograph 4665720).jpg
Palace of Westminster, London - Feb 2007.jpg
Scotland Parliament Holyrood.jpg
Donald Trump and Theresa May (33998675310) (cropped).jpg
Soldiers Trooping the Colour, 16th June 2007.jpg
City of London skyline from London City Hall - Oct 2008.jpg
Oil platform in the North SeaPros.jpg
Eurostar at St Pancras Jan 2008.jpg
Heathrow Terminal 5C Iwelumo-1.jpg
Airbus A380-841 G-XLEB British Airways (10424102995).jpg
UKpop.svg
Anglospeak.svg
Royal Aberdeen Children's Hospital.jpg
CHANDOS3.jpg
The Fabs.JPG
Wembley St

In [8]:
#25. テンプレートの抽出
import pprint

pattern = r"^\{\{基礎情報.*?^(.*?)^\}\}$"
BasicInfo = "\n".join(re.findall(pattern, TextData, re.MULTILINE + re.DOTALL))
#print(BasicInfo)

pattern2 = r"^\|(.*?)\s*=\s*(.*?)(?:(?=\n\|)|(?=\n$))$"    #(?:(?=\n\|)|(?=\n$))はA|BのA = (?=\n\|), B = (?=\n$)    #(?=) は"先読みアサーション"


result = dict(re.findall(pattern2, BasicInfo, re.MULTILINE + re.DOTALL))
print("辞書型： {}\n\n".format(result))
for k, v in result.items():
    print(k + ': ' + v)

#BasicInfo2 = "\n".join(re.findall(pattern2, BasicInfo, re.MULTILINE))
#print(BasicInfo2)


# InfoList = BasicInfo.split("\n")

# for i in range(len(InfoList)):
#     print(InfoList[i])

辞書型： {'略名': 'イギリス', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '公式国名': '{{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>', '国旗画像': 'Flag of the United Kingdom.svg', '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]', '国章リンク': '（[[イギリスの国章|国章]]）', '標語': '{{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）', '国歌': "[[女王陛下万歳|{{lang|en|God Save the

In [9]:
#26. 強調マークアップの除去
def DeleteMark(text):    #リスト内包表記で使うため、マークアップの除去を関数化
    pattern = r"\'{2,5}"    #強調マークアップは'を2or3or5個使う
    text = re.sub(pattern, "", text)    #re.sub(置換元の正規表現, 置換後の文字列, 置換したい文)

    return text

result_dm = {k: DeleteMark(v) for k, v in result.items()}    #内包表記で辞書を作成

for k, v in result_dm.items():    #出力
    print(k + ': ' + v)

for _, v in result_dm.items():    #出力
    print(v)


# def remove_markup(text):
#   # 強調マークアップの除去
#   pattern = r'\'{2,5}'
#   text = re.sub(pattern, '', text)

#   return text

# result_rm = {k: remove_markup(v) for k, v in result.items()}
# for k, v in result_rm.items():
#     print(k + ': ' + v)

略名: イギリス
日本語国名: グレートブリテン及び北アイルランド連合王国
公式国名: {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）
*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）
*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）
*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）
*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）
**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>
国旗画像: Flag of the United Kingdom.svg
国章画像: [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
国章リンク: （[[イギリスの国章|国章]]）
標語: {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）
国歌: [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />神よ女王を護り賜え<br />{{center

In [10]:
#27. 内部リンクの除去

def DeleteMark2(text):    #リスト内包表記で使うため、マークアップの除去を関数化
    pattern1 = r"\'{2,5}"    #強調マークアップは'を2or3or5個使う
    pattern2 = r"\[\[([^|]*?\|)??([^|]*?)\]\]"  # [^ ...]は否定文字のクラス。内部リンクは[[記事名]]or[[記事名|表示文字]]or[[記事名#節名|表示文字]]の形になっているので、全体をマッチさせてr"\2"によって右側に置換
    
    text = re.sub(pattern1, "", text)    #re.sub(置換元の正規表現, 置換後の文字列, 置換したい文)
    text = re.sub(pattern2, r"\2", text)    #()で括るとインデックスが勝手について(→勝手につかなくするために?:を使う)、re.sub()の第二引数に入れることでそれを抽出することが可能

    return text

result_dm2 = {k: DeleteMark2(v) for k, v in result.items()}    #内包表記で辞書を作成

for k, v in result_dm2.items():    #出力
    print(k + ': ' + v)

略名: イギリス
日本語国名: グレートブリテン及び北アイルランド連合王国
公式国名: {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（スコットランド・ゲール語）
*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（ウェールズ語）
*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（アイルランド語）
*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（コーンウォール語）
*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（スコットランド語）
**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>
国旗画像: Flag of the United Kingdom.svg
国章画像: [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
国章リンク: （国章）
標語: {{lang|fr|Dieu et mon droit}}<br />（フランス語:神と我が権利）
国歌: [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />神よ女王を護り賜え<br />{{center|ファイル:United States Navy Band - God Save the Queen.ogg}}
地図画像:

In [11]:
#28. MediaWikiマークアップの除去

def DeleteMark4(text):    #リスト内包表記で使うため、マークアップの除去を関数化
    pattern1 = r"\'{2, 5}|"    #強調マークアップは'を2or3or5個使う
    pattern2 = r"\[\[([^|]*?\|)??([^|]*?)\]\]"  # [^ ...]は否定文字のクラス。内部リンクは[[記事名]]or[[記事名|表示文字]]or[[記事名#節名|表示文字]]の形になっているので、全体をマッチさせてr"\2"によって右側に置換

    pattern3 = r"\[https?://.*?\]"  # 外部リンクへのマッチ
    pattern4 = r"<.+?>" #htmlタグへのマッチ
    pattern5 = r"\{\{(?:lang|仮リンク)(?:[^|]*?\|)*?([^|]*?)\}\}"  #テンプレートにマッチ{{lang|...|...|...}}や{{仮リンク|...|...|...}}の最後の部分だけ取り出したいので、全体にマッチさせてそれ以外の部分には　(?:)を用いる
    
    text = re.sub(pattern1, "", text)    #re.sub(置換元の正規表現, 置換後の文字列, 置換したい文)
    text = re.sub(pattern2, r"\2", text)    #()で括るとインデックスが勝手について(→勝手につかなくするために?:を使う)、re.sub()の第二引数に入れることでそれを抽出することが可能
    text = re.sub(pattern3, "", text)  # 外部リンク除去
    text = re.sub(pattern4, "", text)  # htmlタグ除去
    text = re.sub(pattern5, r"\1", text)
    
    return text

result_dm4 = {k: DeleteMark4(v) for k, v in result.items()}    #内包表記で辞書を作成

for k, v in result_dm4.items():    #出力
    print(k + ': ' + v)

略名: イギリス
日本語国名: グレートブリテン及び北アイルランド連合王国
公式国名: United Kingdom of Great Britain and Northern Ireland英語以外での正式国名:
*An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath（スコットランド・ゲール語）
*Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon（ウェールズ語）
*Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann（アイルランド語）
*An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh（コーンウォール語）
*Unitit Kinrick o Great Breetain an Northren Ireland（スコットランド語）
**Claught Kängrick o Docht Brätain an Norlin Airlann、Unitet Kängdom o Great Brittain an Norlin Airlann（アルスター・スコットランド語）
国旗画像: Flag of the United Kingdom.svg
国章画像: [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
国章リンク: （国章）
標語: Dieu et mon droit（フランス語:神と我が権利）
国歌: [[女王陛下万歳|God Save the Queen]]{{en icon}}''神よ女王を護り賜え''{{center|ファイル:United States Navy Band - God Save the Queen.ogg}}
地図画像: Europe-UK.svg
位置画像: United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
公用語: 英語
首都: ロンドン（事実上）
最大都市: ロンドン
元首等肩書: 女王
元首等氏名: エリザベス2

In [12]:
#29. 国旗画像のURLを取得する
import requests

FlagFile = result["国旗画像"].replace(" ", "_") 
print(FlagFile)

FlagURL = "https://www.mediawiki.org/w/api.php?action=query&titles=File:" + FlagFile + "&prop=imageinfo&iiprop=url&format=json"  #MEdiaWiki APIのURLを作成
print(FlagURL)

data = requests.get(FlagURL)

FlagData = re.search(r'"url":"(.+?)"', data.text).group(1)  #画像データのURLを取得

print("画像データはこちら：" + FlagData)

Flag_of_the_United_Kingdom.svg
https://www.mediawiki.org/w/api.php?action=query&titles=File:Flag_of_the_United_Kingdom.svg&prop=imageinfo&iiprop=url&format=json
画像データはこちら：https://upload.wikimedia.org/wikipedia/commons/a/ae/Flag_of_the_United_Kingdom.svg
