# Chương 3: Biểu thức chính quy (regular expressions)
Bài tập trong chương 3 sử dụng file jawiki-country.json.gz. File này lưu trữ các tài liệu Wikipedia và có định dạng sau đây.

* Dòng thứ nhất lưu trữ thông tin về tài liệu dưới định dạng JSON.
* Ở các dòng tiếp theo, dòng tiêu đề của văn bản được lưu trữ tại khoá "title"; nội dung của tài liệu được lưu trữ tại khoá "text". Các dòng này được lưu trữ ở định dạng JSON.

Lập trình để xử lý các việc sau đây.

# 20. Đọc vào dữ liệu JSON
Đọc dữ liệu từ file JSON chứa các tài liệu Wikipedia, trích xuất & hiển thị nội dung của tài liệu (trường text của JSON object) có liên quan đến "イギリス" (có nghĩa là nước Anh). Sử dụng các nội dung của tài liệu được trích xuất này để thực thi các nhiệm vụ trong các bài tập từ 21-29.

In [1]:
import json

In [44]:
# Read JSON
pages = [json.loads(l) for l in list(open('jawiki-country.json', encoding='utf8'))]

In [46]:
# Dumps JSON
open('jawiki-country-uk-data.json', 'w', encoding='utf8').write(json.dumps([page for page in pages if 'イギリス' in page['text']], ensure_ascii=False))

3844566

# 21. Trích xuất các dòng có chứa tên đề mục
Trong các tài liệu, trích xuất các dòng có chứa tên đề mục (category name hay カテゴリ名).

In [51]:
# Read JSON file
pages = json.load(open('jawiki-country-uk-data.json', encoding='utf8'))

In [88]:
import re

results = []

for page in pages:
    for line in page['text'].split('\n'):
        if re.search(r'\[\[:?(category|カテゴリ名):.+\]\]', line, re.IGNORECASE):
            results.append(line)

In [89]:
len(results)

623

In [90]:
results[:3]

['[[Category:エジプト|*]]', '[[Category:フランコフォニー]]', '[[Category:共和国]]']

# 22. Trích xuất các tên đề mục (Category name)
Trích xuất tên đề mục của trong các tài liệu. Trong bài tập này, cần trích xuất chính xác các tên đề mục chứ không phải dòng chứa tên đề mục.

In [2]:
# Read JSON file
pages = json.load(open('jawiki-country-uk-data.json', encoding='utf8'))

In [6]:
import re

results = []

for page in pages:
    for line in page['text'].split('\n'):
        m = re.search(r'\[\[:?(category|カテゴリ名):(.+)\]\]', line, re.IGNORECASE)
        if m:
            results.append(m.group(2))

In [7]:
results[:10]

['エジプト|*',
 'フランコフォニー',
 '共和国',
 '軍事政権',
 'オーストリアの作曲家|オーストリアの作曲家',
 'オーストリア|*',
 '内陸国',
 '欧州連合加盟国',
 '共和国',
 '連邦制国家']

# 23. Cấu trúc của các Section
Hiển thị tên của các section và level của các section trong các tài liệu Wikipedia (Ví dụ với section == Section Name ==" thì level bằng 1)

In [8]:
# Read JSON file
pages = json.load(open('jawiki-country-uk-data.json', encoding='utf8'))

In [15]:
results = []

for page in pages:
    for m in re.findall(r'(==+) (.+) ==+', page['text']):
        results.append((m[1], len(m[0])))

In [16]:
results[:10]

[('国号', 2),
 ('歴史', 2),
 ('古代エジプト', 3),
 ('アケメネス朝ペルシア', 3),
 ('ヘレニズム文化', 3),
 ('ローマ帝国', 3),
 ('イスラム王朝', 3),
 ('オスマン帝国', 3),
 ('ムハンマド・アリー朝', 3),
 ('イギリスの進出', 3)]

# 24. Trích xuất các liên kết file
Trích xuất toàn bộ các liên kết đến các media files trong tài liệu.

In [14]:
# Read JSON file
pages = json.load(open('jawiki-country-uk-data.json', encoding='utf8'))

In [19]:
results = []

for page in pages:
    for m in re.findall(r'File:(.*?)\||ファイル:(.*?)\|', page['text']):
        for f in m:
            if f:
                results.append(f)

In [20]:
results[:10]

['Coat_of_arms_of_Egypt.svg',
 'All Gizah Pyramids.jpg',
 'Egyptiska hieroglyfer, Nordisk familjebok.png',
 'ModernEgypt, Muhammad Ali by Auguste Couder, BAP 17996.jpg',
 'Gamal Nasser.jpg',
 'Hosni Mubarak ritratto.jpg',
 'Abrams in Tahrir.jpg',
 'Egypt Topography.png',
 'S F-E-CAMERON 2006-10-EGYPT-LUXOR-0439.JPG',
 'View from Cairo Tower 31march2007.jpg']

# 25. Trích xuất templates
Trích xuất vị trí và tên các folder có template "基礎情報" trong tài liệu. Lưu kết quả trong các đối tượng dictionary. Tham khảo về templates tại đây.

In [14]:
# Read JSON file
pages = json.load(open('jawiki-country-uk-data.json', encoding='utf8'))

In [48]:
from collections import defaultdict

results = defaultdict(dict)

for page in pages:
    for m1 in re.findall(r'{{基礎情報(.*?)}}\n', page['text'], re.MULTILINE|re.DOTALL):
        for m2 in re.findall('([^|\n]*?)\s*=(.*?)\n', m1):
            results[page['title']].update({m2[0].strip(): m2[1].strip()})

In [50]:
results.keys()

dict_keys(['エジプト', 'オーストリア', 'インドネシア', 'イラク', 'イラン', 'トルコ', 'ロシア', 'コスタリカ', '中華人民共和国', 'インド', 'パラグアイ', 'アルゼンチン', 'ウルグアイ', 'チリ', 'ボリビア', 'ペルー', 'メキシコ', 'イタリア', 'イスラエル', 'ギリシャ', 'サウジアラビア', 'クウェート', 'スリランカ', 'アフガニスタン', 'ポルトガル', 'ナイジェリア', 'ヨルダン', 'パキスタン', 'レバノン', 'イエメン', 'オマーン', 'ネパール', 'ポーランド', 'バーレーン', 'ニュージーランド', 'ジャマイカ', 'アルメニア', 'コロンビア', 'チェコ', 'ブータン', 'エストニア', 'モロッコ', 'ソマリア', 'アラブ首長国連邦', 'キプロス', 'バングラデシュ', 'ブルネイ', 'アンゴラ', 'ウガンダ', 'ガーナ', 'カメルーン', 'ギニア', 'ケニア', 'スーダン', 'モザンビーク', 'ニジェール', 'ウクライナ', 'ボスニア・ヘルツェゴビナ', 'ベラルーシ', 'タンザニア', 'フィジー', 'セントクリストファー・ネイビス', 'マルタ', 'リヒテンシュタイン', 'キューバ', 'モーリシャス', 'ウズベキスタン', 'タジキスタン', 'マラウイ', 'ジンバブエ', 'サンマリノ', 'ソマリランド', 'ガイアナ', 'ニカラグア', 'レソト', 'アゼルバイジャン', 'トンガ', 'カーボベルデ', '赤道ギニア', 'エリトリア', 'コートジボワール', 'ガボン', 'ザンビア', 'スワジランド', 'スリナム', 'パプアニューギニア', 'セーシェル', 'セネガル', 'トーゴ', 'ソロモン諸島', 'マダガスカル', 'グアテマラ', 'ボツワナ', 'ルワンダ', 'アンティグア・バーブーダ', 'バハマ', 'セントビンセント・グレナディーン', 'パナマ', 'キリバス', 'バルバドス', 'モルディブ', 'タイ王国', 'サモア', 'トリニダード・トバゴ', 'ハイチ', 'ドミニカ国', 'グレナダ', 'セントルシア', 'ナウル'

In [51]:
results['エジプト']

{'略名': 'エジプト',
 '日本語国名': 'エジプト・アラブ共和国',
 '公式国名': "'''{{lang|ar|جمهورية مصر العربية}}'''",
 '国旗画像': 'Flag of Egypt.svg',
 '国章画像': '[[ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章]]',
 '国章リンク': '（[[エジプトの国章|国章]]）',
 '標語': 'なし',
 '位置画像': 'Egypt (orthographic projection).svg',
 '公用語': '[[アラビア語]]',
 '首都': '[[カイロ]]',
 '最大都市': 'カイロ',
 '元首等肩書': '[[近代エジプトの国家元首の一覧|大統領]]',
 '元首等氏名': '[[アブドルファッターフ・アッ＝シーシー]]',
 '首相等肩書': '[[エジプトの首相|首相]]',
 '首相等氏名': '[[イブラヒーム・メフレブ]]',
 '面積順位': '29',
 '面積大きさ': '1 E12',
 '面積値': '1,001,450',
 '水面積率': '0.6%',
 '人口統計年': '2011',
 '人口順位': '',
 '人口大きさ': '1 E7',
 '人口値': '81,120,000',
 '人口密度値': '76',
 'GDP統計年元': '2008',
 'GDP値元': '8,965億<ref name="economy">IMF Data and Statistics 2009年4月27日閲覧（[http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=]）</ref>',
 'GDP統計年MER': '2008',
 'GDP順位MER': '49',
 'GDP値MER': '1,621億<ref name="economy" />',
 'GDP統計年': 

# 26. Loại bỏ các emphasis markups
Trong khi làm các xử lý ở bài tập 25, xoá các emphasis markup (italic, bold, both) từ vị trí của các templates và biến đổi thành plain text. (Tham khảo về các loại markup tại Wiki markup, bảng tham khảo bằng tiếng Nhật tại マークアップ早見表).

In [14]:
# Read JSON file
pages = json.load(open('jawiki-country-uk-data.json', encoding='utf8'))

In [52]:
from collections import defaultdict

results = defaultdict(dict)

for page in pages:
    for m1 in re.findall(r'{{基礎情報(.*?)}}\n', page['text'], re.MULTILINE|re.DOTALL):
        for m2 in re.findall('([^|\n]*?)\s*=(.*?)\n', m1):
            v = re.sub(r'\|$', '', m2[1].strip())        # replace char | and endline
            v = re.sub(r'''(.+)''', '\g<1>', v)          # replace italics
            v = re.sub("'''(.+)'''", '\g<1>', v)         # replace bold
            v = re.sub(r'''''(.+)''''', '\g<1>', v)      # replace both
            #\g<num> where num is the num of group in pat, num \in [1,99]
            results[page['title']].update({m2[0].strip(): v})

In [54]:
results['エジプト']

{'略名': 'エジプト',
 '日本語国名': 'エジプト・アラブ共和国',
 '公式国名': '{{lang|ar|جمهورية مصر العربية}}',
 '国旗画像': 'Flag of Egypt.svg',
 '国章画像': '[[ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章]]',
 '国章リンク': '（[[エジプトの国章|国章]]）',
 '標語': 'なし',
 '位置画像': 'Egypt (orthographic projection).svg',
 '公用語': '[[アラビア語]]',
 '首都': '[[カイロ]]',
 '最大都市': 'カイロ',
 '元首等肩書': '[[近代エジプトの国家元首の一覧|大統領]]',
 '元首等氏名': '[[アブドルファッターフ・アッ＝シーシー]]',
 '首相等肩書': '[[エジプトの首相|首相]]',
 '首相等氏名': '[[イブラヒーム・メフレブ]]',
 '面積順位': '29',
 '面積大きさ': '1 E12',
 '面積値': '1,001,450',
 '水面積率': '0.6%',
 '人口統計年': '2011',
 '人口順位': '',
 '人口大きさ': '1 E7',
 '人口値': '81,120,000',
 '人口密度値': '76',
 'GDP統計年元': '2008',
 'GDP値元': '8,965億<ref name="economy">IMF Data and Statistics 2009年4月27日閲覧（[http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=]）</ref>',
 'GDP統計年MER': '2008',
 'GDP順位MER': '49',
 'GDP値MER': '1,621億<ref name="economy" />',
 'GDP統計年': '2008'

# 27. Xoá các link đến các trang Wikipedia khác
Nhiệm vụ giống như bài 26 và thêm vào xử lý sau. Xoá các markups của liên kết đến các trang Wikipedia khác từ các templates được trích xuất và biến đổi thành dạng text. (Tham khảo về các loại markup tại Wiki markup, bảng tham khảo bằng tiếng Nhật tại マークアップ早見表).

In [2]:
# Read JSON file
import json
pages = json.load(open('jawiki-country-uk-data.json', encoding='utf8'))

In [14]:
from collections import defaultdict
import re

results = defaultdict(dict)

for page in pages[:5]:
    for m1 in re.findall(r'{{基礎情報(.*?)}}\n', page['text'], re.MULTILINE|re.DOTALL):
        for m2 in re.findall('([^|\n]*?)\s*=(.*?)\n', m1):
            v = re.sub(r'\|$', '', m2[1].strip())        # replace char | and endline
            v = re.sub(r'''(.+)''', '\g<1>', v)          # replace italics
            v = re.sub("'''(.+)'''", '\g<1>', v)         # replace bold
            v = re.sub(r'''''(.+)''''', '\g<1>', v)      # replace both
            #\g<num> where num is the num of group in pat, num \in [1,99]
            
            v = re.sub(r'\[\[(.+)\]\]', '\g<1>', v)       # remove markup link

            results[page['title']].update({m2[0].strip(): v})

In [15]:
results['エジプト']

{'略名': 'エジプト',
 '日本語国名': 'エジプト・アラブ共和国',
 '公式国名': '{{lang|ar|جمهورية مصر العربية}}',
 '国旗画像': 'Flag of Egypt.svg',
 '国章画像': 'ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章',
 '国章リンク': '（エジプトの国章|国章）',
 '標語': 'なし',
 '位置画像': 'Egypt (orthographic projection).svg',
 '公用語': 'アラビア語',
 '首都': 'カイロ',
 '最大都市': 'カイロ',
 '元首等肩書': '近代エジプトの国家元首の一覧|大統領',
 '元首等氏名': 'アブドルファッターフ・アッ＝シーシー',
 '首相等肩書': 'エジプトの首相|首相',
 '首相等氏名': 'イブラヒーム・メフレブ',
 '面積順位': '29',
 '面積大きさ': '1 E12',
 '面積値': '1,001,450',
 '水面積率': '0.6%',
 '人口統計年': '2011',
 '人口順位': '',
 '人口大きさ': '1 E7',
 '人口値': '81,120,000',
 '人口密度値': '76',
 'GDP統計年元': '2008',
 'GDP値元': '8,965億<ref name="economy">IMF Data and Statistics 2009年4月27日閲覧（[http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=]）</ref>',
 'GDP統計年MER': '2008',
 'GDP順位MER': '49',
 'GDP値MER': '1,621億<ref name="economy" />',
 'GDP統計年': '2008',
 'GDP順位': '28',
 'GDP値': '4,42

# 28. Xoá các markup trong văn bản
Thêm vào xử lý ở bài 27. Xoá các markup trong các templates càng nhiều càng tốt và in ra các thông tin cơ bản về quốc gia.

In [16]:
# Read JSON file
import json
pages = json.load(open('jawiki-country-uk-data.json', encoding='utf8'))

In [18]:
from collections import defaultdict
import re

results = defaultdict(dict)

for page in pages:
    for m1 in re.findall(r'{{基礎情報(.*?)}}\n', page['text'], re.MULTILINE|re.DOTALL):
        for m2 in re.findall('([^|\n]*?)\s*=(.*?)\n', m1):
            v = re.sub(r'\|$', '', m2[1].strip())        # replace char | and endline
            v = re.sub(r'''(.+)''', '\g<1>', v)          # replace italics
            v = re.sub("'''(.+)'''", '\g<1>', v)         # replace bold
            v = re.sub(r'''''(.+)''''', '\g<1>', v)      # replace both
            #\g<num> where num is the num of group in pat, num \in [1,99]
            
            v = re.sub(r'\[\[(.+)\]\]', '\g<1>', v)       # remove markup link

            v = re.sub(r'\[https?://[-\w.&=?%/]+/? (.+)\]', '\g<1>', v)   # remove link and name a website
            v = re.sub(r'<ref[^<]+(</ref>)?', '', v) # remove citations, references, and footnotes
            v = re.sub(r'{{(.+)}}', '\g<1>', v)   # remove ref list
            v = re.sub(r'(<s>(.+)</s>)', '\g<1>', v) # remove strike
            v = re.sub(r'(<u>(.+)</u>)', '\g<1>', v) # remove underline
            results[page['title']].update({m2[0].strip(): v})

In [26]:
results['イギリス']

{'略名': 'イギリス',
 '日本語国名': 'グレートブリテン及び北アイルランド連合王国',
 '公式国名': 'lang|en|United Kingdom of Great Britain and Northern Ireland<br/>',
 '国旗画像': 'Flag of the United Kingdom.svg',
 '国章画像': 'ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章',
 '国章リンク': '（イギリスの国章|国章）',
 '標語': 'lang|fr|Dieu et mon droit<br/>（フランス語:神と私の権利）',
 '国歌': '女王陛下万歳|神よ女王陛下を守り給え',
 '位置画像': 'Location_UK_EU_Europe_001.svg',
 '公用語': '英語（事実上）',
 '首都': 'ロンドン',
 '最大都市': 'ロンドン',
 '元首等肩書': 'イギリスの君主|女王',
 '元首等氏名': 'エリザベス2世',
 '首相等肩書': 'イギリスの首相|首相',
 '首相等氏名': 'デーヴィッド・キャメロン',
 '面積順位': '76',
 '面積大きさ': '1 E11',
 '面積値': '244,820',
 '水面積率': '1.3%',
 '人口統計年': '2011',
 '人口順位': '22',
 '人口大きさ': '1 E7',
 '人口値': '63,181,775',
 '人口密度値': '246',
 'GDP統計年元': '2012',
 'GDP値元': '1兆5478億',
 'GDP統計年MER': '2012',
 'GDP順位MER': '5',
 'GDP値MER': '2兆4337億',
 'GDP統計年': '2012',
 'GDP順位': '6',
 'GDP値': '2兆3162億',
 'GDP/人': '36,727',
 '建国形態': '建国',
 '確立形態1': 'イングランド王国]]／[[スコットランド王国]]<br />（両国とも[[連合法 (1707年)|1707年連合法まで）',
 '確立年月日1': '927年]]／[[843年',
 