# nlp100 chapter3

Try:http://www.cl.ecei.tohoku.ac.jp/nlp100/

## 20. JSONデータの読み込み

In [1]:
import os
import pandas as pd
import numpy as np
import re
os.chdir('../../nnnnishi/nlp-100knock')

In [2]:
import json

f = os.path.join('data', 'jawiki-country.json')

with open(f, 'r') as reader:
    for line in reader:
        d = json.loads(line)
        if d["title"] == "イギリス":
            d_uk = d
            with open('data/UK.txt', 'w') as writer:
                writer.write(d["text"])

## 21. カテゴリ名を含む行を抽出

In [3]:
f = os.path.join('data', 'UK.txt')
with open(f) as reader:
    for line in reader:
        if re.search('Category:', line):
            print(line.rstrip())

[[Category:イギリス|*]]
[[Category:英連邦王国|*]]
[[Category:G8加盟国]]
[[Category:欧州連合加盟国]]
[[Category:海洋国家]]
[[Category:君主国]]
[[Category:島国|くれいとふりてん]]
[[Category:1801年に設立された州・地域]]


## 22. カテゴリ名の抽出

In [4]:
f = os.path.join('data', 'UK.txt')
with open(f) as reader:
    for line in reader:
        if 'Category' in line:
            token = line.rstrip().split(':')
            print(re.sub('[\]\*\|]', '', token[1]))

イギリス
英連邦王国
G8加盟国
欧州連合加盟国
海洋国家
君主国
島国くれいとふりてん
1801年に設立された州・地域


## 23. セクション構造

In [5]:
f = os.path.join('data', 'UK.txt')
with open(f) as reader:
    for line in reader:
        if "==" in line:
            token = re.sub(r'={2,4}$', '', line)
            token = re.sub(r'[\r\n]+', '', token)
            token = re.sub(r'^={4}', '    3.', token)
            token = re.sub(r'^={3}', '  2.', token)
            token = re.sub(r'^={2}', '1.', token)
            print(token)

1.国名
1.歴史
1.地理
  2.気候
1.政治
1.外交と軍事
1.地方行政区分
  2.主要都市
1.科学技術
1.経済
  2.鉱業
  2.農業
  2.貿易
  2.通貨
  2.企業
1.交通
  2.道路
  2.鉄道
  2.海運
  2.航空
1.通信
1.国民
  2.言語
  2.宗教
  2. 婚姻 
  2.教育
1.文化
  2.食文化
  2.文学
  2. 哲学 
  2.音楽
    3.イギリスのポピュラー音楽
  2.映画
  2.コメディ
  2.国花
  2.世界遺産
  2.祝祭日
1.スポーツ
  2.サッカー
  2.競馬
  2.モータースポーツ
1.脚注
1.関連項目
1.外部リンク


## 24. ファイル参照の抽出

In [6]:
f = os.path.join('data', 'UK.txt')
with open(f) as reader:
    for line in reader:
        if re.search(r'file:|ファイル', line.lower()):
            print(line.split(':')[1].split('|')[0])

Royal Coat of Arms of the United Kingdom.svg
Battle of Waterloo 1815.PNG
The British Empire.png
Uk topo en.jpg
BenNevis2005.jpg
Elizabeth II greets NASA GSFC employees, May 8, 2007 edit.jpg
Palace of Westminster, London - Feb 2007.jpg
David Cameron and Barack Obama at the G20 Summit in Toronto.jpg
Soldiers Trooping the Colour, 16th June 2007.jpg
Scotland Parliament Holyrood.jpg
London.bankofengland.arp.jpg
City of London skyline from London City Hall - Oct 2008.jpg
Oil platform in the North SeaPros.jpg
Eurostar at St Pancras Jan 2008.jpg
Heathrow T5.jpg
Anglospeak.svg
CHANDOS3.jpg
The Fabs.JPG
PalaceOfWestminsterAtNight.jpg
Westminster Abbey - West Door.jpg
Edinburgh Cockburn St dsc06789.jpg
Canterbury Cathedral - Portal Nave Cross-spire.jpeg
Kew Gardens Palm House, London - July 2009.jpg
2005-06-27 - United Kingdom - England - London - Greenwich.jpg
Stonehenge2007 07 30.jpg
Yard2.jpg
Durham Kathedrale Nahaufnahme.jpg
Roman Baths in Bath Spa, England - July 2006.jpg
Fountains Abbey vie

## 25. テンプレートの抽出

In [7]:
f = os.path.join('data', 'UK.txt')
d = {}
with open(f) as reader:
    for line in reader:
        if re.search('^\}\}$',line):
          break
        elif re.search('^\|',line):
          token = re.sub('^\|','',line)
          token = re.split("\s\=\s",token)
          token[1] = re.sub(r"\n","",token[1])
          d[token[0]] = token[1]
print(d)

{'位置画像': 'Location_UK_EU_Europe_001.svg', '確立形態4': "現在の国号「'''グレートブリテン及び北アイルランド連合王国'''」に変更", '面積大きさ': '1 E11', 'GDP統計年MER': '2012', '国旗画像': 'Flag of the United Kingdom.svg', 'GDP順位MER': '5', '通貨コード': 'GBP', '時間帯': '±0', '公用語': '[[英語]]（事実上）', '国章リンク': '（[[イギリスの国章|国章]]）', '注記': '<references />', '国際電話番号': '44', '人口順位': '22', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '人口統計年': '2011', 'GDP統計年元': '2012', '確立年月日4': '[[1927年]]', '人口密度値': '246', '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]', 'ccTLD': '[[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>', '確立年月日2': '[[1707年]]', 'GDP値': '2兆3162億<ref name="imf-statistics-gdp" />', '元首等肩書': '[[イギリスの君主|女王]]', 'GDP順位': '6', 'GDP/人': '36,727<ref name="imf-statistics-gdp" />', 'ISO 3166-1': 'GB / GBR', '確立形態3': '[[グレートブリテン及びアイルランド連合王国]]建国<br />（[[連合法 (1800年)|1800年連合法]]）', '確立年月日3': '[[1801年]]', '首相等肩書': '[[イギリスの首相|首相]]', '首都': '[[ロンドン]]', '略名': 'イギリス', 'GDP統計年': '2012', '確立形態1': '[[イングランド王国]]／[[スコットランド王国]]<br />（両国とも[[連合法 (1707年)|1707年連合

## 26. 強調マークアップの除去

In [8]:
f = os.path.join('data', 'UK.txt')
d = {}
with open(f) as reader:
    for line in reader:
        if re.search('^\}\}$',line):
          break
        elif re.search('^\|',line):
          token = re.sub('^\|','',line)
          token = re.split("\s\=\s",token)
          token[1] = re.sub(r"['\n|\'*]","",token[1])
          d[token[0]] = token[1]
print(d)

{'位置画像': 'Location_UK_EU_Europe_001.svg', '確立形態4': '現在の国号「グレートブリテン及び北アイルランド連合王国」に変更', '面積大きさ': '1 E11', 'GDP統計年MER': '2012', '国旗画像': 'Flag of the United Kingdom.svg', 'GDP順位MER': '5', '通貨コード': 'GBP', '時間帯': '±0', '公用語': '[[英語]]（事実上）', '国章リンク': '（[[イギリスの国章国章]]）', '注記': '<references />', '国際電話番号': '44', '人口順位': '22', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '人口統計年': '2011', 'GDP統計年元': '2012', '確立年月日4': '[[1927年]]', '人口密度値': '246', '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg85pxイギリスの国章]]', 'ccTLD': '[[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>', '確立年月日2': '[[1707年]]', 'GDP値': '2兆3162億<ref name="imf-statistics-gdp" />', '元首等肩書': '[[イギリスの君主女王]]', 'GDP順位': '6', 'GDP/人': '36,727<ref name="imf-statistics-gdp" />', 'ISO 3166-1': 'GB / GBR', '確立形態3': '[[グレートブリテン及びアイルランド連合王国]]建国<br />（[[連合法 (1800年)1800年連合法]]）', '確立年月日3': '[[1801年]]', '首相等肩書': '[[イギリスの首相首相]]', '首都': '[[ロンドン]]', '略名': 'イギリス', 'GDP統計年': '2012', '確立形態1': '[[イングランド王国]]／[[スコットランド王国]]<br />（両国とも[[連合法 (1707年)1707年連合法]]まで）', '通貨'

## 27. 内部リンクの除去

In [9]:
f = os.path.join('data', 'UK.txt')
d = {}
with open(f) as reader:
    for line in reader:
        if re.search('^\}\}$',line):
          break
        elif re.search('^\|',line):
          token = re.sub('^\|','',line)
          token = re.split("\s\=\s",token)
          token[1] = re.sub(r"['\n|\'*]","",token[1])
          token[1] = re.sub(r"['\n|\'*|\[\[|\]\]]","",token[1])
          d[token[0]] = token[1]
print(d)

{'位置画像': 'Location_UK_EU_Europe_001.svg', '確立形態4': '現在の国号「グレートブリテン及び北アイルランド連合王国」に変更', '面積大きさ': '1 E11', 'GDP統計年MER': '2012', '国旗画像': 'Flag of the United Kingdom.svg', 'GDP順位MER': '5', '通貨コード': 'GBP', '時間帯': '±0', '公用語': '英語（事実上）', '国章リンク': '（イギリスの国章国章）', '注記': '<references />', '国際電話番号': '44', '人口順位': '22', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '人口統計年': '2011', 'GDP統計年元': '2012', '確立年月日4': '1927年', '人口密度値': '246', '国章画像': 'ファイル:Royal Coat of Arms of the United Kingdom.svg85pxイギリスの国章', 'ccTLD': '.uk / .gb<ref>使用は.ukに比べ圧倒的少数。</ref>', '確立年月日2': '1707年', 'GDP値': '2兆3162億<ref name="imf-statistics-gdp" />', '元首等肩書': 'イギリスの君主女王', 'GDP順位': '6', 'GDP/人': '36,727<ref name="imf-statistics-gdp" />', 'ISO 3166-1': 'GB / GBR', '確立形態3': 'グレートブリテン及びアイルランド連合王国建国<br />（連合法 (1800年)1800年連合法）', '確立年月日3': '1801年', '首相等肩書': 'イギリスの首相首相', '首都': 'ロンドン', '略名': 'イギリス', 'GDP統計年': '2012', '確立形態1': 'イングランド王国／スコットランド王国<br />（両国とも連合法 (1707年)1707年連合法まで）', '通貨': 'スターリング・ポンドUKポンド (&pound;)', '水面積率': '1.3%', '標語': '{{langfrDi

## 28. MediaWikiマークアップの除去

In [10]:
f = os.path.join('data', 'UK.txt')
d = {}
with open(f) as reader:
    for line in reader:
        if re.search('^\}\}$',line):
          break
        elif re.search('^\|',line):
          token = re.sub('^\|','',line)
          token = re.split("\s\=\s",token)
          token[1] = re.sub(r"['\n|\'*]","",token[1])
          token[1] = re.sub(r"['\n|\'*|\[\[|\]\]]", "", token[1])
          token[1] = re.sub("<(\".*?\"|'.*?'|[^'\"])*?>", "", token[1])
          d[token[0]] = token[1]
print(d)

{'位置画像': 'Location_UK_EU_Europe_001.svg', '確立形態4': '現在の国号「グレートブリテン及び北アイルランド連合王国」に変更', '面積大きさ': '1 E11', 'GDP統計年MER': '2012', '国旗画像': 'Flag of the United Kingdom.svg', 'GDP順位MER': '5', '通貨コード': 'GBP', '時間帯': '±0', '公用語': '英語（事実上）', '国章リンク': '（イギリスの国章国章）', '注記': '', '国際電話番号': '44', '人口順位': '22', '日本語国名': 'グレートブリテン及び北アイルランド連合王国', '人口統計年': '2011', 'GDP統計年元': '2012', '確立年月日4': '1927年', '人口密度値': '246', '国章画像': 'ファイル:Royal Coat of Arms of the United Kingdom.svg85pxイギリスの国章', 'ccTLD': '.uk / .gb使用は.ukに比べ圧倒的少数。', '確立年月日2': '1707年', 'GDP値': '2兆3162億', '元首等肩書': 'イギリスの君主女王', 'GDP順位': '6', 'GDP/人': '36,727', 'ISO 3166-1': 'GB / GBR', '確立形態3': 'グレートブリテン及びアイルランド連合王国建国（連合法 (1800年)1800年連合法）', '確立年月日3': '1801年', '首相等肩書': 'イギリスの首相首相', '首都': 'ロンドン', '略名': 'イギリス', 'GDP統計年': '2012', '確立形態1': 'イングランド王国／スコットランド王国（両国とも連合法 (1707年)1707年連合法まで）', '通貨': 'スターリング・ポンドUKポンド (&pound;)', '水面積率': '1.3%', '標語': '{{langfrDieu et mon droit}}（フランス語:神と私の権利）', '公式国名': '{{langenUnited Kingdom of Great Britain and Northern Ireland

## 29. 国旗画像のURLを取得する

In [11]:
import urllib.request
import urllib.parse
from ast import literal_eval

image = urllib.parse.quote_plus(d['国旗画像'])
src = "https://commons.wikimedia.org/w/api.php?format=json&action=query&titles=File:" + image + "&prop=imageinfo&&iiprop=url"
response = urllib.request.urlopen(src)
html = response.read()
data = literal_eval(html.decode('utf-8'))
print(data["query"]["pages"]["347935"]["imageinfo"][0]["url"])

https://upload.wikimedia.org/wikipedia/commons/a/ae/Flag_of_the_United_Kingdom.svg
