# Webのデータは様々なデータフォーマット

## テキストデータとバイナリデータ

In [22]:
# ファイル名とデータ
filename = "a.bin"
data = 100
# 書き込み
with open(filename, "wb") as f:
    f.write(bytearray([data]))

In [23]:
!hexdump a.txt

0000000 31 30 30                                       
0000003


In [24]:
!hexdump a.bin

0000000 64                                             
0000001


データの種類

|データの種類|説明|
|:--|:--|
|テキストデータ|[長所]テキストエディタがあれば編集できる。また、説明を含めることができるので可読性が高い<br>[短所]バイナリデータに比べサイズが大きくなる|
|バイナリデータについて|[長所]テクストデータに比べてサイズが小さくなる<br>[短所]テキストエディタでは編集できない<br>[短所]何バイト目になんのデータを指定するのか定義が必要|

### テキストデータにおける注意点

文字エンコーディングが異なれば、全く異なるデータが異なる

## XMLの解析

次のリストはXMLの基本的な構造を示したもの  
<要素名　属性="属性値">内容</要素名>  
例：  
<商品　id="S001" 値段="4500">SDカード</商品>  

### PythonでXMLの解析-地域防災拠点データを読む

データ  
横浜市 > 総務局 > 防災関連データ  
http://www.city.yokohama.lg.jp/somu/org/kikikanri/data/

In [27]:
from bs4 import BeautifulSoup
import urllib.request as req
import os.path

In [28]:
# XMLをダウンロード
url = "http://www.city.yokohama.lg.jp/somu/org/kikikanri/data/"
savename = "shelter.xml"
if not os.path.exists(savename):
    req.urlretrieve(url, savename)

In [29]:
# BeautifulSoupで解析
xml = open(savename, "r", encoding="utf-8").read()
soup = BeautifulSoup(xml, 'html.parser')

In [36]:
# データを各区ごとに確認
info = {}
# 各shlterにname, ward, addr, noteの情報が入っている
for i in soup.find_all("shelter"):
    name = i.find('name').string
    ward = i.find('ward').string
    addr = i.find('address').string
    note = i.find('notes').string
    if not (ward in info):
        info[ward] = []
    info[ward].append(name)

In [37]:
# 区ごとに防災拠点を表示
for ward in info.keys():
    print("+", ward)
    for name in info[ward]:
        print("| -", name)

+ 鶴見区
| - 生麦小学校
| - 豊岡小学校
| - 鶴見小学校
| - 潮田小学校
| - 下野谷小学校
| - 市場小学校
| - 平安小学校
| - 末吉小学校
| - 上末吉小学校
| - 下末吉小学校
| - 旭小学校
| - 東台小学校
| - 岸谷小学校
| - 矢向小学校
| - 入船小学校
| - 寺尾小学校
| - 汐入小学校
| - 馬場小学校
| - 駒岡小学校
| - 獅子ケ谷小学校
| - 上寺尾小学校
| - 新鶴見小学校
| - 市場中学校
| - 矢向中学校
| - 鶴見中学校
| - 末吉中学校
| - 寺尾中学校
| - 生麦中学校
| - 潮田中学校
| - 寛政中学校
| - 上の宮中学校
+ 神奈川区
| - 三ツ沢小学校
| - 青木小学校
| - 二谷小学校
| - 幸ケ谷小学校
| - 浦島小学校
| - 子安小学校
| - 白幡小学校
| - 神橋小学校
| - 池上小学校
| - 西寺尾小学校
| - 西寺尾第二小学校
| - 大口台小学校
| - 斎藤分小学校
| - 神奈川小学校
| - 神大寺小学校
| - 中丸小学校
| - 羽沢小学校
| - 菅田小学校
| - 南神大寺小学校
| - 栗田谷中学校
| - 浦島丘中学校
| - 錦台中学校
| - 神奈川中学校
| - 松本中学校
| - 六角橋中学校
+ 西区
| - 東小学校
| - 稲荷台小学校
| - 西前小学校
| - 平沼小学校
| - 宮谷小学校
| - 戸部小学校
| - 一本松小学校
| - 浅間台小学校
| - 岡野中学校
| - 西中学校
| - 老松中学校
| - 軽井沢中学校
+ 中区
| - 本町小学校
| - 山元小学校
| - 元街小学校
| - 北方小学校
| - 大鳥小学校
| - 間門小学校
| - 立野小学校
| - 本牧南小学校
| - 本牧小学校
| - 横浜吉田中学校
| - 港中学校
| - 仲尾台中学校
| - みなと総合高等学校
+ 南区
| - 南吉田小学校
| - 石川小学校
| - 中村小学校
| - 日枝小学校
| - 蒔田小学校
| - 大岡小学校
| - 井土ケ谷小学校
| - 永田小学校
| - 南太田小学校
| - 太田小学校
| - 南小学校
| - 六つ川小学校
| - 藤の

## JSONの解析

JavaScript Object Notation  
JSONの特徴は、仕組みが単純であること。そのため、多くのプログラミング言語でJSONのエンコード・デコードが標準機能として提供されている。  

JSONの紹介ページ  
http://json.org/

## JSONの構造

|データ型|表現方法|利用例|
|:--|:--|:--|
|数値|数字|30|
|文字列|"" で括る|"str"|
|真偽型|trueかfalse|true|
|配列|[n1, n2, n3,...]のように記述|[1, 2, 3, 10]|
|オブジェクト|{"key":value, "key":value,...}のように記述|{"org": 50, "com":10}|
|null|null|null|

### PythonでJSONの解析-百人一首を読む

In [43]:
import json
import random

In [40]:
# JSONデータをダウンロード
url = "http://api.aoikujira.com/hyakunin/get.php?fmt=json"
savename = "hyakunin.json"
if not os.path.exists(url):
    req.urlretrieve(url, savename)

In [41]:
# JSONファイルを解析
data = json.load(open(savename, "r", encoding="utf-8"))
# あるいは
# s = open(savename, "r", encodeing="utf-8").read()
# data = json.loads(s)

In [45]:
# ランダムに一首表示
r = random.choice(data)
print(r['kami'], r['simo'])

長からむ 心もしらず 黒髪の みだれてけさは 物をこそ思へ


### JSON形式を書き出す

In [48]:
price = {
    "date": "2017-05-10",
    "price": {
        "Apple": 80,
        "Orange": 55,
        "Banana": 40
    }}
s = json.dumps(price)
print(s)

{"date": "2017-05-10", "price": {"Apple": 80, "Orange": 55, "Banana": 40}}


## YAMLを解析する

YAMLとは、インデントを利用して階層構造を表現するという特徴を持ったデータ形式。でキストデータなのでmテキストエディタを用いて編集することができる。XMLよりもシンプルなのが特徴で、、前述のJSONと似ている。  
YAMLはインデントを用いて階層構造を記述する。

In [50]:
import yaml

In [51]:
# YAMLの定義
yaml_str = """
Data: 2017-03-10
PriceList:
    -
        item_id: 1000
        name: Banana
        color: yellow
        price: 800
    -
        item_id: 1001
        name: Orange
        color: orange
        price: 1400
    -
        item_id: 1002
        name: Apple
        color: red
        price: 2400
"""

In [52]:
# YAMLを解析する
data = yaml.load(yaml_str)

  data = yaml.load(yaml_str)


In [53]:
# 名前と値段だけ表示する
for item in data['PriceList']:
    print(item["name"], item["price"])

Banana 800
Orange 1400
Apple 2400


### PythonでYAMLの読み書き

In [54]:
# PYTHONのデータをYAMLで出力
customer = [
    {"name": "Yamada", "age": "35", "gender": "man"},
    {"name": "Sato", "age": "58", "gender": "woman"},
    {"name": "Kato", "age": "42", "gender": "man"},
    {"name": "Nishi", "age": "22", "gender": "man"}
]

In [56]:
# PythonのデータをYAMLに変換
yaml_str = yaml.dump(customer)
print(yaml_str)

- age: '35'
  gender: man
  name: Yamada
- age: '58'
  gender: woman
  name: Sato
- age: '42'
  gender: man
  name: Kato
- age: '22'
  gender: man
  name: Nishi



In [57]:
# YAMLをPythonデータに変換
data = yaml.load(yaml_str)

  data = yaml.load(yaml_str)


In [58]:
# 顧客名だけを表示
for p in data:
    print(p['name'])

Yamada
Sato
Kato
Nishi


YAMLの読み書きをまとめてみると、  

|関数名|説明|
|:--|:--|
|yaml.load(str)|文字列str(YAML)を解析|
|yaml.dump(v)|PythonデータvをYAML形式で出力|

## YAMLのデータ形式の紹介

YAMLの基本は、配列、ハッシュ、スカラー()文字列・数値・真偽値など)。  

配列を表すには、行頭にハイフン「-」をつける。ハイフンの後には半角スペースが必要。  

In [59]:
yaml_str = """
- banana
- kiwi

- mango
"""

このとき、インデントすると、配列の中に配列を表現することができる。ただし、インデントをする直前にからの要素を入れる必要がある。

In [60]:
yaml_str = """
- Yellow
-
    - Banana
    - Orange
- Red
-
    - Apple
    - Strawberry
"""

ハッシュは、JavaScriptンボオブジェクトに相当するもの。「キー: 値」の形式で記述する。また、インデントを用いて、階層構造を表現できる。

In [62]:
yaml_str = """
name: Taro
property:
    age: 4
    color: brown
"""

配列をハッシュを組み合わせて、複雑なデータを表現することもできる。

In [63]:
yaml_str = """
- name: Taro
  color: brown
  age: 4
  favorites:
      - Banana
      - Miso soup
- name: Mike
  color: white
  age: 8
  favorites:
      - Orange
      - Candy
"""

YAMLにはフロースタイルが用意されており、これを利用すると、JSONと同じように、hairetuwo[n1, n2, n3,...]で表現し、ハッシュを{"key": value, "key": value, ...}のように表示できる。ただし、「,」や「:」の後には半角空白を入れる必要がある。

In [64]:
yaml_str = """
- name: Tarp
- favorites: ["Banana", "Miso soup"]
"""

YAMLではコメントを「#」で記述できます。

In [65]:
yaml_str = """
# YAMLにはコメントを残すことが可能
- name: Tarp
- favorites: ["Banana", "Miso soup"]
"""

複数行の文字列を指定することもできる

In [66]:
yaml_str = """
multi-line: |
    I like Banana.
    I like Mango.
    I like Orange.
"""

YAMLではアンカーとエイリアスが利用できる。これは「&name」で印をつけておいて、「$*$name」で参照することができる。「&name」がアンカーで、「$*$name」がエイリアス。

In [67]:
yaml_str = """
# 色を定義する
color_define:
    - &color1 "#FF0000"
    - &color2 "#00FF00"
    - &color3 "#00FFFF"

# 色設定を記述する
frame_color:
    title: *colo1
    logo: *color2

article_color:
    title: *color2
    back: *color3
"""

In [None]:
# 文字列でYAMLを定義
yaml_str = """
# 定義
color_define:
    - &color1 "#FF0000"
    - &color2 "#00FF00"
    - &color3 "#00FFFF"

# エイリアスのテスト
color:
    title: *color1
    body: *color2
    link: *color3
"""
# YAMLを解析
data = yaml.load(yaml_str)

# エイリアスが展開せれているかテスト
