# Webのデータは様々なデータフォーマット

## テキストデータとバイナリデータ

In [1]:
# ファイル名とデータ
filename = "a.bin"
data = 100
# 書き込み
with open(filename, "wb") as f:
    f.write(bytearray([data]))

In [2]:
!hexdump a.txt

0000000 31 30 30                                       
0000003


In [3]:
!hexdump a.bin

0000000 64                                             
0000001


データの種類

|データの種類|説明|
|:--|:--|
|テキストデータ|[長所]テキストエディタがあれば編集できる。また、説明を含めることができるので可読性が高い<br>[短所]バイナリデータに比べサイズが大きくなる|
|バイナリデータについて|[長所]テクストデータに比べてサイズが小さくなる<br>[短所]テキストエディタでは編集できない<br>[短所]何バイト目になんのデータを指定するのか定義が必要|

### テキストデータにおける注意点

文字エンコーディングが異なれば、全く異なるデータが異なる

## XMLの解析

次のリストはXMLの基本的な構造を示したもの  
<要素名　属性="属性値">内容</要素名>  
例：  
<商品　id="S001" 値段="4500">SDカード</商品>  

### PythonでXMLの解析-地域防災拠点データを読む

データ  
横浜市 > 総務局 > 防災関連データ  
http://www.city.yokohama.lg.jp/somu/org/kikikanri/data/

In [4]:
from bs4 import BeautifulSoup
import urllib.request as req
import os.path

In [5]:
# XMLをダウンロード
url = "http://www.city.yokohama.lg.jp/somu/org/kikikanri/data/"
savename = "shelter.xml"
if not os.path.exists(savename):
    req.urlretrieve(url, savename)

In [6]:
# BeautifulSoupで解析
xml = open(savename, "r", encoding="utf-8").read()
soup = BeautifulSoup(xml, 'html.parser')

In [7]:
# データを各区ごとに確認
info = {}
# 各shlterにname, ward, addr, noteの情報が入っている
for i in soup.find_all("shelter"):
    name = i.find('name').string
    ward = i.find('ward').string
    addr = i.find('address').string
    note = i.find('notes').string
    if not (ward in info):
        info[ward] = []
    info[ward].append(name)

In [8]:
# 区ごとに防災拠点を表示
for ward in info.keys():
    print("+", ward)
    for name in info[ward]:
        print("| -", name)

+ 鶴見区
| - 生麦小学校
| - 豊岡小学校
| - 鶴見小学校
| - 潮田小学校
| - 下野谷小学校
| - 市場小学校
| - 平安小学校
| - 末吉小学校
| - 上末吉小学校
| - 下末吉小学校
| - 旭小学校
| - 東台小学校
| - 岸谷小学校
| - 矢向小学校
| - 入船小学校
| - 寺尾小学校
| - 汐入小学校
| - 馬場小学校
| - 駒岡小学校
| - 獅子ケ谷小学校
| - 上寺尾小学校
| - 新鶴見小学校
| - 市場中学校
| - 矢向中学校
| - 鶴見中学校
| - 末吉中学校
| - 寺尾中学校
| - 生麦中学校
| - 潮田中学校
| - 寛政中学校
| - 上の宮中学校
+ 神奈川区
| - 三ツ沢小学校
| - 青木小学校
| - 二谷小学校
| - 幸ケ谷小学校
| - 浦島小学校
| - 子安小学校
| - 白幡小学校
| - 神橋小学校
| - 池上小学校
| - 西寺尾小学校
| - 西寺尾第二小学校
| - 大口台小学校
| - 斎藤分小学校
| - 神奈川小学校
| - 神大寺小学校
| - 中丸小学校
| - 羽沢小学校
| - 菅田小学校
| - 南神大寺小学校
| - 栗田谷中学校
| - 浦島丘中学校
| - 錦台中学校
| - 神奈川中学校
| - 松本中学校
| - 六角橋中学校
+ 西区
| - 東小学校
| - 稲荷台小学校
| - 西前小学校
| - 平沼小学校
| - 宮谷小学校
| - 戸部小学校
| - 一本松小学校
| - 浅間台小学校
| - 岡野中学校
| - 西中学校
| - 老松中学校
| - 軽井沢中学校
+ 中区
| - 本町小学校
| - 山元小学校
| - 元街小学校
| - 北方小学校
| - 大鳥小学校
| - 間門小学校
| - 立野小学校
| - 本牧南小学校
| - 本牧小学校
| - 横浜吉田中学校
| - 港中学校
| - 仲尾台中学校
| - みなと総合高等学校
+ 南区
| - 南吉田小学校
| - 石川小学校
| - 中村小学校
| - 日枝小学校
| - 蒔田小学校
| - 大岡小学校
| - 井土ケ谷小学校
| - 永田小学校
| - 南太田小学校
| - 太田小学校
| - 南小学校
| - 六つ川小学校
| - 藤の

## JSONの解析

JavaScript Object Notation  
JSONの特徴は、仕組みが単純であること。そのため、多くのプログラミング言語でJSONのエンコード・デコードが標準機能として提供されている。  

JSONの紹介ページ  
http://json.org/

## JSONの構造

|データ型|表現方法|利用例|
|:--|:--|:--|
|数値|数字|30|
|文字列|"" で括る|"str"|
|真偽型|trueかfalse|true|
|配列|[n1, n2, n3,...]のように記述|[1, 2, 3, 10]|
|オブジェクト|{"key":value, "key":value,...}のように記述|{"org": 50, "com":10}|
|null|null|null|

### PythonでJSONの解析-百人一首を読む

In [9]:
import json
import random

In [10]:
# JSONデータをダウンロード
url = "http://api.aoikujira.com/hyakunin/get.php?fmt=json"
savename = "hyakunin.json"
if not os.path.exists(url):
    req.urlretrieve(url, savename)

In [11]:
# JSONファイルを解析
data = json.load(open(savename, "r", encoding="utf-8"))
# あるいは
# s = open(savename, "r", encodeing="utf-8").read()
# data = json.loads(s)

In [12]:
# ランダムに一首表示
r = random.choice(data)
print(r['kami'], r['simo'])

心にも あらでうき世に ながらへば 恋しかるべき 夜半の月かな


### JSON形式を書き出す

In [13]:
price = {
    "date": "2017-05-10",
    "price": {
        "Apple": 80,
        "Orange": 55,
        "Banana": 40
    }}
s = json.dumps(price)
print(s)

{"date": "2017-05-10", "price": {"Apple": 80, "Orange": 55, "Banana": 40}}


## YAMLを解析する

YAMLとは、インデントを利用して階層構造を表現するという特徴を持ったデータ形式。でキストデータなのでmテキストエディタを用いて編集することができる。XMLよりもシンプルなのが特徴で、、前述のJSONと似ている。  
YAMLはインデントを用いて階層構造を記述する。

In [14]:
import yaml

In [15]:
# YAMLの定義
yaml_str = """
Data: 2017-03-10
PriceList:
    -
        item_id: 1000
        name: Banana
        color: yellow
        price: 800
    -
        item_id: 1001
        name: Orange
        color: orange
        price: 1400
    -
        item_id: 1002
        name: Apple
        color: red
        price: 2400
"""

In [16]:
# YAMLを解析する
data = yaml.load(yaml_str)

  data = yaml.load(yaml_str)


In [17]:
# 名前と値段だけ表示する
for item in data['PriceList']:
    print(item["name"], item["price"])

Banana 800
Orange 1400
Apple 2400


### PythonでYAMLの読み書き

In [18]:
# PYTHONのデータをYAMLで出力
customer = [
    {"name": "Yamada", "age": "35", "gender": "man"},
    {"name": "Sato", "age": "58", "gender": "woman"},
    {"name": "Kato", "age": "42", "gender": "man"},
    {"name": "Nishi", "age": "22", "gender": "man"}
]

In [19]:
# PythonのデータをYAMLに変換
yaml_str = yaml.dump(customer)
print(yaml_str)

- age: '35'
  gender: man
  name: Yamada
- age: '58'
  gender: woman
  name: Sato
- age: '42'
  gender: man
  name: Kato
- age: '22'
  gender: man
  name: Nishi



In [20]:
# YAMLをPythonデータに変換
data = yaml.load(yaml_str)

  data = yaml.load(yaml_str)


In [21]:
# 顧客名だけを表示
for p in data:
    print(p['name'])

Yamada
Sato
Kato
Nishi


YAMLの読み書きをまとめてみると、  

|関数名|説明|
|:--|:--|
|yaml.load(str)|文字列str(YAML)を解析|
|yaml.dump(v)|PythonデータvをYAML形式で出力|

## YAMLのデータ形式の紹介

YAMLの基本は、配列、ハッシュ、スカラー()文字列・数値・真偽値など)。  

配列を表すには、行頭にハイフン「-」をつける。ハイフンの後には半角スペースが必要。  

In [22]:
yaml_str = """
- banana
- kiwi

- mango
"""

このとき、インデントすると、配列の中に配列を表現することができる。ただし、インデントをする直前にからの要素を入れる必要がある。

In [23]:
yaml_str = """
- Yellow
-
    - Banana
    - Orange
- Red
-
    - Apple
    - Strawberry
"""

ハッシュは、JavaScriptンボオブジェクトに相当するもの。「キー: 値」の形式で記述する。また、インデントを用いて、階層構造を表現できる。

In [24]:
yaml_str = """
name: Taro
property:
    age: 4
    color: brown
"""

配列をハッシュを組み合わせて、複雑なデータを表現することもできる。

In [25]:
yaml_str = """
- name: Taro
  color: brown
  age: 4
  favorites:
      - Banana
      - Miso soup
- name: Mike
  color: white
  age: 8
  favorites:
      - Orange
      - Candy
"""

YAMLにはフロースタイルが用意されており、これを利用すると、JSONと同じように、hairetuwo[n1, n2, n3,...]で表現し、ハッシュを{"key": value, "key": value, ...}のように表示できる。ただし、「,」や「:」の後には半角空白を入れる必要がある。

In [26]:
yaml_str = """
- name: Tarp
- favorites: ["Banana", "Miso soup"]
"""

YAMLではコメントを「#」で記述できます。

In [27]:
yaml_str = """
# YAMLにはコメントを残すことが可能
- name: Tarp
- favorites: ["Banana", "Miso soup"]
"""

複数行の文字列を指定することもできる

In [28]:
yaml_str = """
multi-line: |
    I like Banana.
    I like Mango.
    I like Orange.
"""

YAMLではアンカーとエイリアスが利用できる。これは「&name」で印をつけておいて、「$*$name」で参照することができる。「&name」がアンカーで、「$*$name」がエイリアス。

In [29]:
yaml_str = """
# 色を定義する
color_define:
    - &color1 "#FF0000"
    - &color2 "#00FF00"
    - &color3 "#00FFFF"

# 色設定を記述する
frame_color:
    title: *colo1
    logo: *color2

article_color:
    title: *color2
    back: *color3
"""

In [30]:
# 文字列でYAMLを定義
yaml_str = """
# 定義
color_define:
    - &color1 "#FF0000"
    - &color2 "#00FF00"
    - &color3 "#00FFFF"

# エイリアスのテスト
color:
    title: *color1
    body: *color2
    link: *color3
"""
# YAMLを解析
data = yaml.load(yaml_str)

# エイリアスが展開せれているかテスト
print("title=", data["color"]["title"])
print("body=", data["color"]["body"])
print("link=", data["color"]["link"])

title= #FF0000
body= #00FF00
link= #00FFFF


  data = yaml.load(yaml_str)


## CSV/TSVの解析

Comma-Separated Values  
Tab-Separated Values  
Space-Separated Values

CSVファイルは、一つ以上のレコードから成り立っており、レコードは改行で区切られる。

レコード１  
レコード2  
レコード3  
...

レコードは一つ以上の同じ個数のフィールドで成り立っており、フィールドはかんま「,」で区切られる。なお、ファイルの先頭のレコードには、ヘッダー行があっても良い。

ID, 商品名, 値段  
1000, 石鹸, 300  
1001, 手袋, 150  
1002, マスク, 230

各フィールドは以下のようにダブルコーテーション「"..."」で囲んでもいいことになってる。

"1000", "石鹸", "300"  
"1001", "手袋", "150"  
"1002", "マスク", "230"

フィールドの中に、ダブルコーテーション「"」やカンマ、改行を含む場合には必ずダブルコーテーションで囲むことになっている。そして、ダブルコーテーションをエスケープするには、２２ダブルコーテーションを記述し「"aa""bb"」のように書く。

"商品番号", "商品名", "金額"  
"1101", "特別サービス  
石鹸半額", "150"  
"1102", "いつもの三倍""美味しい""水", "300"

### Pythonで単純なCSVファイルを読む

In [31]:
import codecs

In [32]:
# Shift_JISのCSVファイルを読む
filename = "list-sjis.csv"
csv = codecs.open(filename, "r", "utf-8").read()

In [33]:
# CSVをPythonのリストに変換する
data = []
rows = csv.split("\n")
for row in rows:
    if row == "":
        continue
    cells = row.split(",")
    data.append(cells)

# 変換結果を表示
for c in data:
    print(c[1], c[2])

 商品名  値段
 石鹸  300
 手袋  150
 マスク  230


### Pythonでcsvモジュールを使う

In [34]:
import csv

In [35]:
# CSVファイルを開く
filename = "list-sjis.csv"
fp = codecs.open(filename, "r", "utf-8")

# 1行ずつ読む
reader = csv.reader(fp, delimiter=",", quotechar='"')
for cells in reader:
    print(cells[1], cells[2])

 商品名  値段
 石鹸  300
 手袋  150
 マスク  230


先ほどと出力は同じだが、プログラムの構造はかなり異なる。  
一行ずつ読み込む方式なので、膨大なサイズのCSVファイルに対してもfor文を用いることで、必要なところまで少しずつ読むことができる。

In [36]:
with codecs.open("test.csv", "w", "shift_jis") as fp:
    writer = csv.writer(fp, delimiter=",", quotechar='"')
    writer.writerow(["ID", "商品名", "値段"])
    writer.writerow(["1000", "SDカード", "300"])
    writer.writerow(["1001", "キーボード", "2100"])
    writer.writerow(["1002", "マジック(赤,青)", "150"])

### Pandasも使える

データ解析ライブラリのPandasを利用しても、手軽にCSVファイルを読み込み編集することができる。

## Excelファイルの解析

In [37]:
import openpyxl

In [38]:
#Excelファイルを開く
filename = "population.xlsx"
book = openpyxl.load_workbook(filename)

  warn(msg)


In [39]:
# 先頭のシートを得る
sheet = book.worksheets[0]

In [40]:
# シートの各行を順に得る
data = []
for row in sheet.rows:
    data.append([
        row[0].value,
        row[2].value
    ])

In [41]:
# 先頭行は説明なのですてる
del data[0]

In [42]:
# データを人口順に並び替える
data = sorted(data, key=lambda x:x[1])

In [43]:
# ワースト5を表示
for i, a in enumerate(data):
    if i >= 5:
        break
    print(i+1, a[0], int(a[1]))

1 鳥取県 588667
2 島根県 717397
3 高知県 764456
4 徳島県 785491
5 福井県 806314


Excelファイルの仕組み：  
ブック(book): 複数のシート(sheet)  
シート(sheet): 行(row)と列(column)の二次元セル(cell)

### PythonでExcelファイルに書き込む

In [44]:
# Excelファイルを開く
filename = "population.xlsx"
book = openpyxl.load_workbook(filename)

In [45]:
# アクティブになっているシートを得る
sheet = book.active

In [46]:
# 人口のトータルを計算する
total = 0
for i, row in enumerate(sheet.rows):
    if i == 0: # 先頭はヘッダ
        continue
    po = int(row[2].value)
    total += po
print("total=", total)

total= 128057352


In [47]:
# 書き込む
sheet['A49'] = "Total"
sheet['C49'] = total

In [48]:
# フォントなどの設定を変更する
c = sheet['C49']
c.font = openpyxl.styles.Font(size=14, color="FF0000")
c.number_format = sheet['C48'].number_format

In [49]:
# 書き込んだ内容をファイルへ保存
filename = "population-total.xlsx"
book.save(filename)
print("ok")

ok


### Pandasを利用してExcelを読み出す方法

In [50]:
import pandas as pd

In [51]:
# Excelファイルを開く
filename = "population.xlsx"
sheet_name = "list-sjis.csv"
book = pd.read_excel(filename, sheet_name=sheet_name)

# データを人口順に表示
book.sort_values(by="法定人口", ascending=False)
print(book)

    都道府県    団体コード      法定人口      推計人口
0    東京都  13000-1  13159388  13613660
1   神奈川県  14000-7   9048331   9146101
2    大阪府  27000-8   8865245   8838988
3    愛知県  23000-6   7410719   7501909
4    埼玉県  11000-1   7194556   7277247
5    千葉県  12000-6   6216289   6238589
6    兵庫県  28000-3   5588133   5526538
7    北海道  01000-6   5506419   5381711
8    福岡県  40000-9   5071968   5104919
9    静岡県  22000-1   3765007   3688878
10   茨城県  08000-4   2969770   2909196
11   広島県  34000-6   2860750   2822448
12   京都府  26000-2   2636092   2607108
13   宮城県  04000-2   2348165   2330528
14   新潟県  15000-2   2374450   2290569
15   長野県  20000-0   2152449   2088105
16   岐阜県  21000-5   2080773   2024859
17   栃木県  09000-0   2007683   1969056
18   群馬県  10000-5   2008068   1967635
19   福島県  07000-9   2029064   1903174
20   岡山県  33000-1   1945276   1917299
21   三重県  24000-1   1854724   1808932
22   熊本県  43000-5   1817426   1778005
23  鹿児島県  46000-1   1706242   1639628
24   沖縄県  47000-7   1392818   1432874
25   滋賀県  25

# データベースについて

## データベースについて

データベースを使うと以下のメリットがある  
1. データを一元管理できる  
2. 様々なデータを関連づけて格納できる
3. 重複データを認めないなど制約をつけてデータを格納できる  
4. データの一貫性(整合性)を確保できる  
5. 複数人でデータを共有できる  
6. データへの同時アクセスを処理できる  
7. 大量のデータでも、少しずつ読み出したり、並べ替えたりできる

## データの保存にはどのデータベースが向いている？

1. MySQL/MarinaDB  
2. PostgreSQL  
3. MongoDB(NoSQL)  
4. TinyDB(NoSQL)  
5. Microsofr SQLServer(商用)
6. Oracle Deatabase(商用)
7. SQLite

### データベース

データベースの中には、複数のテーブルがある。テーブルというのはExcelのシートに当たるもの。それは、行と列を持つ二次元のデータで構成されている。行のことをレコード(あるいは、ロー)と呼び、一つのレコードには、複数の列がある。この列のことを、カラム、あるいはフィールドと呼ばれる。

データベースはExcelと変わらない印象を受けるが、異なるのは、テーブル同士を連結させて連動させることができる点である。また、Excelで扱えないような大量のデータがあっても容易に処理できるのも大きな違い。

## SQLite - お手軽単体ファイルのデータベース

In [52]:
import sqlite3

In [53]:
# sqliteのデータベースに接続
dbpath = "test.sqlite"
conn = sqlite3.connect(dbpath)

In [54]:
# テーブルを作成し、データを挿入する
# conn.cursor()でデータベースを操作するカーソルを取得した上で書き込む
cur = conn.cursor()
cur.executescript("""
/* itemsテーブルがすでにあれば削除する */
DROP TABLE IF EXISTS items;

/* テーブルの作成*/
CREATE TABLE items(
    item_id INTEGER PRIMARY KEY,
    name TEXT UNIQUE,
    price INTEGER
);

/* データを挿入 */
INSERT INTO items(name, price)VALUES('apple', 800);
INSERT INTO items(name, price)VALUES('Orange', 780);
INSERT INTO items(name, price)VALUES('Banana', 430);
""")

<sqlite3.Cursor at 0x110cf3f80>

In [55]:
# 上記の操作をデータベースに反映させる
conn.commit()

In [58]:
# データベースを抽出する
# fetchall()で結果を全部取得できる
# fetchone()で一つだけ結果を取得できる
cur = conn.cursor()
cur.execute("SELECT item_id, name, price FROM items")
item_list = cur.fetchall()

In [59]:
# 1行ずつ表示
for it in item_list:
    print(it)

(1, 'apple', 800)
(2, 'Orange', 780)
(3, 'Banana', 430)
