# Pythonプログラミング入門 第4回
json ファイルの入出力について説明します

参考

- https://docs.python.org/ja/3/library/json.html

# json ファイルの入出力

## json形式とは

**json形式**は、JavaScript Object Notationの略で、データを保存するための記録方式の一つです。<br>
特に、辞書や辞書のリストを記録することができます。

たとえばサークルのメンバーデータを作ることを考えましょう。<br>
メンバーは「鈴木一郎」と「山田花子」の2名で、それぞれ『氏名』『ニックネーム』『出身地』を記録しておきたいと思います。<br>
表で表すとこんなデータです。ニックネームには複数の要素が入っていることに注意してください。<br>

|ID| 氏名 | ニックネーム | 出身地 | 
|---:|:--------|:---------------|:-------|
|user1| 鈴木一郎 | イチロー, いっち | 広島 |
|user2| 山田花子 | はなこ,ハナちゃん | 名古屋 |

これをjson形式で表すと以下のようになります。

json形式で`key:value`となっている場合、`:`で挟んだ左側がkey, 右側がvalueであるような辞書と考えてください。

また、`{}`で囲んだものはオブジェクト、`[]`で囲んだものはリストで、オブジェクトの中にオブジェクト、リストの中にオブジェクト、など、入れ子の構造にすることができます。複数の要素を列挙する場合は`,(コンマ)`で区切ります。

| 値の型 | jsonの例 |
|:---|:---|
| string | `"data":"123"` |
| number | `"data":123` |
| boolean | `"data":true` |
| オブジェクト | `"data":{"a":"b"}` |    
| 配列 | `"data":[1,2,3]` |

csv形式では、上記のニックネームの列のように、同じセルに複数の要素を含むデータは基本的には扱えませんが、jsonでは扱うことができます。<br>
また「ID」「氏名」「ニックネーム」「出身地」のようなラベルは、
csv形式では1行目のデータとして書きこむことはできますが、『1行目はラベルの行』とプログラム側で区別しなければ、
ただの一行のデータとして扱われてしまいます。<br>
これに対しjsonでは、「氏名」が「鈴木一郎」というように、各値に対してキーを設定することができます。

## json ファイルのダンプとロード

**`json`** モジュールを用いることにより、Pythonの各種のデータをファイルに書き出す（ダンプする）ことができ、また、ファイルからロード（読み込み）することができます。ダンプとロードには、それぞれ **`json.dump`** と **`json.load`** を用います。

In [None]:
import json

# 上で例に挙げたjson形式のデータ表現
d = {
    "user1" :  {
        "氏名":"鈴木一郎",
        "ニックネーム":[
            "イチロー",
            "いっち"
        ],
        "出身地":"広島"
    },
    "user2"  :  {
        "氏名":"鈴木花子",
        "ニックネーム":[
            "はなこ",
            "ハナちゃん"
        ],
        "出身地":"名古屋"
    }
}

# dをファイルに書き出し
with open("test.json", "w") as f:
    json.dump(d, f)
    
# jsonファイルを読み込み
with open("test.json", "r") as f:
    d1 = json.load(f)

# jsonデータのプリント
print(d1)

# 上記のようだととても見にくいので整形して読み込み

# jsonファイルを読み込み
# ensure_ascii=Falseを指定しないと文字化けします
print(json.dumps(d1, indent=2, ensure_ascii=False))

## 練習

1. 以下のリスト内包の結果を `fib.json` というファイルにjsonフォーマットでダンプしてください。

2. ダンプしたファイルからロードして、同じものが得られることを確かめてください。

In [None]:
def fib(n):
    if (n == 0):
        return 0
    elif (n == 1):
        return 1
    else:
        return fib(n-1)+fib(n-2)

[{'n': n, 'fib' : fib(n)} for n in range(0,10)]

以下のセルによってテストしてください。

In [None]:
with open("fib.json", "r") as f:
    print(json.load(f) == [{'n': n, 'fib' : fib(n)} for n in range(0,10)])

### 東京大学授業カタログ
`catalog-2018.json` には、東京大学授業カタログから取り出したデータが記録されています。

具体的には、各授業の情報を納めた辞書のリストがjsonフォーマットで記録されています。
これをロードするには、以下のようにします。

In [None]:
with open("catalog-2018.json", "r", encoding="utf-8") as f:
    j = json.load(f)

In [None]:
j

In [None]:
len(j)

`j` の各要素は個々の授業に対応していて、各授業の情報を辞書として含んでいます。

In [None]:
j[0]

In [None]:
j[1]

各授業の担当教員の日本語の名前は、`name_j` というキーに対する値として格納されています。

In [None]:
j[1]['name_j']

姓と名は、`\u3000` というコードで区切られているようです。 

In [None]:
j[1]['name_j'].split('\u3000')

In [None]:
j[1]['Title']

`title` をキーに持たない授業はないようです。

In [None]:
for d in j:
    if d.get('title',-1)==-1:
        print(d)

## ▲不要な空白や改行の除去
ファイルから読み込んだ文字列の前後に不要な空白や改行がある場合は、組み込み関数 **`strip()`** を使用するとそれらの空白・改行を除去することができます。

In [None]:
"   This is strip.\n".strip()

lstrip は文頭、rstrip は文末の空白や改行を除去します。

In [None]:
"   This is strip.\n".lstrip()

In [None]:
"   This is strip.\n".rstrip()

##  練習の解答

In [None]:
with open("fib.json", "w") as f:
    json.dump([{'n': n, 'fib' : fib(n)} for n in range(0,10)], f)