# ▲ JSONファイルの入出力
JSONファイルの入出力について説明します。

参考

- https://docs.python.org/ja/3/library/json.html

## JSON形式とは

**JSON形式**は、JavaScript Object Notationの略で、データを保存するための記録方式の一つです。<br>
特に、辞書や辞書のリストを記録することができます。

たとえばサークルのメンバーデータを作ることを考えましょう。<br>
メンバーは「鈴木一郎」と「山田花子」の2名で、それぞれ『氏名』『ニックネーム』『出身地』を記録しておきたいと思います。<br>
表で表すとこんなデータです。ニックネームには複数の要素が入っていることに注意してください。<br>

|ID| 氏名 | ニックネーム | 出身地 | 
|---:|:--------|:---------------|:-------|
|user1| 鈴木一郎 | イチロー, いっち | 広島 |
|user2| 山田花子 | はなこ,ハナちゃん | 名古屋 |

これをJSON形式で表すと以下のようになります。

JSON形式で`key:value`となっている場合、`:`で挟んだ左側がkey, 右側がvalueであるような辞書と考えてください。

また、`{}`で囲んだものは辞書、`[]`で囲んだものはリストで、辞書の中に辞書、リストの中に辞書、など、入れ子の構造にすることができます。複数の要素を列挙する場合は`,(コンマ)`で区切ります。

| 値の型 | jsonの例 |
|:---|:---|
| string | `"data":"123"` |
| number | `"data":123` |
| boolean | `"data":true` |
| 辞書 | `"data":{"a":"b"}` |    
| リスト | `"data":[1,2,3]` |

上のJSONファイルの例では、全体が1つのオブジェクトであり、その中に`"user1"`と`"user2"`というラベルのついた2つの辞書があり、その各辞書の中には`"氏名"`と`"ニックネーム"`と`"出身地"`の3つのオブジェクトがあり、さらに`"ニックネーム"`の値には、`"イチロー"`や`"いっち"`といった要素がリスト形式で記録されています。

リストや辞書は自由に構成することができます。  
例えば下の例はリストのリストです。

下の例は辞書のリストです。

## JSONファイルのダンプとロード

**`json`** モジュールを用いることにより、Pythonの各種のデータをファイルに書き出す（ダンプする）ことができ、また、ファイルからロード（読み込み）することができます。ダンプとロードには、それぞれ **`json.dumps`** と **`json.load`** を用います。   
また、JSONファイルの中身を標準出力で書き出すときは、**`json.dump`** を使います（ファイルに書き出す**`json.dumps`**とは、「dump」と「dumps」に違いがあるので注意してください。

読み込もうとするJSONファイルに日本語が含まれている場合、`json.dumps`でダンプする際は、オプションとして`ensure_ascii=True`を指定しないと文字化けするので注意してください。

In [None]:
import json

# 上で例に挙げたJSON形式のデータ表現
d = {
    'user1' :  {
        '氏名':'鈴木一郎',
        'ニックネーム':[
            'イチロー',
            'いっち'
        ],
        '出身地':'広島'
    },
    'user2'  :  {
        '氏名':'鈴木花子',
        'ニックネーム':[
            'はなこ',
            'ハナちゃん'
        ],
        '出身地':'名古屋'
    }
}

# dをファイルに書き出し
with open('test.json', 'w', encoding='utf-8') as f:
    # ensure_ascii=Falseを指定しないと文字化けします
    json.dump(d, f, ensure_ascii=False)
    
# JSONファイルを読み込み
with open('test.json', 'r', encoding='utf-8') as f:
    d1 = json.load(f)

# jsonデータをただ印刷するだけだと1行にまとまってしまい、データの構造が非常にわかりづらくなります。
# 見やすくするには json.dumps が有用です。
print(d1)

# 上記のようだととても見にくいので整形して読み込み

# JSONファイルを読み込み
# ensure_ascii=Falseを指定しないと文字化けします
print(json.dumps(d1, indent=2, ensure_ascii=False))

なお、1つのJSONファイルには1つのJSON形式のデータしか記録できません。   
2つ以上のJSON形式のデータを記録してしまうと、JSON形式とみなされず、エラーが起きますので注意してください。

以下の例では、`'test.json'`に`d`をJSON形式で2回ダンプしています。よって、その`'test.json'`を`json.load`で読み込む際にエラーが出ます。   
`json.dump`の行を一つコメントアウトして、1回だけ書き出すようにすれば、エラーが起きなくなることを確認してください。

In [None]:
with open('test.json', 'w', encoding='utf-8') as f:
    json.dump(d, f, ensure_ascii=False)
    json.dump(d, f, ensure_ascii=False) # <== 1回だけを書き出すよう、この行をコメントアウトしてください

with open('test.json', 'r', encoding='utf-8') as f:
    d1 = json.load(f)


## 練習

1. 以下のリスト内包の結果を `fib.json` というファイルにJSONフォーマットでダンプしてください。

2. ダンプしたファイルからロードして、同じものが得られることを確かめてください。

In [None]:
def fib(n):
    if (n == 0):
        return 0
    elif (n == 1):
        return 1
    else:
        return fib(n-1)+fib(n-2)

[{'n': n, 'fib' : fib(n)} for n in range(0,10)]

以下のセルによってテストしてください。

In [None]:
with open('fib.json', 'r') as f:
    print(json.load(f) == [{'n': n, 'fib' : fib(n)} for n in range(0,10)])

### 東京大学授業カタログ
`catalog-2018.json` には、東京大学授業カタログから取り出したデータが記録されています。

具体的には、各授業の情報を納めた辞書のリストがJSONフォーマットで記録されています。
これをロードするには、以下のようにします。

In [None]:
with open('catalog-2018.json', 'r', encoding='utf-8') as f:
    j = json.load(f)

j はリストであることを確認します。

In [None]:
type(j)

j の大きさ、すなわち授業カタログの件数、を確認します。

In [None]:
len(j)

`j` の各要素は個々の授業に対応していて、各授業の情報を辞書として含んでいます。

In [None]:
j[0]

In [None]:
j[1]

各授業の担当教員の日本語の名前は、`name_j` というキーに対する値として格納されています。

In [None]:
j[1]['name_j']

姓と名は、`\u3000` というコードで区切られているようです。 

In [None]:
j[1]['name_j'].split('\u3000')

In [None]:
j[1]['Title']

`title` をキーに持たない授業はないようです。

In [None]:
for d in j:
    if d.get('title',-1)==-1:
        print(d)

## 不要な空白や改行の除去
ファイルから読み込んだ文字列の前後に不要な空白や改行がある場合は、組み込み関数 **`strip()`** を使用するとそれらの空白・改行を除去することができます。

In [None]:
'   This is strip.\n'.strip()

lstrip は文頭、rstrip は文末の空白や改行を除去します。

In [None]:
'   This is strip.\n'.lstrip()

In [None]:
'   This is strip.\n'.rstrip()

##  練習の解答

In [None]:
with open('fib.json', 'w') as f:
    json.dump([{'n': n, 'fib' : fib(n)} for n in range(0,10)], f)