# csvデータの解析

この章では、基礎編で学んだcsvの読み書きについて、さらに高度な操作を学んでいこう。



## 1.辞書型としてデータを読み込む

今回取り扱うcsvは`test_score.csv`だ。以下のようなデータ構成になっている。

---
名前	国語	数学	理科	社会	英語

佐藤	86	54	63	74	90

田中	65	89	91	67	75

高橋	67	58	79	86	60

---

まずは基礎編で習った通りに、`csv.reader`でcsvを読み込んで表示してみよう。

In [None]:
import csv

data = []
with open('test_score.csv', encoding="utf-8") as f:
    reader = csv.reader(f)
    for line in reader:
        data.append(line)
print(data)

通常はこのような形だが、単にデータが羅列されている状態で、やや扱いにくい。

そこで、名前や教科名をキーにして検索できたら便利になるはずだ。これを実現するのが`csv.DictReader`という関数である。

In [None]:
import csv

with open('test_score.csv', encoding="utf-8") as f:
    doc = csv.DictReader(f)
    for line in doc:
        print(line)

#### `csv.reader`と`csv.DictReader`の違い

- `csv.reader`では、csvを読み込んだ変数(今回は`reader`)の中に、各行に対応するリストが入っている(入れ子リスト)
- `csv.DictReader`では、csvを読み込んだ変数(今回は`doc`)の中に、各行に対応する辞書が入っている(入れ子リスト)

辞書型のリストになっていることで、for文でデータを取り出すときに名前や教科名を指定できるようになる！

## 2.辞書型データとその扱い方


辞書型データとは、`key`と`value`がセットになっているデータ形式のことである。

先ほど読み込んだcsvの最初の辞書を見てみよう。

In [None]:
dict1 = {'名前': '佐藤', '国語': '86', '数学': '54', '理科': '63', '社会': '74', '英語': '90'}

このように辞書は中カッコ`{}`で外側を囲み、その中に`key`:`value`の順番で要素を並べていく。

こうすることで、`辞書名[key]`と入力すると、対応する`value`を取得できる。

In [None]:
print(dict1["名前"])
print(dict1["国語"])

なお、存在しないkeyを指定した場合は、`KeyError`になるので注意しよう。

In [None]:
print(dict1["地学"])

`csv.DictReader`で取得したデータはこのような辞書型なので、`key`を指定してデータを取り出すことができる。

【例題】`csv.DictReader`を使って、`test_score.csv`の辞書型データから「名前」と「国語の点数」を取り出そう

In [None]:
with open('test_score.csv', encoding="utf-8") as f:
    doc = csv.DictReader(f)
    for line in doc:
        print(line["名前"],line["国語"])

## 3.取得したデータの操作

### 生徒ごとの平均点の計算

`test_score.csv`のデータについて、リスト型と辞書型で点数を出力することができるようになった。

これを上手く使い分けて、生徒ごとの平均点を計算してみよう。

【問題】生徒ごとに5教科の平均点を計算してみよう

＜Step1＞生徒名と5教科の点数を1つのリストにして、空リスト`score`に入れ子リストの形でまとめていこう

＜Step2＞各リストから生徒名を取り出し、点数を合計して5で割った数値と一緒にprintしよう

ヒント：リスト内の点数はstr型で入っているため、int型に変換する必要がある

このように生徒ごとに集計したい場合は、`csv.reader`を使ってリスト型で読み込んだ方が役に立つ。

### 教科ごとの平均点の計算

次に、教科ごとに平均点を計算してみよう

【問題】各教科の10名分の平均点を算出しよう

このように教科ごとに集計したい場合は、辞書型で`key`を参照できるほうが役に立つ。

## 4.辞書型データの性質

次に、この辞書型データの特徴を見ていこう。

### `key`のみ・`value`のみを取り出す

`key`のみ、または`value`のみを取り出すには、`[辞書名].keys()`や`[辞書名].values()`を使用する。

In [None]:
dict1 = {'名前': '佐藤', '国語': '86', '数学': '54', '理科': '63', '社会': '74', '英語': '90'}
print(dict1.keys())
print(dict1.values())

### key/valueの型

`key`や`value`に入れる変数に、型の制限は特にない。str型、int型、float型どれでも入れることができる。

ただ性質上、`key`にはstr型のデータを入れることが多い。

実験的に、`key`にint型のデータを入れた辞書は以下のようになる。

In [None]:
dict2 = {1:'名前', 2:'国語', 3:'数学', 4:'理科', 5:'社会', 6:'英語'}
dict2[2]

### 空の辞書・要素の追加/更新

`[辞書名]={}`とすることで、空の辞書を作ることができる。

In [None]:
dict3 = {}
print(dict3)

要素の追加は`[辞書名][key]=[value]`で、どんどん新しい値を追加できる。

In [None]:
dict3["物理"] = 78
dict3["化学"] = 86
dict3["生物"] = 60
print(dict3)

また、既存の`key`を指定すると、対応する`value`を更新できる。

In [None]:
dict3["物理"] = 100
print(dict3)

### 辞書型の`len()`

辞書型データを`len()`に入力すると、`key`と`value`のセットの数が出力される。

In [None]:
len(dict3)

### 辞書型を条件文に指定した場合

条件文に辞書型を指定した場合、その辞書が空かどうかで`True`/`False`が判定される。

In [None]:
dict3 = {}
if dict3:
    print("空ではない")
else:
    print("空である")

In [None]:
dict3["物理"] = 100
if dict3:
    print("空ではない")
else:
    print("空である")

上のif文では`dict3`が空なので`if dict3`が`if False`と判定される。

つまりその後の処理`print("空ではない")`が実行されず、`else`以下の処理`print("空である")`が実行された。

下のif文では`dict3`に値が入っているため、`if dict3`が`if True`と判定される。

よってその後の処理`print("空ではない")`が実行された。