# csvデータの解析

この章では、基礎編で学んだcsvの読み書きについて、さらに高度な操作を学んでいこう。



## 1.辞書型としてデータを読み込む

今回取り扱うcsvは`test_score.csv`だ。以下のようなデータ構成になっている。

---
名前	国語	数学	理科	社会	英語

佐藤	86	54	63	74	90

田中	65	89	91	67	75

高橋	67	58	79	86	60

---

まずは基礎編で習った通りに、`csv.reader`でcsvを読み込んで表示してみよう。

In [2]:
import csv

data=[]
with open('test_score.csv', encoding='utf-8') as f:
    reader=csv.reader(f)
    for line in reader:
        data.append(line)
print(data)

[['名前', '国語', '数学', '理科', '社会', '英語'], ['佐藤', '86', '54', '63', '74', '90'], ['田中', '65', '89', '91', '67', '75'], ['高橋', '67', '58', '79', '86', '60'], ['伊藤', '74', '68', '97', '67', '94'], ['大島', '70', '95', '89', '76', '85'], ['佐々木', '92', '67', '69', '89', '84'], ['加藤', '76', '54', '61', '78', '86'], ['藤田', '57', '48', '65', '70', '64'], ['木村', '90', '86', '81', '79', '92'], ['後藤', '87', '91', '65', '70', '83']]


通常はこのような形だが、単にデータが羅列されている状態で、やや扱いにくい。

そこで、名前や教科名をキーにして検索できたら便利になるはずだ。これを実現するのが`csv.DictReader`という関数である。

In [3]:
with open('test_score.csv', encoding='utf-8') as f:
    doc=csv.DictReader(f)
    for line in doc:
        print(line)

{'名前': '佐藤', '国語': '86', '数学': '54', '理科': '63', '社会': '74', '英語': '90'}
{'名前': '田中', '国語': '65', '数学': '89', '理科': '91', '社会': '67', '英語': '75'}
{'名前': '高橋', '国語': '67', '数学': '58', '理科': '79', '社会': '86', '英語': '60'}
{'名前': '伊藤', '国語': '74', '数学': '68', '理科': '97', '社会': '67', '英語': '94'}
{'名前': '大島', '国語': '70', '数学': '95', '理科': '89', '社会': '76', '英語': '85'}
{'名前': '佐々木', '国語': '92', '数学': '67', '理科': '69', '社会': '89', '英語': '84'}
{'名前': '加藤', '国語': '76', '数学': '54', '理科': '61', '社会': '78', '英語': '86'}
{'名前': '藤田', '国語': '57', '数学': '48', '理科': '65', '社会': '70', '英語': '64'}
{'名前': '木村', '国語': '90', '数学': '86', '理科': '81', '社会': '79', '英語': '92'}
{'名前': '後藤', '国語': '87', '数学': '91', '理科': '65', '社会': '70', '英語': '83'}


#### `csv.reader`と`csv.DictReader`の違い

- `csv.reader`では、csvを読み込んだ変数(今回は`reader`)の中に、各行に対応するリストが入っている(入れ子リスト)
- `csv.DictReader`では、csvを読み込んだ変数(今回は`doc`)の中に、各行に対応する辞書が入っている(入れ子リスト)

辞書型のリストになっていることで、for文でデータを取り出すときに名前や教科名を指定できるようになる！

## 2.辞書型データとその扱い方


辞書型データとは、`key`と`value`がセットになっているデータ形式のことである。

先ほど読み込んだcsvの最初の辞書を見てみよう。

In [4]:
dict1={'名前': '佐藤', '国語': '86', '数学': '54', '理科': '63', '社会': '74', '英語': '90'}

このように辞書は中カッコ`{}`で外側を囲み、その中に`key`:`value`の順番で要素を並べていく。

こうすることで、`辞書名[key]`と入力すると、対応する`value`を取得できる。

In [7]:
print(dict1['名前'])
print(dict1['国語'])

佐藤
86


なお、存在しないkeyを指定した場合は、`KeyError`になるので注意しよう。

In [6]:
print(dict1['地学'])

KeyError: '地学'

`csv.DictReader`で取得したデータはこのような辞書型なので、`key`を指定してデータを取り出すことができる。

【例題】`csv.DictReader`を使って、`test_score.csv`の辞書型データから「名前」と「国語の点数」を取り出そう

In [9]:
with open('test_score.csv', encoding='utf-8') as f:
    doc=csv.DictReader(f)
    for line in doc:
        print(line['名前'], line['国語'])

佐藤 86
田中 65
高橋 67
伊藤 74
大島 70
佐々木 92
加藤 76
藤田 57
木村 90
後藤 87


## 3.取得したデータの操作

### 生徒ごとの平均点の計算

`test_score.csv`のデータについて、リスト型と辞書型で点数を出力することができるようになった。

これを上手く使い分けて、生徒ごとの平均点を計算してみよう。

【問題】生徒ごとに5教科の平均点を計算してみよう

＜Step1＞生徒名と5教科の点数を1つのリストにして、空リスト`score`に入れ子リストの形でまとめていこう

In [11]:
score=[]
with open('test_score.csv', encoding='utf-8') as f:
    reader=csv.reader(f)
    for line in reader:
        score.append(line)
print(score)

[['名前', '国語', '数学', '理科', '社会', '英語'], ['佐藤', '86', '54', '63', '74', '90'], ['田中', '65', '89', '91', '67', '75'], ['高橋', '67', '58', '79', '86', '60'], ['伊藤', '74', '68', '97', '67', '94'], ['大島', '70', '95', '89', '76', '85'], ['佐々木', '92', '67', '69', '89', '84'], ['加藤', '76', '54', '61', '78', '86'], ['藤田', '57', '48', '65', '70', '64'], ['木村', '90', '86', '81', '79', '92'], ['後藤', '87', '91', '65', '70', '83']]


＜Step2＞各リストから生徒名を取り出し、点数を合計して5で割った数値と一緒にprintしよう

ヒント：リスト内の点数はstr型で入っているため、int型に変換する必要がある

In [14]:
for line in score[1:]:
    name=line[0]
    num=0
    for i in line[1:]:
        num+=int(i)
    average=num/5
    print('名前:', name, '平均点:', average)

名前: 佐藤 平均点: 73.4
名前: 田中 平均点: 77.4
名前: 高橋 平均点: 70.0
名前: 伊藤 平均点: 80.0
名前: 大島 平均点: 83.0
名前: 佐々木 平均点: 80.2
名前: 加藤 平均点: 71.0
名前: 藤田 平均点: 60.8
名前: 木村 平均点: 85.6
名前: 後藤 平均点: 79.2


このように生徒ごとに集計したい場合は、`csv.reader`を使ってリスト型で読み込んだ方が役に立つ。

### 教科ごとの平均点の計算

次に、教科ごとに平均点を計算してみよう

【問題】各教科の10名分の平均点を算出しよう

In [16]:
with open('test_score.csv', encoding='utf-8') as f:
    doc=csv.DictReader(f)
    japanese=[]
    math=[]
    science=[]
    social_study=[]
    english=[]
    for line in doc:
        japanese.append(int(line['国語']))
        math.append(int(line['数学']))
        science.append(int(line['理科']))
        social_study.append(int(line['社会']))
        english.append(int(line['英語']))
    print('国語:', sum(japanese)/5)
    print('数学:', sum(math)/5)
    print('理科:', sum(science)/5)
    print('社会:', sum(social_study)/5)
    print('英語:', sum(english)/5)

国語: 152.8
数学: 142.0
理科: 152.0
社会: 151.2
英語: 162.6


このように教科ごとに集計したい場合は、辞書型で`key`を参照できるほうが役に立つ。

## 4.辞書型データの性質

次に、この辞書型データの特徴を見ていこう。

### `key`のみ・`value`のみを取り出す

`key`のみ、または`value`のみを取り出すには、`[辞書名].keys()`や`[辞書名].values()`を使用する。

In [17]:
dict1 = {'名前': '佐藤', '国語': '86', '数学': '54', '理科': '63', '社会': '74', '英語': '90'}
print(dict1.keys())
print(dict1.values())

dict_keys(['名前', '国語', '数学', '理科', '社会', '英語'])
dict_values(['佐藤', '86', '54', '63', '74', '90'])


### key/valueの型

`key`や`value`に入れる変数に、型の制限は特にない。str型、int型、float型どれでも入れることができる。

ただ性質上、`key`にはstr型のデータを入れることが多い。

実験的に、`key`にint型のデータを入れた辞書は以下のようになる。

In [18]:
dict2 = {1:'名前', 2:'国語', 3:'数学', 4:'理科', 5:'社会', 6:'英語'}
dict2[2]

'国語'

### 空の辞書・要素の追加/更新

`[辞書名]={}`とすることで、空の辞書を作ることができる。

In [21]:
dict3={}
print(dict3)

{}


要素の追加は`[辞書名][key]=[value]`で、どんどん新しい値を追加できる。

In [22]:
dict3['物理']=78
dict3['化学']=86
dict3['生物']=60
print(dict3)

{'物理': 78, '化学': 86, '生物': 60}


また、既存の`key`を指定すると、対応する`value`を更新できる。

In [23]:
dict3['物理']=100
print(dict3)

{'物理': 100, '化学': 86, '生物': 60}


### 辞書型の`len()`

辞書型データを`len()`に入力すると、`key`と`value`のセットの数が出力される。

In [24]:
len(dict3)

3

### 辞書型を条件文に指定した場合

条件文に辞書型を指定した場合、その辞書が空かどうかで`True`/`False`が判定される。

In [25]:
dict3={}
if dict3:
    print('空ではない')
else:
    print('空である')

空である


In [26]:
dict3['物理']=100
if dict3:
    print('空ではない')
else:
    print('空である')

空ではない


上のif文では`dict3`が空なので`if dict3`が`if False`と判定される。

つまりその後の処理`print("空ではない")`が実行されず、`else`以下の処理`print("空である")`が実行された。

下のif文では`dict3`に値が入っているため、`if dict3`が`if True`と判定される。

よってその後の処理`print("空ではない")`が実行された。