# ▲CSVファイルの入出力
CSVファイルの入出力について説明します。

参考

- https://docs.python.org/ja/3/library/csv.html

## CSV形式とは

**CSV**形式とは "comma-separated values" の略で、
複数の値をコンマで区切って記録するファイル形式です。

みなさんExcelを使ったことがあると思いますが、
Excelでは1つのセルに1つの値（数値や文字など）が入っていて、
その他のセルの値とは独立に扱えますよね。

それと同じように、CSV形式では、`,`（コンマ）で区切られた要素はそれぞれ独立の値として扱われます。

たとえばサークルのメンバーデータを作ることを考えましょう。
メンバーは「鈴木一郎」と「山田花子」の2名で、
それぞれ『氏名』『ニックネーム』『出身地』を記録しておきたいと思います。

表で表すとこんなデータです。

|ID| 氏名 | ニックネーム | 出身地 | 
|---:|:--------|:---------------|:-------|
|user1| 鈴木一郎 | イチロー | 広島 |
|user2| 山田花子 | はなこ | 名古屋 |

これをCSV形式で表すと次のようになります。

## CSVファイルの読み込み
CSVファイルを読み書きするには、
ファイルをオープンして、そのファイルオブジェクトから、
CSVリーダを作ります。

**CSVリーダ**とは、CSVファイルからデータを読み込むためのオブジェクトで、
このオブジェクトのメソッドを呼び出すことにより、CSVファイルからデータを読み込むことができます。

CSVリーダを作るには、
**`csv`** というモジュールの **`csv.reader`** という関数にファイルオブジェクトを渡します。

たとえば、次のような表で表されるCSVファイル `small.csv` を読み込んでみましょう。

 0列目 | 1列目 | 2列目 | 3列目 | 4列目 
---|---|---|---|---
 11 | 12 | 13 | 14 | 15 
 21 | 22 | 23 | 24 | 25 
 31 | 32 | 33 | 34 | 35 


In [None]:
import csv
f = open('small.csv', 'r')
dataReader = csv.reader(f)

このオブジェクトもイテレータで、`next` という関数を呼び出すことができます。

In [None]:
next(dataReader)

このようにして CSVファイルを読むと、
CSVファイルの各行のデータが文字列のリストとなって返されます。

In [None]:
next(dataReader)

In [None]:
row = next(dataReader)

In [None]:
row

In [None]:
row[2]

数値が `''` で囲われている場合、数値ではなく文字列として扱われているので、そのまま計算に使用することができません。

文字列が整数を表す場合、**`int`** 関数によって文字列を整数に変換することができます。
文字列が小数を含む場合は **`float`** 関数で浮動小数点数型に変換、文字列が複素数を表す場合は **`complex`** 関数で複素数に変換します。

In [None]:
int(row[2])

ファイルの終わりまで達した後に `next` 関数を実行すると、下のようにエラーが返ってきます。

In [None]:
next(dataReader)

ファイルを使い終わったらクローズすることを忘れないようにしましょう。

In [None]:
f.close()

## CSVファイルに対するfor文
CSVリーダもイテレータですので、for文の `in` の後に書くことができます。

---
```Python
for row in dataReader:
    ...
```
---

繰り返しの各ステップで、`next(dataReader)` が呼び出されて、
`row` にその値が設定され、for文の中身が実行されます。

In [None]:
f = open('small.csv', 'r')
dataReader = csv.reader(f)
for row in dataReader:
    print(row)
f.close()

## CSVファイルに対するwith文
以下はwith文を使った例です。

In [None]:
with open('small.csv', 'r') as f:
    dataReader = csv.reader(f)
    for row in dataReader:
        print(row)

## CSVファイルの書き込み

CSVファイルを作成して書き込むには、CSVライターを作ります。

**CSVライター**とは、CSVファイルを作ってデータを書き込むためのオブジェクトで、
このオブジェクトのメソッドを呼び出すことにより、データがCSV形式でファイルに書き込まれます。

CSVライターを作るには、
**`csv`** というモジュールの **`csv.writer`** という関数にファイルオブジェクトを渡します。
ここで、半角英数文字以外の文字（たとえば日本語文字や全角英数文字）を書き込み・書き出しする際には、
文字コード（たとえば `encoding='utf-8'`）を指定し、
また書き出しの際にはさらに改行コードとして `newline=''` を指定しないと文字化けが生じる可能性があります。

In [None]:
f = open('out.csv', 'w', encoding='utf-8', newline='')

In [None]:
dataWriter = csv.writer(f)

In [None]:
dir(dataWriter)

In [None]:
dataWriter.writerow([1,2,3])

In [None]:
dataWriter.writerow([21,22,23])

書き込みモードの場合も、ファイルを使い終わったらクローズすることを忘れないようにしましょう。

In [None]:
f.close()

読み込みのときと同様、with文を使うこともできます。

In [None]:
with open('out.csv', 'w', encoding='utf-8', newline='') as f:
    dataWriter = csv.writer(f)
    dataWriter.writerow([1,2,3])
    dataWriter.writerow([21,22,23])

### 東京の7月の気温
`tokyo-temps.csv` には、気象庁のオープンデータからダウンロードした、
東京の7月の平均気温のデータが入っています。

http://www.data.jma.go.jp/gmd/risk/obsdl/

48行目の第2列に1875年7月の平均気温が入っており、
以下、2016年まで、12行ごとに7月の平均気温が入っています。

以下は、これを取り出すPythonの簡単なコードです。

In [None]:
import csv

with open('tokyo-temps.csv', 'r', encoding='shift_jis') as f:
    dataReader = csv.reader(f) # csvリーダを作成
    n=0
    year = 1875
    years = []
    july_temps = []
    for row in dataReader: # CSVファイルの中身を1行ずつ読み込み
        n = n+1
        if n>=48 and (n-48)%12 == 0: # 48行目からはじめて12か月ごとにif内を実行
            years.append(year)
            july_temps.append(float(row[1]))
            year = year + 1

ファイルをオープンするときに、キーワード引数の **`encoding`** が指定されています。
このファイルはShift_JISという文字コードで書かれているため、
この引数で、ファイルの符号（**文字コード**）を指定します。
`'shift_jis'` はShift_JISを意味します。この他に、`'utf-8'`（UTF-8、すなわちビットのUnicode）があります。

変数 `years` に年の配列、変数 `july_temps` に対応する年の7月の平均気温の配列が設定されます。

In [None]:
years

In [None]:
july_temps

ここでは詳しく説明しませんが、**線形回帰**によるフィッティングを行ってみましょう。

In [None]:
import numpy
import matplotlib.pyplot as plt
%matplotlib inline

fitp = numpy.poly1d(numpy.polyfit(years, july_temps, 1))
ma = max(years)
mi = min(years)
xp = numpy.linspace(mi, ma, (ma - mi))

In [None]:
plt.plot(years, july_temps, '.', xp, fitp(xp), '-')
plt.show()

## 練習

1. `tokyo-temps.csv` を読み込んで、各行が西暦年と7月の気温のみからなる `'tokyo-july-temps.csv'` という名前のCSVファイルを作成してください。
西暦年は1875から2016までとします。

2. 作成したCSVファイルをExcelで読み込むとどうなるか確認してください。

以下のセルによってテストしてください。（`years` と `july_temps` の値がそのままと仮定しています。）

In [None]:
with open('tokyo-july-temps.csv', 'r', encoding='shift_jis') as f:
    i = 0
    dataReader = csv.reader(f)
    for row in dataReader:
        if int(row[0]) != years[i] or abs(float(row[1])-july_temps[i])>0.000001:
            print('error', int(row[0]), float(row[1]))
        i += 1
print(i== 142) # 1875年から2016年まで142年間分のデータがあるはずです

## 練習

整数データのみからなるCSVファイルの名前を受け取ると、そのCSVファイルの各行を読み込んで整数のリストを作り、
ファイル全体の内容を、そのようなリストのリストとして返す関数 `csv_matrix(name)` を定義してください。

たとえば上で用いた `small.csv` には次のようなデータが入っています。


 0列目 | 1列目 | 2列目 | 3列目 | 4列目 
---|---|---|---|---
 11 | 12 | 13 | 14 | 15 
 21 | 22 | 23 | 24 | 25 
 31 | 32 | 33 | 34 | 35 

この `small.csv` の名前が引数として与えられた場合、

```Python
[[11, 12, 13, 14, 15], [21, 22, 23, 24, 25], [31, 32, 33, 34, 35]]
```

というリストを返します。

In [None]:
def csv_matrix(name):
    ...

以下のセルによってテストしてください。

In [None]:
print(csv_matrix('small.csv') == [[11, 12, 13, 14, 15], [21, 22, 23, 24, 25], [31, 32, 33, 34, 35]])

## 練習の解答

In [None]:
with open('tokyo-july-temps.csv', 'w', encoding='utf-8', newline='') as f:
    i = 0
    dataWriter = csv.writer(f)
    for i in range(len(years)):
        dataWriter.writerow([years[i],july_temps[i]])

In [None]:
def csv_matrix(name):
    rows = []
    with open(name, 'r') as f:
        dataReader = csv.reader(f)
        for row in dataReader:
            rows.append([int(x) for x in row])
    return rows    