### csvモジュール（csv）
テキストファイルでデータの受け渡しをするときに頻繁に使われるファイル形式がCSVフォーマットです．
CSVファイルはテキストファイルでもあるので，各行は改行文字で区切られています．そして，行中のデータをカンマ（,）で区切っています．
一般にExcelなどのスプレッドシートはCSVへの搬出搬入のインターフェースをもっていますので，Excelにあるデータを一度CSVファイルにしてプログラムに取り込むことは頻繁に行われます．

ディレクトリー「./data」の下にCSVファイルがあります．その一つのファイル名は「sample1.csv」です．このファイルを読み込んでみましょう．
まず，CSVモジュールを使わずに組み込み関数によって一般のテキストファイルとして取り扱ってみます．

*****
#### ファイルの取扱い
ファイルの読み取りあるいはファイルへの書き込みをする場合は，決まった手続きが必要です．
最初にファイルの名前と置き場所を明確にする必要があります．新規にファイルへ書き込む場合はファイルが存在しなくても良いですが，読み込むときは必然的にファイルが存在することが前提となります．

<font color=blue><u>ファイルを扱う手順</u></font>
1. ファイル名と所在場所を指定して，ファイルをオープンする． 
- ファイルからのデータの読み取り，あるいはファイルへの書き込みを実行する．
- ファイルをクローズして，ファイルを解放します．

この手順をPythonの構文で確認しましょう．

#### テキストファイルのオープン
ファイルを使用するときは，open()関数でファイルをプログラム内で使用可能にします．

> <font color=green>open</font>(<font color=blue>*file_name*</font>, <font color=blue>*mode*</font>)

引数についてですが，もっと多くの引数が用意されていますが，ここでは重要な引数を2個指定しています．
最初の引数には対象となるファイルを指定します．2つ目の引数は，ファイルの取扱いのモードを指定します．

| mode | 意味 |
| :---: | :--- |
| 'r' | 読み込み用に開く（デフォルト） |
| 'w' | 書き込み用に開き，ファイルを切り詰める |
| 'x' | 排他的な生成に開き，ファイルが存在する場合は失敗する |
| 'a' | 書き込み用に開き，ファイルが存在する場合は末尾に追記する |
| 'b' | バイナリーモード |
| 't' | テキストモード（デフォルト） |
| '+' | ディスクファイルを更新用に開く（読み込み/書き込み） |

したがって，モード引数を指定しない場合は，テキストの読み込み用となります．
ここでは「./data/sample1.csv」をテキストファイルの読み込みとしてオープンしてみましょう．第2引数は，テキストモードの読み込み用なのでデフォルト値を変える必要が無く，省略します．
```Python
myFile = open('./data/sample1.csv')
type(myFile)
```

In [1]:
myFile = open('./data/sample1.csv')
type(myFile)

_io.TextIOWrapper

open()関数によって生成された変数myFileは，テキストファイルのI/Oを受け持つオブジェクトでラッパーと呼ばれています．

#### read()メソッド
テキストファイルのI/Oラッパーには幾つものメソッドがありますが，最も簡単にデータを読み取る方法が<font color=green>read()</font>メソッドです．
read()メソッドは，ファイルの内容を全て読み取ってしまいます．
```Python
myFile.read()
```

In [2]:
myFile.read()

'person,gender,age,blood,height,weight\np001,female,30,A,152.7,51.5\np002,female,56,O,155.3,52.7\np003,female,40,A,157.3,58.9\np004,male,36,O,165.5,59.6\np005,female,25,O,161.2,58.2\np006,female,23,B,162.7,66.5\np007,male,42,O,171.7,69.1\np008,male,44,B,174.2,68.6\np009,female,20,O,169,68.9\np010,male,43,O,178,71.5\n'

印字されたデータはsample1.csvの全データです．
先頭から順番に見ていくと，カンマ（,）で区切られたデータであることが分かります．このようにデータがカンマでくぎられたテキストデータをComma Separated Value（CSV）と言います．

さらに注意深く見ていくとデータの中に日本語表記だと「<font color=blue>$\yen$n</font>」という文字，英語表記だと「<font color=blue>\n</font>」という文字があります．この2文字はエスケープシーケンスという記述法で表示できない文字である「改行」を表しています．
すなわち，データは各行6個ずつがカンマで区切られており，改行コードによって次の行に移ります．

しかし全てのデータが一つの文字列として扱われているので，読みにくい形式です．
そこで，各行を分離した形でデータを取得してみましょう．その前にちょっとした調整が必要になります．

#### seek()メソッド
ファイルのI/Oラッパーには，データを読んでいる現在位置の情報があります．最初にファイルをオープンしたときは先頭を示しています．途中まで読むと次のデータの位置が現在位置となります．今read()メソッドによって全てのデータを読んでしまったので，現在位置は末尾になっています．

そこでデータ内の現在位置を先頭に戻す必要があります．現在位置は<font color=green>seek()</font>メソッドによって変更できます．引数に対象となるデータの先頭からのバイト数を与えます．先頭の場合，引数の値は0となります．
```Python
myFile.seek(0)
```

In [3]:
myFile.seek(0)

0

#### readlines()メソッド
<font color=green>readlines()</font>メソッドは，ファイルをテキストとして読み込むときに改行コード「\n」でデータを区切って，それぞれをリスト配列に順番に格納していきます．read()メソッドと同様にファイル内のデータ全てを一度に読み込みます．readlines()メソッドはメソッド名の最後に「s」が付くことに中止してください．
```Python
myFile.readlines()
```

In [4]:
myFile.readlines()

['person,gender,age,blood,height,weight\n',
 'p001,female,30,A,152.7,51.5\n',
 'p002,female,56,O,155.3,52.7\n',
 'p003,female,40,A,157.3,58.9\n',
 'p004,male,36,O,165.5,59.6\n',
 'p005,female,25,O,161.2,58.2\n',
 'p006,female,23,B,162.7,66.5\n',
 'p007,male,42,O,171.7,69.1\n',
 'p008,male,44,B,174.2,68.6\n',
 'p009,female,20,O,169,68.9\n',
 'p010,male,43,O,178,71.5\n']

read()メソッドの結果では分かり難かったデータ構造が，readlines()メソッドを使うことによってハッキリしました．
この出力を見ると，1行目に変数名が記載されていて，2行目から個別のデータになっています．

しかし，readlines()メソッドの欠点は一度に全てのデータを読み込んでしまうことです．sample1.csvのような小さなファイルでは問題はないですが，データ量が多くなるとメモリーを圧迫します．そのような場合はテキストファイルを1行ずつ読むようにします．

#### readline()メソッド
readline()メソッドは，オープンされたファイルの現在位置から改行コード「\n」までの1行のデータを読み込んで文字データとして返します．
これを行数の数だけ繰り返すことによってファイル全体を読み取ることができます．readline()メソッドは，メソッド名の最後に「s」は付きません．

先頭行を読み取ってみましょう．
```Python
myFile.seek(0)
myFile.readline()
```

In [5]:
myFile.seek(0)
myFile.readline()

'person,gender,age,blood,height,weight\n'

2行目を読み取ります．
```Python
myFile.readline()
```

In [6]:
myFile.readline()

'p001,female,30,A,152.7,51.5\n'

このように，readline()メソッドを呼び出すごとに1行ずつ取り出されることが分かります．

#### close()メソッド
オープンしたファイルをそのままにしておくと，そのファイルは使用中となり他のプログラムなどから利用することができません．
したがって，ファイルの使用が済んだら速やかに開放すべきです．そのためにclose()メソッドを呼び出します．

> <font color=blue>TextIOWrapper_Name</font>.<font color=green>close()</font>

未だ開きっぱなしのmyFileをクローズします．
```Python
myFile.close()
```

In [7]:
myFile.close()

*****
#### csvモジュールの搬入
ここまでは，標準的なテキストの読み取り関数を見てきましたが，ここからはcsvファイルに特化して読み書きを行うcsvモジュールについて学習しましょう．
それではcsvモジュールを用いて，CSVファイルをスマートに取り込んでみましょう。
最初に行うことは，import文でCSVモジュールを取り込みます．

> <font color=green>import csv</font>


In [8]:
import csv

それでは，csvモジュールを使って「./data/sample1.csv」ファイルを読み込んでみましょう．
オープンする方法は今までと同じです．
オープンしたファイルのI/Oラッパーを引き数として<font color=green>csv.reader()</font>メソッドに渡します．この結果としてcsvを解読した結果を返してくれるcsv読み取りオブジェクトが得られます.
この時点ではファイルのデータは未だ読まれていません．次に，<font color=green>list()</font>関数によってリスト配列を生成します．この時にファイルのデータが読み込まれます．
```Python
myFile = open('./data/sample1.csv')
myReader = csv.reader(myFile)
list(myReader)
```

In [9]:
myFile = open('./data/sample1.csv')
myReader = csv.reader(myFile)
list(myReader)

[['person', 'gender', 'age', 'blood', 'height', 'weight'],
 ['p001', 'female', '30', 'A', '152.7', '51.5'],
 ['p002', 'female', '56', 'O', '155.3', '52.7'],
 ['p003', 'female', '40', 'A', '157.3', '58.9'],
 ['p004', 'male', '36', 'O', '165.5', '59.6'],
 ['p005', 'female', '25', 'O', '161.2', '58.2'],
 ['p006', 'female', '23', 'B', '162.7', '66.5'],
 ['p007', 'male', '42', 'O', '171.7', '69.1'],
 ['p008', 'male', '44', 'B', '174.2', '68.6'],
 ['p009', 'female', '20', 'O', '169', '68.9'],
 ['p010', 'male', '43', 'O', '178', '71.5']]

この結果を見ると，読み込んだデータが2重配列として格納されています．全体を改行コードにより区切り，さらにその中をカンマによって区切っています．
これにより，データの個々の値にアクセスすることができます．

最後にファイルをクローズしてプログラムから解放します．
```Python
myFile.close()
```

In [10]:
myFile.close()

ここまでCSVファイルからデータを読み取ことについて最小限の学習をしました．csvモジュールについては，この原理的な部分を理解するまでとします．
このあと高機能ライブラリーについて学習しますが，実際のCSVファイルの取扱いは高機能ライブラリーを用いて行います．
*****