<h1><strong>プログラミング基礎第13回</strong></h1><p>ファイルからのデータ読み込み</p>
<hr>

### これまでの講義で皆さんはすでに
<ul>
<li>条件分岐や繰り返し処理ができる</li>
<li>行列計算や物理演算ができる</li>
<li>データ(計算結果)を図示できる</li>
<li>簡単な統計量の計算ができる</li>
</ul>

### 今日の目標
<ul>
<li>ファイルからデータを読み込めるようになる</li>
<li>読み込んだデータに対して処理できるようになる</li>
</ul>

## ファイルの読み込み

### 使用するファイル
<ul>
<li>ファイル名は <code>mydata01.txt</code></li>
<li>ファイルの内容</li>
</ul>

```
2
3
5
7
11
```

### はじめてのファイル操作
<ul>
<li>組み込み関数 <code>open()</code> を使いファイルを開く</li>
<li><code>readlines()</code> メソッドでファイルを読み込みリストを作成する
    <ul>
    <li>リストの要素はファイルの各行に対応する</li>
    </ul>
</li>
<li>ファイルは開いたら <code>close()</code> で閉じる必要がある</li>
</ul>

In [1]:
file = open('mydata01.txt')
lines = file.readlines() # 1度にすべて読み込む
file.close() # ファイルを閉じる
print(lines)

['2\n', '3\n', '5\n', '7\n', '11']


<ul>
<li>リスト中に'\n'だけの要素があると後でエラーが起きる</li>
<li>mydata01.txtを編集して空行をなくすこと</li>
<li>最後が'11\n'でなく'11'でも問題はない</li>
</ul>

### 1行ごとに読み込む
<ul>
<li><code>readline()</code> メソッドを利用して1行だけ読み込む</li>
</ul>

In [2]:
file = open('mydata01.txt')
line1 = file.readline() # 単数形で指定(sがない)
line2 = file.readline()
file.close()
print(line1, end='') # 読み込んだ文字に改行文字があるため
print(line2, end='')

2
3


<ul>
<li>組み込み関数 <code>next()</code> を利用する方法</li>
</ul>

In [3]:
# 組み込み関数の next() を利用する方法
file = open('mydata01.txt')
line1 = next(file) # 少し短い指定
line2 = next(file)
file.close()
print(line1, end='')
print(line2, end='')

2
3


どちらの出力もprint()ごとに改行されていることに注意

### for文との組み合わせ

`readline()`メソッドの結果を変数に入れてから`for`文で利用

In [4]:
file = open('mydata01.txt')
lines = file.readlines()
file.close()
for line in lines:
    print(line,end='')

2
3
5
7
11

`readline()`メソッドをそのままfor文で利用

In [5]:
file = open('mydata01.txt')

for line in file.readlines():
    print(line, end='')

file.close()

2
3
5
7
11

`open()`の結果はリストのように扱える

In [6]:
file = open('mydata01.txt')
for line in file: 
    print(line, end='')
file.close()

2
3
5
7
11

ただし、リストではない。
(添え字は指定できない)

In [7]:
file = open('mydata01.txt')
print(file[0], end='') 
file.close()

TypeError: '_io.TextIOWrapper' object is not subscriptable

### 数値として扱う
読み込んだ内容は文字列なので、計算には`int()`などで型変換が必要

In [None]:
n = []
file = open('mydata01.txt')
for line in file:
    n.append(int(line)) # int に変換してリストに追加
file.close()
print("n=", n)
print('sum = ', sum(n))
print('ave = ', sum(n)/len(n))

n= [2, 3, 4, 7, 11]
sum =  27
ave =  5.4


空のリストから`for`文で`append()`するならばリスト内記法を使う

In [None]:
file = open('mydata01.txt')
n = [int(line) for line in file]
file.close()
print("n=", n)
print("sum=", sum(n))
print("ave=", sum(n)/len(n))

n= [2, 3, 4, 7, 11]
sum= 27
ave= 5.4


### リスト内記法での注意
一つ一つ`print()`として確認することが大切
<ul>
<li>演習問題に取り組む習慣としよう</li>
</ul>

In [None]:
file  = open("mydata01.txt")
print(type(file))   #リストではない
x = list(file)      #リストに変換
print('x = ',x)     #出力を確認
s = [ line for line in x ]
print('s = ',s)
n = [ int(line) for line in x ]
print(' n = ',n)
file.close()

<class '_io.TextIOWrapper'>
x =  ['2\n', '3\n', '4\n', '7\n', '11']
s =  ['2\n', '3\n', '4\n', '7\n', '11']
 n =  [2, 3, 4, 7, 11]


### `with` 構文
`open()`を`with`構文で使うと、`close()`の呼び出しが自動化される。

In [None]:
n = 0
with open('mydata01.txt') as file:
    for line in file:
        n += int(line)
# ここでfileは閉じられている
print(n)

27


In [None]:
n = []
with open('mydata01.txt') as file:
    for line in file:
        n.append(int(line))
print(f'n = {n}')
print(f'sum = {sum(n)}')
print(f'ave = {sum(n)/len(n)}')

n = [2, 3, 5, 7, 11]
sum = 28
ave = 5.6


### With構文とリスト内包表記

In [None]:
with open('mydata01.txt') as file:
    n = [int(i) for i in file]
# ここで file は閉じられている
print("n=", n)
print("sum=", sum(n))
print("ave:=", sum(n)/len(n))

n= [2, 3, 5, 7, 11]
sum= 28
ave:= 5.6


## リストの添字とスライス

### リストの負の添字
リストの添字（要素番号）は負でもよい
<ul>
<li><code>n[-1]</code> が末尾、<code>n[-2]</code> が末尾から2番目の要素を意味する</li>
</ul>

In [None]:
n = list(range(12))
print("n=", n)
print("n[-1] =", n[-1]) # 末尾
print("n[-2] =", n[-2]) # 末尾から2番目
print("n[-len(n)] =", n[-len(n)]) # 先頭

n= [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
n[-1] = 11
n[-2] = 10
n[-len(n)] = 0


### リストの範囲指定
リスト内の範囲を指定して部分リストが取り出せる（スライス）
<ul>
<li>指定方法: <code>n[a:b]</code> は <code>a &lt;= i &lt; b</code> となる添字 <code>i</code> の要素, <code>b-a</code> が個数</li>
</ul>

In [None]:
n = list(range(12))
print("n=", n) # 添字と要素が一致している
print("n[2:9] =", n[2:9])
print("n[:9] =", n[:9]) # 先頭から
print("n[2:] =", n[2:]) # 末尾まで
print("n[:] =", n[:]) # 全体

n= [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
n[2:9] = [2, 3, 4, 5, 6, 7, 8]
n[:9] = [0, 1, 2, 3, 4, 5, 6, 7, 8]
n[2:] = [2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
n[:] = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


### リストの範囲指定ととび幅
`n[a:b:c]` のようにとび幅の指定も可能

In [None]:
n = list(range(12))
print("n=", n)
print("n[::2] =", n[::2])
print("n[::3] =", n[::3])
print("n[:9:2] =", n[:9:2])
print("n[2::2] =", n[2::2])
print("n[2:9:2] =", n[2:9:2])

n= [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
n[::2] = [0, 2, 4, 6, 8, 10]
n[::3] = [0, 3, 6, 9]
n[:9:2] = [0, 2, 4, 6, 8]
n[2::2] = [2, 4, 6, 8, 10]
n[2:9:2] = [2, 4, 6, 8]


### range とリスト
<ul>
<li><code>range()</code> の結果はリストのように振る舞うがリストではない</li>
<li><code>list()</code> でリスト化できる</li>
<li>リスト内包表記にも <code>range()</code> は使える</li>
<li>範囲指定は <code>range()</code> とリストで同じ考え方（カンマとコロンが違う）</li>
</ul>

In [None]:
x = range(12)
print(type(x)) # 型を確認
print("x =", x)
n1 = list(range(12)) # リスト化
print("n1=", n1)
n2 = [i for i in range(12)] # リスト内包表記で使用
print("n2=", n2)
print([x[i] for i in range(2,9,3)]) # 添字を指定して要素を出力
print([n1[i] for i in range(2,9,3)]) # リストの添字部分と同じ

<class 'range'>
x = range(0, 12)
n1= [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
n2= [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
[2, 5, 8]
[2, 5, 8]


## CSVファイル

### CSVファイルとは
<ul>
<li>「値,値,値,...」の形式の行が複数ある</li>
<li>それぞれの値はカンマで区切られている</li>
</ul>

### CSVファイルと表計算ソフト
Excel などの表計算ソフトで読み書きができる

### CSVファイルの解釈
CSVファイルにおける値の名称 (RFC4180)
<ul>
<li><strong>レコード</strong>: ある一行の値のまとまり</li>
<li><strong>フィールド</strong>: ある一列（項目）の値のまとまり</li>
<li><strong>ヘッダ</strong>: 一行目のレコード（見出し）</li>
</ul>
<blockquote>
<p>RFC (Request for Comments): ファイルの形式などを定める技術仕様書</p>
</blockquote>

### CSVファイルの読み込み確認
CSVファイルを扱うには工夫が必要
<ul>
<li>1行ごとに処理する</li>
<li>文字列と数が混在している</li>
<li>カンマ(,)文字でそれぞれが区切られている</li>
<li>1行目だけ形式が違う（常とは限らない）</li>
</ul>

In [None]:
with open('mydata02.csv') as file:
    for line in file:
        print(line, end='') # 改行なし指定でも改行する

ID,LANG,MATH,SCIENCE,SOCIETY,ENGLISH
us301010,97,66,72,80,99
us301012,62,85,99,77,44
us301013,78,96,82,87,71
us301015,82,80,74,81,59

### リストとして取り込んでみる
`readlines()` で一度に読み込んでリスト化
<ul>
<li>行が要素に対応するリストができた</li>
<li>各要素に改行文字が含まれる</li>
<li>改行文字を取り除いた要素が欲しい</li>
</ul>

In [None]:
with open('mydata02.csv') as file:
    data = file.readlines()
print(data)

['ID,LANG,MATH,SCIENCE,SOCIETY,ENGLISH\n', 'us301010,97,66,72,80,99\n', 'us301012,62,85,99,77,44\n', 'us301013,78,96,82,87,71\n', 'us301015,82,80,74,81,59']

### 文字列の操作
#### 文字列の置き換え操作
`str.replace(置換前, 置換後)`

In [None]:
a = 'abc\n'
b = a.replace('\n', '') # 改行文字をなしにする
print(b)

abc


In [None]:
print(a) # a に変化はない

abc



#### 以下も役に立ちそう（第5回資料より）
`str.split(区切り文字)`

In [None]:
str1 = '2021/05/11'
y = str1.split('/') # 文字列で区切ったリスト
print(y)

['2021', '05', '11']

### 改行の除去
まずは改行を取り除く
<ul>
<li><code>str.replace()</code> を使う</li>
</ul>

In [None]:
with open('mydata02.csv') as file:
    data = file.readlines()
x = []
for d in data:
    x.append(d.replace('\n', ''))
print(x)

['ID,LANG,MATH,SCIENCE,SOCIETY,ENGLISH', 'us301010,97,66,72,80,99', 'us301012,62,85,99,77,44', 'us301013,78,96,82,87,71', 'us301015,82,80,74,81,59']

### カンマ区切り
文字列をカンマで分けてリストにする
<ul>
<li><code>str.split()</code> を使う</li>
</ul>

In [None]:
with open('mydata02.csv') as file:
    data = file.readlines()
x = []
for d in data:
    d = d.replace('\n', '') # 更新
    x.append(d.split(','))
print(x)

[['ID', 'LANG', 'MATH', 'SCIENCE', 'SOCIETY', 'ENGLISH'], ['us301010', '97', '66', '72', '80', '99'], ['us301012', '62', '85', '99', '77', '44'], ['us301013', '78', '96', '82', '87', '71'], ['us301015', '82', '80', '74', '81', '59']]

### 簡潔に記述する
<ul>
<li><code>str.replace()</code> の結果は文字列なので、そのまま <code>str.split()</code> が使える</li>
</ul>

In [None]:
a = 'a,b,c\n'
b = a.replace('\n', '').split(',')
print(b)

['a', 'b', 'c']

<ul>
<li><code>file.readlines()</code> を for に使うならば、<code>file</code> の指定でも良い</li>
<li>空のリストから for 文で <code>append()</code> するならばリスト内包表記を使う</li>
</ul>

In [None]:
with open('mydata02.csv') as file:
    x = [line.replace('\n', '').split(',') for line in file]
print(x)

[['ID', 'LANG', 'MATH', 'SCIENCE', 'SOCIETY', 'ENGLISH'], ['us301010', '97', '66', '72', '80', '99'], ['us301012', '62', '85', '99', '77', '44'], ['us301013', '78', '96', '82', '87', '71'], ['us301015', '82', '80', '74', '81', '59']]

### 関数を定義する
ファイル名を引数にした関数を作れば汎用的に使える

In [None]:
def myreadcsv(filename):
    with open(filename) as file:
        csv = [line.replace('\n','').split(',') for line in file]
    return csv

In [None]:
csvdata = myreadcsv('mydata02.csv')
print(csvdata)

[['ID', 'LANG', 'MATH', 'SCIENCE', 'SOCIETY', 'ENGLISH'], ['us301010', '97', '66', '72', '80', '99'], ['us301012', '62', '85', '99', '77', '44'], ['us301013', '78', '96', '82', '87', '71'], ['us301015', '82', '80', '74', '81', '59']]

### レコードごとに処理を行う
<ul>
<li><code>enumerate()</code> は、順序数と要素のペアを返す</li>
<li>最初の行（ヘッダ）と最初の列（レコードの第1フィールド）は別扱いが必要か？</li>
</ul>

In [None]:
for n, row in enumerate(csvdata):
    print(n, ':', row)

0 : ['ID', 'LANG', 'MATH', 'SCIENCE', 'SOCIETY', 'ENGLISH']
1 : ['us301010', '97', '66', '72', '80', '99']
2 : ['us301012', '62', '85', '99', '77', '44']
3 : ['us301013', '78', '96', '82', '87', '71']
4 : ['us301015', '82', '80', '74', '81', '59']


### ヘッダと第1フィールドの除去
<ul>
<li><code>myreadcsv()</code> が返した <code>csvdata</code> はリストなのでスライスが使える</li>
</ul>

In [None]:
print(csvdata[1:]) # ヘッダを削除

[['us301010', '97', '66', '72', '80', '99'], ['us301012', '62', '85', '99', '77', '44'], ['us301013', '78', '96', '82', '87', '71'], ['us301015', '82', '80', '74', '81', '59']]

<ul>
<li>さらに取り出したレコードもスライスで第1フィールドを削れる</li>
</ul>

In [None]:
for row in csvdata[1:]: # ヘッダを削除
    print(row[1:]) # 第1フィールド削除

['97', '66', '72', '80', '99']
['62', '85', '99', '77', '44']
['78', '96', '82', '87', '71']
['82', '80', '74', '81', '59']


### 計算するための変換
計算には各フィールドを文字列から数値に変換する必要がある

In [None]:
for row in csvdata[1:]: #ヘッダを削除
    for f in row[1:]: #第1フィールド以外
        print(int(f), end=' ') # 数値に変換
    print()

97 66 72 80 99 
62 85 99 77 44 
78 96 82 87 71 
82 80 74 81 59 


<ul>
<li><code>print</code> せずにリストの形で保持する場合</li>
</ul>

In [None]:
p = []
for row in csvdata[1:]: # ヘッダを削除
    for f in row[1:]: # 第1フィールド以外
        p.append(int(f))
print(p)

[97, 66, 72, 80, 99, 62, 85, 99, 77, 44, 78, 96, 82, 87, 71, 82, 80, 74, 81, 59]

### リスト内包表記で簡潔にする
リスト内包表記の方が言葉で説明しやすい

In [None]:
for row in csvdata[1:]: # ヘッダを削除
    p = [int(f) for f in row[1:]]
    print(p)

[97, 66, 72, 80, 99]
[62, 85, 99, 77, 44]
[78, 96, 82, 87, 71]
[82, 80, 74, 81, 59]


### CSV モジュールの利用
内部の動作を理解したらライブラリを使う
<ul>
<li>CSV モジュールは標準で <code>import</code> できる</li>
</ul>

In [None]:
import csv # 一度だけ行う

In [None]:
with open('mydata02.csv') as file:
    reader = csv.reader(file)
    for row in reader: # 1行ずつ取り出す
        print(row)

['ID', 'LANG', 'MATH', 'SCIENCE', 'SOCIETY', 'ENGLISH']
['us301010', '97', '66', '72', '80', '99']
['us301012', '62', '85', '99', '77', '44']
['us301013', '78', '96', '82', '87', '71']
['us301015', '82', '80', '74', '81', '59']


### CSV モジュールのヘッダ除去
ヘッダが不要な場合には <code>next()</code> で読み飛ばせる

In [None]:
with open('mydata02.csv') as file:
    reader = csv.reader(file)
    next(reader) #ヘッダを読み飛ばす
    for row in reader:
        p = [int(f) for f in row[1:]] #第1フィールドを除き数値化したリスト
        print(p)

[97, 66, 72, 80, 99]
[62, 85, 99, 77, 44]
[78, 96, 82, 87, 71]
[82, 80, 74, 81, 59]


## まとめ
<ul>
<li><strong>ファイルの読み込み</strong>: <code>with open(...)</code>構文でファイルを扱い、<code>for</code>ループやリスト内包表記で効率的にデータを読み込む。</li>
<li><strong>リストの添字とスライス</strong>: 添字<code>[]</code>やスライス<code>:</code>を使い、リストの要素を柔軟に操作する。</li>
<li><strong>CSVファイル</strong>: カンマ区切りのデータを扱う。データをあつかいやすい</li>
</ul>