<h1> 目的 </h1>

ファイルへの入出力に関するコマンドをまとめたノートブックです。

<h1> Python Built-in </h1>

特にモジュールなどをインポートする必要はなく、そのまま使えます。  
配列の入出力はループ処理などが必要で、後述する numpy を使った場合はその点で楽です。  
（ただし numpy はいくつか制限もあります）

<h2> Save </h2>

In [1]:
# write text 1
outfile = "test.txt"
f = open( outfile, "w" )
print( "Test text 1", file=f )
f.close()

# result
%more test.txt

Test text 1


In [2]:
# write text 2
outfile = "test.txt"
f = open( outfile, "w" )
f.write( "Test text 2\n" )
f.close()

# result
%more test.txt

Test text 2


open してから close するまでは test.txt への書き込みが可能となります。  
print や write を使うことで文字や数字をファイルに出力できます。  
open の中の "w" は書き込みモード (write) の w です。

close() を最後に実行する必要あるようです。  
が、実行し忘れた際どのような影響があるのか自分は良くわかっていません。

In [3]:
# write text 3
outfile = "test.txt"
with open( outfile, mode="w" ) as f:
    f.write( "Test text 3-1" )
    print( "Test text 3-2", file=f )
    print( "Test text 3-3", file=f )
    f.write( "Test text 3-4" )

# result
%more test.txt

Test text 3-1Test text 3-2
Test text 3-3
Test text 3-4

write や print の前にインデントがあるので注意。  
こちらの with を使った場合はインデントの中でのみ出力が有効となります。  
先ほどと異なり、自動で close が入るので文章量も減って多少楽で見やすいかもしれません。

また、出力結果を見るとわかりますが、write を使った場合は改行が自動で入りません。  
一方で、print は必ず改行が含まれます。出力するデータに応じて使い分ければ良いと思います。

In [4]:
# write text 4
outfile = "test.txt"
with open( outfile, mode="w" ) as f:
    print( "Test text 4-1", "Test text 4-2", "Test text 4-3", file=f )

# result
%more test.txt

Test text 4-1 Test text 4-2 Test text 4-3


print の中では カンマ(,) を使って羅列することも可能です。  
この場合は改行されずに、スペース 1 つ分空けて結合された文字列が出力されます。

<h2> Load </h2>

In [5]:
# write test text 1
with open( "test.txt", mode="w" ) as f:
    print( "Testtext11", "Testtext12", "Testtext13", file=f )
    print( "Testtext21", "Testtext22", "Testtext23", file=f )
    print( "Testtext31", "Testtext32", "Testtext33", file=f )

In [6]:
# load text 1
infile = "test.txt"
f = open( infile, "r" )
l = f.readlines()
f.close()

# result
print(l)

['Testtext11 Testtext12 Testtext13\n', 'Testtext21 Testtext22 Testtext23\n', 'Testtext31 Testtext32 Testtext33\n']


readlines は各行を 1 つの文字列として読み込んで、python のリストに保存します。  
改行コードなども含まれていて、このままでは扱いにくいです。

In [7]:
# load text 2
infile = "test.txt"
f = open( infile, "r" )
l = f.readlines()
f.close()

# arrange
arr = []
for i in range(len(l)):
    arr.append(l[i].strip().split())

# result
print(arr)
print(arr[0][1])

[['Testtext11', 'Testtext12', 'Testtext13'], ['Testtext21', 'Testtext22', 'Testtext23'], ['Testtext31', 'Testtext32', 'Testtext33']]
Testtext12


readlines で読み込んだリストを、strip と split を使って整形します。  
各文字列ごとに 1 つのまとまりとして配列に格納されるため扱いやすくなります。

最初に strip は文字列の両端の 空白、タブ、全角空白、改行コード を取り除きます。  
今回の例では、先頭が空白ではないので strip では何もされません。  
一方で末尾は改行コードなので、strip で取り除かれます。

次に split は文字列中の 空白、タブ、改行コード で分割します。  
各行が文字列ごとに配列の要素として保存されます。  

In [8]:
# load text 3
infile = "test.txt"
f = open( infile, "r" )
l = f.readlines()
f.close()

# arrange
arr = []
for i in range(len(l)):
    arr.append(l[i].strip().split(','))

# result
print(arr)

[['Testtext11 Testtext12 Testtext13'], ['Testtext21 Testtext22 Testtext23'], ['Testtext31 Testtext32 Testtext33']]


In [9]:
# load text 4
infile = "test.txt"
f = open( infile, "r" )
l = f.readlines()
f.close()

# arrange
arr = []
for i in range(len(l)):
    arr.append(l[i].strip().split('text'))

# result
print(arr)

[['Test', '11 Test', '12 Test', '13'], ['Test', '21 Test', '22 Test', '23'], ['Test', '31 Test', '32 Test', '33']]


split(',') などと入力すると区切り文字を空白から カンマ(,) に変更することも可能です。  
split('test') のように文字列を入れた場合、区切り文字を文字列にすることも可能となります。  
ただし、入力した文字列と完全一致する場所で区切られることになります。

In [10]:
import re

In [11]:
# write test text 1
with open( "test.txt", mode="w" ) as f:
    print( "Testtext11(Testtext12)Testtext13", file=f )
    print( "Testtext21#Testtext22#Testtext23", file=f )
    print( "Testtext31,Testtext32,Testtext33", file=f )

In [12]:
# load text 5
infile = "test.txt"
f = open( infile, "r" )
l = f.readlines()
f.close()

# arrange
arr = []
for i in range(len(l)):
    arr.append(re.split('[,#()]', l[i].strip()))

# result
print(arr)
print(arr[0][1])

[['Testtext11', 'Testtext12', 'Testtext13'], ['Testtext21', 'Testtext22', 'Testtext23'], ['Testtext31', 'Testtext32', 'Testtext33']]
Testtext12


入力した文字列と部分一致する場所で区切りたい場合は re モジュールの split を使えば可能です。  
ここでは正規表現を使って区切り文字を指定しています。

<h1> Numpy </h1>

<h2> Modules </h2>

In [13]:
import numpy as np

<h2> Save </h2>

In [14]:
# test array
ndarr = np.array([ [i, i*10.0, i*100.0] for i in np.arange(1, 5, 1)], dtype=np.float32)

# result
print(ndarr)

[[  1.  10. 100.]
 [  2.  20. 200.]
 [  3.  30. 300.]
 [  4.  40. 400.]]


In [15]:
# write text 1
outfile = "test.txt"
np.savetxt( outfile, ndarr, fmt='%.2f' )

# result
%more test.txt

1.00 10.00 100.00
2.00 20.00 200.00
3.00 30.00 300.00
4.00 40.00 400.00


In [16]:
# write text 2
outfile = "test.txt"
np.savetxt( outfile, ndarr, fmt='%.2f', delimiter=',' )

# result
%more test.txt

1.00,10.00,100.00
2.00,20.00,200.00
3.00,30.00,300.00
4.00,40.00,400.00


fmt で出力のフォーマットを指定できます。1 つだけ入力した場合は統一されて出力されます。  
delimiter は区切り文字を指定します。デフォルトは空白で、2 つ目はカンマを指定しています。

In [17]:
# write text 3
outfile = "test.txt"
np.savetxt( outfile, ndarr, fmt=['%3.1f', '%3.2f', '%3.3f'], delimiter='|' )

# result
%more test.txt

1.0|10.00|100.000
2.0|20.00|200.000
3.0|30.00|300.000
4.0|40.00|400.000


fmt では各列ごとにフォーマットを指定することも可能です。  

<h2> Load </h2>

In [18]:
# write test text
ndarr = np.array([ [i, i*10.0, i*100.0] for i in np.arange(1, 5, 1)], dtype=np.float32)
np.savetxt( "test.txt", ndarr, fmt='%.1f' )

In [19]:
# read text 1
infile = "test.txt"
ndarr = np.loadtxt( infile, dtype='float32' )

# result
print(ndarr)
print(type(ndarr))

[[  1.  10. 100.]
 [  2.  20. 200.]
 [  3.  30. 300.]
 [  4.  40. 400.]]
<class 'numpy.ndarray'>


ndarray としてファイルの中身が読み込まれます。

In [20]:
# read text 2
infile = "test.txt"
ndarr = np.loadtxt( infile, skiprows=1, usecols=[0,2] )

# result
print(ndarr)

[[  2. 200.]
 [  3. 300.]
 [  4. 400.]]


In [21]:
# read text 3
infile = "test.txt"
ndarr = np.loadtxt( infile, skiprows=2, usecols=1 )

# result
print(ndarr)

[30. 40.]


配列は skiprows や usecols で適宜スキップして読み込むこともできます。

skiprows で指定した行数だけスキップしてファイルを読み込みます。  
usecols は単に数字のみでもリストとしても与えることができます。  
配列は 0 スタートなので、2列目のみを読み込みたい場合は 1 を入力する必要があるので注意が必要です。