In [63]:
import pandas as pd

# データの入出力に関する使い方  

## 本モジュールの趣旨  

本モジュールにはデータの入出力に関する例や便利な関数を示す。  
このモジュールを使うことを特に推奨するわけではないが、私のメモとしての意味合いも含め残しておく。  
csvファイルの入出力に関しては、pythonの標準リスト、numpy、pandasそれぞれを使った方法があるだろう。  
ただし計算上ではpandasを使うことはないため、出力時は少なくともpandasを使わない方が良いと考えられる。  
ここではデータの扱いに関しては入力時と出力時で用いるモジュールを以下のように分離した。  
特に

- データを入力する際にはpandas  
- データを出力する際には計算時間ごとにwriteを用いてcsvに書き出す  
- もしくはデータをpandasに保持した後、まとめてcsvに書き出す

ことが便利であろう。

## 0. まとめ  

以下の1章、2章ではpandasの使い方やcsvモジュールの使用例および私の勉強例をまとめた。  
しかし非常に雑多な使用例となったため、ここに実計算で使うと思われる方法を簡単にまとめる。

### 0.1 pandasによるデータの読み込み方法

inputファイル中にあるsample.csvファイルを読み込む。  
行および列の見出しがある場合、列はindex_col、行はheaderを指定する。（見出しがない場合、index_col = -1,  header = -1）とする。  
なおファイル中に日本語がある場合、encodingをして日本語に対応させておく。

In [64]:
df = pd.read_csv( 'input_data/sample.csv', encoding = 'SHIFT-JIS' , index_col = 0,  header = 1 )

インポートしたデータが行ごとにデータ化する場合は以下の関数を用いることで辞書型に変更できる。  
file_name：importしたデータをまとめた変数名（辞書型）  
df：importしたデータのDataFrame名

In [65]:
def convert_import_data( file_name, df ):
    for name in df.columns:
        file_name[name] = df[name].values.tolist()
    return 

#### 使用例  

In [66]:
import_file = {}
convert_import_data( import_file, df )
print( 'length', import_file['length'] ) 
print( 'temp', import_file['temp'] ) 

length [1.0, 0.001, 0.001, 0.001, 0.001, 0.001, 0.005, 0.005, 0.005, 0.005, 0.005]
temp [20.5, 20.5, 20.5, 20.5, 20.5, 20.5, 10.0, 10.0, 10.0, 10.0, 10.0]


### 0.2 csvモジュールによるデータの書き出し方法

csvモジュールを用いたデータの書き出し例を以下に示す。  
基本はリスト型のデータを書き出すことになる。  
ファイルをどの形式で開くか（mode）については留意したい。（2.1節参照）
基本 mode = 'a'としておけば追記形式で書いていける。

In [67]:
# ファイルの初期化
f = open('output_data/test.csv', mode = 'w', newline = '' )
# ファイルを追記形式'a'でOPEN
f = open('output_data/test.csv', mode = 'a', newline = '' )
csvwriter = csv.writer(f)

# 各計算結果の表題をつける
title = [ 'T(' + str(i) + ')' for i in range (10)]
title.insert(0, 'time') 
csvwriter.writerow(title)

# 計算 + データの書き込み
for i in range(20):
    temp = [ 293.15 + i + j for j in range(10) ]
    temp.insert(0, i)
    csvwriter.writerow(temp)

f.close()

なおpandasで書き込む場合は以下のようになる。  
（比較のため追記形式で書いた）

In [68]:
df = pd.read_csv( 'output_data/test.csv', encoding = 'SHIFT-JIS' , index_col = 0,  header = 0 )
df.to_csv('output_data/test.csv', mode = 'a')

## 1. データの読み込み  

### 1.1 ファイルのopenとpandasのDataFrameへの格納  
まずはcsvファイルのopen方法について記す。  
ここではsampleファイルとして、壁体の構成を示したcsvファイルをpandasのDataFrameを用いて開いてみる。  
csvファイルを開く場合、read_csvコマンドを用い、csvファイルの保管されている場所を示す。  
また日本語が含まれている場合encordする必要があるため、encoding = 'SHIFT-JIS'と書いておくと良い。 

参考：pandasでcsv/tsvファイル読み込み（read_csv, read_table）　https://note.nkmk.me/python-pandas-read-csv-tsv/

In [2]:
df = pd.read_csv( 'input_data/sample.csv', encoding = 'SHIFT-JIS' )

In [3]:
df

Unnamed: 0,壁体の構成,Unnamed: 1,Unnamed: 2
0,,length,temp
1,P(0),1,20.5
2,P(1),0.001,20.5
3,P(2),0.001,20.5
4,P(3),0.001,20.5
5,P(4),0.001,20.5
6,P(5),0.001,20.5
7,P(6),0.005,10
8,P(7),0.005,10
9,P(8),0.005,10


ファイルを単に開いただけの場合、行(row)と列(column)が上手く整理できておらずこのままだと使用しづらい。  
そのため、index（見出し）が列(column)にある場合はindex_col = '列番号'を指定し書くとindexが作成される。  

In [4]:
df = pd.read_csv( 'input_data/sample.csv', encoding = 'SHIFT-JIS' , index_col=0 )

In [5]:
df

Unnamed: 0_level_0,Unnamed: 1,Unnamed: 2
壁体の構成,Unnamed: 1_level_1,Unnamed: 2_level_1
,length,temp
P(0),1,20.5
P(1),0.001,20.5
P(2),0.001,20.5
P(3),0.001,20.5
P(4),0.001,20.5
P(5),0.001,20.5
P(6),0.005,10
P(7),0.005,10
P(8),0.005,10


同様に行(row)についてもヘッダーがある場合は、header = '行番号'を指定し書くとheaderが作成される。  
※ヘッダーがない場合、header = -1を指定しよう。 

In [6]:
df = pd.read_csv( 'input_data/sample.csv', encoding = 'SHIFT-JIS' , index_col = 0,  header = 1 )

In [7]:
df

Unnamed: 0,length,temp
P(0),1.0,20.5
P(1),0.001,20.5
P(2),0.001,20.5
P(3),0.001,20.5
P(4),0.001,20.5
P(5),0.001,20.5
P(6),0.005,10.0
P(7),0.005,10.0
P(8),0.005,10.0
P(9),0.005,10.0


### 1.2 DataFrameを用いた値の抽出  
次にDataFrameから必要な各要素を抽出する。  
ここでは熱水分移動プログラムを使用するに当たり最低限必要なDataFrameの基本的な操作方法のみを示す。  
参考：pandasの使い方（２）　DataFrameの生成　：　http://python-remrin.hatenadiary.jp/entry/2017/05/08/212120　（中段当たり）

詳細なDataFrameに関する各操作は以下のURLを参照されたし。  
ゆるふわPandasチートシート　：　https://qiita.com/tanemaki/items/2ed05e258ef4c9e6caac

#### 1.2.1 行・列の名前から値を取得する方法  
行および列の値の取得方法いくつか存在する。  
例えば'length'行を取得したい場合、

In [8]:
df.length

P(0)     1.000
P(1)     0.001
P(2)     0.001
P(3)     0.001
P(4)     0.001
P(5)     0.001
P(6)     0.005
P(7)     0.005
P(8)     0.005
P(9)     0.005
P(10)    0.005
Name: length, dtype: float64

もしくは

In [9]:
df['length']

P(0)     1.000
P(1)     0.001
P(2)     0.001
P(3)     0.001
P(4)     0.001
P(5)     0.001
P(6)     0.005
P(7)     0.005
P(8)     0.005
P(9)     0.005
P(10)    0.005
Name: length, dtype: float64

といった指定方法ができる。列に関しては少し書くことが増えdf.log['index名']とし、以下のように記述する。

In [10]:
df.loc['P(0)']

length     1.0
temp      20.5
Name: P(0), dtype: float64

#### 1.2.2 行・列の位置から値を取得する方法  
n列目を取り出す方法は、df.iloc[n]を用いて以下のように表す。  
参考：　pandasで任意の位置の値を取得・変更するat, iat, loc, iloc　：　https://note.nkmk.me/python-pandas-at-iat-loc-iloc/

In [11]:
df.iloc[1]

length     0.001
temp      20.500
Name: P(1), dtype: float64

n行目だけを取り出したい場合は、同様にilocを用いるが列についての指定はしないので、列の指定を[ : , n ]とする。

In [12]:
df.iloc[:, 0]

P(0)     1.000
P(1)     0.001
P(2)     0.001
P(3)     0.001
P(4)     0.001
P(5)     0.001
P(6)     0.005
P(7)     0.005
P(8)     0.005
P(9)     0.005
P(10)    0.005
Name: length, dtype: float64

ピンポイントである場所の値を指定したいときは、

In [13]:
df.iloc[ 4, 1 ]

20.5

index名、header名からでも同様の指定ができるが、この場合接頭辞のiは省く。

In [14]:
df.loc['P(4)', 'temp']

20.5

### 1.3 pandasからnumpyおよびpython標準リストへの変換

pandasとnumpyを比較した場合、一般に数値計算では遅くなる傾向にあると考えられる。  
そのためpandasからnumpyもしくはpythonの標準リストへの変換方法を知っておくことは大切であろう。  
（ただし熱水分移動解析プログラムにおいてそこまでnumpyに優位性があるかどうかは疑問である。）

参考：pandas.DataFrame, SeriesとPython標準のリストを相互に変換　https://note.nkmk.me/python-pandas-list/

pandas.DataFrame, pandas.Seriesをリスト型に直接変換するメソッドは無いため、values属性で取得できるNumPy配列ndarrayを経由して、ndarrayのtolist()メソッドでリストに変換する。

In [15]:
df_list = df.values.tolist()
print(df_list)

[[1.0, 20.5], [0.001, 20.5], [0.001, 20.5], [0.001, 20.5], [0.001, 20.5], [0.001, 20.5], [0.005, 10.0], [0.005, 10.0], [0.005, 10.0], [0.005, 10.0], [0.005, 10.0]]


value属性ではラベル（行名、列名）があっても無視される。  
ただし上記の場合、2次元配列が非常にややこしくなっている。（列数が非常に多い）  
そのため行と列を転置すると良いだろう。  
転置はpandasで以下のように行う。

In [16]:
df.T

Unnamed: 0,P(0),P(1),P(2),P(3),P(4),P(5),P(6),P(7),P(8),P(9),P(10)
length,1.0,0.001,0.001,0.001,0.001,0.001,0.005,0.005,0.005,0.005,0.005
temp,20.5,20.5,20.5,20.5,20.5,20.5,10.0,10.0,10.0,10.0,10.0


変換してみると、

In [17]:
df_list = df.T.values.tolist()
print(df_list)

[[1.0, 0.001, 0.001, 0.001, 0.001, 0.001, 0.005, 0.005, 0.005, 0.005, 0.005], [20.5, 20.5, 20.5, 20.5, 20.5, 20.5, 10.0, 10.0, 10.0, 10.0, 10.0]]


こうするとリストとして抽出がしやすくなる。  
よってlenghtとtempを以下のように抽出した。

In [18]:
length = df_list[0]
temp = df_list[1] 
print(length)
print(temp)

[1.0, 0.001, 0.001, 0.001, 0.001, 0.001, 0.005, 0.005, 0.005, 0.005, 0.005]
[20.5, 20.5, 20.5, 20.5, 20.5, 20.5, 10.0, 10.0, 10.0, 10.0, 10.0]


#### 補足  
上述の方法を用いてcsvファイルのヘッダー名をそのまま用いてリスト化すると簡便になるだろう。  
...と思い、自動で変数を生成する方法を模索したが、あまり適切ではないのだろう。  
辞書型で変数ごとにリストを作成するのが最も適切で見やすくなるものと考えらえれる。  

例）

In [19]:
import_data = {}
for name in df.columns:
    import_data[name] = df[name]

In [20]:
import_data['length']

P(0)     1.000
P(1)     0.001
P(2)     0.001
P(3)     0.001
P(4)     0.001
P(5)     0.001
P(6)     0.005
P(7)     0.005
P(8)     0.005
P(9)     0.005
P(10)    0.005
Name: length, dtype: float64

pandasのDataFrameではなく標準リストを使いたい場合、

In [21]:
import_data = {}
for name in df.columns:
    import_data[name] = df[name].values.tolist()

In [22]:
import_data['length']

[1.0, 0.001, 0.001, 0.001, 0.001, 0.001, 0.005, 0.005, 0.005, 0.005, 0.005]

一応関数化しておくと以下のようになるだろう。  
variableには辞書型の変数名、dfにはpandasのDataFrameを入力すればよいものとして、

In [23]:
def convert_import_data( file_name, df ):
    for name in df.columns:
        file_name[name] = df[name].values.tolist()
    return 


In [24]:
# 使用例
test = {}
convert_import_data( test, df )
print('length = ', test['length'])
print('temp = ', test['temp'])

length =  [1.0, 0.001, 0.001, 0.001, 0.001, 0.001, 0.005, 0.005, 0.005, 0.005, 0.005]
temp =  [20.5, 20.5, 20.5, 20.5, 20.5, 20.5, 10.0, 10.0, 10.0, 10.0, 10.0]



<br/>

## 2. データの書き込み

計算結果をcsvファイルとして書き込むタイミングについては以下の2通りが考えられる。  

- 一つは計算ごとにファイルにデータを書き込んでいく方法  
- もう一つは計算結果をpandasなどで保持し、計算終了後に書き込む方法

この2種に大別されるだろう。  
計算時間の短縮を考えた場合、ファイルの操作回数が少ない後者の方が良いが、  
数年にわたる計算や2次元の計算を行う場合では、後者の方法を用いるとメモリ不足に陥ることもあるだろう。  

そこで2.1節ではcsvモジュールを用いたデータの書き込み方法を、2.2節ではpandasなどを用いた計算結果の書き込み方法を示す。

### 2.1 python標準モジュールを用いたデータの書き込み

#### 2.1.1 ファイルの生成

ファイルの生成はコマンドopen() によって行う。
open()内の最初の引数はファイル名の入った文字列である。  
二つめの引数も文字列で、ファイルをどのように使うかを示す数個の文字が入る。   

mode は、  

- ファイルが読み出し専用なら 'r' 
- 書き込み専用 (同名の既存のファイルがあれば消去されます) なら 'w'   
- ファイルに追記する場合は'a'　…　ファイルに書き込まれた内容は自動的にファイルの終端に追加されます。   
- 読み書き両用に開く場合は'r+'　　

mode 引数は省略可能で、省略された場合には 'r' であると仮定される。

In [25]:
f = open('output_data/test.csv','a')
f.close()

#### 2.1.1 csvコマンド用いたデータの書き込み

データを書き出す最も簡単な方法はcsvモジュールを用いる方法だろう。  
最も単純な使い方は以下を以下に示す。

In [26]:
import csv
test = [ 'test', 'temp', 'file', 'data', 'time' ]

f = open('output_data/test.csv', 'w')
csvwriter = csv.writer(f)
csvwriter.writerow(test)

f.close()

この形ではリスト型のデータをそのままcsvファイルとして書き出すことができる。  
ただしこの書き方のままだとデータを書き出すごとに改行がなされるため、openのところに ( ,newline='' ) を書くことで改行を無くすことができる。  
計算結果（温度や湿度など）は大体のものがリスト化されていると考えられるが、一般に書き出したデータの時刻を追記する必要があるので、リストの最初に計算結果時刻を挿入しておくことが良いだろう。（insertを使う）
また、１行だけ書き込むときにはwriterow、複数行を書き込むときにはwriterowsを使用すれば良い。

実際の書き込み例を以下に示す。

In [27]:
# ファイルの初期化
f = open('output_data/test.csv', 'w')
f.close()

# ファイルを追記形式'a'でOPEN
f = open('output_data/test.csv', 'a', newline = '' )
csvwriter = csv.writer(f)

# 各計算結果の表題をつける
title = [ 'T(' + str(i) + ')' for i in range (10)]
title.insert(0, 'time') 
csvwriter.writerow(title)

# 計算 + データの書き込み
for i in range(20):
    temp = [ 293.15 + i + j for j in range(10) ]
    temp.insert(0, i)
    csvwriter.writerow(temp)

f.close()


### 2.2 pandasを用いたデータの書き込み

pandasで書き込む場合、データを書き込むごとにindex名（header名？）が必ず書き込まれる。  
そのためpandasを用いる場合、DataFrameが完成した後（計算終了後）にまとめて書き出すのが一般的となるだろう。  
一例として、まず計算結果をDataFrameに保持してみる。

In [28]:
# index名だけ書いた空のDataFrameを作成
df = pd.DataFrame( index=[ 'T(' + str(i) + ')' for i in range (10) ], columns=[] )

# 計算 + データの書き込み
for i in range(20):
    df[i] = [ 293.15 + i + j for j in range(10) ]
    
# データの確認
df.T

Unnamed: 0,T(0),T(1),T(2),T(3),T(4),T(5),T(6),T(7),T(8),T(9)
0,293.15,294.15,295.15,296.15,297.15,298.15,299.15,300.15,301.15,302.15
1,294.15,295.15,296.15,297.15,298.15,299.15,300.15,301.15,302.15,303.15
2,295.15,296.15,297.15,298.15,299.15,300.15,301.15,302.15,303.15,304.15
3,296.15,297.15,298.15,299.15,300.15,301.15,302.15,303.15,304.15,305.15
4,297.15,298.15,299.15,300.15,301.15,302.15,303.15,304.15,305.15,306.15
5,298.15,299.15,300.15,301.15,302.15,303.15,304.15,305.15,306.15,307.15
6,299.15,300.15,301.15,302.15,303.15,304.15,305.15,306.15,307.15,308.15
7,300.15,301.15,302.15,303.15,304.15,305.15,306.15,307.15,308.15,309.15
8,301.15,302.15,303.15,304.15,305.15,306.15,307.15,308.15,309.15,310.15
9,302.15,303.15,304.15,305.15,306.15,307.15,308.15,309.15,310.15,311.15


計算結果の出力はto_csvで書き出せる。  
（見やすさのため転置(.T)を行った）  
なおデータを追加する場合、csvモジュールと同様にto_csvコマンドに（mode='a'）を追加すればよい。}

In [29]:
df.T.to_csv('output_data/test.csv')

余談だがDataFrameのデータ容量はinfo()にて確認することができる。

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, T(0) to T(9)
Data columns (total 20 columns):
0     10 non-null float64
1     10 non-null float64
2     10 non-null float64
3     10 non-null float64
4     10 non-null float64
5     10 non-null float64
6     10 non-null float64
7     10 non-null float64
8     10 non-null float64
9     10 non-null float64
10    10 non-null float64
11    10 non-null float64
12    10 non-null float64
13    10 non-null float64
14    10 non-null float64
15    10 non-null float64
16    10 non-null float64
17    10 non-null float64
18    10 non-null float64
19    10 non-null float64
dtypes: float64(20)
memory usage: 2.0+ KB
