## インポート

In [2]:
import pandas as pd
import xlwings as xw

## データの読み込み

In [3]:
# csvファイルの読み込んでデータフレーム化
csv_df = pd.read_csv('exp_data.csv')

# 読込んだファイルを表示
csv_df.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度
0,サンプル1,75,5,20,20,151
1,サンプル2,69,5,26,20,175
2,サンプル3,76,5,19,20,147
3,サンプル4,58,5,37,20,219
4,サンプル5,56,5,39,20,227


In [4]:
# エクセルファイルの読み込み
wb = xw.Book('exp_data.xlsx')  # エクセルファイルの読み込み
sht = wb.sheets['Sheet1'] # Sheet1のシートを読込み
xl_df = sht.range('A1').expand().options(pd.DataFrame,index=False).value # Sheet1のA1セルを起点とした表の値をデータフレームとして読込み

# 読込んだファイルを表示
xl_df.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度
0,サンプル1,75.0,5.0,20.0,20.0,151.0
1,サンプル2,69.0,5.0,26.0,20.0,175.0
2,サンプル3,76.0,5.0,19.0,20.0,147.0
3,サンプル4,58.0,5.0,37.0,20.0,219.0
4,サンプル5,56.0,5.0,39.0,20.0,227.0


## データの書き出し

In [5]:
# csvファイルの出力: to_csv(出力ファイル名)
csv_df.to_csv('output_data.csv')

In [6]:
# エクセルファイルへの出力
sht.range('A1').options(index=False).value = xl_df # 値を書き込み
wb.save('output_data.xlsx') # ファイルを設定して保存

## データの追加・削除

In [7]:
# 新規計算列の追加
processing_df1 = csv_df.copy() # データを複製して、編集用のデータフレームにする
processing_df1['計算列'] =  (processing_df1['材料A添加量'] * processing_df1['材料B添加量'] -5) /2

processing_df1.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度,計算列
0,サンプル1,75,5,20,20,151,185.0
1,サンプル2,69,5,26,20,175,170.0
2,サンプル3,76,5,19,20,147,187.5
3,サンプル4,58,5,37,20,219,142.5
4,サンプル5,56,5,39,20,227,137.5


In [8]:
# 任意の場所に新規計算列の追加：insert(列番号,追加列名,値)
processing_df2 = csv_df.copy() # データを複製して、編集用のデータフレームにする
new_data = (processing_df1['材料A添加量'] * processing_df1['材料B添加量'] -5) /2 # 追加する値の計算
processing_df2.insert(5,'計算列',new_data) # 計算列を追加

processing_df2.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,計算列,引張強度
0,サンプル1,75,5,20,20,185.0,151
1,サンプル2,69,5,26,20,170.0,175
2,サンプル3,76,5,19,20,187.5,147
3,サンプル4,58,5,37,20,142.5,219
4,サンプル5,56,5,39,20,137.5,227


In [9]:
# 任意行または列の削除: drop(行または列名, 行または列の指定)
drop_df1 = csv_df.drop('引張強度',axis=1) # 列の削除。axis=1は列

drop_df1.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度
0,サンプル1,75,5,20,20
1,サンプル2,69,5,26,20
2,サンプル3,76,5,19,20
3,サンプル4,58,5,37,20
4,サンプル5,56,5,39,20


In [10]:
drop_df2 = csv_df.drop(0,axis=0)  # 行の削除。axis=0で行

drop_df2.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度
1,サンプル2,69,5,26,20,175
2,サンプル3,76,5,19,20,147
3,サンプル4,58,5,37,20,219
4,サンプル5,56,5,39,20,227
5,サンプル6,70,5,25,20,171


## データの抽出

In [11]:
# 行列範囲を番号で切り出し: .iloc[始点行番号:終点行番号,始点列番号:終点列番号]
processing_df3 = csv_df.copy() # データを複製して、編集用のデータフレームにする

processing_df3 = processing_df3.iloc[4:7,3:]

processing_df3.head()

Unnamed: 0,材料C添加量,温度,引張強度
4,39,20,227
5,25,20,171
6,29,20,187


In [12]:
# 行列範囲を名前で切り出し: .loc[始点行名:終点行名,始点列名:終点列名]
processing_df4 = csv_df.copy() # データを複製して、編集用のデータフレームにする

processing_df4 = processing_df4.loc[:4,'材料A添加量':'温度']

processing_df4.head()

Unnamed: 0,材料A添加量,材料B添加量,材料C添加量,温度
0,75,5,20,20
1,69,5,26,20
2,76,5,19,20
3,58,5,37,20
4,56,5,39,20


In [13]:
# 任意の条件の値のデータのみを抽出
cut_df1 = csv_df[csv_df['材料B添加量'] < 2]
cut_df1.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度
27,サンプル28,56,1,43,25,69
28,サンプル29,59,1,40,25,69
29,サンプル30,82,1,17,25,69
30,サンプル31,65,1,34,25,69
31,サンプル32,83,1,16,25,69


In [14]:
# 任意の条件の値のデータのみを抽出:複数条件の場合
cut_df2 = csv_df[(csv_df['材料B添加量'] < 5) & (csv_df['温度'] > 20)] 
cut_df2.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度
21,サンプル22,54,3,43,25,153
22,サンプル23,81,3,16,30,93
23,サンプル24,55,3,42,35,139
24,サンプル25,75,3,22,40,93
25,サンプル26,54,3,43,45,129


## データの結合

In [15]:
# 追加実験データの読み込み
exp_df2 = pd.read_csv('exp_data2.csv')

exp_df2.head()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度
0,サンプル101,75,5,20,30,160
1,サンプル102,69,5,26,30,180
2,サンプル103,76,5,19,30,190


In [16]:
# 別表データの読み込み
add_df = pd.read_csv('add_data.csv')

add_df.head()

Unnamed: 0,サンプル名,サンプル作成者,材料B_lot
0,サンプル1,山田,1
1,サンプル6,山田,1
2,サンプル7,山田,1
3,サンプル8,山田,1
4,サンプル9,山田,1


In [17]:
# 追加実験データを元のデータに加える: concat([データフレーム1, データフレーム2])
concat_df = pd.concat([csv_df,exp_df2]).reset_index(drop=True) # データを結合して行番号を振りなおす

concat_df.tail()

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度
98,サンプル99,72,0,28,25,42
99,サンプル100,81,0,19,25,51
100,サンプル101,75,5,20,30,160
101,サンプル102,69,5,26,30,180
102,サンプル103,76,5,19,30,190


In [18]:
# 列の値を元にデータフレームを結合する:merge(データフレーム1, データフレーム2, on=キー列名, how=結合タイプ)
merge_df = pd.merge(csv_df,add_df,on='サンプル名',how='left') # データフレームの結合

merge_df.head(10)

Unnamed: 0,サンプル名,材料A添加量,材料B添加量,材料C添加量,温度,引張強度,サンプル作成者,材料B_lot
0,サンプル1,75,5,20,20,151,山田,1.0
1,サンプル2,69,5,26,20,175,,
2,サンプル3,76,5,19,20,147,,
3,サンプル4,58,5,37,20,219,,
4,サンプル5,56,5,39,20,227,,
5,サンプル6,70,5,25,20,171,山田,1.0
6,サンプル7,66,5,29,20,187,山田,1.0
7,サンプル8,66,5,29,20,187,山田,1.0
8,サンプル9,67,5,28,20,183,山田,1.0
9,サンプル10,84,5,11,20,115,山田,1.0


## データの集計

In [21]:
# サンプル作成者ごとに、各項目の平均値を集計：集計 groupby(集計ラベル列), 平均値計算 mean()
merge_df.groupby('サンプル作成者').mean()

Unnamed: 0_level_0,材料A添加量,材料B添加量,材料C添加量,温度,引張強度,材料B_lot
サンプル作成者,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
佐藤,68.263158,0.105263,31.631579,25.0,41.368421,2.157895
山田,72.142857,3.0,24.857143,22.5,116.142857,1.0


In [22]:
# サンプル作成者ごとに、各項目の平均値を集計：表示形式の違う形
merge_df.groupby('サンプル作成者',as_index=False).mean()

Unnamed: 0,サンプル作成者,材料A添加量,材料B添加量,材料C添加量,温度,引張強度,材料B_lot
0,佐藤,68.263158,0.105263,31.631579,25.0,41.368421,2.157895
1,山田,72.142857,3.0,24.857143,22.5,116.142857,1.0


In [23]:
# サンプル作成者および材料Bのlotごとに、各項目の平均値を集計
merge_df.groupby(['サンプル作成者','材料B_lot']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,材料A添加量,材料B添加量,材料C添加量,温度,引張強度
サンプル作成者,材料B_lot,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
佐藤,1.0,70.375,0.25,29.375,25.0,47.75
佐藤,3.0,66.727273,0.0,33.272727,25.0,36.727273
山田,1.0,72.142857,3.0,24.857143,22.5,116.142857


In [25]:
# サンプル作成者ごとに、自作の集計を実施
import numpy as np

def return_max(n):
    return np.max(n)


merge_df.groupby('サンプル作成者').agg({'材料A添加量': return_max, '材料C添加量':np.min})

Unnamed: 0_level_0,材料A添加量,材料C添加量
サンプル作成者,Unnamed: 1_level_1,Unnamed: 2_level_1
佐藤,84,16
山田,84,11
