#### PythonでExcel業務を自動化

1.学習で使用するExcelシートは最大12行であることを前提として学習を進める。  
2.学習で使用するExcelブックは3つとも同じフォーマットであることを前提に学習を進める。  

In [9]:
# !pip install xlrd openpyxl

In [2]:
#　必要なライブラリをインポートする 
import pandas as pd
from glob import glob

In [32]:
# Excelファイルのパスを取得する
filepaths = glob('resources/*.xlsx')
filepaths

['resources/請求書_10月_PGI_Inc.xlsx',
 'resources/請求書_11月_PGI_Inc.xlsx',
 'resources/請求書_12月_PGI_Inc.xlsx']

In [33]:
filepath = filepaths[0]
filepath

'resources/請求書_10月_PGI_Inc.xlsx'

#### 最初に処理対象のExcelから必要な情報だけを取り出す

In [34]:
_df = pd.read_excel(filepath)
# _df

In [35]:
columns = _df.iloc[10, [1,2,4,10,11,14]]
columns

Unnamed: 1                 日付
Unnamed: 2              商品コード
Unnamed: 4                 品名
Unnamed: 10      数量[L] or [-]
Unnamed: 11    単価[¥/L] or [¥]
Unnamed: 14                金額
Name: 10, dtype: object

In [36]:
# Excelから必要な項目だけを抽出する
df = _df.iloc[11:23, [1, 2, 4, 10, 11, 14]]

#項目名をセットして、さらにExcelから必要な項目だけを抽出する
df.columns = columns
df

10,日付,商品コード,品名,数量[L] or [-],単価[¥/L] or [¥],金額
11,2020-10-04 00:00:00,GSL0001,レギュラー,20.0,120.0,2400
12,2020-10-05 00:00:00,GSL0002,ハイオク,45.0,160.0,7200
13,2020-10-06 00:00:00,GSL0003,軽油,50.0,100.0,5000
14,2020-10-07 00:00:00,GDS0002,コロン,3.0,800.0,2400
15,2020-10-08 00:00:00,CMT0004,オイル交換,1.0,1000.0,1000
16,2020-10-09 00:00:00,CMT0002,洗車 B,1.0,1500.0,1500
17,2020-10-10 00:00:00,GSL0003,軽油,50.0,100.0,5000
18,2020-10-11 00:00:00,GSL0002,ハイオク,40.0,160.0,6400
19,2020-10-12 00:00:00,CMT0005,タイヤ交換,1.0,4000.0,4000
20,2020-10-13 00:00:00,GSL0003,軽油,50.0,100.0,5000


In [37]:
df['企業名'] = _df.iloc[2,0]
df.head()

10,日付,商品コード,品名,数量[L] or [-],単価[¥/L] or [¥],金額,企業名
11,2020-10-04 00:00:00,GSL0001,レギュラー,20,120,2400,"Primagest, Inc."
12,2020-10-05 00:00:00,GSL0002,ハイオク,45,160,7200,"Primagest, Inc."
13,2020-10-06 00:00:00,GSL0003,軽油,50,100,5000,"Primagest, Inc."
14,2020-10-07 00:00:00,GDS0002,コロン,3,800,2400,"Primagest, Inc."
15,2020-10-08 00:00:00,CMT0004,オイル交換,1,1000,1000,"Primagest, Inc."


In [38]:
df['企業コード'] = _df.iloc[3, 4]
df['請求書No'] = _df.iloc[2, 12]
df['発行日'] = _df.iloc[3, 12]
df['発行者'] = _df.iloc[4, 12]
df['発行者コード'] = _df.iloc[4, 13]
df.head()

10,日付,商品コード,品名,数量[L] or [-],単価[¥/L] or [¥],金額,企業名,企業コード,請求書No,発行日,発行者,発行者コード
11,2020-10-04 00:00:00,GSL0001,レギュラー,20,120,2400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
12,2020-10-05 00:00:00,GSL0002,ハイオク,45,160,7200,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
13,2020-10-06 00:00:00,GSL0003,軽油,50,100,5000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
14,2020-10-07 00:00:00,GDS0002,コロン,3,800,2400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
15,2020-10-08 00:00:00,CMT0004,オイル交換,1,1000,1000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0


In [39]:
# 一連の処理を関数化する

def extract(filepath):
    _df = pd.read_excel(filepath)
    columns = _df.iloc[10, [1,2,4,10,11,14]]
    df = _df.iloc[11:23, [1, 2, 4, 10, 11, 14]]
    df.columns = columns
    df['企業名'] = _df.iloc[2,0]
    df['企業コード'] = _df.iloc[3, 4]
    df['請求書No'] = _df.iloc[2, 12]
    df['発行日'] = _df.iloc[3, 12]
    df['発行者'] = _df.iloc[4, 12]
    df['発行者コード'] = _df.iloc[4, 13]
    return df

In [43]:
df = extract(filepath)
df.head()

10,日付,商品コード,品名,数量[L] or [-],単価[¥/L] or [¥],金額,企業名,企業コード,請求書No,発行日,発行者,発行者コード
11,2020-10-04 00:00:00,GSL0001,レギュラー,20,120,2400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
12,2020-10-05 00:00:00,GSL0002,ハイオク,45,160,7200,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
13,2020-10-06 00:00:00,GSL0003,軽油,50,100,5000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
14,2020-10-07 00:00:00,GDS0002,コロン,3,800,2400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
15,2020-10-08 00:00:00,CMT0004,オイル交換,1,1000,1000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0


In [44]:
# ３つのExcelブックを結合することにトライする。
# まずは[pd.concat]メソッドを使用する方法について学習する。

In [49]:
# test Data Frameを用意する
sample_1 = pd.DataFrame([[1,2,3],[4,5,6]])
sample_2 = pd.DataFrame([[-1,0,3],[9,7,6]])

In [52]:
# 上記二つのデータフレームを(縦方向)に結合してみる。
pd.concat([sample_1, sample_2])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
0,-1,0,3
1,9,7,6


In [53]:
# 上記二つのデータフレームを(横方向)に結合してみる。
pd.concat([sample_1, sample_2], axis=1)

Unnamed: 0,0,1,2,0.1,1.1,2.1
0,1,2,3,-1,0,3
1,4,5,6,9,7,6


In [55]:
# では処理対象のExcelを結合（集計）を試してみる。

#　空のデータフレームを用意する
df = pd.DataFrame()

# 処理対象の３つのExcelブックのパスを取り出す
for filepath in filepaths:
    _df= extract(filepath)
    df = pd.concat([df, _df])

In [56]:
df

10,日付,商品コード,品名,数量[L] or [-],単価[¥/L] or [¥],金額,企業名,企業コード,請求書No,発行日,発行者,発行者コード
11,2020-10-04 00:00:00,GSL0001,レギュラー,20.0,120.0,2400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
12,2020-10-05 00:00:00,GSL0002,ハイオク,45.0,160.0,7200,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
13,2020-10-06 00:00:00,GSL0003,軽油,50.0,100.0,5000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
14,2020-10-07 00:00:00,GDS0002,コロン,3.0,800.0,2400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
15,2020-10-08 00:00:00,CMT0004,オイル交換,1.0,1000.0,1000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
16,2020-10-09 00:00:00,CMT0002,洗車 B,1.0,1500.0,1500,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
17,2020-10-10 00:00:00,GSL0003,軽油,50.0,100.0,5000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
18,2020-10-11 00:00:00,GSL0002,ハイオク,40.0,160.0,6400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
19,2020-10-12 00:00:00,CMT0005,タイヤ交換,1.0,4000.0,4000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
20,2020-10-13 00:00:00,GSL0003,軽油,50.0,100.0,5000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0


In [60]:
# 不要な行(NaN)を.dropna()メソッドを使用して削除する
df = df.dropna()

In [61]:
df

10,日付,商品コード,品名,数量[L] or [-],単価[¥/L] or [¥],金額,企業名,企業コード,請求書No,発行日,発行者,発行者コード
11,2020-10-04 00:00:00,GSL0001,レギュラー,20,120,2400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
12,2020-10-05 00:00:00,GSL0002,ハイオク,45,160,7200,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
13,2020-10-06 00:00:00,GSL0003,軽油,50,100,5000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
14,2020-10-07 00:00:00,GDS0002,コロン,3,800,2400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
15,2020-10-08 00:00:00,CMT0004,オイル交換,1,1000,1000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
16,2020-10-09 00:00:00,CMT0002,洗車 B,1,1500,1500,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
17,2020-10-10 00:00:00,GSL0003,軽油,50,100,5000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
18,2020-10-11 00:00:00,GSL0002,ハイオク,40,160,6400,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
19,2020-10-12 00:00:00,CMT0005,タイヤ交換,1,4000,4000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0
20,2020-10-13 00:00:00,GSL0003,軽油,50,100,5000,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0


In [62]:
# 項目名を並び替える
df.iloc[:, [6, 7, 8, 9, 10, 11, 0, 1, 2, 3, 4, 5]]

10,企業名,企業コード,請求書No,発行日,発行者,発行者コード,日付,商品コード,品名,数量[L] or [-],単価[¥/L] or [¥],金額
11,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-04 00:00:00,GSL0001,レギュラー,20,120,2400
12,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-05 00:00:00,GSL0002,ハイオク,45,160,7200
13,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-06 00:00:00,GSL0003,軽油,50,100,5000
14,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-07 00:00:00,GDS0002,コロン,3,800,2400
15,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-08 00:00:00,CMT0004,オイル交換,1,1000,1000
16,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-09 00:00:00,CMT0002,洗車 B,1,1500,1500
17,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-10 00:00:00,GSL0003,軽油,50,100,5000
18,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-11 00:00:00,GSL0002,ハイオク,40,160,6400
19,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-12 00:00:00,CMT0005,タイヤ交換,1,4000,4000
20,"Primagest, Inc.",6,12,2020/10/31,綿貫,2.0,2020-10-13 00:00:00,GSL0003,軽油,50,100,5000


In [63]:
# 最後に上記の結合(集計)したデータフレームを一つのExcelブックにまとめて出力する。
df.to_excel('output/all_data.xlsx', index=False)