# 第12回：複数のExcelファイルに分散した売上データを分析する

目標：「**月ごとに分かれた売上データ（Excelファイル）を集計と売上をまとめる**」



## データの準備

今回使用するデータをGoogle DriveにアップしてColab上で利用できるようにします．  
今回使用するデータは「sales_analysis.zip」として配布します．  
配布場所は[Moodle](https://moodle2023.shonan-it.ac.jp/mod/resource/view.php?id=55174)もしくは[github](https://github.com/shimizu-sit/2023-SIT-SCfCL/blob/main/12th-Lecture/excel.zip)からダウンロードしてください．  
ダウンロードしたZIPファイルを展開（解凍）して，そのフォルダごとGoogle Driveの作業場所にアップしてください．

## ライブラリ等のインポート
pandasなどをインポートする

In [28]:
import os

import pandas as pd

## フォルダの中のExcelファイルを読み込む

「excel」フォルダ内にあるExcelファイルをすべて読み込む

### 対象ファイルの一覧を取得

「excel」フォルダ内のファイルの一覧を取得する．  
教科書では相対パスを使っているがColabでGoogle Driveのファイルやフォルダを指定する場合，絶対パスも相対パスも同じなる．
その理由がこのファイルを実行している位置がcontentフォルダ内だからである．

In [29]:
folder_path = '/content/drive/MyDrive/SIT_2023/SCfCL/sales_analysis/excel/'

excel_files = os.listdir(folder_path)

excel_files

['2020年2月_売上.xlsx', '取引先流入元.xlsx', '2020年3月_売上.xlsx', '2020年1月_売上.xlsx']

### 売上データを読み込む
- Excelファイル内の売上データのみをpandasを使って読み込む
- pandasでExcelファイルの読み込むには `read_excel()` 関数を使用する
- 対象ファイルが複数あるが売上データのファイル名には「売上」という文字列があるのでそれを利用してfor文とif文を使って読み込む

In [30]:
# Excelファイルの中のデータをとりだすためのリストを定義
list_sales_data = []

# Excelファイルの売上データを取り出す
for excel_file in excel_files:
  if '売上' in excel_file:
    sales_data = pd.read_excel(folder_path + excel_file)
    list_sales_data.append(sales_data)

list_sales_data

[  営業担当  取引先名  商品名     売上金額
 0   鈴木  取引先A  機械A   600000
 1   田中  取引先B  機械B   600000
 2   村上  取引先D  機械B   250000
 3   鈴木  取引先E  機械B  1080000
 4   山本  取引先G  機械A  1550000
 5   鈴木  取引先H  機械A   960000
 6   田中  取引先I  機械B   400000
 7   村上  取引先J  機械B   660000
 8   山本  取引先K  機械A  1450000,
   営業担当  取引先名  商品名     売上金額
 0   田中  取引先B  機械B   600000
 1   山本  取引先C  機械A   660000
 2   村上  取引先D  機械B   250000
 3   鈴木  取引先E  機械B  1080000
 4   鈴木  取引先F  機械B  1000000
 5   山本  取引先G  機械A   930000
 6   田中  取引先I  機械B   400000
 7   村上  取引先J  機械B   660000
 8   山本  取引先K  機械A  1450000,
   営業担当  取引先名  商品名     売上金額
 0   鈴木  取引先A  機械A   600000
 1   田中  取引先B  機械B   200000
 2   山本  取引先C  機械A   330000
 3   村上  取引先D  機械B  1250000
 4   鈴木  取引先E  機械B   810000
 5   鈴木  取引先F  機械B   400000
 6   山本  取引先G  機械A  1240000
 7   鈴木  取引先H  機械A   960000
 8   村上  取引先I  機械B   200000]

### 取引先流入元データの読み込み

- Excelファイル内の取引先流入元データのみを読み込む
- 対象ファイルが1つしかないので直接ファイル名を指定する

In [31]:
sales_channel = pd.read_excel(folder_path + '取引先流入元.xlsx')

sales_channel

Unnamed: 0,取引先名,流入元
0,取引先A,2019年度展示会
1,取引先B,2019年10月DM
2,取引先C,2019年8月DM
3,取引先D,顧客からの紹介
4,取引先E,テレアポ
5,取引先F,2019年度展示会
6,取引先G,テレアポ
7,取引先H,2019年10月DM
8,取引先I,2019年8月DM
9,取引先J,2019年度展示会


## 各月ごとに分かれている売上データを連結する

- 売上データを `concat()` 関数を使って連結する

In [32]:
sales_summary = pd.concat(list_sales_data, ignore_index=True)

sales_summary

Unnamed: 0,営業担当,取引先名,商品名,売上金額
0,鈴木,取引先A,機械A,600000
1,田中,取引先B,機械B,600000
2,村上,取引先D,機械B,250000
3,鈴木,取引先E,機械B,1080000
4,山本,取引先G,機械A,1550000
5,鈴木,取引先H,機械A,960000
6,田中,取引先I,機械B,400000
7,村上,取引先J,機械B,660000
8,山本,取引先K,機械A,1450000
9,田中,取引先B,機械B,600000


## 売上データと顧客流入元データを結合する

- 売上データと顧客流入元データを結合する
- 「取引先名」をキーにして結合する
- pandasの `merge()` 関数を使う


In [33]:
summary = pd.merge(sales_channel, sales_summary, on='取引先名')

summary

Unnamed: 0,取引先名,流入元,営業担当,商品名,売上金額
0,取引先A,2019年度展示会,鈴木,機械A,600000
1,取引先A,2019年度展示会,鈴木,機械A,600000
2,取引先B,2019年10月DM,田中,機械B,600000
3,取引先B,2019年10月DM,田中,機械B,600000
4,取引先B,2019年10月DM,田中,機械B,200000
5,取引先C,2019年8月DM,山本,機械A,660000
6,取引先C,2019年8月DM,山本,機械A,330000
7,取引先D,顧客からの紹介,村上,機械B,250000
8,取引先D,顧客からの紹介,村上,機械B,250000
9,取引先D,顧客からの紹介,村上,機械B,1250000


## 顧客流入元ごとの売上合計を集計する

- 「流入元」をキーにして集計する
- `groupby()` メソッドを使う
- 売上合計なので `GroupBy` オブジェクトの `sum()` メソッドを使う

In [34]:
sales_by_channel = summary.groupby('流入元').sum()

sales_by_channel

  sales_by_channel = summary.groupby('流入元').sum()


Unnamed: 0_level_0,売上金額
流入元,Unnamed: 1_level_1
2019年10月DM,6220000
2019年8月DM,1990000
2019年度展示会,3920000
テレアポ,6690000
顧客からの紹介,1750000


## Excelファイルに集計データを出力する

- 出力するもの
  - 売上データと顧客流入元データを結合データ(summary)
  - 流入元ごとの売上データ(sales_by_channel)
- pandasでExcelに書き出す時に複数シートにデータを書き出すには `ExcelWriter()` オブジェクトを利用し `to_excel()` メソッドで1シートずつ書き出す

In [37]:
output_path = '/content/drive/MyDrive/SIT_2023/SCfCL/sales_analysis/'

with pd.ExcelWriter(output_path + 'summary.xlsx') as writer:
  summary.to_excel(writer, sheet_name='売上サマリー')
  sales_by_channel.to_excel(writer, sheet_name='流入元ごとの売上')