<div style="text-align: right; font-weight: bold;">
東京工科大学コンピュータサイエンス学部<br>
福西広晃
</div>

----

<span style="font-size: 230%; color: black;">Pythonによるデータの操作と統計計算（表データ）</span>

----

**質問**<br>
エクセル（Excel）は表データを扱うツールです。エクセルででできることを挙げてみよう。

----

# Pandasとは
- データ操作を高速かつ効率的に扱うデータ解析支援ライブラリ
  - ライブラリとは、よく使う機能・関数をまとめて、簡単に使えるようにしたもの
<br><br>
- Pandasでできること
  - データの読み込み、整形、加工、結合、保存
  - データの検索・表計算・集計
  - データの可視化(グラフ作成)
<br><br>
- これらの操作はエクセルでも可能であるが、Pandasを利用すればエクセルでは扱えないような以下のことが可能になる→作業効率化
  - `大量データの高速処理`
  - `ルーチンワークの自動化`<br>
<br><br>
- pandasが使えることは、データサイエンスやAIの専門領域では必須であるが、日常業務でも利用できないわけではない。業務データ（例えば顧客データ）に対する処理を自動化し、業務効率化を行うことができれば企業内での評価も上がることでしょう

## Pandasのデータ型
- Pandasでは変数とテーブルデータ（表形式のデータ）を繋げて扱う
- Pandasには`DataFrame型`(データフレーム)と`Series型`(シリーズ)のデータ構造がある
  - `データフレーム`は、表データ（ラベル付き2次元データ）で`値`、`インデックス`（行）、`カラム`（列）から成る（Excelシートのイメージ）
  - `シリーズ`は、１次元データで`値`、 `インデックス`から成る（リスト型に類似）
![image-2.png](attachment:image-2.png)



----

# 準備

## Pandasのインポート
- インポートとは`pandas`を使用できるように呼び出すこと。以下のように記述。
```Python 
import pandas as pd
```
- `as pd`とは、プログラム内でpandasを`pd`という名前で使用するということ。慣習的に`pd`とする。
- 一度インポートしておけば、プログラムファイルを閉じるまで利用できる

In [None]:
import pandas as pd

##  Excelファイルを出力するための`openpyxl`のインストール

In [None]:
#以下のコメントアウトを外してください
#! pip install openpyxl 

## Googleドライブ内のファイルに接続するための設定
- googleドライブ内のファイルを読み込み（またはデータを出力）を行うために、Googleドライブへの接続が必要（毎回の作業前）

**Googleドライブへの接続**
- 同期に関するチェックボタンが表示された場合、全てのチェックを入れる

In [None]:
#以下のコメントアウトを外してください
#from google.colab import drive
#drive.mount('/content/drive')

----

# ファイルからのデータの読み込み

## Excelファイルの読み込み
- `read_excel`を用いて読み込み
```Python
データフレーム名 = pd.read_excel(読み込むExcelファイル, sheet_name="シート名")
```

In [None]:
import pandas as pd

# ファイルの指定
xlsxfile  = "dataset/都道府県別人口推移.xlsx" # dataset内のExcelファイル

# Googleドライブの場合は次のコメントアウトを外す
# xlsxfile = "drive/My Drive/Colab Notebooks/第03回_プログラム/dataset/都道府県別人口推移.xlsx"

# データの読み込み
df_population = pd.read_excel(xlsxfile, sheet_name="全データ")

# データの表示
display(df_population)

## 練習
平成のみの都道府県別人口データが`dataset`フォルダの`都道府県別人口推移.xlsx`の`平成`のシートにある。このデータを`df_population_H`という名前のデータフレームに読み込んでみよう。また、`df_population_H`を表示してみよう。

## [参考] Webサイトの表データの取得
- read_htmlを用いて読み込む
- 第1引数はWebサイトのurl
- 取得した表データはリスト型で格納される
  - Webサイトに複数の表がある場合は次のように格納されている: [表1, 表2,・・・]
  - 特定の表を取り出す場合はインデックス(要素番号)を指定
- [ここで扱うWebサイト](https://ja.wikipedia.org/wiki/%E8%BF%91%E4%BB%A3%E3%82%AA%E3%83%AA%E3%83%B3%E3%83%94%E3%83%83%E3%82%AF%E3%81%A7%E3%81%AE%E5%9B%BD%E3%83%BB%E5%9C%B0%E5%9F%9F%E5%88%A5%E3%83%A1%E3%83%80%E3%83%AB%E7%B7%8F%E7%8D%B2%E5%BE%97%E6%95%B0%E4%B8%80%E8%A6%A7)

In [None]:
import pandas as pd

# urlの設定
url = "https://ja.wikipedia.org/wiki/%E8%BF%91%E4%BB%A3%E3%82%AA%E3%83%AA%E3%83%B3%E3%83%94%E3%83%83%E3%82%AF%E3%81%A7%E3%81%AE%E5%9B%BD%E3%83%BB%E5%9C%B0%E5%9F%9F%E5%88%A5%E3%83%A1%E3%83%80%E3%83%AB%E7%B7%8F%E7%8D%B2%E5%BE%97%E6%95%B0%E4%B8%80%E8%A6%A7"

# 表データ取得
list_tables = pd.read_html(url, encoding='utf-8')

# インデックス(要素番号)0の表を取得
df_url = list_tables[1]

# 表示
display(df_url)

**自分の好きなWebページの表データを取得してみよう**

----

# ファイルへのデータの出力

## データフレームをExcelファイルとして出力
- **新規のExcelファイルに出力する場合**
```Python
データフレーム名.to_excel("Excelファイル名", sheet_name = "シート名")
```
sheet_nameは、エクセルのシート名を設定（名前は自由）
<br><br>

- **既存のExcelファイルにシートを追加して出力する場合**
```Python
with pd.ExcelWriter("Excelファイル名", engine="openpyxl", mode='a',  if_sheet_exists="replace") as writer:
      データフレーム名.to_excel(writer, sheet_name = "シート名", index=False)
```

以下の条件でデータを`新規`のEcelファイルに出力する例
- 出力するデータフレーム名：`df_population`
- Excelファイル名：`都道府県別人口推移_データ出力.xlsx`
- シート名：`都道府県別人口推移_全データ`<br>

実行後にExcelファイルを開いて確認してみよう

In [None]:
# ファイルの指定
xlsxfile  = "都道府県別人口推移_データ出力.xlsx" # dataset内のxlsxファイル

# Googleドライブの場合は次のコメントアウトを外す
# xlsxfile = "drive/My Drive/Colab Notebooks/第03回_プログラム/都道府県別人口推移_データ出力.xlsx"

# 出力
sheet = "都道府県別人口推移_全データ" # シート名
df_population.to_excel(xlsxfile, sheet_name=sheet)

以下の条件でデータを`既存`のEcelファイルにシートを追加する例
- 出力するデータフレーム名：`df_population`
- Excelファイル名：`都道府県別人口推移_データ出力.xlsx`
- シート名：`都道府県別人口推移_全データ(追加)`<br>

実行後にExcelファイルを開いて確認してみよう

In [None]:
# シート追加
# 都道府県別人口推移_データ出力.xlsxのファイル名はxlsxfileに代入されているので利用する

sheet = "都道府県別人口推移_全データ(追加).xlsx" # シート名
with pd.ExcelWriter(xlsxfile, engine="openpyxl", mode='a',  if_sheet_exists="replace") as writer:
    df_population.to_excel(writer, sheet_name=sheet)

## 練習
最初の練習で使用した`df_population_H`のデータフレームをExcelファイルのシートに追加してみよう。実行後にExcelファイルを開いて確認してみよう。
- 出力するデータフレーム名: `df_population_H`
- Excelファイル名: `都道府県別人口推移_データ出力.xlsx`
- シート名: `都道府県別人口推移_平成`

----

# データ構造の確認

## サンプル数の確認
- データ分析において、サンプル数（データ数）を報告することは必須
- サンプル数はデータフレームの行数に対応
- 組み込み関数の`len関数`を使用して行数を取得すればよい

In [None]:
# 行数（サンプル数）を取得
num_sample = len(df_population)

# 表示
print("行数:", num_sample)

## 練習
最初の練習で使用した`df_population_H`の行数を表示することによってサンプル数を確認してみよう

----

# 特定の列または行の抽出

## 先頭行または末尾行のデータを抽出
- 先頭x行を抽出
```
データフレーム名.head(x)
```
- 先頭5行の場合のみ`データフレーム名.head()`でも可能
- データをざっくりと確認するために`head()`は非常によく使う
<br><br>
- 末尾x行を抽出
```
データフレーム名.tail(x)
```

In [None]:
# 先頭3行を表示
df_head = df_population.head(3)
display(df_head)

# 末尾5行を表示
df_tail = df_population.tail(5)
display(df_tail)

## 1列抽出
```
データフレーム名["列名"]
```

- 抽出された1列は`Series型`

In [None]:
# 人口（総数）の列を抽出
col = df_population["人口（総数）"]

display(col)

## 複数列を抽出
```
データフレーム名[リスト]
→データフレーム名[["列名1","列名2", ・・・]]
```
- 抽出された複数列は`DataFrame型`

In [None]:
# 人口（総数）、人口（男）、人口（女)の3列を抽出
df_cols = df_population[["人口（総数）", "人口（男）", "人口（女）"]]

display(df_cols)

## 練習

(1) 最初の練習で用いた`df_population_H`の先頭10行を`df_head`に代入し、表示してみよう

(2) `df_population_H`の都道府県コードと都道府県名の2列を`df_cols`に代入し、表示してみよう

----

# 条件に一致したデータの抽出
- 演算子一覧
- Pandasの論理演算子は`and`、`or`、`not`の表記が使えないことに注意<br><br>

|          |     |                      |
|:-:       |:-:  |:--                   |
|比較演算子| <   | 小さい               |
|          | >   | 大きい               |
|          | <=  | 以上                 |
|          | >=  | 以下                 |
|          | ==  | 等しい               |
|          | !=  | 等しくない           |
|論理演算子| &   | 両者を満たす         |
|          | \|  | どちらか片方を満たす |
|          | !=  | 満たさない           |
|          |     |                      |

## 条件の設定
- 西暦（年）が2000に一致する行であるかを真偽値（True（真）またはFalse（偽））で判定

In [None]:
# 行ごとに条件に一致するかを判定
TrueFalse = (df_population["西暦（年）"] == 2000)

# 真偽値を出力(シリーズ型で出力)
display(TrueFalse)

## 真偽値を用いてTrue（真）の行のみを抽出
```
データフレーム名[真偽値]
```

In [None]:
# データフレームに結果を代入
df_TrueFalse = df_population[TrueFalse] 

# 表示
display(df_TrueFalse) 

## 論理演算子を用いた複数条件による抽出
- 【注意】条件ごとに()で括る必要がある: (条件1) & (条件2)

**2000年以降の奈良県の人口を抽出**

In [None]:
# 行ごとに条件に一致するかを判定
TrueFalse = (df_population["西暦（年）"] >= 2000) & (df_population["都道府県名"] == "奈良県")

# データフレームに結果を代入
df_TrueFalse = df_population[TrueFalse] 

# 表示
display(df_TrueFalse) 

## 抽出した結果をExcelファイルに出力(シートを追加)
- データフレーム名: `df_TrueFalse`
- Excelファイル名: `都道府県別人口推移_データ出力.xlsx`（既に使用しているxlsxfileの変数を利用）
- シート名: `奈良県_1980年以降`

In [None]:
# シート追加
# 都道府県別人口推移_データ出力.xlsxのファイル名はxlsxfileに代入されているので利用する

sheet = "奈良県_2000年以降" # シート名
with pd.ExcelWriter(xlsxfile, engine="openpyxl", mode='a',  if_sheet_exists="replace") as writer:
    df_TrueFalse.to_excel(writer, sheet_name=sheet)

## 練習
最初の練習で用いた`df_population_H`のデータフレームを用いて以下の小問をやってみよう

(1) 全年度の東京都の人口を抽出して`df_TrueFalse_01`に代入し表示してみよう

(2) 西暦2010年以降の人口を抽出して`df_TrueFalse_02`に代入し表示してみよう

(3) 西暦2010年以前の沖縄県の人口を抽出して`df_TrueFalse_03`に代入し表示してみよう

(4) (3)の抽出結果をExcelファイルに出力してみよう(シートを追加)
- データフレーム名: `df_TrueFalse_03`
- Excelファイル名: `都道府県別人口推移_データ出力.xlsx`（既に使用しているxlsxfileの変数を利用）
- シート名: `沖縄県_2010年以前`

----

# データ並び替え
- 指定した列名で並び替え
  - 昇順： `データフレーム名.sort_values(by="列名")`
  - 降順： `データフレーム名.sort_values(by="列名", ascending=False)`
<br><br>
- 元のデータを並び替えて更新(inplace=Trueの引数を追加)<br>
  `データフレーム名.sort_values(by="列名", inplace=True)`

## 昇順で並び替え

**1920年の都道府県別人口（総数)で並び替え**

In [None]:
# 1920年データの判定
TrueFalse = df_population["西暦（年）"] == 1920

# 並び替え
df_sort = df_population[TrueFalse].sort_values(by="人口（総数）")

# 表示
display(df_sort)

## 降順で並び替え

**1920年の都道府県別人口（総数)で並び替え**

In [None]:
# 1920年データの判定
TrueFalse = (df_population["西暦（年）"] == 1920)

# 並び替え
df_sort = df_population[TrueFalse].sort_values(by="人口（総数）", ascending=False)

# 表示
display(df_sort)

## 練習
最初の練習で用いた`df_population_H`のデータフレームを用いるものとする。1990年の都道府県別の人口（男）を降順で並び替えて、上位10都道府県を表示してみよう

----

# 列同士の演算
- 2列の演算
  - `データフレーム名["列名(追加)"] = データフレーム名["列名1"] + データフレーム名["列名2"]`
  - `データフレーム名["列名(追加)"] = データフレーム名["列名1"] - データフレーム名["列名2"]`
  - `データフレーム名["列名(追加)"] = データフレーム名["列名1"] * データフレーム名["列名2"]`
  - `データフレーム名["列名(追加)"] = データフレーム名["列名1"] / データフレーム名["列名2"]`
<br><br>
- 3列以上の演算
  - 2列の演算と同様

**男女の人口の差を`男女差`の列名で追加**

In [None]:
df_population["男女差"] = df_population["人口（男）"] - df_population["人口（総数）"]

display(df_population)

## 練習
最初の練習で用いたdf_population_Hを用いるものとする。

(1) 男女の人口の差を`男女差`の列名で追加して表示してみよう。

(2) 男性比率（単位%）を`男性比率`の列名で、女性比率（単位%）を`女性比率`の列名で追加して表示してみよう。

(3) 2015年のデータを抽出し、女性比率が高い順（降順）に都道府県を並び替えよう。また、女性比率が高い上位5都道府県を表示してみよう。

----

# 列の削除
- 1列を削除する場合<br>
  `データフレーム名.drop("列名", axis=1)`
<br><br>
- 2列以上を削除する場合(リストで削除):<br> 
  `データフレーム名.drop(["列名1","列名2","列名3",・・・], axis=1)`
<br><br>
- 【参考】元データフレームを更新する場合(引数にinplace=Trueを追加):<br> 
  `データフレーム名.drop("列名", axis=1, inplace=True)`

In [None]:
# 男女差列を削除
df_drop = df_population.drop("男女差", axis=1)

display(df_drop) 

## 練習
１つ前の練習で用いたdf_population_Hのデータフレームをを用いるものとする。`男女差`、`男性比率`、`女性比率`の列を削除した結果を`df_drop`に代入し表示してみよう

----

# 統計量の算出

## データ取得
Boston house-prices:  
「1970年代後半における（米国マサチューセッツ州）ボストンの住宅価格」のデータを使用

----
- CRIM： 町別の「犯罪率」
- ZN： 25,000平方フィートを超える区画に分類される住宅地の割合＝「広い家の割合」
- INDUS： 町別の「非小売業の割合」
- CHAS： チャールズ川のダミー変数（区画が川に接している場合は1、そうでない場合は0）＝「川の隣か」
- NOX： 「NOx濃度（0.1ppm単位）」＝一酸化窒素濃度（parts per 10 million単位）。この項目を目的変数とする場合もある
- RM： 1戸当たりの「平均部屋数」
- AGE： 1940年より前に建てられた持ち家の割合＝「古い家の割合」
- DIS： 5つあるボストン雇用センターまでの加重距離＝「主要施設への距離」
- RAD： 「主要高速道路へのアクセス性」の指数
- TAX： 10,000ドル当たりの「固定資産税率」
- PTRATIO： 町別の「生徒と先生の比率」
- B： 「1000(Bk - 0.63)」の二乗値。Bk＝「町ごとの黒人の割合」を指す
- LSTAT： 「低所得者人口の割合」
- MEDV：「住宅価格」（1000ドル単位）の中央値。通常はこの数値が目的変数として使われる

In [None]:
import pandas as pd

# ファイルの指定
xlsxfile  = "dataset/boston.xlsx" # dataset内のExcelファイル

# Googleドライブの場合は次のコメントアウトを外す
# xlsxfile = "drive/My Drive/Colab Notebooks/第03回_プログラム/dataset/販売データ.xlsx"

# データをpandasで読み込み
sheet     = "boston"
df_boston = pd.read_excel(xlsxfile, sheet_name=sheet)

# 先頭10行を表示
display(df_boston.head(10))

## 基本統計量の一覧を出力
- 以下を実行すると、各列（数値列）の基本統計量が計算される
```
データフレーム名.describe()
```
- 計算結果はデータフレームとして得られる
- 最初にデータの状況を確認する場合に便利

|      |                 |                                                                                    |
|:-:   |:-:              |:--                                                                                 |
|count |標本数　　　　　 |行数　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　|
|mean  |平均値           |算術平均                                                                            |
|std   |標準偏差         |データのばらつき                                                                    |
|min   |最小値           |最も小さい値                                                                        |
|25%   |第1四分位数      |データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の1番目にあたる値|
|50%   |第2四分位数(中央値)      |データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の2番目にあたる値|  
|75%   |第3四分位数      |データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の3番目にあたる値|  
|max   |最大値　　　　   |最も大きい値                                                                        |
|      |                 |                                                                                    |

In [None]:
# 統計量を計算
df_describe = df_boston.describe()

# 表示
display(df_describe)

## 個別の統計量の計算

||||
|:-:|:--|:--|
|要素の個数 |データフレーム名.count() | |
|算術平均|データフレーム名.mean()| |
|標準偏差|データフレーム名.std()|n-1で割った不偏標準偏差 |
|最小値|データフレーム名.min()| |
|最大値|データフレーム名.max()| |
|中央値|データフレーム名.median()| |
|最頻値|データフレーム名.mode()|最も出現回数の多い値 |
|ユニークな値の個数|データフレーム名.nuique()|重複を除いた件数 |
|特定の列のユニーク値の出現頻度|データフレーム名["列名"].value_counts()|Series型メソッド|
||||

### 全て列の平均値

In [None]:
display(df_boston.mean())

### 特定の列のユニークな値の出現頻度

In [None]:
# 対象列：RAD
display(df_boston["RAD"].value_counts())

## 練習
- 5教科（国語	英語	社会	数学	理科）のテスト結果のデータを用いる。以下に`5教科成績.xlsx`の`5教科成績`のシートを`df_score`のデータフレームに読み込む（このデータは架空データである）。
- 最初に表示されたデータを理解してみよう

In [None]:
import pandas as pd

# ファイルの指定
xlsxfile  = "dataset/5教科成績.xlsx" # dataset内のExcelファイル

# Googleドライブの場合は次のコメントアウトを外す
# xlsxfile = "drive/My Drive/Colab Notebooks/第03回_プログラム/dataset/5教科成績.xlsx"

# データの読み込み
sheet    = "5教科成績"   # シート名
df_score = pd.read_excel(xlsxfile, sheet_name=sheet)

# データの表示
display(df_score)

(1) 基本統計量の一覧を表示してみよう。計算結果は、`df_describe`のデータフレームに格納するものとする。<br>
また、計算結果を表示して、`学生数`、`最も平均点の高い教科`、`最もばらつきが大きい教科`(標準偏差)、`真ん中の学生の点数が最も低い教科`（中央値）、`最高点が最も高い教科`を確認してみよう。

(2) 各クラスの学生数を表示してみよう（特定の列のユニークな値の出現頻度を参考にしてください）。

----

# （オプション） ピボットテーブル

## データ取得
アパレル店の1年間の販売データ（架空のデータ）を用いる。以下に`販売データ.xlsx`の`実績管理表`のシートを`df_sale`のデータフレームに読み込む（このデータは架空データである）

In [None]:
import pandas as pd

# ファイルの指定
xlsxfile  = "dataset/販売データ.xlsx" # dataset内のExcelファイル
# Googleドライブの場合は次のコメントアウトを外す
# xlsxfile = "drive/My Drive/Colab Notebooks/第03回_プログラム/dataset/5教科成績.xlsx"

# データをpandasで読み込み
sheet   = "実績管理表"
df_sale = pd.read_excel(xlsxfile, sheet_name=sheet)

# 先頭20行を表示
display(df_sale.head(20))

---
**質問**<br>
あなたが店長だったとします。上記ような日ごとの販売データが記録されていたとして、どのような分析をしますか。

---

## ピボットテーブルとは

### 利用場面
- ピボットテーブルは、ユニーク値ごとにグループ化して統計量の算出するため用いられる
<br><br>
  - 例1: 商品ごとや、社員ごとの売上金額の合計を集計（この社員の売上金額はいくらか、この商品の売上金額はいくらか）
    - ユニーク値ごとにグループ化して集計
<br><br>    
  - 例2: 商品と社員の2項目を組み合わせた集計（この社員のこの商品に対する売上金額はいくらか）
    - `クロス集計`と呼ばれる
<br><br> 
- ピボットテーブルは特に`クロス集計`を行うときに威力を発揮
- ある項目のユニーク値ごとにグループ化して集計する場合は、Pandasの`groupby`メソッドを使うなどの代替手段がある


### 基本の書き方
  - ユニーク値ごとにグループ化して集計（集計結果はデータフレーム）
```
データフレーム名.pivot_table(index   = "集計単位の列名",
                             values  = "集計する列名",
                             aggfunc = "集計方法")
```
  - クロス集計（集計結果はデータフレーム）
```
データフレーム名.pivot_table(index   = "集計単位の列名1",
                             columns = "集計単位の列名2",
                             values  = "集計する列名", 
                             aggfunc = "集計方法")
```
- 集計方法には、`sum`(合計)、`mean`(平均)、 `count`(頻度)、または`独自の関数`が設定できる。
- 引数に`margins = True`を追加すると合計列及び合計行が作成される。その際の合計列及び合計行の名前は`all`となる
- 合計列及び合計行の名前を`all`から変更したい場合には、引数に`margins_name = "合計"`を追加する

## グループ化して集計

### 社員ごとの売上金額を集計
- どの社員の売上成績がよいのかを確認

In [None]:
# 集計
df_pivot = df_sale.pivot_table(index   = "社員ID",    # 集計単位の項目
                               values  = "売上金額",  # 集計する値
                               aggfunc = "sum",       # 集計方法
                               margins = True,        # 合計の追加 
                               margins_name = "合計") # 合計に使用する項目名
# 表示
display(df_pivot) 

### 商品名ごとの売上金額を集計
- どの商品が売上に貢献しているかを確認

In [None]:
# 集計
df_pivot = df_sale.pivot_table(index   = "商品名",    # 集計単位の項目
                               values  = "売上金額",  # 集計する値
                               aggfunc = "sum",       # 集計方法
                               margins = True,        # 合計の追加
                               margins_name = "合計") # 合計に使用する項目名
# 表示
display(df_pivot) 

### 練習
社員の性別で売上金額に違いがあるのかを確認してみよう
- `df_sale`のデータフレームを用いるものとする
- ピボットテーブルを用いて性別ごとの売上金額の合計を出力してみよう。<br>
- 集計結果は、`df_pivot`のデータフレームに格納するものとする。

## クロス集計(2項目の組み合わせて集計)

### 各社員の売上金額を商品分類ごとに集計
・どの社員がどの商品の売上成績がよいかを確認

In [None]:
# 集計
df_pivot = df_sale.pivot_table(index   = "社員ID",   # 集計単位の項目（行）
                               columns = "商品分類", # 集計単位の項目 （列）
                               values  = "売上金額", # 集計する値
                               aggfunc = "sum",      # 集計方法
                               margins = True,        # 合計の追加
                               margins_name = "合計") # 合計に使用する項目名
# # 表示
display(df_pivot)

### 行名を複数項目で設定
- 各社員の売上月ごとの売上金額を商品分類ごとに集計
- `index`をリストで指定

In [None]:
# 集計
df_pivot = df_sale.pivot_table(index   = ["社員ID", "売上月"], # 集計単位の項目（行）
                               columns = '商品分類',           # 集計単位の項目（列）
                               values  = "売上金額",           # 集計する値
                               aggfunc = "sum",                # 集計方法
                               margins = True,                # 合計の追加
                               margins_name = "合計")         # 合計に使用する項目名
# 表示
display(df_pivot) 

### 列名を複数項目で設定
- 各社員の売上金額を商品分類ごと・商品ごとに集計
- `columns`をリストで指定

In [None]:
# 集計
df_pivot = df_sale.pivot_table(index   = "社員ID",              # 集計単位の項目（行）
                               columns = ["商品分類","商品名"], # 集計単位の項目（列）
                               values  = "売上金額",            # 集計する値
                               aggfunc = "sum",                 # 集計方法
                               margins = True,                  # 合計の追加
                               margins_name = "合計")           # 合計に使用する項目名
# 表示
display(df_pivot) 

### nan（欠損値）を特定の値で補完
- 引数に`fill_value= 値`を追加
- 今回のデータではnanを0で補完

In [None]:
# 集計
df_pivot = df_sale.pivot_table(index   = "社員ID", 
                               columns = ["商品分類","商品名"],  
                               values  = "売上金額", 
                               aggfunc = "sum",
                               margins = True,
                               margins_name = "合計",
                               fill_value= 0)

# 表示
display(df_pivot) 

### 練習
上記で使用した`df_sale`のデータフレームを用いるものとする

(1) 各社員の販売数量（数量）を商品名ごとに集計してみよう。
- ピボットテーブルを用いて集計する。
- 集計結果を`df_pivot_01`のデータフレームに代入する。
- 集計結果を出力し、商品ごとの販売数トップの社員を挙げてみよう。

(2) 各売上月の売上金額を商品名ごとに集計してみよう。
- ピボットテーブルを用いて集計する。
- 集計結果を`df_pivot_02`のデータフレームに代入する。
- 集計結果を出力し、各商品の季節ごとの販売状況を考察してみよう。