**2022年度 東京成徳大学 特別講座 資料**<br>
**東京工科大学コンピュータサイエンス学部**<br>
**福西広晃**

----

<span style="font-size: 250%; color: black;">Pythonによるテーブルデータの操作と統計計算</span>

----

# 統計量の算出

## データ取得
今回用いるデータは、以下のデータです
<br><br>
Boston house-prices:  
「1970年代後半における（米国マサチューセッツ州）ボストンの住宅価格」のデータを使用

----
- CRIM： 町別の「犯罪率」
- ZN： 25,000平方フィートを超える区画に分類される住宅地の割合＝「広い家の割合」
- INDUS： 町別の「非小売業の割合」
- CHAS： チャールズ川のダミー変数（区画が川に接している場合は1、そうでない場合は0）＝「川の隣か」
- NOX： 「NOx濃度（0.1ppm単位）」＝一酸化窒素濃度（parts per 10 million単位）。この項目を目的変数とする場合もある
- RM： 1戸当たりの「平均部屋数」
- AGE： 1940年より前に建てられた持ち家の割合＝「古い家の割合」
- DIS： 5つあるボストン雇用センターまでの加重距離＝「主要施設への距離」
- RAD： 「主要高速道路へのアクセス性」の指数
- TAX： 10,000ドル当たりの「固定資産税率」
- PTRATIO： 町別の「生徒と先生の比率」
- B： 「1000(Bk - 0.63)」の二乗値。Bk＝「町ごとの黒人の割合」を指す
- LSTAT： 「低所得者人口の割合」
- MEDV：「住宅価格」（1000ドル単位）の中央値。通常はこの数値が目的変数として使われる

In [None]:
import pandas as pd

# ファイルの指定

# Google Colaboratoryの場合
file = "drive/My Drive/Colab Notebooks/dataset/boston.xlsx"

# Anacondaの場合(Google Colaboratoryの場合は削除してください)
file = "dataset/boston.xlsx"

# データをpandasで読み込み
df_boston = pd.read_excel(file, sheet_name="boston")

# 先頭10行を表示
display(df_boston.head(10))

## 基本統計量の一覧を出力
- 以下を実行すると、各列（数値列）の基本統計量が計算される
```
データフレーム名.describe()
```
- 計算結果はデータフレームとして得られる
- 最初にデータの状況を確認する場合に便利
||||
|:-:|:-:|:--|
|count |標本数　　　　　 |行数　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　|
|mean  |平均値           |算術平均                                                                            |
|std   |標準偏差         |データのばらつき                                                                    |
|min   |最小値           |最も小さい値                                                                        |
|25%   |第1四分位数      |データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の1番目にあたる値|
|50%   |第2四分位数(中央値)      |データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の2番目にあたる値|  
|75%   |第3四分位数      |データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の3番目にあたる値|  
|max   |最大値　　　　   |最も大きい値                                                                        |
||||

In [None]:
# 統計量を計算
df_describe = df_boston.describe()

# 表示
display(df_describe)

**結果をExcelファイルに出力(シートを追加)**
- データフレーム名: `df_describe`
- Excelファイル名: `出力結果.xlsx`（既に存在するファイル）
- シート名: `boston_基本統計量`
- index：出力あり

In [None]:
# 出力ファイル名を指定（Googleドライブの場合）
outfile = "drive/My Drive/Colab Notebooks/出力結果.xlsx"

# # 出力ファイル名を指定（Anacondaの場合, Google Colaboratoryの場合は削除してください)
outfile = "出力結果.xlsx"

# シート追加
with pd.ExcelWriter(outfile, engine="openpyxl", mode='a', if_sheet_exists="replace") as writer:
    df_describe.to_excel(writer, sheet_name="boston_基本統計量")

## 個別の統計量の計算

||||
|:-:|:--|:--|
|要素の個数 |データフレーム名.count() | |
|算術平均|データフレーム名.mean()| |
|標準偏差|データフレーム名.std()|n-1で割った不偏標準偏差 |
|最小値|データフレーム名.min()| |
|最大値|データフレーム名.max()| |
|中央値|データフレーム名.median()| |
|最頻値|データフレーム名.mode()|最も出現回数の多い値 |
|ユニークな値の個数|データフレーム名.nuique()|重複を除いた件数 |
|特定の列のユニーク値の出現頻度|データフレーム名.value_counts()|Series型メソッド|
||||

## 特定の列のユニークな値の出現頻度
- データフレームから対象の１列を抽出（シリーズ型になる）
- `シリーズ名.value_counts()`
- 出力もシリーズ型

In [None]:
vcount = df_boston["RAD"].value_counts()

# 特定の列のユニークな値の出現頻度を出力
display(vcount)

## 練習

- 5教科（国語	英語	社会	数学	理科）のテスト結果のデータを用いる。以下に「5教科成績.xlsx」の「5教科成績」のシートを`df_score`のデータフレームに読み込む（このデータは架空データである）。
- まず、表示されたデータフレームを見て、どのようなデータかを理解してください

In [None]:
import pandas as pd

# ファイルの指定

# Google Colaboratoryの場合
file = "drive/My Drive/Colab Notebooks/dataset/5教科成績.xlsx"

# # Anacondaの場合(Google Colaboratoryの場合は削除してください)
file = "dataset/5教科成績.xlsx"

# データをpandasで読み込み
df_score = pd.read_excel(file, sheet_name="5教科成績")

# 先頭10行を出力
display(df_score)

(1) 基本統計量の一覧を表示してみよう。計算結果は、`df_describe_02`のデータフレームに格納するものとする。<br>
また、計算結果を表示して、`学生数`、`最も平均点の高い教科`、`最もばらつきが大きい教科`(標準偏差)、`真ん中の学生の点数が最も低い教科`（中央値）、`最高点が最も高い教科`を確認してみよう。

(2) 各クラスの学生数を表示してみよう（特定の列のユニークな値の出現頻度を参考にしてください）。結果をvcount_02に格納するものとする。

(3) (1)の結果をExcelファイルに出力してみよう(シートを追加)
- データフレーム名: `df_describe_02`
- Excelファイル名: `出力結果.xlsx`（既に存在するファイル, 上記でoutputの変数に代入されているのでここでは代入する記述は不要）
- シート名: `5教科成績_基本統計量`
- index：出力あり

----

# ピボットテーブル

## データ取得
ここでは、アパレル店の1年間の販売データ（架空のデータ）を用いる。以下に「販売データ.xlsx」の「実績管理表」のシートを`df_sale`のデータフレームに読み込む（このデータは架空データである）

In [None]:
import pandas as pd

# ファイルの指定

# Google Colaboratoryの場合
file = "drive/My Drive/Colab Notebooks/dataset/販売データ.xlsx"

# Anacondaの場合(Google Colaboratoryの場合は削除してください)
file = "dataset/販売データ.xlsx"

# データをpandasで読み込み
df_sale = pd.read_excel(file, sheet_name="実績管理表")

# 表示
display(df_sale)

---
**質問**<br>
あなたが店長だったとします。上記ような日々の日々の販売データが記録されていたとして、どのような分析を行いますか。

---

- ピボットテーブルは、ユニーク値ごとにグループ化して統計量の算出するため用いられる
<br><br>
  - 例1: 商品ごとや、社員ごとの売上金額の合計を集計（この社員の売上金額はいくらか、この商品の売上金額はいくらか）
    - ある項目のユニーク値ごとにグループ化して集計
<br><br>    
  - 例2: 商品と社員の2項目を組み合わせた集計（この社員のこの商品に対する売上金額はいくらか）
    - `クロス集計`と呼ばれる
<br><br> 
- ピボットテーブルは特に`クロス集計`を行うときに威力を発揮
- ある項目のユニーク値ごとにグループ化して集計する場合は、Pandasの`groupby`メソッドを使うなどの代替手段がある
----
- 基本の書き方
  - ある項目のユニーク値ごとにグループ化して集計（集計結果はデータフレーム）
```
データフレーム名.pivot_table(index   = "集計単位の列名",
                             values  = "集計する列名",
                             aggfunc = "集計方法")
```
  - クロス集計（集計結果はデータフレーム）
```
データフレーム名.pivot_table(index   = "集計単位の列名1",
                             columns = "集計単位の列名2",
                             values  = "集計する列名", 
                             aggfunc = "集計方法")
```
- 集計方法には、`sum`(合計)、`mean`(平均)、 `count`(頻度)、または`独自の関数`が設定できる。
- 引数に`margins = True`を追加すると合計列及び合計行が作成される。その際の合計列及び合計行の名前は`all`となる
- 合計列及び合計行の名前を`all`から変更したい場合には、引数に`margins_name = "合計"`を追加する

## ある項目のユニーク値ごとにグループ化して集計

### 社員ごとの売上金額を集計
- どの社員の売上成績がよいのかを確認

In [None]:
df_pivot = df_sale.pivot_table(index   = "社員ID",    # 集計単位の列名
                               values  = "売上金額",  # 集計する列名
                               aggfunc = "sum",       # 集計方法
                               margins = True,        # 合計の追加 
                               margins_name = "合計") # 合計に使用する項目名
# 集計結果を出力
display(df_pivot) 

### 商品名ごとの売上金額を集計
- どの商品が売上に貢献しているかを確認

In [None]:
df_pivot = df_sale.pivot_table(index   = "商品名",    # 集計単位の列名
                               values  = "売上金額",  # 集計する列名
                               aggfunc = "sum",       # 集計方法
                               margins = True,        # 合計の追加
                               margins_name = "合計") # 合計に使用する項目名
# 集計結果を出力
display(df_pivot) 

### 練習

社員の性別で売上金額に違いがあるのかを確認したい。
- 上記の`df_sale`のデータフレームを用いるものとする
- ピボットテーブルを用いて性別ごとの売上金額の合計を出力してみよう。<br>
- 集計結果は、`df_pivot_02`のデータフレームに格納するものとする。

## クロス集計(2項目の組み合わせて集計)

### 各社員の商品分類ごとの売上金額を集計
・どの社員がどの商品の売上成績がよいかを確認

In [None]:
df_pivot = df_sale.pivot_table(index   = "社員ID",   # 集計単位の列名1
                               columns = "商品分類", # 集計単位の列名2 
                               values  = "売上金額", # 集計する列名
                               aggfunc = "sum",      # 集計方法
                               margins = True,        # 合計の追加
                               margins_name = "合計") # 合計に使用する項目名
# 集計結果を出力
display(df_pivot)

### 複数の集計方法で同時に集計
- 社員の販売回数を含めて表示

In [None]:
df_pivot = df_sale.pivot_table(index   = "社員ID", 
                               columns = "商品分類", 
                               values  = "売上金額", 
                               aggfunc = ["sum", "count"],
                               margins = True,
                               margins_name = "合計")
# 集計結果を出力
display(df_pivot.astype(int)) # 要素を整数値に変換

### 行名を複数項目で設定
- 各社員の売上月ごとの売上金額を商品分類ごとに集計

In [None]:
df_pivot = df_sale.pivot_table(index   = ["社員ID", "売上月"], 
                               columns = '商品分類', 
                               values  = "売上金額", 
                               aggfunc = "sum",
                               margins = True,
                               margins_name = "合計")
display(df_pivot) 

### 列名を複数項目で設定
- 各社員の売上金額を商品分類ごと・商品ごとに集計

In [None]:
df_pivot = df_sale.pivot_table(index   = "社員ID", 
                               columns = ["商品分類","商品名"], 
                               values  = "売上金額", 
                               aggfunc = "sum",
                               margins = True,
                               margins_name = "合計")
display(df_pivot) 

### nan（欠損値）を特定の値で補完
- 引数に`fill_value= 値`を追加
- 今回のデータではnanを0で補完

In [None]:
df_pivot = df_sale.pivot_table(index   = "社員ID", 
                               columns = ["商品分類","商品名"],  
                               values  = "売上金額", 
                               aggfunc = "sum",
                               margins = True,
                               margins_name = "合計",
                               fill_value= 0)
display(df_pivot) 

**結果をExcelファイルに出力(シートを追加)**
- データフレーム名: `df_pivot`
- Excelファイル名: `出力結果.xlsx`（既に存在するファイル, 上記でoutputの変数に代入されているのでここでは代入する記述は不要）
- シート名: `販売データ_ピボットテーブル`
- index：出力あり

In [None]:
with pd.ExcelWriter(outfile, engine="openpyxl", mode='a',  if_sheet_exists="replace") as writer:
    df_pivot.to_excel(writer, sheet_name="販売データ_ピボットテーブル")

### 練習

上記で使用した`df_sale`のデータフレームを用いるものとする

(1) 各社員の商品名ごとの販売数量（数量）を集計してみよう。
- ピボットテーブルを用いて集計する。
- 集計結果を`df_pivot_02`のデータフレームに代入する。
- 集計結果を出力し、商品ごとの販売数トップの社員を挙げてみよう。

(2) 各売上月の商品名ごとの売上金額を集計してみよう。
- ピボットテーブルを用いて集計する。
- 集計結果をdf_pivot_03のデータフレームに代入する。
- 集計結果を出力し、各商品の季節ごとの販売状況を考察してみよう。

(3) (2)の結果をExcelファイルに出力してみよう(シートを追加)
- データフレーム名: `df_pivot_03`
- Excelファイル名: `出力結果.xlsx`（既に存在するファイル, 上記でoutputの変数に代入されているのでここでは代入する記述は不要）
- シート名: `販売データ_ピボット2`
- index：出力あり

----