# データ集計（groupby）の方法
Pandasでのデータ集計の方法について。カテゴリごとに合計や平均等の集計をしたり、関数を使用して集計方法をカスタマイズしたりすることもでる。こちらはgroupbyメソッド編

## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの平均を算出

In [2]:
import pandas as pd
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
# df.groupby('氏名') # この記述だけではオブジェクトになる
df.groupby('氏名').mean() # 数値型のカラム全て平均になる

Unnamed: 0_level_0,単価,数量,売上金額（円）
氏名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
上瀬 由和,7555.555556,6.333333,47000.0
井上 真,7458.333333,4.916667,37652.173913
宮瀬 尚紀,7025.641026,6.076923,43444.444444
河野 利香,8243.902439,5.073171,43600.0
石崎 和香菜,8016.949153,5.322034,41035.087719
西尾 謙,8117.647059,5.205882,43181.818182


## 氏名ごとの、売上金額（円）のみの平均を算出

In [25]:
# 売上金額だけ平均を求める
df[['氏名', '売上金額（円）']].groupby('氏名').mean() # 小数点以下が表示されて見えにくくなる

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,47000.0
井上 真,37652.173913
宮瀬 尚紀,43444.444444
河野 利香,43600.0
石崎 和香菜,41035.087719
西尾 謙,43181.818182


In [26]:
# 小数点以下を表示しない設定（小数点以下を丸める）
pd.options.display.float_format = '{:.0f}'.format # 小数点第二位まで表示した場合は、0の箇所を2にする

# 表示形式を元に戻す
# pd.reset_option('display.float_format')

In [27]:
df[['氏名', '売上金額（円）']].groupby('氏名').mean() 

# 売上金額が3桁ごとにカンマ区切りで表示
# df[['氏名', '売上金額（円）']].groupby('氏名').mean().applymap('{:,.0f}'.format)

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,47000
井上 真,37652
宮瀬 尚紀,43444
河野 利香,43600
石崎 和香菜,41035
西尾 謙,43182


## 北海道の人口と地方税額に関するデータが含まれるExcelファイルを読み込み、'市町村区分'ごとの'人口'の平均を、小数点以下第二位に丸めて算出

In [35]:
df = pd.read_excel('xlsx_files/data_pd09.xlsx')
pd.options.display.float_format = '{:.2f}'.format # 小数点第二位まで表示
df[['市町村区分', '人口']].groupby('市町村区分').mean()

Unnamed: 0_level_0,人口
市町村区分,Unnamed: 1_level_1
市,123545.8
村,1950.07
町,7088.43


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'の合計を算出

In [38]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.options.display.float_format = '{:.1f}'.format # 小数点第一位まで表示
df[['氏名', '売上金額（円）']].groupby('氏名').sum() 

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,1222000.0
井上 真,866000.0
宮瀬 尚紀,1564000.0
河野 利香,1744000.0
石崎 和香菜,2339000.0
西尾 謙,1425000.0


## 北海道の人口と地方税額に関するデータが含まれるExcelファイルを読み込み、'市町村区分'ごとの'人口'の合計を算出

In [39]:
df = pd.read_excel('xlsx_files/data_pd09.xlsx')
pd.options.display.float_format = '{:.0f}'.format # 小数点第二位まで表示
df[['市町村区分', '人口']].groupby('市町村区分').sum()

Unnamed: 0_level_0,人口
市町村区分,Unnamed: 1_level_1
市,4324103
村,29251
町,914408


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、欠損値を除いた'氏名'ごとの'売上金額（円）'の要素数を算出

In [41]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.options.display.float_format = '{:.0f}'.format # 小数点第一位まで表示
df[['氏名', '売上金額（円）']].groupby('氏名').count() 

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,26
井上 真,23
宮瀬 尚紀,36
河野 利香,40
石崎 和香菜,57
西尾 謙,33


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、欠損値を除いた'氏名'ごとの'売上金額（円）'の要素数を集計し、'井上 真'さんの売上件数のみを取得

In [3]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.options.display.float_format = '{:.0f}'.format # 小数点第一位まで表示
df[['氏名', '売上金額（円）']].groupby('氏名').count().loc['井上 真']

売上金額（円）    23
Name: 井上 真, dtype: int64

## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）の、欠損値込みの要素数を集計

In [7]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
df[['氏名', '売上金額（円）']].groupby('氏名').size() # シリーズで出力される

氏名
上瀬 由和     27
井上 真      24
宮瀬 尚紀     39
河野 利香     41
石崎 和香菜    59
西尾 謙      34
dtype: int64

## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、欠損値を含めた'氏名'ごとの'売上金額（円）の要素数を集計し、'西尾 謙’さんの要素数のみを表示

In [25]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
df[['氏名', '売上金額（円）']].groupby('氏名').size()[-1]

34

## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'の、5行目のデータを取得

In [37]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.options.display.float_format = '{:.1f}'.format # 小数点第一位まで表示
df[['氏名', '売上金額（円）']].groupby('氏名').nth(5)

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,21000.0
井上 真,48000.0
宮瀬 尚紀,56000.0
河野 利香,80000.0
石崎 和香菜,24000.0
西尾 謙,4000.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'のデータを降順に並び替え、降順に並び替えたデータから5行目のデータを取得

In [50]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.options.display.float_format = '{:.1f}'.format # 小数点第一位まで表示
df[['氏名', '売上金額（円）']].sort_values('売上金額（円）', ascending=False).groupby('氏名').nth(5)

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,64000.0
井上 真,54000.0
宮瀬 尚紀,70000.0
河野 利香,80000.0
石崎 和香菜,72000.0
西尾 謙,70000.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'の最大値を取得

In [52]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.options.display.float_format = '{:.1f}'.format # 小数点第一位まで表示
df[['氏名', '売上金額（円）']].groupby('氏名').max()

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,144000.0
井上 真,144000.0
宮瀬 尚紀,162000.0
河野 利香,162000.0
石崎 和香菜,180000.0
西尾 謙,180000.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'の最小値を取得

In [58]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.options.display.float_format = '{:.1f}'.format # 小数点第一位まで表示
df[['氏名', '売上金額（円）']].groupby('氏名').min()

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,4000.0
井上 真,3000.0
宮瀬 尚紀,3000.0
河野 利香,4000.0
石崎 和香菜,3000.0
西尾 謙,4000.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み、'氏名'と'商品分類'ごとの'売上金額（円）'の平均を取得

In [67]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.reset_option('display.float_format')
df[['氏名', '商品分類', '売上金額（円）']].groupby(['氏名',  '商品分類']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,売上金額（円）
氏名,商品分類,Unnamed: 2_level_1
上瀬 由和,アウター,102000.0
上瀬 由和,トップス,42285.714286
上瀬 由和,ボトムス,29714.285714
井上 真,アウター,70000.0
井上 真,トップス,25000.0
井上 真,ボトムス,22000.0
宮瀬 尚紀,アウター,77333.333333
宮瀬 尚紀,トップス,40666.666667
宮瀬 尚紀,ボトムス,35666.666667
河野 利香,アウター,76500.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'と'商品分類'ごとの'売上金額（円）'の平均を取得
グルーピングするカラムである'氏名'と'商品分類'を、マルチインデックスとして表示させない

In [91]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
# df[['氏名', '商品分類', '売上金額（円）']].groupby(['氏名',  '商品分類']).mean().reset_index() # ↓と同じ挙動
df[['氏名', '商品分類', '売上金額（円）']].groupby(['氏名', '商品分類'], as_index=False).mean()

Unnamed: 0,氏名,商品分類,売上金額（円）
0,上瀬 由和,アウター,102000.0
1,上瀬 由和,トップス,42285.714286
2,上瀬 由和,ボトムス,29714.285714
3,井上 真,アウター,70000.0
4,井上 真,トップス,25000.0
5,井上 真,ボトムス,22000.0
6,宮瀬 尚紀,アウター,77333.333333
7,宮瀬 尚紀,トップス,40666.666667
8,宮瀬 尚紀,ボトムス,35666.666667
9,河野 利香,アウター,76500.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'の平均と合計を取得

In [90]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
df[['氏名', '商品分類', '売上金額（円）']].groupby(['氏名']).agg(['mean', 'sum'])

Unnamed: 0_level_0,売上金額（円）,売上金額（円）
Unnamed: 0_level_1,mean,sum
氏名,Unnamed: 1_level_2,Unnamed: 2_level_2
上瀬 由和,47000.0,1222000.0
井上 真,37652.173913,866000.0
宮瀬 尚紀,43444.444444,1564000.0
河野 利香,43600.0,1744000.0
石崎 和香菜,41035.087719,2339000.0
西尾 謙,43181.818182,1425000.0


## 北海道の人口と地方税額に関するデータが含まれるExcelファイルを読み込み、'市町村区分'列ごとの'人口'の最大値と最小値を算出

In [99]:
df = pd.read_excel('xlsx_files/data_pd09.xlsx')
df
df[['人口', '市町村区分']].groupby(['市町村区分']).agg(['max', 'min'])
# df[['人口', '市町村区分']].groupby(['市町村区分']).agg(最大値=('人口', 'max'), 最小値=('人口', 'min')) # alias

Unnamed: 0_level_0,人口,人口
Unnamed: 0_level_1,max,min
市町村区分,Unnamed: 1_level_2,Unnamed: 2_level_2
市,1959313,3130
村,3917,729
町,44342,1447


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'の平均と合計を集計

In [115]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
pd.options.display.float_format = '{:.3f}'.format # 小数点第三位まで表示
df[['氏名', '商品分類', '売上金額（円）']].groupby(['氏名']).agg(['mean', 'sum']).applymap('{:,.0f}'.format)

Unnamed: 0_level_0,売上金額（円）,売上金額（円）
Unnamed: 0_level_1,mean,sum
氏名,Unnamed: 1_level_2,Unnamed: 2_level_2
上瀬 由和,47000,1222000
井上 真,37652,866000
宮瀬 尚紀,43444,1564000
河野 利香,43600,1744000
石崎 和香菜,41035,2339000
西尾 謙,43182,1425000


## 「令和２年の北海道各市町村の人口と地方税額（単位：千円）」のExcelファイルを読み込み、'市町村区分'列ごとの'人口'の最大値と最小値を抽出
カンマで3桁区切りをして、小数点以下を丸めて表示

In [116]:
df = pd.read_excel('xlsx_files/data_pd09.xlsx')
df[['人口', '市町村区分']].groupby(['市町村区分']).agg(['max', 'min']).applymap('{:,.1f}'.format)

Unnamed: 0_level_0,人口,人口
Unnamed: 0_level_1,max,min
市町村区分,Unnamed: 1_level_2,Unnamed: 2_level_2
市,1959313.0,3130.0
村,3917.0,729.0
町,44342.0,1447.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとに'売上金額（円）'の平均、合計、欠損値を除く要素数、最大値、最小値、標準偏差、分散を集計

In [118]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
df[['氏名', '売上金額（円）']].groupby(['氏名']).agg(['mean', 'sum', 'count', 'max', 'min', 'std', 'var']).applymap('{:,.0f}'.format)

Unnamed: 0_level_0,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）
Unnamed: 0_level_1,mean,sum,count,max,min,std,var
氏名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
上瀬 由和,47000,1222000,26,144000,4000,36037,1298640000
井上 真,37652,866000,23,144000,3000,34040,1158691700
宮瀬 尚紀,43444,1564000,36,162000,3000,29702,882196825
河野 利香,43600,1744000,40,162000,4000,39846,1587733333
石崎 和香菜,41035,2339000,57,180000,3000,30917,955855890
西尾 謙,43182,1425000,33,180000,4000,41297,1705465909


## 「アパレル会社の社員ごとの売上金額に関するデータ」のExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'の要約統計量（平均や標準偏差、最大値、最小値など）をまとめて集計

In [123]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
df[['氏名', '売上金額（円）']].groupby(['氏名']).agg(['describe']).applymap('{:,.0f}'.format)

Unnamed: 0_level_0,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）,売上金額（円）
Unnamed: 0_level_1,describe,describe,describe,describe,describe,describe,describe,describe
Unnamed: 0_level_2,count,mean,std,min,25%,50%,75%,max
氏名,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
上瀬 由和,26,47000,36037,4000,21750,37500,63750,144000
井上 真,23,37652,34040,3000,12500,28000,52000,144000
宮瀬 尚紀,36,43444,29702,3000,27000,42000,57000,162000
河野 利香,40,43600,39846,4000,15000,31000,63250,162000
石崎 和香菜,57,41035,30917,3000,18000,36000,56000,180000
西尾 謙,33,43182,41297,4000,18000,30000,54000,180000


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとの'売上金額（円）'の平均と合計、'単価'の最小値、'数量'の最大値をまとめて集計
・カンマで3桁区切りをして、小数点以下を丸めて表示

In [132]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
df[['氏名', '売上金額（円）', '単価', '数量']].groupby(['氏名']).agg({'売上金額（円）':['sum','mean'], '単価':'min', '数量':'max'}).applymap('{:,.0f}'.format)

Unnamed: 0_level_0,売上金額（円）,売上金額（円）,単価,数量
Unnamed: 0_level_1,sum,mean,min,max
氏名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
上瀬 由和,1222000,47000,3000,10
井上 真,866000,37652,3000,10
宮瀬 尚紀,1564000,43444,3000,10
河野 利香,1744000,43600,3000,10
石崎 和香菜,2339000,41035,3000,10
西尾 謙,1425000,43182,3000,10


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、引数に代入する値の合計に10%の税込表示をするcalculate_price_with_tax関数をdef文で作成。'売上金額（円）'を'氏名'でグルーピングし、集計方法として、作成したcalculate_price_with_tax関数を指定。税込表示された'氏名'ごとの'売上金額（円）'の合計を集計

・カンマで3桁区切りをして、小数点以下を丸めて表示。<br>
・cal_tax関数の引数名はpriceとする。<br>
・合計の算出には、NumPyライブラリのnp.sum関数を使用。<br>

In [168]:
import numpy as np


TAX_RATE: float = 1.10

def calculate_price_with_tax(price: int)-> float:
    """
    税込み価格を計算する関数

    Args:
        price: 商品の価格

    Returns:
        税込み価格の計算結果
    """
    return np.sum(price) * TAX_RATE

In [173]:
df = pd.read_excel('xlsx_files/sample.xlsx', sheet_name='実績管理表_売上欠損')
df[['氏名', '売上金額（円）']].groupby('氏名').agg({'売上金額（円）': calculate_price_with_tax}).applymap('{:,.0f}'.format)

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,1344200
井上 真,952600
宮瀬 尚紀,1720400
河野 利香,1918400
石崎 和香菜,2572900
西尾 謙,1567500


## 北海道の人口と地方税額に関するデータが含まれるExcelファイルを読み込み、引数に代入する値の最大値と最小値の比を算出するcalculate_ratio_of_max_min関数をdef文で作成。続いて、'地方税（千円）'を'市町村区分'でグルーピングし、集計方法として、作成したcalculate_ratio_of_max_min関数を指定し、'市町村区分'列ごとの'地方税（千円）'の最大値と最小値の比を算出。

・カンマで3桁区切りをして、小数点第1位に丸めて表示。<br>
・calculate_ratio_of_max_min関数の引数名はnumberとする。<br>
・最大値と最小値の算出には、NumPyライブラリのnp.max関数、np.min関数を使用。<br>

In [210]:
import pandas as pd
import numpy as np

def calculate_ratio_of_max_min(number: int) -> float:
    """
    最大値と最小値の比を算出する関数

    Args:
        number: 商品の価格

    Returns:
        最大値と最小値の比の計算結果
    """
    max_value = np.max(number)
    min_value = np.min(number)

    if min_value == 0:
        return float('inf')  # Handle division by zero
    else:
        return max_value / min_value

In [211]:
df = pd.read_excel('xlsx_files/data_pd09.xlsx')
df[['市町村区分', '地方税（千円）']].groupby('市町村区分').agg({'地方税（千円）': calculate_ratio_of_max_min}).applymap('{:,.1f}'.format)

Unnamed: 0_level_0,地方税（千円）
市町村区分,Unnamed: 1_level_1
市,1685.7
村,28.0
町,32.9
