# Pandasでデータの個数を数え上げるcount関数の使い方
https://deepage.net/features/pandas-count.html#groupbyとcountの併用

## count関数
### 列ごとのデータの個数をカウントする

In [2]:
import pandas as pd

df = pd.DataFrame({'A':[0,2,3,1,4],'B':['a','c','e','e','a']})
df

Unnamed: 0,A,B
0,0,a
1,2,c
2,3,e
3,1,e
4,4,a


In [4]:
df.count()

A    5
B    5
dtype: int64

In [6]:
df.iloc[3,0] = None # 欠損値を入れる
df

Unnamed: 0,A,B
0,0.0,a
1,2.0,c
2,3.0,e
3,,e
4,4.0,a


In [7]:
df.count() # 欠損値はカウントされない

A    4
B    5
dtype: int64

### 行ごとのデータの個数を数える

In [8]:
df.count(axis=1) # 行ごとのデータの個数

0    2
1    2
2    2
3    1
4    2
dtype: int64

### MultiIndexで特定の階層を指定する

In [11]:
df_2 = pd.DataFrame([0,1,2,3,4,5,6,7,8,9],\
                    index=[['A','A','A','A','A','A','B','B','B','B'],\
                           [1,2,3,1,2,3,1,2,3,1]]) # MultiIndexの作成
df_2

Unnamed: 0,Unnamed: 1,0
A,1,0
A,2,1
A,3,2
A,1,3
A,2,4
A,3,5
B,1,6
B,2,7
B,3,8
B,1,9


In [13]:
df_2.index.names = ['class','grade'] # 階層にラベルをつける
df_2

Unnamed: 0_level_0,Unnamed: 1_level_0,0
class,grade,Unnamed: 2_level_1
A,1,0
A,2,1
A,3,2
A,1,3
A,2,4
A,3,5
B,1,6
B,2,7
B,3,8
B,1,9


それではカウントしていきます。

In [15]:
df_2.count(level='class') # level=0でも同じ結果が返ってくる

Unnamed: 0_level_0,0
class,Unnamed: 1_level_1
A,6
B,4


In [16]:
df_2.count(level='grade') # level=1もしくは-1でも同じ結果

Unnamed: 0_level_0,0
grade,Unnamed: 1_level_1
1,4
2,3
3,3


### 数値データのみを数える

数値データのみを数え上げたい時はnumeric_only=Trueとします。 こうすると、object型のデータ型だと値を数え上げることはしません。

In [17]:
df.count(numeric_only=True)

A    4
dtype: int64

In [19]:
df.loc[3,'B'] = 10
df

Unnamed: 0,A,B
0,0.0,a
1,2.0,c
2,3.0,e
3,,10
4,4.0,a


In [20]:
df.count(numeric_only=True) # 数値データとして認識されないのでカウント対象にならない。

A    4
dtype: int64

## GroupByとcountの併用

groupby関数とcount関数を使うことでvalue_counts関数のような操作を実現することが可能です。

また、グループごとのデータ個数も簡単に取得することが可能です。

In [21]:
df = pd.DataFrame({'class':['a', 'a', 'a', 'b', 'b','c'], 'score':[0, 20, 10, 1, 3, 21]})
df

Unnamed: 0,class,score
0,a,0
1,a,20
2,a,10
3,b,1
4,b,3
5,c,21


In [22]:
df.groupby('class').count()

Unnamed: 0_level_0,score
class,Unnamed: 1_level_1
a,3
b,2
c,1


カウント以外の値も取得したい時はgroupbyオブジェクトに対してagg関数に指定することで実現できます。

In [23]:
df.groupby('class').agg(['count','mean']) # 平均とデータ個数

Unnamed: 0_level_0,score,score
Unnamed: 0_level_1,count,mean
class,Unnamed: 1_level_2,Unnamed: 2_level_2
a,3,10
b,2,2
c,1,21
