# Pandas

## Pandas とは

- データ解析を支援するライブラリ
- データ構造表示と演算機能を提供する
  - データの入出力機能
  - 欠損値の処理
  - データの一部取り出し
  - 統計処理
  - データの可視化



## Pandasのデータ型
- Series  
１次元データ用

　　　　<img src="fig/series.png" width="5%">

- DataFrame  
２次元データ用

　　　　<img src="fig/dataframe.png" width="15%">


- Panel  
３次元以上のデータ用

　　　　<img src="fig/panel.png" width="15%">


## DataFrameの基本

- インポート

In [1]:
import pandas as pd

# 表が大きい時の表示範囲を制限
pd.set_option('display.max_columns', 9)
pd.set_option('display.max_rows', 10)

### DataFrameを作る
- pd.DataFrame() に DataFrame にしたいデータを与える
- columns= で列名をつけることができる
- index= で行名をつけることができる
  - できあがった DataFrame の columns 属性、index 属性を使って、後から列名、行名を付けることも可能
- リストから DataFrame を作る(列名、行名なし)

In [2]:
data = [[1,2,3],[4,5,6]]
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


  - リストから DataFrame を作る(列名、行名あり)

In [3]:
data = [[1,2,3],[4,5,6]]
df = pd.DataFrame( data, columns=['Col1','Col2','Col3'], index=['idx1','idx2'])
df

Unnamed: 0,Col1,Col2,Col3
idx1,1,2,3
idx2,4,5,6


- 列名、行名を後からつける

In [4]:
df.columns = ['c1', 'c2', 'c3']
df.index = ['i1', 'i2']
df

Unnamed: 0,c1,c2,c3
i1,1,2,3
i2,4,5,6


- 辞書から DataFrame を作る
  - 辞書のキーが列名になる

In [5]:
data = {'C1': [1, 4], 
        'C2': [2, 5],
        'C3': [3, 6],}
df = pd.DataFrame(data)
df

Unnamed: 0,C1,C2,C3
0,1,2,3
1,4,5,6


- CSVファイルから DataFrame を作る
  - pd.read_csv() にファイル名を与える
  - CSV ファイルの 1 行目が列名になる
  - 1 行目もデータとして取り込むときは、header=None を指定する

In [6]:
# CSV -> DataFrame
df = pd.read_csv('sample.csv')
df

Unnamed: 0,c1,c2,c3,c4
0,101,205,300,324
1,303,111,6,23
2,23,1000,1112,324
3,23,45,3242,1
4,0,0,999,999
5,123,345,445,0
6,32,3424,23,3
7,4324,23,566,21
8,1,2,3456,4321
9,132,123,4,556


### 要素のデータ型

　DataFrame内の各要素のデータ型は、列毎に同じ型になるよう自動的に型変換が行われる。


In [7]:
df = pd.DataFrame(
    [[1, 2.0],
    [3, 4]]
)
# 2列目は 2.0 があるので、4 -> 4.0 に型が変わる。
df

Unnamed: 0,0,1
0,1,2.0
1,3,4.0


.dtypes 属性に各列のデータ型が Series で入っている。

In [8]:
df.dtypes

0      int64
1    float64
dtype: object

　明示的にある型に揃えたい場合は astype()メソッドを使う。

In [9]:
# astype() で型を変更。全データが指定した型に変わる。
df2 = df.astype('int')
df2

Unnamed: 0,0,1
0,1,2
1,3,4


In [10]:
# 列ごと型を変えたい場合は、{列:型, 列:型...} の辞書を引数に与える
df3 = df.astype({0:'float', 1:'int'})
df3

Unnamed: 0,0,1
0,1.0,2
1,3.0,4


### 行、列、要素へのアクセス

In [11]:
# 乱数でサンプルデータを作成
import random
random.seed(10)

df  = pd.DataFrame(
    [[random.random() for x in range(4)] 
      for y in range(7)],
    columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,0.571403,0.428889,0.578091,0.206098
1,0.813321,0.823589,0.653473,0.16023
2,0.520669,0.327773,0.249997,0.952817
3,0.996557,0.044556,0.860161,0.603191
4,0.381606,0.283618,0.674965,0.456831
5,0.685861,0.661846,0.132978,0.767838
6,0.982413,0.969388,0.613327,0.044261


#### 列を取り出す
  - df[列名] →　戻り値は Series 型。  
  - df[[列名, 列名, ...]] → 戻り値は DataFrame型。
  - df.列名 → 1列だけ取り出す場合は属性値としても取り出せる。

In [12]:
# 列名で指定すると行が取れる(Series)
df['A']

0    0.571403
1    0.813321
2    0.520669
3    0.996557
4    0.381606
5    0.685861
6    0.982413
Name: A, dtype: float64

In [13]:
# 列名を属性名で取り出す(Series)
df.A

0    0.571403
1    0.813321
2    0.520669
3    0.996557
4    0.381606
5    0.685861
6    0.982413
Name: A, dtype: float64

In [14]:
# 複数列(DataFrame)
df[['A','C']]

Unnamed: 0,A,C
0,0.571403,0.578091
1,0.813321,0.653473
2,0.520669,0.249997
3,0.996557,0.860161
4,0.381606,0.674965
5,0.685861,0.132978
6,0.982413,0.613327


In [15]:
# 一行でもDataFrameがほしい場合は[[]]を使う
df[['A']]

Unnamed: 0,A
0,0.571403
1,0.813321
2,0.520669
3,0.996557
4,0.381606
5,0.685861
6,0.982413


#### 行を取り出す
  - df[行番号:行番号] ：(行番号をスライスで指定)  
行番号の代わりに行名も指定可能。  
(注意1)一行だけの場合もスライス型で指定する。  
(注意2)行番号で指定したときは、: の右の行は含まれない。

In [16]:
# スライスで1行だけ(右側のインデックスは含まない)
df[2:3]

Unnamed: 0,A,B,C,D
2,0.520669,0.327773,0.249997,0.952817


#### 要素を取り出す
行を取り出してから列を（または列を取り出してから行を)を取り出す。  

In [17]:
# 行->列の順で取り出す
r_q = df[0:1]   # 行 0
r_q['A']     # 列'A'

0    0.571403
Name: A, dtype: float64

In [18]:
# 一行で
df[0:1]['A']

0    0.571403
Name: A, dtype: float64

In [19]:
# 列->行でも可
df['A'][0:1]

0    0.571403
Name: A, dtype: float64

#### 列を指定するには他に以下のような方法もある
 
- .loc[ :, [列名, 列名,...]]

- .iloc[ :, [列番号, 列番号,...]]

In [20]:
# .loc
df.loc[:, ['A', 'B']]

Unnamed: 0,A,B
0,0.571403,0.428889
1,0.813321,0.823589
2,0.520669,0.327773
3,0.996557,0.044556
4,0.381606,0.283618
5,0.685861,0.661846
6,0.982413,0.969388


In [21]:
# .iloc
df.iloc[:, [0, 1]]

Unnamed: 0,A,B
0,0.571403,0.428889
1,0.813321,0.823589
2,0.520669,0.327773
3,0.996557,0.044556
4,0.381606,0.283618
5,0.685861,0.661846
6,0.982413,0.969388


#### 行を指定するには、他に以下のような方法もある

- .loc[行名]
- .iloc[行番号]

(注) DataFrameに行名(index属性)がないときは loc でも行番号が指定できる。

In [22]:
# loc[行番号]
df.loc[0]

A    0.571403
B    0.428889
C    0.578091
D    0.206098
Name: 0, dtype: float64

In [23]:
# iloc[行番号]
df.iloc[0]

A    0.571403
B    0.428889
C    0.578091
D    0.206098
Name: 0, dtype: float64

#### 要素を指定するには、他に以下のような方法もある

- .at[行名(行番号), 列名]

- .iat[行番号, 列番号]

- .loc[行名(行番号), 列名]

- .iloc[行番号, 列番号]

　at/iat の方が loc/iloc よりも高速。

In [24]:
# at
df.at[0, 'B']

0.4288890546751146

In [25]:
# iat
df.iat[0, 1]

0.4288890546751146

In [26]:
# loc
df.loc[0, 'B']

0.4288890546751146

In [27]:
# iloc
df.iloc[0, 1]

0.4288890546751146

### データの追加・削除

　DataFrame に新たな列を追加するには、
 
- [新列名] に代入
- .insert() メソッドを使う

どちらも元の DataFrame を直接変更する。

In [28]:
df = pd.DataFrame(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]],
    columns=('A', 'B', 'C'))
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [29]:
# 列の追加
df['Y'] = 0   # 右辺値にはスカラー、リスト、Series が指定可
df

Unnamed: 0,A,B,C,Y
0,1,2,3,0
1,4,5,6,0
2,7,8,9,0


In [30]:
# 任意の列に挿入したいときは
# .insert(挿入位置, 新列名, 値)
df.insert(2, 'Z', 100)
df

Unnamed: 0,A,B,Z,C,Y
0,1,2,100,3,0
1,4,5,100,6,0
2,7,8,100,9,0


 　行を追加するには
 
- .loc[新行名] に代入

元の DataFrame を直接変更する。

In [31]:
# 行の挿入
df.loc[4] = [100, 200, 300, 400, 500]
df

Unnamed: 0,A,B,Z,C,Y
0,1,2,100,3,0
1,4,5,100,6,0
2,7,8,100,9,0
4,100,200,300,400,500


In [32]:
# 行の挿入
#  単一の値を代入するとすべての列がその値になる
df.loc[4] = 100
df

Unnamed: 0,A,B,Z,C,Y
0,1,2,100,3,0
1,4,5,100,6,0
2,7,8,100,9,0
4,100,100,100,100,100


列、行を削除するにはそれぞれ
- .drop(削除したい列名[のリスト], axis=1)
- .drop(削除したい行名[のリスト], axis=0)  (axis=0 は省略可)

削除した新しい DataFrame を戻り値として返す。元の DataFrame は変更しない。

In [33]:
# 列削除
df2 = df.drop(['A', 'B'], axis=1)
df2

Unnamed: 0,Z,C,Y
0,100,3,0
1,100,6,0
2,100,9,0
4,100,100,100


In [34]:
# 行削除
df2 = df.drop(0)
df2

Unnamed: 0,A,B,Z,C,Y
1,4,5,100,6,0
2,7,8,100,9,0
4,100,100,100,100,100


## 様々なデータ操作


### head, tail 関数
head()、tail() 関数はそれぞれ DataFrame の先頭、末尾の5行を返す。

引数を指定するとその行数を返す。

In [35]:
# 先頭５行だけ表示
df.head()

Unnamed: 0,A,B,Z,C,Y
0,1,2,100,3,0
1,4,5,100,6,0
2,7,8,100,9,0
4,100,100,100,100,100


In [36]:
df.tail(3)

Unnamed: 0,A,B,Z,C,Y
1,4,5,100,6,0
2,7,8,100,9,0
4,100,100,100,100,100


### 転置行列
.T 属性には元の DataFrame の行と列を入れ替えたものが入っている。

In [37]:
# 行と列を入替
df.T

Unnamed: 0,0,1,2,4
A,1,4,7,100
B,2,5,8,100
Z,100,100,100,100
C,3,6,9,100
Y,0,0,0,100


### ソート
sort_values() メソッドを使う。

by= で対象の列名(または列名のリスト)を指定。

ascending= で昇順(True)か降順(False)を指定(デフォルトは昇順)

In [38]:
# 列B昇順でソート
df.sort_values(by='B',ascending=True)


Unnamed: 0,A,B,Z,C,Y
0,1,2,100,3,0
1,4,5,100,6,0
2,7,8,100,9,0
4,100,100,100,100,100


In [39]:
# 列B, Cで昇順でソート
df.sort_values(by=['B', 'C'], ascending=False)


Unnamed: 0,A,B,Z,C,Y
4,100,100,100,100,100
2,7,8,100,9,0
1,4,5,100,6,0
0,1,2,100,3,0


### 条件指定
条件を満たす行だけを選択することができる。

In [40]:
# 列Aの値が0.5以上の行
df[df['A'] >= 0.5]

Unnamed: 0,A,B,Z,C,Y
0,1,2,100,3,0
1,4,5,100,6,0
2,7,8,100,9,0
4,100,100,100,100,100


.loc[条件, [列名, 列名,...]] で条件を満たす行から指定した列だけを取り出すことも可能。

In [41]:
# 列Aの値が列Cより小さい行で、列A、列Cだけを表示
df.loc[ df['A'] < df['C'], ['A','C']]


Unnamed: 0,A,C
0,1,3
1,4,6
2,7,9


### DataFrame の結合

　複数の DataFrame をくっつけて一つの DataFrame にすることができる。

サンプル

In [42]:
df1 = pd.DataFrame(
    [['A0', 'B0', 'C0'],
    ['A1', 'B1', 'C1'],
    ['A2', 'B2', 'C2']],
    columns=('A', 'B', 'C'))
df2 = pd.DataFrame(
    [['B0', 'C0', 'd0'],
    ['B1', 'C1', 'd1'],
    ['B3', 'C2', 'd2'],
    ['B4', 'C3', 'd3']],
    columns=('B', 'C', 'D'))


- 単純な連結  
複数の DataFrame を列方向、または行方向に単純につなげる場合は、pd.concat() を使う。  
行方向の連結は axis=0、列方向の連結は、axis=1 を指定する(デフォルトは axis=0)。

In [43]:
# 行方向の連結
# 無い列の値は NaN になる。
df_cat = pd.concat([df1, df2])
df_cat

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
0,,B0,C0,d0
1,,B1,C1,d1
2,,B3,C2,d2
3,,B4,C3,d3


In [44]:
# 列方向の連結
# 行が短い方には NaN が入る。
df_cat2 = pd.concat([df1, df2], axis=1)
df_cat2

Unnamed: 0,A,B,C,B.1,C.1,D
0,A0,B0,C0,B0,C0,d0
1,A1,B1,C1,B1,C1,d1
2,A2,B2,C2,B3,C2,d2
3,,,,B4,C3,d3


- 列の値でマージ  
2つの DataFrame を列の値をキーにして一つの DataFrameにまとめる場合は、pd.merge()を使う。  
on= でキーになる列名(または列名のリスト)を指定する。 


In [45]:
# 共通の列名('B', 'C')をキーにして、2つの表をマージする。
# df1, df2 共通に存在する (B0, C0), (B1, C1) だけが結合対象。
df_merged = pd.merge(df1, df2, on=['B','C'])
df_merged

Unnamed: 0,A,B,C,D
0,A0,B0,C0,d0
1,A1,B1,C1,d1


 
how='outer' を指定するとどちらかの DataFrame にしかないデータも合わせてマージする。
　　　　

In [46]:
# マージ(outer)
# 無いデータは NaN で埋められる
df_merged = pd.merge(df1, df2, on=['B','C'], how='outer')
df_merged

Unnamed: 0,A,B,C,D
0,A0,B0,C0,d0
1,A1,B1,C1,d1
2,A2,B2,C2,
3,,B3,C2,d2
4,,B4,C3,d3


## 欠損値の扱い

　データの一部が欠けている状態を欠損値があるといい、Pandasではその場所に NaN という特別の値を入れる。 
 

### 欠損値の有無を調べる

　DataFrame 中に欠損値があるかどうか調べるには、.isnull()メソッドを使う。
 
　.isnull()メソッドは、元のDataFrameと同じ形で NaN の場所が True であるような新しい DataFrame を返す。  
.isnull()メソッドの結果に対し、.sum() メソッドや、values 属性などを使えば、元の DataFrame中に欠損値があったかどうかがわかる。  
また列(行)内に1個でも True があれば True を返す .any() メソッドを使えば、列(行)ごとに欠損値の有無を調べられる。

In [47]:
df = pd.DataFrame(
    [[1, None, 3],
    [4, 5, 6],
    [7, 8, None]],
    columns=('A', 'B', 'C'))
df

Unnamed: 0,A,B,C
0,1,,3.0
1,4,5.0,6.0
2,7,8.0,


In [48]:
# isnull()
is_null = df.isnull()
is_null

Unnamed: 0,A,B,C
0,False,True,False
1,False,False,False
2,False,False,True


In [49]:
# values 属性で値を取り出し、in 演算子でFalseの有無を調べる
False in is_null.values

True

In [50]:
# sum() メソッドを使うと列毎の欠損値の個数が得られる
is_null.sum()

A    0
B    1
C    1
dtype: int64

In [51]:
# どの列に NaN があるか？
is_null.any()

A    False
B     True
C     True
dtype: bool

In [52]:
# どの行に NaN があるか？
is_null.any(axis=1)

0     True
1    False
2     True
dtype: bool

### 欠損値を削除する

　欠損値を含む行または列を削除するには、.dropna() メソッドを使う。

In [53]:
# 欠損値を含む行をすべて削除
df_delna1 = df.dropna() # axis=0 が省略されている
df_delna1

Unnamed: 0,A,B,C
1,4,5.0,6.0


In [54]:
# 欠損値を含む列をすべて削除
df_delna2 = df.dropna(axis=1)
df_delna2

Unnamed: 0,A
0,1
1,4
2,7


### 欠損値を穴埋めする

　欠損値を適当な値で埋め合わせするには、.fillna()メソッドを使う。

　.fillna() の引数に埋めたい値を指定する。


In [55]:
# 0 で穴埋め
df_fill1 = df.fillna(0)
df_fill1


Unnamed: 0,A,B,C
0,1,0.0,3.0
1,4,5.0,6.0
2,7,8.0,0.0


## その他の処理

　DataFrame でよく使われるメソッド

In [56]:
df = pd.DataFrame(
    [[1, 11, 6],
    [2, 12, 1],
    [2, 12, 1],
    [3, 0, 9],
    [4, 5, 10]],
    columns=('A', 'B', 'C'))
df

Unnamed: 0,A,B,C
0,1,11,6
1,2,12,1
2,2,12,1
3,3,0,9
4,4,5,10


### 集計
- .sum() ：　合計

- .mean() ：　平均

- .max(), .min() ：　最大値、最小値

- .idxmax(), .idxmin() ：　最大値、最小値の行番号

In [57]:
# 列ごとの合計
df.sum()

A    12
B    40
C    27
dtype: int64

In [58]:
# 行ごとの合計
df.sum(axis=1)

0    18
1    15
2    15
3    12
4    19
dtype: int64

In [59]:
# 列ごとの平均
df.mean()

A    2.4
B    8.0
C    5.4
dtype: float64

In [60]:
# 列ごとの最大値
df.max()

A     4
B    12
C    10
dtype: int64

In [61]:
# 列ごとの最小値をとる行
df.idxmin()

A    0
B    3
C    1
dtype: int64

### 重複行の削除

- .drop_duplicates()

In [62]:
# 重複行削除
df.drop_duplicates()

Unnamed: 0,A,B,C
0,1,11,6
1,2,12,1
3,3,0,9
4,4,5,10


### 　データの置換

- .replace()


In [63]:
# replace
df = pd.DataFrame(
    [['Ben', 'M', 10, 105],
     ['tom', 'M', 25, 80],
     ['Alicee', 'W', 10, 110],
     ['Susiee', 'W', 10, 75],
     ['john', 'M', 21, 99]],
     columns=('Name','Gender', 'Age', 'Score'))
df

Unnamed: 0,Name,Gender,Age,Score
0,Ben,M,10,105
1,tom,M,25,80
2,Alicee,W,10,110
3,Susiee,W,10,75
4,john,M,21,99


In [64]:
df2 = df.replace(10, 20)
df2

Unnamed: 0,Name,Gender,Age,Score
0,Ben,M,20,105
1,tom,M,25,80
2,Alicee,W,20,110
3,Susiee,W,20,75
4,john,M,21,99


In [65]:
# 変更対象の列の指定
# 辞書として指定{列名: {変更前1：変更後1, 変更前2:変更後2, ...}}
df3 = df2.replace({'Name': {'tom':'Tom', 'john':'John'}})
df3

Unnamed: 0,Name,Gender,Age,Score
0,Ben,M,20,105
1,Tom,M,25,80
2,Alicee,W,20,110
3,Susiee,W,20,75
4,John,M,21,99


In [66]:
# 正規表現でのreplace
df4 = df3.replace(r'ee$', 'e', regex=True)
df4

Unnamed: 0,Name,Gender,Age,Score
0,Ben,M,20,105
1,Tom,M,25,80
2,Alice,W,20,110
3,Susie,W,20,75
4,John,M,21,99


### 要素の値
- .values ：　要素をリストとして取り出す(属性値)

In [67]:
# DataFrame の要素, 列名,をリストとして取り出す。
print(df.values)

# values は　Series にも使える。
print(df['Name'].values)

[['Ben' 'M' 10 105]
 ['tom' 'M' 25 80]
 ['Alicee' 'W' 10 110]
 ['Susiee' 'W' 10 75]
 ['john' 'M' 21 99]]
['Ben' 'tom' 'Alicee' 'Susiee' 'john']


### グルーピング
- groupby() : 特定の列の値ごとにまとめる。


In [68]:
# 'Gender' の値('M'/'W')毎に 'Score' 列の合計を求める
df.groupby('Gender')['Score'].sum()

Gender
M    284
W    185
Name: Score, dtype: int64

### 繰り返し処理
- map() : (Series のメソッド) すべての要素に同じ処理(関数)を行った結果を Series で返す。

In [69]:
# Gender == 'M' なら 0 を、そうでなければ 1 を返す関数を lambda で定義
df['Gender'].map(lambda x: 0 if x == 'M' else 1)

0    0
1    0
2    1
3    1
4    0
Name: Gender, dtype: int64

### 値がふくまれているかどうか
- isin() : 引数として、含まれているかどうか調べたい値をリストで与える。戻り値は Bool 型(の DataFrame や Series)。

In [70]:
df['Name'].isin(['Ben'])

0     True
1    False
2    False
3    False
4    False
Name: Name, dtype: bool

## データの保存

　to_csv() で DataFrame を CSV ファイルにセーブすることができる。

In [71]:
#CSVファイルへDataFrameを保存
df.to_csv('data.csv')


## Pandasを使ったスクレイピング

### Pandasでサンプルスクレイピング
pd.read_html() で Web ページの表部分(\<table\>部分)を抜き出して DataFrame にできる。

サンプルページの表データをスクレイピングしCSVファイルに保存する例。


In [78]:
# 気象庁、最新の気象データより
dfs = pd.read_html("https://www.data.jma.go.jp/obd/stats/data/mdrr/synopday/data1s.html")

# dfs[0], dfs[1], dfs[2]... に 1, 2, 3... 番目の表が入る。
dfs[0]

Unnamed: 0,0,1,2,3,...,29,30,31,32
0,地点,気圧,気圧,気圧,...,降雪の 深さ 合計,最深 積雪,天気概況,天気概況
1,地点,現地,海面,最低海面,...,降雪の 深さ 合計,最深 積雪,0600-1800,1800-翌0600
2,地点,平均,平均,値,...,降雪の 深さ 合計,最深 積雪,0600-1800,1800-翌0600
3,札幌,,,1006.0],...,--],--],,
4,稚内,,,1006.5],...,--],--],,
...,...,...,...,...,...,...,...,...,...
30,盛岡,,,1005.7],...,--],--],,
31,大船渡,,,1006.0],...,--],--],,
32,宮古,,,1006.5],...,--],--],,
33,仙台,,,1006.2],...,--],--],,


## Pandasでデータ集計

### データの読み込み
- １９５１年から２０１６年までの月毎の台風発生数を集計する。
- 台風発生がない月はデータが無い(欠損値）として気象庁からデータが提供されている。
- CSVファイルとして提供されているので、Pandasで読み取り集計してみる。


In [79]:
url='http://www.data.jma.go.jp/fcd/yoho/typhoon/statistics/generation/generation.csv'
df = pd.read_csv(url ,delimiter=',',encoding='shift-jis')

df

Unnamed: 0,年,1月,2月,3月,...,10月,11月,12月,年間
0,1951,,1.0,1.0,...,4,1.0,2.0,21
1,1952,,,,...,6,3.0,4.0,27
2,1953,,1.0,,...,5,3.0,1.0,23
3,1954,,,1.0,...,4,3.0,1.0,21
4,1955,1.0,1.0,1.0,...,3,1.0,1.0,28
...,...,...,...,...,...,...,...,...,...
67,2018,1.0,1.0,1.0,...,1,3.0,,29
68,2019,1.0,1.0,,...,4,6.0,1.0,29
69,2020,,,,...,6,3.0,1.0,23
70,2021,,1.0,,...,4,1.0,1.0,22


### 欠損値の扱い
欠損値はNaNと表示されている。

今回は、欠損値は０として置換する。fillnaメソッドで置換ができる。


In [80]:
df2 = df.fillna(0) #欠損値は0
#df2 = df2.replace(' ',0) #スペースも0にする
df2

Unnamed: 0,年,1月,2月,3月,...,10月,11月,12月,年間
0,1951,0.0,1.0,1.0,...,4,1.0,2.0,21
1,1952,0.0,0.0,0.0,...,6,3.0,4.0,27
2,1953,0.0,1.0,0.0,...,5,3.0,1.0,23
3,1954,0.0,0.0,1.0,...,4,3.0,1.0,21
4,1955,1.0,1.0,1.0,...,3,1.0,1.0,28
...,...,...,...,...,...,...,...,...,...
67,2018,1.0,1.0,1.0,...,1,3.0,0.0,29
68,2019,1.0,1.0,0.0,...,4,6.0,1.0,29
69,2020,0.0,0.0,0.0,...,6,3.0,1.0,23
70,2021,0.0,1.0,0.0,...,4,1.0,1.0,22


### 集計

In [81]:
# 平均
df2[df2.columns[1:13]].mean()

1月     0.430556
2月     0.263889
3月     0.375000
4月     0.708333
5月     0.986111
         ...   
8月     5.541667
9月     4.930556
10月    3.777778
11月    2.361111
12月    1.152778
Length: 12, dtype: float64

In [82]:
# 合計
df2[df2.columns[1:13]].sum()

1月      31.0
2月      19.0
3月      27.0
4月      51.0
5月      71.0
       ...  
8月     399.0
9月     355.0
10月    272.0
11月    170.0
12月     83.0
Length: 12, dtype: float64