## 基本文法

In [1]:
import pandas as pd

dataframeは以下のように作ることができます

In [2]:
df = pd.DataFrame([[11, 12, 13]
                   ,[21, 22, 23]
                   ,[31, 32, 33]]
                  ,index=[1, 2, 3]
                  ,columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
1,11,12,13
2,21,22,23
3,31,32,33


カラム名'A'の列全てに0を代入します

In [3]:
df['A']=0
df

Unnamed: 0,A,B,C
1,0,12,13
2,0,22,23
3,0,32,33


カラム名'D'の列全てに0を代入します

In [4]:
df['D']=0
df

Unnamed: 0,A,B,C,D
1,0,12,13,0
2,0,22,23,0
3,0,32,33,0


カラム名'4'の列を新たに作成し、全てに0を代入します

In [5]:
df['4']=0
df

Unnamed: 0,A,B,C,D,4
1,0,12,13,0,0
2,0,22,23,0,0
3,0,32,33,0,0


index番号1の行に0を代入します

In [6]:
df.loc[[1],:] = 0
df

Unnamed: 0,A,B,C,D,4
1,0,0,0,0,0
2,0,22,23,0,0
3,0,32,33,0,0


index番号4の行を新たに作成し、全てに0を代入します

In [7]:
df.loc[4] = 0
df

Unnamed: 0,A,B,C,D,4
1,0,0,0,0,0
2,0,22,23,0,0
3,0,32,33,0,0
4,0,0,0,0,0


カラム名'A'の列を削除します。  
axis=1は列方向を意味し、  
inplace=Trueは元のdataframeを置き換えることを意味します。

In [8]:
df.drop('A',axis=1,inplace=True)
df

Unnamed: 0,B,C,D,4
1,0,0,0,0
2,22,23,0,0
3,32,33,0,0
4,0,0,0,0


index番号1の行を削除します。  

In [9]:
df.drop(index=1,inplace=True)
df

Unnamed: 0,B,C,D,4
2,22,23,0,0
3,32,33,0,0
4,0,0,0,0


## データ抽出  
* データを行方向(index方向)について表示する

章の変更に伴い、新たにdataframeを定義します。

In [10]:
df2 = pd.DataFrame([[11, 12, 13],
                   [21, 22, 23],
                   [31, 32, 33]],
                  index=[1, 2, 3],
                  columns=['A', 'B', 'C'])
df2

Unnamed: 0,A,B,C
1,11,12,13
2,21,22,23
3,31,32,33


iname,cnameを指定して抽出します。(返数:series)

In [11]:
df2.loc[1,'A']

11

iname,cnameをリストで指定して抽出します。(返数:dataframe)

In [12]:
df2.loc[[1,2],['A']] 

Unnamed: 0,A
1,11
2,21


index番号,columns番号を指定して抽出します。(返数:series)

In [13]:
df2.iloc[1,2]

23

index番号,columns番号をリストで指定して抽出します。(返数:dataframe)

In [14]:
df2.iloc[[0,1],[0,1]] 

Unnamed: 0,A,B
1,11,12
2,21,22


:によるスライス表現で抽出する。(返数:dataframe)

In [15]:
df2.loc[:,['A']] 

Unnamed: 0,A
1,11
2,21
3,31


## 比較演算子によるデータ抽出  

前項と同様df2を用います

In [16]:
df2

Unnamed: 0,A,B,C
1,11,12,13
2,21,22,23
3,31,32,33


A列、20以下の要素

In [17]:
df2.query('A <= 20')

Unnamed: 0,A,B,C
1,11,12,13


A列、20以下の要素

In [18]:
val = 20
df2.query('A < @val')

Unnamed: 0,A,B,C
1,11,12,13


A列、25以下でない要素

In [19]:
df2.query('not A<= 25')

Unnamed: 0,A,B,C
3,31,32,33


A列、20以上50未満の要素

In [20]:
df2.query('20 <= A< 50')

Unnamed: 0,A,B,C
2,21,22,23
3,31,32,33


A列、'AA'と等しい要素

In [21]:
df2.query('A == "AA"')

Unnamed: 0,A,B,C


A列、'AA'と等しくない要素

In [22]:
df2.query('A != "AA"')

Unnamed: 0,A,B,C
1,11,12,13
2,21,22,23
3,31,32,33


A列、"A"を含む要素

In [23]:
df2.query('A in ["A"]')

Unnamed: 0,A,B,C


indexが偶数の要素

In [24]:
df2.query('index%2==0')

Unnamed: 0,A,B,C
2,21,22,23


and,or,notによる指定  
※優先順はnot>and>or

In [25]:
df2.query('(A==20|B > 80) & A== "AA"')

Unnamed: 0,A,B,C


新たにD列を作成します。

In [26]:
df2['D'] = ['AAB','BAA','BAAB']

D列、"AA"を含む要素

In [27]:
df2['D'].str.contains("AA")

1    True
2    True
3    True
Name: D, dtype: bool

D列、"AA"で終わる要素

In [28]:
df2['D'].str.endswith("AA")

1    False
2     True
3    False
Name: D, dtype: bool

D列、"AA"で始まる要素

In [29]:
df2['D'].str.startswith("AA")

1     True
2    False
3    False
Name: D, dtype: bool

正規表現の利用 

In [30]:
df2['D'].str.match('..A')

1    False
2     True
3     True
Name: D, dtype: bool

## データの入出力

* csvの入出力  
df.read_csv(’fname.csv')  
df.to_csv(’fname.csv')  

read_csvでは、様々な引数を指定することができます。
代表的なものを羅列します。
* dtype=(‘’)  
        typeの指定して読み込み
* encoding=‘enc’  
        encodingの指定(utf-8など)
* usecols=[n]  
        n列目のみ読み込み
* usecols=[‘col’]  
        指定したカラム名のみ読み込み
* nrows=n  
        冒頭からn行目までの読み込み
* names=(‘col’)
        column名を付けて読み込む  

* jsonの入出力  
pd.read_json('fname.json')  
df.to_json('fname.json')  

* クリップボードの入出力 
pd.read_clipboard()  
df.to_clipboard()   

## 行列の操作

章の変更に伴い、新たにdataframeを定義します。

In [31]:
df3 = pd.DataFrame([[11, 12, 13],
                   [21, 22, 23],
                   [31, 32, 33]],
                  index=[1, 2, 3],
                  columns=['A', 'B', 'C'])
df3

Unnamed: 0,A,B,C
1,11,12,13
2,21,22,23
3,31,32,33


dataframeの転置

In [32]:
df3.T

Unnamed: 0,1,2,3
A,11,21,31
B,12,22,32
C,13,23,33


dataframeの結合(行方向)

In [33]:
pd.concat([df3,df3])

Unnamed: 0,A,B,C
1,11,12,13
2,21,22,23
3,31,32,33
1,11,12,13
2,21,22,23
3,31,32,33


dataframeの結合(列方向)

In [34]:
pd.concat([df3,df3],axis=1)

Unnamed: 0,A,B,C,A.1,B.1,C.1
1,11,12,13,11,12,13
2,21,22,23,21,22,23
3,31,32,33,31,32,33


## データフレームの情報

(index数,column数)

In [35]:
df3.shape

(3, 3)

indexの取得

In [36]:
df3.index

Int64Index([1, 2, 3], dtype='int64')

columnsの取得

In [37]:
df3.columns

Index(['A', 'B', 'C'], dtype='object')

データ数,null数,型などを取得

In [38]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 1 to 3
Data columns (total 3 columns):
A    3 non-null int64
B    3 non-null int64
C    3 non-null int64
dtypes: int64(3)
memory usage: 176.0 bytes


nullでない要素の数を取得

In [39]:
df3.count()

A    3
B    3
C    3
dtype: int64

要素の出現回数を取得

In [40]:
df3['A'].value_counts()

11    1
31    1
21    1
Name: A, dtype: int64

行数を取得

In [41]:
len(df)

3

uniqueな要素の数を取得

In [42]:
df3['A'].nunique()

3

columns方向の総和の取得

In [43]:
df3.sum()

A    63
B    66
C    69
dtype: int64

columns方向の累積和の取得

In [44]:
df3.cumsum()

Unnamed: 0,A,B,C
1,11,12,13
2,32,34,36
3,63,66,69


Columns方向の最大最小の取得

In [45]:
df3.min()

A    11
B    12
C    13
dtype: int64

In [46]:
df3.max()

A    31
B    32
C    33
dtype: int64

最小最大のindexを取得

In [47]:
df3.idxmin()

A    1
B    1
C    1
dtype: int64

In [48]:
df3.idxmax()

A    3
B    3
C    3
dtype: int64

要素数,平均値,標準偏差,最小値,四分位数,最大値を取得

In [49]:
df3.describe()

Unnamed: 0,A,B,C
count,3.0,3.0,3.0
mean,21.0,22.0,23.0
std,10.0,10.0,10.0
min,11.0,12.0,13.0
25%,16.0,17.0,18.0
50%,21.0,22.0,23.0
75%,26.0,27.0,28.0
max,31.0,32.0,33.0


Columns方向の平均の取得

In [50]:
df3.mean()

A    21.0
B    22.0
C    23.0
dtype: float64

Columns方向の中央値の取得

In [51]:
df3.median()

A    21.0
B    22.0
C    23.0
dtype: float64

## データフレームの整形

In [52]:
df3

Unnamed: 0,A,B,C
1,11,12,13
2,21,22,23
3,31,32,33


カラム'cname'をindexに置く

In [53]:
df3.set_index('A')

Unnamed: 0_level_0,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
11,12,13
21,22,23
31,32,33


Indexのリセット

In [54]:
df3.reset_index()

Unnamed: 0,index,A,B,C
0,1,11,12,13
1,2,21,22,23
2,3,31,32,33


列名、indexの変更

In [55]:
df3.rename(columns={'A': 'a'}, index={1: 'one'})

Unnamed: 0,a,B,C
one,11,12,13
2,21,22,23
3,31,32,33


A列についてソート. ascending=Falseで降順.
sort_values ()ではデフォルトでcolumn方向にソートされる.

In [56]:
df3.sort_values('A', ascending=False)

Unnamed: 0,A,B,C
3,31,32,33
2,21,22,23
1,11,12,13


1行目についてソート. ascending=Falseで降順.
axis=1で行方向.

In [57]:
df3.sort_values(by=1, axis=1, ascending=False)

Unnamed: 0,C,B,A
1,13,12,11
2,23,22,21
3,33,32,31


Dataframe型からnumpyarray型へ変換

In [58]:
df3.values

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

Series型からnumpyarray型へ変換

In [59]:
s = df3['A']
s.values

array([11, 21, 31])

Dataframe型からlist型へ変換

In [60]:
df3.values.tolist()

[[11, 12, 13], [21, 22, 23], [31, 32, 33]]

Series型からlist型へ変換

In [61]:
s = df3['A']
s.values.tolist()

[11, 21, 31]

2019年4月13日 9時41分をdatetime64型へ変換

In [62]:
df3['D'] = ['2019年4月13日 9時41分','2019年4月13日 10時41分','2019年4月13日 11時41分']
pd.to_datetime(df3['D'], format='%Y年%m月%d日 %H時%M分')

1   2019-04-13 09:41:00
2   2019-04-13 10:41:00
3   2019-04-13 11:41:00
Name: D, dtype: datetime64[ns]

時系列データのサンプリング.  
M:月, D:日, H:時間, T:分

Dataframeに関数を適用する
Dataframeを新しく定義します

In [63]:
df4 = pd.DataFrame([[11, 12, 13],
                   [21, 22, 23],
                   [31, 32, 33]],
                  index=[1, 2, 3],
                  columns=['A', 'B', 'C'])
df4

Unnamed: 0,A,B,C
1,11,12,13
2,21,22,23
3,31,32,33


In [64]:
df4.applymap(lambda x: 'odd' if x % 2 == 1 else 'even')

Unnamed: 0,A,B,C
1,odd,even,odd
2,odd,even,odd
3,odd,even,odd


リストで境界値を決めて分割する

In [65]:
pd.cut(df3['A'], 4)

1    (10.98, 16.0]
2     (16.0, 21.0]
3     (26.0, 31.0]
Name: A, dtype: category
Categories (4, interval[float64]): [(10.98, 16.0] < (16.0, 21.0] < (21.0, 26.0] < (26.0, 31.0]]

## 欠損値の補完

説明のため、新たにdf_nullを作成します。  
また、欠損値生成のためnumpyをimportします

In [66]:
import numpy as np

In [67]:
df_null = pd.DataFrame([['A','M',15,160],
                        ['A','F',np.nan,162],
                        ['A',np.nan,40,180],
                        ['B','M',21,np.nan],
                        ['B','F',np.nan,143],
                        ['B',np.nan,18,np.nan],
                        ['C','M',np.nan,190],
                        ['C','M',32,np.nan],
                        ['C','F',43,np.nan]],
                       columns=['class','sex','age','height'])
df_null

Unnamed: 0,class,sex,age,height
0,A,M,15.0,160.0
1,A,F,,162.0
2,A,,40.0,180.0
3,B,M,21.0,
4,B,F,,143.0
5,B,,18.0,
6,C,M,,190.0
7,C,M,32.0,
8,C,F,43.0,


各カラムにおける欠損値の数を表示します

In [68]:
df_null.isnull().sum()

class     0
sex       2
age       3
height    4
dtype: int64

欠損値を含まないカラムのみを表示します

In [69]:
df_null.dropna()

Unnamed: 0,class,sex,age,height
0,A,M,15.0,160.0


欠損値をある値で補完する  
この場合では、’age’における欠損値を、’age’における欠損していない要素の平均値で補完している

In [70]:
df_null['age'].fillna(df_null['age'].mean())

0    15.000000
1    28.166667
2    40.000000
3    21.000000
4    28.166667
5    18.000000
6    28.166667
7    32.000000
8    43.000000
Name: age, dtype: float64

同様に、'height'における欠損値を、'height'における欠損していない要素の中央値で補完

In [71]:
df_null['height'].fillna(df_null['height'].median())

0    160.0
1    162.0
2    180.0
3    162.0
4    143.0
5    162.0
6    190.0
7    162.0
8    162.0
Name: height, dtype: float64

同様に、'age'における欠損値を、その前後の要素から線形に補完

In [72]:
df_null['age'].fillna(df_null['age'].interpolate(method='linear'))

0    15.0
1    27.5
2    40.0
3    21.0
4    19.5
5    18.0
6    25.0
7    32.0
8    43.0
Name: age, dtype: float64

## groupbyオブジェクト

説明のため新たにdataframeを作成します

In [73]:
df_groupby = pd.DataFrame([['A','M',15,160],
                           ['A','F',25,162],
                           ['A','M',40,180],
                           ['B','M',21,176],
                           ['B','F',50,143],
                           ['B','F',18,172],
                           ['C','M',16,190],
                           ['C','M',32,175],
                           ['C','F',43,181]],
                          columns=['class','sex','age','height'])
df_groupby

Unnamed: 0,class,sex,age,height
0,A,M,15,160
1,A,F,25,162
2,A,M,40,180
3,B,M,21,176
4,B,F,50,143
5,B,F,18,172
6,C,M,16,190
7,C,M,32,175
8,C,F,43,181


groupbyオブジェクトは、groupby関数を適用して返されるオブジェクトです。  
ある指定した基準を基にグルーピングして様々な処理を行うために用いられます。

カラム方向'class'を指定してgroupbyオブジェクトを作成してみます。  

In [74]:
groupby_class = df_groupby.groupby('class')
groupby_class

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x1113b10b8>

index方向にでgroupbyオブジェクトを取得

In [75]:
groupby_index = df_groupby.groupby(level=0)
groupby_index

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x1113ceb70>

groupbyオブジェクトの中身を確認してみます  
column名,index番号,typeを表示できます

In [76]:
groupby_class.groups

{'A': Int64Index([0, 1, 2], dtype='int64'),
 'B': Int64Index([3, 4, 5], dtype='int64'),
 'C': Int64Index([6, 7, 8], dtype='int64')}

In [77]:
groupby_index.groups

{0: Int64Index([0], dtype='int64'),
 1: Int64Index([1], dtype='int64'),
 2: Int64Index([2], dtype='int64'),
 3: Int64Index([3], dtype='int64'),
 4: Int64Index([4], dtype='int64'),
 5: Int64Index([5], dtype='int64'),
 6: Int64Index([6], dtype='int64'),
 7: Int64Index([7], dtype='int64'),
 8: Int64Index([8], dtype='int64')}

groupbyオブジェクトに含まれた各グループの要素数を表示する

In [78]:
groupby_class.size()

class
A    3
B    3
C    3
dtype: int64

グループ毎の総和を表示する

In [79]:
groupby_class.sum()

Unnamed: 0_level_0,age,height
class,Unnamed: 1_level_1,Unnamed: 2_level_1
A,80,502
B,89,491
C,91,546


グループ毎の平均を表示する

In [80]:
groupby_class.mean()

Unnamed: 0_level_0,age,height
class,Unnamed: 1_level_1,Unnamed: 2_level_1
A,26.666667,167.333333
B,29.666667,163.666667
C,30.333333,182.0


グループ毎の中央値を表示する

In [81]:
groupby_class.median()

Unnamed: 0_level_0,age,height
class,Unnamed: 1_level_1,Unnamed: 2_level_1
A,25,162
B,21,172
C,32,181


 1行づつ後ろにずらした値を取得する  
 (-1)では前にずらした値を取得できます

In [82]:
groupby_class.shift(1)

Unnamed: 0,sex,age,height
0,,,
1,M,15.0,160.0
2,F,25.0,162.0
3,,,
4,M,21.0,176.0
5,F,50.0,143.0
6,,,
7,M,16.0,190.0
8,M,32.0,175.0


In [83]:
groupby_class.shift(-1)

Unnamed: 0,sex,age,height
0,F,25.0,162.0
1,M,40.0,180.0
2,,,
3,F,50.0,143.0
4,F,18.0,172.0
5,,,
6,M,32.0,175.0
7,F,43.0,181.0
8,,,
