# pandasの基本操作
  
pandas はデータ解析用のライブラリで、おもに二次元の表形式データ (DataFrame) を主な対象としています。[[公式サイト](http://pandas.pydata.org)]  
pandasは、行列・多次元配列を扱う数値計算ライブラリnumpyを内部的に利用して高速な計算が可能です。また、pandasは時系列データや文字データなどを含んだ様々な表形式ファイルの扱いに長けています。  
本講義では、pandas公式サイトの"[10 Minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)"の内容をベースに、基本的なpandasの操作方法を学びます。  

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'0.20.3'

In [13]:
%pwd

'/Users/tanizawa/study/training_session/python_bioinfo_2018/2-1_and_2-2'

# Series

一次元のデータを扱うためのデータオブジェクトで、リストと似ています。

## Seriesの作成


```
pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

In [14]:
pd.Series?

In [15]:
# リストからSeriesを作成します。
s1 = pd.Series([1, 3, 5, 6, 8])

In [16]:
# 上記の場合、データ形式はint64となります。
s1

0    1
1    3
2    5
3    6
4    8
dtype: int64

In [17]:
s2 = pd.Series([1, 3, 5, 6, 8.0])
s2  # dtypeはfloat64

0    1.0
1    3.0
2    5.0
3    6.0
4    8.0
dtype: float64

In [18]:
s3 = pd.Series([1,3,5,6,8.0, "hello"])
s3  # dtypeはoject

0        1
1        3
2        5
3        6
4        8
5    hello
dtype: object

In [19]:
dates = pd.date_range('20181120', periods=7)
dates  # 時系列データを扱うこともできます。(本講義では時系列データは扱いません。)

DatetimeIndex(['2018-11-20', '2018-11-21', '2018-11-22', '2018-11-23',
               '2018-11-24', '2018-11-25', '2018-11-26'],
              dtype='datetime64[ns]', freq='D')

## Seriesの計算
Seriesは一次元データを扱うためのデータオブジェクトです。  
実際の解析では自分でSeriesを新規に作成する機会はあまりありませんが、表形式データの行や列を抽出した場合にSeriesデータとして結果が返されることが多いです。

In [20]:
# Seriesの作成
s1 = pd.Series([1,3,5,6,8])
s2 = pd.Series([10,30,50,60,80,100])

In [21]:
# 四則計算は各要素全てが計算対象となります。
print(s1 + 10)
print(s2 / 10) 
# 注) python3では / の結果はfloatで返ります。 
# // を使うとintで返ります。i.e. 10/2=5.0  10//2=5  9//2=4

0    11
1    13
2    15
3    16
4    18
dtype: int64
0     1.0
1     3.0
2     5.0
3     6.0
4     8.0
5    10.0
dtype: float64


In [22]:
# Series同士の掛け算 (同じ位置にある要素同士が計算されます)
s1 * s2

0     10.0
1     90.0
2    250.0
3    360.0
4    640.0
5      NaN
dtype: float64

## データの切り出し

In [28]:
pd.Series?

In [29]:
s1 = pd.Series(list("ABCDEFGHIJKLMN"))
s2 = pd.Series([10, 30, 50, 60, 80, 100, 'A'])

In [30]:
# 位置を指定して単独の要素を取得
print(s1[3])

D


In [31]:
# リストと同じようにスライスを使ってデータを切り出すことができます
print(s2[2:5])  # 結果はSeriesとして返される
print(s2[:-1])

2    50
3    60
4    80
dtype: object
0     10
1     30
2     50
3     60
4     80
5    100
dtype: object


In [32]:
type(s1[3:8])  # 結果はSeriesで返る

pandas.core.series.Series

In [33]:
# 複数の位置を指定
targets = [0, 2, 4, 6, 8]
s1[targets]

0    A
2    C
4    E
6    G
8    I
dtype: object

In [34]:
# 上記を一行で書くと、次のように[]が二重になります。(s1[0, 2, 4, 6, 8]はエラーになる)
# 二重の[]はpandasでは頻繁に登場します。
s1[[0, 2, 4, 6, 8]]

0    A
2    C
4    E
6    G
8    I
dtype: object

In [36]:
# 以下の２つの違いに注意してください
print("s1[0]:")  # 単独の数値で指定
print(s1[0])
print(type(s1[0]))
print("------------------")
print("s1[[0]]:")  # リストで指定
print(s1[[0]])
print(type(s1[[0]]))

      

s1[0]:
A
<class 'str'>
------------------
s1[[0]]:
0    A
dtype: object
<class 'pandas.core.series.Series'>


In [37]:
# list関数を使えばリストにすることができます。
list(s2)

[10, 30, 50, 60, 80, 100, 'A']

## indexを使ったデータの切り出し

In [38]:
pd.Series?

```
pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```


In [39]:
# indexを指定してSeriesを作る
s3 = pd.Series([100, 200, 300, 400 , 500], index=["A", "B", "C", "D", "E"])

In [40]:
s3

A    100
B    200
C    300
D    400
E    500
dtype: int64

In [41]:
# indexを指定してデータを取り出す
s3["A"]

100

In [42]:
# 複数指定の場合
targets = ["B", "D"]
s3[targets]  # 一行で書くと s3[["B", "D"]]

B    200
D    400
dtype: int64

In [43]:
# indexではなくて位置で指定することも可能
print(s3[1])
print(s3[[0,2,4]])

200
A    100
C    300
E    500
dtype: int64


In [44]:
# 辞書を使ってindexを指定したSeriesを作成
D = {"John": "Lennon", "Paul": "McCartney", "George": "Harrison", "Ringo": "Starr"}
s4 = pd.Series(D)
s4

George     Harrison
John         Lennon
Paul      McCartney
Ringo         Starr
dtype: object

In [45]:
s4[["John", "Paul"]]

John       Lennon
Paul    McCartney
dtype: object

In [46]:
# インデックスに用いる値はユニークでなくても可
data= ["Lennon", "McCartney", "Harrison", "Starr", "Simon", "Garfunkel"]
index = ["John", "Paul", "George", "Ringo", "Paul", "Art"]
s5 = pd.Series(data=data, index=index)
print(s5)

John         Lennon
Paul      McCartney
George     Harrison
Ringo         Starr
Paul          Simon
Art       Garfunkel
dtype: object


In [47]:
s5["Paul"]  # ２つの要素が返る (データ形式はSeries)

Paul    McCartney
Paul        Simon
dtype: object

In [48]:
s5["John"]  # 単独の要素が返る (データ形式はstr)

'Lennon'

上記のように異なったデータ形式で結果が返ってくることがあるため、indexに重複した値を使うのは避けたほうがよいかもしれません。

## indexおよびデータの参照
Series.index, Serires.valuesでそれぞれindexとデータを取り出せます。新しい値を指定することも可能です。

In [49]:
s5.index

Index(['John', 'Paul', 'George', 'Ringo', 'Paul', 'Art'], dtype='object')

In [50]:
s5.values

array(['Lennon', 'McCartney', 'Harrison', 'Starr', 'Simon', 'Garfunkel'], dtype=object)

In [51]:
type(s5.values)  # データ形式を確認してみると、内部的にnumpyが使われていることがわかる。

numpy.ndarray

# DataFrame  
二次元の表を扱うためのデータオブジェクトです。

## データフレームの作成
```
Init signature: pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```
dataには、二次元リストや辞書などを指定します。  
index, columnsは指定しなかった場合、0, 1, 2, .. が自動で割り振られます。

In [52]:
data = [[1, 2, 3],
        [10, 20, 30],
        [100, 200, 300],
        [1000, 2000, 3000]
       ]
columns = ["A", "B", "C"]
df1 = pd.DataFrame(data, columns=columns)

In [53]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,10,20,30
2,100,200,300
3,1000,2000,3000


In [54]:
# 辞書データを与える場合 (列ごとにデータを指定するイメージ。直感的ではないかも)
D = {"name": ["John", "Paul", "George", "Ringo", "Paul", "Art"],
     "family_name": ["Lennon", "McCartney", "Harrison", "Starr", "Simon", "Garfunkel"],
     "age": [None, 76 ,None , 78, 77, 77],
     "DOB": ["1940/10/09", "1942/026/18" ,"1943/02/25", "1940/07/07", "1941/10/13", "1941/11/05"],
     "group_name": ["Beatles", "Beatles" ,"Beatles", "Beatles", "Simon_and_Garfunkel", "Simon_and_Garfunkel"],
     "alive": [False, True, False , True, True, True]}

df2 = pd.DataFrame(D)

In [59]:
df2

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
1,1942/026/18,76.0,True,McCartney,Beatles,Paul
2,1943/02/25,,False,Harrison,Beatles,George
3,1940/07/07,78.0,True,Starr,Beatles,Ringo
4,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul
5,1941/11/05,77.0,True,Garfunkel,Simon_and_Garfunkel,Art


In [60]:
# カラム名や、index（行名）はそれぞれ、columns, indexで参照できます。
print("column names: ", df2.columns)
print("index: ", df2.index)

column names:  Index(['DOB', 'age', 'alive', 'family_name', 'group_name', 'name'], dtype='object')
index:  RangeIndex(start=0, stop=6, step=1)


実際にはDataFrameを自前で作ることはあまりありません。以下で紹介するようにファイルから読み込む場合がほとんどです。

## ファイルから読み込んでデータフレームを作成

In [61]:
pd.read_table?

In [62]:
# タブ区切りファイルの読み込み
df3 = pd.read_table("input/test_matrix_data.tsv", index_col=0)
# df3 = pd.read_csv("input/test_matrix_data.tsv", sep="\t", index_col=0)  # これも同じ結果になる。

これ以外にも pd.read_clipboard, pd.read_excel などもあります。

In [63]:
df3

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_12,181,126,55.0,0.5,,0.0551,0.0
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082
data_14,133,-70,63.0,0.5,374.867722,0.042,0.0
data_15,39,22,17.0,0.5,137.368196,0.0173,0.0
data_16,36,0,36.0,0.5,63.00412,0.0242,0.0
data_17,50,0,50.0,0.5,214.258945,0.002,0.0
data_18,11,7,4.0,0.5,69.762676,0.033,0.0


## データフレームの基本操作

### データを概観する

In [64]:
df3.head()   # 先頭を表示（デフォルト5行、引数で指定可能）

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_12,181,126,55.0,0.5,,0.0551,0.0
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082


In [65]:
df3.tail()  # 末端を表示

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_5,59,30,29.0,0.5404,138.188987,0.0222,-0.0439
data_6,137,-50,,0.533,1603.301689,0.0061,-0.0221
data_7,39,-32,7.0,0.5783,136.917725,0.0112,-0.0278
data_8,39,32,7.0,0.5783,2.079866,0.0271,-0.0013
data_9,81,35,46.0,0.5198,422.065428,0.0123,-0.0054


In [66]:
df3.describe()  # 各種統計量を表示

Unnamed: 0,A,B,C,D,E,F,G
count,30.0,30.0,29.0,30.0,27.0,30.0,30.0
mean,67.633333,3.366667,32.37931,0.554293,314.394296,0.026647,-0.018727
std,49.876042,44.074767,26.585998,0.071324,452.625514,0.026463,0.0269
min,6.0,-77.0,0.0,0.5,0.0,0.002,-0.0999
25%,28.5,-24.75,9.0,0.5,66.383398,0.012475,-0.032225
50%,55.5,1.5,31.0,0.53265,138.188987,0.02065,-0.00595
75%,94.75,30.75,50.0,0.576575,387.086946,0.03285,0.0
max,181.0,126.0,121.0,0.7498,1801.404597,0.1493,0.0009


In [67]:
df2.describe(include="all")

Unnamed: 0,DOB,age,alive,family_name,group_name,name
count,6,4.0,6,6,6,6
unique,6,,2,6,2,5
top,1941/10/13,,True,Starr,Beatles,Paul
freq,1,,4,1,4,2
mean,,77.0,,,,
std,,0.816497,,,,
min,,76.0,,,,
25%,,76.75,,,,
50%,,77.0,,,,
75%,,77.25,,,,


### データフレームの計算

In [68]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,10,20,30
2,100,200,300
3,1000,2000,3000


* スカラー値との計算

In [69]:
df1 * 10  # スカラー値との四則演算は各要素に対して行われる

Unnamed: 0,A,B,C
0,10,20,30
1,100,200,300
2,1000,2000,3000
3,10000,20000,30000


上記の計算はもとのデータが変更されるのではなく、新しいデータフレームとして結果が返されます。  
そのため、データの値を更新したい場合は、
```df = df * 10```のように結果を元のデータフレームに代入する必要があります。

* リストやSeriesとの計算

In [70]:
L = [1, 2, 3]
df1 + L

Unnamed: 0,A,B,C
0,2,4,6
1,11,22,33
2,101,202,303
3,1001,2002,3003


各行ごとに計算が適用されます。（ブロードキャスト）  
下の例ではデータの要素数が揃っていないのでエラーになります。

In [71]:
# L = [1, 2, 3, 4]
# df + L

__Q. 横方向にブロードキャストするにはどうするか？ __
  
A. df.Tを使い行と列を転置させてから計算し、その後、転置させてもとの形に戻します。

In [72]:
L = [1, 2, 3, 4]
(df1.T + L).T

Unnamed: 0,A,B,C
0,2,3,4
1,12,22,32
2,103,203,303
3,1004,2004,3004


* データフレーム同士の計算  
データフレームの形状が同じであれば、要素ごとに計算できますが、あまり利用機会はないと思いますので省略します。  
また、行列の内積のような計算も可能ですが、本格的な行列の数値計算であれば numpy を使った方が便利です。


### 集計関数

In [73]:
# 合計を求める。
df1.sum()  # デフォルトでは列ごとの合計 (axis=0)

A    1111
B    2222
C    3333
dtype: int64

In [74]:
df1.sum(axis=1) # 行ごとの合計

0       6
1      60
2     600
3    6000
dtype: int64

In [75]:
df1.mean() # 平均

A    277.75
B    555.50
C    833.25
dtype: float64

In [76]:
df1.cumsum(axis=0) # 累積 (上で紹介した他の集計関数と異なり、結果はデータフレームで返ってきます。

Unnamed: 0,A,B,C
0,1,2,3
1,11,22,33
2,111,222,333
3,1111,2222,3333


### ソート

* indexでソート (sort_index)

In [77]:
# ascendingをFalseにすると降順でソートされます。(defaultは昇順=小さい順)
df3.sort_index(ascending=False).head()

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_9,81,35,46.0,0.5198,422.065428,0.0123,-0.0054
data_8,39,32,7.0,0.5783,2.079866,0.0271,-0.0013
data_7,39,-32,7.0,0.5783,136.917725,0.0112,-0.0278
data_6,137,-50,,0.533,1603.301689,0.0061,-0.0221
data_5,59,30,29.0,0.5404,138.188987,0.0222,-0.0439


inplace=Trueオプションをつけると、もとのデータフレームを書き換えます（破壊的変更）

* 要素の値でのソート (sort_values)  
```df2.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')```

In [78]:
df2.sort_values(by="age", na_position="first")

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
2,1943/02/25,,False,Harrison,Beatles,George
1,1942/026/18,76.0,True,McCartney,Beatles,Paul
4,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul
5,1941/11/05,77.0,True,Garfunkel,Simon_and_Garfunkel,Art
3,1940/07/07,78.0,True,Starr,Beatles,Ringo


* 複数項目でのソート  
C列を昇順、D列を降順に並び替えます

In [79]:
df3.sort_values(by=["C", "D"], ascending=[True, False]).head(10)

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_26,15,-15,0.0,0.5,0.0,0.013,-0.0999
data_27,14,-13,1.0,0.5531,0.369251,0.0182,-0.0337
data_19,6,-2,4.0,0.5453,72.282932,0.022,-0.0707
data_18,11,7,4.0,0.5,69.762676,0.033,0.0
data_7,39,-32,7.0,0.5783,136.917725,0.0112,-0.0278
data_8,39,32,7.0,0.5783,2.079866,0.0271,-0.0013
data_24,26,-18,8.0,0.7498,,0.0193,-0.0026
data_25,25,16,9.0,0.7223,50.758144,0.0235,-0.0065
data_2,17,3,14.0,0.7112,36.759859,0.0263,0.0009
data_20,20,-4,16.0,0.5714,3.29383,0.0469,-0.0441


* 列の並び替え (あまり使用する機会はないかもしれませんが)

In [80]:
df3.head() # 元データ

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_12,181,126,55.0,0.5,,0.0551,0.0
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082


In [81]:
df3.sort_values(by="data_1", axis=1).head() # axis=1を指定

Unnamed: 0_level_0,B,G,F,D,C,A,E
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,-27,-0.0102,0.0179,0.6028,31.0,58,73.922054
data_10,-53,0.0,0.0346,0.5,56.0,109,575.58579
data_11,-44,-0.0411,0.0343,0.6281,33.0,77,144.838806
data_12,126,0.0,0.0551,0.5,55.0,181,
data_13,-46,-0.0082,0.0044,0.522,45.0,91,896.439718


# データフレームから行・列・要素の抽出

In [82]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,10,20,30
2,100,200,300
3,1000,2000,3000


## 行・列の抽出

* 列の抽出

In [83]:
df1["A"]  # 結果は Seriesとして返ってきます。

0       1
1      10
2     100
3    1000
Name: A, dtype: int64

In [84]:
df1.A  # こちらでも同様の操作が可能

0       1
1      10
2     100
3    1000
Name: A, dtype: int64

In [85]:
df1[["A","C"]]  # 複数の列を抽出する場合にはリストで指定。([]が二重になることに注意。結果はDataFrame)

Unnamed: 0,A,C
0,1,3
1,10,30
2,100,300
3,1000,3000


In [86]:
df1[["A"]]  # A列のみをDataFrameとして抽出。最初の例との違いに注意

Unnamed: 0,A
0,1
1,10
2,100
3,1000


* 行の抽出 (スライスを使った下記の方法でできるが、おすすめできない。後述の loc または ilocを使うのがよい)

In [87]:
# 0から2行目までを抽出
df3[0:3]

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411


下記はエラーになる。0 という名称の列が存在しないため。

In [94]:
# df3[0]

In [95]:
# 0行目を抽出
df3[0:1]

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102


## 要素の抽出 (at, iat)

In [96]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,10,20,30
2,100,200,300
3,1000,2000,3000


* インデックスを指定して要素を抽出 at  
[行, 列]の順に指定する

In [97]:
df1.at[1, "B"]

20

* 位置を指定して要素を抽出 iat (iはintegerの意味)

In [98]:
df1.iat[1, 2]

30

## 範囲（複数、単数の行および列）の切り出し（loc, iloc）

### indexによる抽出（loc）

In [99]:
# 単独の要素
df3.loc["data_1", "A"] 
# df3.at["data_1", "A"] と同じ結果になりますが、atの方が速い。

58

In [100]:
# 複数の行・列からなる範囲の抽出(結果はDataFrameとして返る)
df3.loc["data_15":"data_20", "B":"D"]  # 通常の数値によるスライスとは異なり、data20や"D"列が含まれていることに注意

Unnamed: 0_level_0,B,C,D
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
data_15,22,17.0,0.5
data_16,0,36.0,0.5
data_17,0,50.0,0.5
data_18,7,4.0,0.5
data_19,-2,4.0,0.5453
data_2,3,14.0,0.7112
data_20,-4,16.0,0.5714


### 

In [101]:
# ":"を指定すると対象となる列 or 行の全体が抽出される
df3.loc["data_15":"data_20", :]  # data_15~data_20までの行全体が表示される

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_15,39,22,17.0,0.5,137.368196,0.0173,0.0
data_16,36,0,36.0,0.5,63.00412,0.0242,0.0
data_17,50,0,50.0,0.5,214.258945,0.002,0.0
data_18,11,7,4.0,0.5,69.762676,0.033,0.0
data_19,6,-2,4.0,0.5453,72.282932,0.022,-0.0707
data_2,17,3,14.0,0.7112,36.759859,0.0263,0.0009
data_20,20,-4,16.0,0.5714,3.29383,0.0469,-0.0441


In [102]:
# 列の指定を省略することも可能 
df3.loc["data_15":"data_20"]

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_15,39,22,17.0,0.5,137.368196,0.0173,0.0
data_16,36,0,36.0,0.5,63.00412,0.0242,0.0
data_17,50,0,50.0,0.5,214.258945,0.002,0.0
data_18,11,7,4.0,0.5,69.762676,0.033,0.0
data_19,6,-2,4.0,0.5453,72.282932,0.022,-0.0707
data_2,17,3,14.0,0.7112,36.759859,0.0263,0.0009
data_20,20,-4,16.0,0.5714,3.29383,0.0469,-0.0441


__↑ 行を抽出するにはこの方法が便利__  


In [103]:
# ":"を指定するとすべての列 or 行が抽出される
df3.loc[:, "B":"D"].shape  # 表示件数が多いのでshapeで大きさだけ表示しています。

(30, 3)

この方法はおすすめしません。
```df3.loc[:, "B":"D"]``` の代わりに、__```df3[["B", "C", "D"]]```__をおすすめします。

* リストを使って行や列を指定することも可能です

In [104]:
df3.loc[["data_30","data_20","data_10"], ["E","C","A"]]  

Unnamed: 0_level_0,E,C,A
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
data_30,164.149599,50.0,127
data_20,3.29383,16.0,20
data_10,575.58579,56.0,109


In [105]:
# 行全体を取得 
df3.loc[["data_30","data_20","data_10"]]  # df3.loc[["data_30","data_20","data_10"], :]でも同じ結果

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_30,127,-77,50.0,0.5,164.149599,0.1493,0.0
data_20,20,-4,16.0,0.5714,3.29383,0.0469,-0.0441
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0


In [106]:
df3.loc[:, ["E","C","A"]].head()  # 列全体の取得。先頭5行のみ表示
# 繰り返しになりますが、"df3[["E", "C", "A"]]"の方が便利です。

Unnamed: 0_level_0,E,C,A
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
data_1,73.922054,31.0,58
data_10,575.58579,56.0,109
data_11,144.838806,33.0,77
data_12,,55.0,181
data_13,896.439718,45.0,91


* 単独の行または列の抽出

In [107]:
# 行の抽出
df3.loc["data_10", :]

A    109.00000
B    -53.00000
C     56.00000
D      0.50000
E    575.58579
F      0.03460
G      0.00000
Name: data_10, dtype: float64

↑列の指定は省略できるので__```df3.loc["data_10"]```__の方がおすすめ。

In [108]:
# 列の抽出
df3.loc[:, "A"]

data_idx
data_1      58
data_10    109
data_11     77
data_12    181
data_13     91
data_14    133
data_15     39
data_16     36
data_17     50
data_18     11
data_19      6
data_2      17
data_20     20
data_21     96
data_22    153
data_23     45
data_24     26
data_25     25
data_26     15
data_27     14
data_28     64
data_29     53
data_3     169
data_30    127
data_4      59
data_5      59
data_6     137
data_7      39
data_8      39
data_9      81
Name: A, dtype: int64

↑こちらも__```df3["A"]```__の方がおすすめ。

In [109]:
# 返ってくるデータの形式に注意
df3.loc[["data_10"]]  # 結果はDataFrame

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0


In [110]:
df3.loc["data_10"]  # 結果はSeries

A    109.00000
B    -53.00000
C     56.00000
D      0.50000
E    575.58579
F      0.03460
G      0.00000
Name: data_10, dtype: float64

### 位置による指定（iloc）
位置を数字で指定することを除いて loc と同じです。

In [111]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,10,20,30
2,100,200,300
3,1000,2000,3000


In [112]:
df1.iloc[1,2] # 行、列の番号を指定

30

In [113]:
df1.iloc[1:2, 0:2]  # スライスで指定

Unnamed: 0,A,B
1,10,20


In [114]:
df1.iloc[[1,2], [0,1,2]] # リストで指定

Unnamed: 0,A,B,C
1,10,20,30
2,100,200,300


In [115]:
df1.iloc[1,:]  # すべての列(行全体)を取得

A    10
B    20
C    30
Name: 1, dtype: int64

In [116]:
df1.iloc[1]  # 列の指定を省略しても同じ結果が得られる。↑よりもこちらをおすすめ

A    10
B    20
C    30
Name: 1, dtype: int64

In [117]:
df1.iloc[[1]]   # 上と同じ行を抽出しているが、リストで指定した場合はDataFrameとして結果が返ってくる

Unnamed: 0,A,B,C
1,10,20,30


In [118]:
df1.iloc[:,1]  # すべての行(列全体)を取得

0       2
1      20
2     200
3    2000
Name: B, dtype: int64

### ix はdeprecated

以前はindexでも位置番号でもどちらでも指定可能な便利なixがありました。現在はdeprecatedになっています。[[参考](http://pandas-docs.github.io/pandas-docs-travis/indexing.html#ix-indexer-is-deprecated)]

In [119]:
df3.ix["data_10", "C"] # 

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  if __name__ == '__main__':


56.0

In [120]:
df3.ix[[1, 2], [2, 3]]  # 

Unnamed: 0_level_0,C,D
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1
data_10,56.0,0.5
data_11,33.0,0.6281


In [121]:
df3.ix[1:3, "C":"D"]

Unnamed: 0_level_0,C,D
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1
data_10,56.0,0.5
data_11,33.0,0.6281


### まとめ

* __列の抽出__  
`df["A"]` または `df.A`  
複数列の場合にはリストで指定する（[ ]が二重になることに注意）  
`df[["A", "B"]]`


* __行の抽出 (loc or ilocを使う)__  
`df.loc[row_index]` または `df.iloc[row_position]`  
複数行の場合には、  
`df.loc[[row_index1, row_index2]]`  または  
`df.iloc[[row_position1, row_position2]]`  または  
`df.iloc[row_position1:row_position2]`


* __範囲の抽出 (loc or ilocを使う)__  
`df.loc[[row_index1, row_index2], [col_index1, col_index2]]`  または  
`df.iloc[[row_position1, row_position2], [col_position1, col_position2]]`  または  
`df.iloc[row_position1:row_position2, col_position1:col_position2]`


* __値の抽出 (at or iatを使う)__   
`df.at[row_index, col_index]`  または  `df.iat[row_position, col_position]`  
(loc or ilocよりも速い)



# 条件を指定して抽出 (boolean indexing)

In [122]:
df2

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
1,1942/026/18,76.0,True,McCartney,Beatles,Paul
2,1943/02/25,,False,Harrison,Beatles,George
3,1940/07/07,78.0,True,Starr,Beatles,Ringo
4,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul
5,1941/11/05,77.0,True,Garfunkel,Simon_and_Garfunkel,Art


In [123]:
# 抽出対象をbool値のリストで指定
targets = [True, True, False, False, True, False] 

In [124]:
df2[targets]

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
1,1942/026/18,76.0,True,McCartney,Beatles,Paul
4,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul


In [125]:
# df2からalive=Trueのデータのみを抽出する
df2[df2.alive]

Unnamed: 0,DOB,age,alive,family_name,group_name,name
1,1942/026/18,76.0,True,McCartney,Beatles,Paul
3,1940/07/07,78.0,True,Starr,Beatles,Ringo
4,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul
5,1941/11/05,77.0,True,Garfunkel,Simon_and_Garfunkel,Art


In [126]:
# ~をつけるとnotの意味になる
df2[~df2.alive]

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
2,1943/02/25,,False,Harrison,Beatles,George


In [127]:
# 77歳以上を抽出
df2.age >= 77

0    False
1    False
2    False
3     True
4     True
5     True
Name: age, dtype: bool

In [128]:
df2[df2.age >= 77]

Unnamed: 0,DOB,age,alive,family_name,group_name,name
3,1940/07/07,78.0,True,Starr,Beatles,Ringo
4,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul
5,1941/11/05,77.0,True,Garfunkel,Simon_and_Garfunkel,Art


In [129]:
df2[~df2.alive]

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
2,1943/02/25,,False,Harrison,Beatles,George


In [130]:
# Beatlesメンバーを抽出
df2[df2["group_name"] == "Beatles"]

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
1,1942/026/18,76.0,True,McCartney,Beatles,Paul
2,1943/02/25,,False,Harrison,Beatles,George
3,1940/07/07,78.0,True,Starr,Beatles,Ringo


In [131]:
# 条件に当てはまる要素のみ値を変更することも可能
df3_copy = df3.copy()  #　もとのデータフレームを上書きしないようにcopyを作成しています。
df3_copy[df3_copy < 0] = 0  # 負の値のものを 0 に書き換える。
df3_copy.head()

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,0,31.0,0.6028,73.922054,0.0179,0.0
data_10,109,0,56.0,0.5,575.58579,0.0346,0.0
data_11,77,0,33.0,0.6281,144.838806,0.0343,0.0
data_12,181,126,55.0,0.5,,0.0551,0.0
data_13,91,0,45.0,0.522,896.439718,0.0044,0.0


* 以下はややマニアックな例です

In [132]:
# isin で複数候補を対象にできる
df2[df2["group_name"].isin(["Beatles", "Simon_and_Garfunkel"])]

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
1,1942/026/18,76.0,True,McCartney,Beatles,Paul
2,1943/02/25,,False,Harrison,Beatles,George
3,1940/07/07,78.0,True,Starr,Beatles,Ringo
4,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul
5,1941/11/05,77.0,True,Garfunkel,Simon_and_Garfunkel,Art


In [133]:
# or ("|") を使っても同様の結果が得られる。演算子の優先順位を示すために ( ) が必要。
df2[(df2["group_name"] == "Beatles") | (df2["group_name"] == "Simon_and_Garfunkel")]

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,,False,Lennon,Beatles,John
1,1942/026/18,76.0,True,McCartney,Beatles,Paul
2,1943/02/25,,False,Harrison,Beatles,George
3,1940/07/07,78.0,True,Starr,Beatles,Ringo
4,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul
5,1941/11/05,77.0,True,Garfunkel,Simon_and_Garfunkel,Art


In [134]:
# indexを対象にして条件指定抽出
df3[df3.index.str.endswith("0")]  # indexの最後が0で終わっているものだけを抜き出しています

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_20,20,-4,16.0,0.5714,3.29383,0.0469,-0.0441
data_30,127,-77,50.0,0.5,164.149599,0.1493,0.0


上記以外にもboolean indexingを使って様々な抽出を行うことができます。


# 新規の行・列の追加、行・列の編集

In [135]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,10,20,30
2,100,200,300
3,1000,2000,3000


## 列の操作

* 列の追加

In [136]:
# 列の追加
df1["D"] = [4, 40, 400, 4000]  # すでにD列が存在している場合には上書きになります。

In [137]:
# 確認
df1

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,10,20,30,40
2,100,200,300,400
3,1000,2000,3000,4000


* 列の編集

In [138]:
df1["C"] = df1["C"] * 10
df1["D"] = [4, 44, 444, 4444]

In [139]:
df1

Unnamed: 0,A,B,C,D
0,1,2,30,4
1,10,20,300,44
2,100,200,3000,444
3,1000,2000,30000,4444


In [140]:
df1["AVERAGE"] = (df1["A"] + df1["B"] + df1["C"] + df1["D"]) / 4

In [141]:
# ↑はmean関数を使っても同じ結果が得られる
df1["AVERAGE2"] = df1[["A", "B", "C", "D"]].mean(axis=1)

In [142]:
df1

Unnamed: 0,A,B,C,D,AVERAGE,AVERAGE2
0,1,2,30,4,9.25,9.25
1,10,20,300,44,93.5,93.5
2,100,200,3000,444,936.0,936.0
3,1000,2000,30000,4444,9361.0,9361.0


* 列の削除

In [143]:
# dropを使った削除
# defaultではaxis=0(行)の削除なので、axis=1を指定する 
df1.drop("AVERAGE", axis=1) 

Unnamed: 0,A,B,C,D,AVERAGE2
0,1,2,30,4,9.25
1,10,20,300,44,93.5
2,100,200,3000,444,936.0
3,1000,2000,30000,4444,9361.0


↑　dropは非破壊的変更なので、実際には上記では削除できていない。  
削除するためには、```df = df.drop("AVERAGE", axis=1) ```というように代入する。

In [144]:
# リストを使って複数列も同時に指定可能。
df1.drop(["AVERAGE", "AVERAGE2"], axis=1) 

Unnamed: 0,A,B,C,D
0,1,2,30,4
1,10,20,300,44
2,100,200,3000,444
3,1000,2000,30000,4444


In [145]:
# del を使っても削除可能 (破壊的変更なので即座に反映される)
del df1["AVERAGE"], df1["AVERAGE2"],  df1["D"]
df1.C = df1.C / 10  # 元の値に戻しておきます。
df1
# del df1[["AVERAGE", "AVERAGE2", "D"]] はエラーになった。

Unnamed: 0,A,B,C
0,1,2,3.0
1,10,20,30.0
2,100,200,300.0
3,1000,2000,3000.0


## 行の操作

In [146]:
df1

Unnamed: 0,A,B,C
0,1,2,3.0
1,10,20,30.0
2,100,200,300.0
3,1000,2000,3000.0


* 行の追加  
この方法はややトリッキー。実際には一行ずつ追加する機会は多くないと思われる。  
後述の concat で複数のデータフレームを連結する操作の方が多いかも


In [147]:
# 追加したい行データをあらかじめSeriesとして作成しておく。
# このときシリーズのindexには、データフレームの列名（columns）を指定しておく。
tmp_S = pd.Series([9,99,999], index=df1.columns)
tmp_S

A      9
B     99
C    999
dtype: int64

In [148]:
# appendを使って追加する。このとき、新しく列にindexを割り振るので ignore_index=Trueを指定する必要がある
df1 = df1.append(tmp_S, ignore_index=True)

In [149]:
df1

Unnamed: 0,A,B,C
0,1,2,3.0
1,10,20,30.0
2,100,200,300.0
3,1000,2000,3000.0
4,9,99,999.0


* 行の編集  
locまたはilocを使って行を指定して、新しい値を指定する

In [150]:
df1.iloc[4] = df1.iloc[4]*10

In [151]:
# 10倍の値になっている
df1

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,10.0,20.0,30.0
2,100.0,200.0,300.0
3,1000.0,2000.0,3000.0
4,90.0,990.0,9990.0


In [152]:
# 元にもどす
# ここではlocを使っているので []の中身はindex。ただし、この例ではindex=行番号なのでilocを使うのと全く同じ
df1.loc[4] = df1.loc[4] / 10  

In [153]:
df1

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,10.0,20.0,30.0
2,100.0,200.0,300.0
3,1000.0,2000.0,3000.0
4,9.0,99.0,999.0


In [154]:
# 要素の値を指定することももちろん可能
df1.loc[0, "A"] = 0
df1

Unnamed: 0,A,B,C
0,0.0,2.0,3.0
1,10.0,20.0,30.0
2,100.0,200.0,300.0
3,1000.0,2000.0,3000.0
4,9.0,99.0,999.0


* 行の削除

In [155]:
# dropを使用する
df1 = df1.drop(4)
df1

Unnamed: 0,A,B,C
0,0.0,2.0,3.0
1,10.0,20.0,30.0
2,100.0,200.0,300.0
3,1000.0,2000.0,3000.0


# 欠損値・重複の扱い

In [156]:
df3.head()

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_12,181,126,55.0,0.5,,0.0551,0.0
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082


In [157]:
df3.shape  # 30行×7列のデータ

(30, 7)

* 欠損値の削除

In [158]:
# 欠損値を含む行を削除
df3.dropna().head()
# 非破壊的変更なので実際に削除するには df3 = df3.dropna()とするか、
# df3.dropna(inplace=True)とする必要があります。

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082
data_14,133,-70,63.0,0.5,374.867722,0.042,0.0


In [159]:
df3.dropna().shape  # 26行×7列なので4行削除されたことがわかる

(26, 7)

デフォルトでは欠損値を含む行が削除されます(axis=0)。欠損値を含む列を削除するにはaxis=1を指定します。  
その他に、特定の行に欠損値が含まれている場合を削除対象にするオプション(subset)や、欠損値の数の閾値を指定するオプション(thresh)などもあります。

* 欠損値の補完

In [160]:
# 欠損値を0で補完する
df3.fillna(0).head()

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_12,181,126,55.0,0.5,0.0,0.0551,0.0
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082


In [161]:
# 引数に辞書やシリーズを指定することで、各行ごとに異なる値を指定することもできます。
D = {"C": 0, "E": 1}  # C列は0、E列は1
df3.fillna(D).head()

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_12,181,126,55.0,0.5,1.0,0.0551,0.0
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082


In [162]:
# ↑の方法を応用して、各列の平均で埋めることも可能です。
df3.fillna(df3.mean()).head()

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_12,181,126,55.0,0.5,314.394296,0.0551,0.0
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082


* 前後の値による補完  
interpolateを使います。詳細は割愛します。

In [163]:
df3.interpolate().head()

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_12,181,126,55.0,0.5,520.639262,0.0551,0.0
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082


* 重複の除去

drop_duplicatesを使用します。デフォルトでは行全体の値が重複していた場合に削除します。  
下の例ではD列に重複値がある場合に、先頭の行のみ残して以後の行を削除しています(keep="first")。  
オプション指定で、重複している行すべてを削除することも可能です(keep=False)。

In [164]:
df3.drop_duplicates(subset="D").head()

Unnamed: 0_level_0,A,B,C,D,E,F,G
data_idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
data_1,58,-27,31.0,0.6028,73.922054,0.0179,-0.0102
data_10,109,-53,56.0,0.5,575.58579,0.0346,0.0
data_11,77,-44,33.0,0.6281,144.838806,0.0343,-0.0411
data_13,91,-46,45.0,0.522,896.439718,0.0044,-0.0082
data_19,6,-2,4.0,0.5453,72.282932,0.022,-0.0707


__(参考)__  
pandasではデータフレームに対する操作の多くは"非破壊的変更(=自分自身を変更させるのではなく、新しいデータフレームとして結果を返す)"となっています。  
このメリットの一つに、複数のメソッドを連結して使用できることが挙げられます。（メソッドチェイン）  
例: `df3.dropna().drop_duplicates(subset="D").sort_index().head()`


# データフレーム全体、または行・列に対しての関数の適用

## データフレームの集計メソッドを使用する方法

3.3.3で紹介済みなので詳細は割愛

In [165]:
df3.sum()  # 行方向の和を求める場合、df3.sum(axis=1)

A    2029.000000
B     101.000000
C     939.000000
D      16.628800
E    8488.645986
F       0.799400
G      -0.561800
dtype: float64

## numpyの関数を利用する方法

numpyにはユニバーサル関数と呼ばれる行列（データフレーム）の要素ごとに処理を行う関数がある

In [166]:
df1

Unnamed: 0,A,B,C
0,0.0,2.0,3.0
1,10.0,20.0,30.0
2,100.0,200.0,300.0
3,1000.0,2000.0,3000.0


In [167]:
# 常用対数をとる。他に自然対数 (log)、log2 などもある
np.log10(df1)

  from ipykernel import kernelapp as app


Unnamed: 0,A,B,C
0,-inf,0.30103,0.477121
1,1.0,1.30103,1.477121
2,2.0,2.30103,2.477121
3,3.0,3.30103,3.477121


In [168]:
# ユニバーサル関数はシリーズにも適用できるので特定の列や行に対して実行することも可能
print(np.sqrt(df1["B"]))  # 平方根。値を更新するには　df1["B"] = np.sqrt(df1["B"]) というように代入する
print(np.round(df3.iloc[1]))  # 四捨五入

0     1.414214
1     4.472136
2    14.142136
3    44.721360
Name: B, dtype: float64
A    109.0
B    -53.0
C     56.0
D      0.0
E    576.0
F      0.0
G      0.0
Name: data_10, dtype: float64


In [169]:
# numpyの集計関数も利用可能
np.var(df3)   

A      2404.698889
B      1877.832222
C       682.442331
D         0.004918
E    197282.083194
F         0.000677
G         0.000699
dtype: float64

In [170]:
# 行方向に適用するには axis=1を指定する
np.var(df1, axis=1)

0         1.555556
1        66.666667
2      6666.666667
3    666666.666667
dtype: float64

In [171]:
# np.varは平均との差の自乗をデータ数Nで割っているが、不偏分散(N-1で割る)を求めるには ddof=1 を指定する
np.var(df1, ddof=1)

A     234025.00
B     935361.00
C    2104562.25
dtype: float64

In [172]:
# データフレームのvarメソッドは デフォルトでddof=1として計算されている
df1.var()

A     234025.00
B     935361.00
C    2104562.25
dtype: float64

標準偏差を求めるには np.std または df.std を使用します

## map, apply, applymap

関数をデータフレームや行・列に適用するのに用いる。  
ただし、numpyやデータフレームのメソッドに定義されているものはそれを使用した方が処理が早い。  


In [173]:
# テスト用関数: 引数xが文字列であれば小文字に変換、そうでなければ "-" を返す
def my_lower(x):    
    if isinstance(x, str):
        return x.lower()
    else:
        return "-"

### シリーズ（データフレームの行・列）の各要素に関数を適用するにはmapを使う

In [174]:
test_s = pd.Series(["JOHN", "Paul", 20, 0.8, None])
test_s.map(my_lower)

0    john
1    paul
2       -
3       -
4       -
dtype: object

In [175]:
df2["name"].map(my_lower)

0      john
1      paul
2    george
3     ringo
4      paul
5       art
Name: name, dtype: object

### データフレームのの各要素に関数を適用するにはapplymapを使う

In [176]:
df2.applymap(my_lower)

Unnamed: 0,DOB,age,alive,family_name,group_name,name
0,1940/10/09,-,-,lennon,beatles,john
1,1942/026/18,-,-,mccartney,beatles,paul
2,1943/02/25,-,-,harrison,beatles,george
3,1940/07/07,-,-,starr,beatles,ringo
4,1941/10/13,-,-,simon,simon_and_garfunkel,paul
5,1941/11/05,-,-,garfunkel,simon_and_garfunkel,art


### より複雑な関数をシリーズ（データフレームの行・列）の各要素に適用するにはシリーズのapplyを使う

```S.apply(func, convert_dtype=True, args=(), **kwds)```  
argsに引数をタプルとして与えることができる

In [177]:
# テスト用関数その2: 第一引数 x が数値であれば、小数第 n 位までの概数にする(nは負の値も可)
def my_round(x, n):
    if isinstance(x, int) or isinstance(x, float):
        return round(x, n)
    else:
        return np.NaN

In [178]:
# シリーズの各値について、小数第二位までの概数にする
test_s = pd.Series([3.89, 2.192, 15.3921, 43.903, 390.083, 239.622])
test_s.apply(my_round, args=(2,))  # argsに第二引数以降の引数をタプルとして与える必要がある。要素数１のタプルなので (2,) と書く。

0      3.89
1      2.19
2     15.39
3     43.90
4    390.08
5    239.62
dtype: float64

### データフレームの行または列ごとに関数を適用するには、データフレームのapplyを使う

__データフレームのapplyとシリーズのapplyは使い方が異なるので注意__  
各要素に関数を適用するのではなく、行または列全体に関数を適用する  
df1.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)



In [179]:
# テスト用集計関数: シリーズ (データフレームの行 or 列)を受け取り、thresholdより値が大きいものの個数を返す
def count_larger_than(S, threshold=0):
    assert isinstance(S, pd.core.series.Series)  # Sがシリーズであるかチェックを行っている
    return len([x for x in S if x > threshold])


In [180]:
# 試しに実行してみる
s_test = pd.Series([1,3,5,6,8])
count_larger_than(s_test, 5)

2

In [181]:
df1

Unnamed: 0,A,B,C
0,0.0,2.0,3.0
1,10.0,20.0,30.0
2,100.0,200.0,300.0
3,1000.0,2000.0,3000.0


In [182]:
# count_larger_than関数を各列に適用する
df1.apply(count_larger_than, args=(10,))

A    2
B    3
C    3
dtype: int64

In [183]:
# count_larger_than関数をaxis=1を指定して各行に適用する
df1.apply(count_larger_than, args=(10,), axis=1)

0    0
1    2
2    3
3    3
dtype: int64

In [184]:
# シリーズを受け取ってシリーズまたはリストを返す関数
def my_cumproduct(S):
    L = []
    current = 1
    for x in S:
        current *= x
        L.append(current)
    return L
        

In [185]:
# 動作確認
my_cumproduct(pd.Series([10,20,30]))

[10, 200, 6000]

In [186]:
df1.apply(my_cumproduct)

Unnamed: 0,A,B,C
0,0.0,2.0,3.0
1,0.0,40.0,90.0
2,0.0,8000.0,27000.0
3,0.0,16000000.0,81000000.0


In [187]:
# シリーズを引数として受け取り、Zスコア（平均値を引いた後、標準偏差で割る）に変換してシリーズとして返す
def zscore(S):
    mean = S.mean()  # 平均
    stdv = S.std()  # 標準偏差
    return (S - mean) / stdv

In [188]:
df1.apply(zscore)

Unnamed: 0,A,B,C
0,-0.57363,-0.572306,-0.572306
1,-0.552959,-0.553694,-0.553694
2,-0.366916,-0.367578,-0.367578
3,1.493505,1.493578,1.493578


In [189]:
# applyを使わずに計算も可能
mean = df1.mean()
stdev = df1.std()
(df1-mean)/stdev

Unnamed: 0,A,B,C
0,-0.57363,-0.572306,-0.572306
1,-0.552959,-0.553694,-0.553694
2,-0.366916,-0.367578,-0.367578
3,1.493505,1.493578,1.493578


# 行・列をループでまわす

## データフレームをそのままループで回す

In [190]:
df1

Unnamed: 0,A,B,C
0,0.0,2.0,3.0
1,10.0,20.0,30.0
2,100.0,200.0,300.0
3,1000.0,2000.0,3000.0


In [191]:
# 列名が順に取り出される
for x in df1:
    print(x, type(x))

A <class 'str'>
B <class 'str'>
C <class 'str'>


## 1行ずつ取り出す
iterrowsを使うと、各行のインデックスおよび行データがタプルとして取り出せる。  
行データの形式はSeriesになっている。

In [192]:
for index, row in df2.iterrows():
    print("INDEX =", index)
    print(list(row))
    print("-----")

INDEX = 0
['1940/10/09', nan, False, 'Lennon', 'Beatles', 'John']
-----
INDEX = 1
['1942/026/18', 76.0, True, 'McCartney', 'Beatles', 'Paul']
-----
INDEX = 2
['1943/02/25', nan, False, 'Harrison', 'Beatles', 'George']
-----
INDEX = 3
['1940/07/07', 78.0, True, 'Starr', 'Beatles', 'Ringo']
-----
INDEX = 4
['1941/10/13', 77.0, True, 'Simon', 'Simon_and_Garfunkel', 'Paul']
-----
INDEX = 5
['1941/11/05', 77.0, True, 'Garfunkel', 'Simon_and_Garfunkel', 'Art']
-----


## 1列ずつ取り出す
iteritemsを使うと、各列の列名および列データがタプルとして取り出せる。  
列データの形式はSeriesになっている。

In [193]:
for col_name, col in df2.iteritems():
    print("Column name =", col_name)
    print(list(col))
    print("-----")    

Column name = DOB
['1940/10/09', '1942/026/18', '1943/02/25', '1940/07/07', '1941/10/13', '1941/11/05']
-----
Column name = age
[nan, 76.0, nan, 78.0, 77.0, 77.0]
-----
Column name = alive
[False, True, False, True, True, True]
-----
Column name = family_name
['Lennon', 'McCartney', 'Harrison', 'Starr', 'Simon', 'Garfunkel']
-----
Column name = group_name
['Beatles', 'Beatles', 'Beatles', 'Beatles', 'Simon_and_Garfunkel', 'Simon_and_Garfunkel']
-----
Column name = name
['John', 'Paul', 'George', 'Ringo', 'Paul', 'Art']
-----


## forループを使う場合の注意点

In [194]:
%%time
# データフレームをループでまわして、各要素を四捨五入した値に書き換える処理
N=100
test_df = pd.DataFrame(np.random.rand(N, 100) * 10)  # N行x100列のテストデータ. 各データは0~10のランダムな小数
for row_index, row in test_df.iterrows():
    for column_index in row.index:
        test_df.loc[row_index, column_index] = round(test_df.loc[row_index, column_index])
        # test_df.at[row_index, column_index] = round(test_df.at[row_index, column_index])

# forループ自体が遅いわけではなく、ループの中で処理に時間がかかる loc を使った要素の参照・書き換えを行なっているのが遅くなる要因
# locのかわりに at を使うと0.2秒程度まで改善される

CPU times: user 1.89 s, sys: 12.1 ms, total: 1.9 s
Wall time: 1.9 s


In [195]:
%%time
# ループでを使わずに、applymapを使って各要素を四捨五入した値に書き換える処理
N=100
test_df = pd.DataFrame(np.random.rand(N, 100) * 10)
test_df.applymap(round)

CPU times: user 19.4 ms, sys: 2.17 ms, total: 21.6 ms
Wall time: 19.7 ms


forループの中で時間のかかる処理を行うとパフォーマンスが落ちます。
一般的には、
1. numpyやpandasの関数・メソッドを使用  
2. apply や applymap で行・列・データフレーム全体に関数を適用する  
3. for ループを回して処理する  

の順にパフォーマンスが低下します。

# データフレームの結合

## concat: ２つ（またはそれ以上）のデータフレームを縦・横方向に連結
共通するindexや列ラベルがあれば、それらを利用して結び付けられる。

In [270]:
df_A = pd.DataFrame([["A0","A1","A2"],
                     ["B0","B1","B2"],
                     ["C0","C1","C2"],
                     ["D0","D1","D2"]],
                    columns=[0,1,2],
                    index=["A","B","C","D"])
df_B = pd.DataFrame([["E0","E1","E2","E3"],
                     ["F0","F1","F2","F3"],
                     ["G0","G1","G2","G3"],
                     ["H0","H1","H2","H3"]],
                    columns=[0,1,2,3],
                    index=["E","F","G","H"])
df_C = pd.DataFrame([["A3","A4","A5"],
                     ["B3","B4","B5"],
                     ["C3","C4","C5"],
                     ["D3","D4","D5"]],
                    columns=[3,4,5],
                    index=["A","B","C","D"])


In [271]:
# 縦に連結
pd.concat([df_A, df_B])

Unnamed: 0,0,1,2,3
A,A0,A1,A2,
B,B0,B1,B2,
C,C0,C1,C2,
D,D0,D1,D2,
E,E0,E1,E2,E3
F,F0,F1,F2,F3
G,G0,G1,G2,G3
H,H0,H1,H2,H3


In [272]:
# 横方向への連結 (axis=1)を指定
# 共通する行ラベル同士で連結する
pd.concat([df_A, df_C], axis=1)

Unnamed: 0,0,1,2,3,4,5
A,A0,A1,A2,A3,A4,A5
B,B0,B1,B2,B3,B4,B5
C,C0,C1,C2,C3,C4,C5
D,D0,D1,D2,D3,D4,D5


In [273]:
# 縦方向に結合するならデータフレームのappendメソッドも簡単
df_A.append(df_B)

Unnamed: 0,0,1,2,3
A,A0,A1,A2,
B,B0,B1,B2,
C,C0,C1,C2,
D,D0,D1,D2,
E,E0,E1,E2,E3
F,F0,F1,F2,F3
G,G0,G1,G2,G3
H,H0,H1,H2,H3


## join（indexをkeyとして連結するのに便利）

In [274]:
# テスト用データ
df_L = pd.DataFrame([1.2, 0.8, 2.3, 3.5, 2.2, 0.3],
                    index=["gene_1", "gene_2", "gene_3", "gene_4", "gene_5", "gene_6"],
                    columns=["DE"])
df_R = pd.DataFrame(["50S ribosome-binding GTPase", "Surface antigen", "Elongation factor Tu GTP binding domain", "Ring finger domain"],
                    index=["gene_1", "gene_2", "gene_4", "gene_6"],
                    columns=["definition"])

In [275]:
df_L

Unnamed: 0,DE
gene_1,1.2
gene_2,0.8
gene_3,2.3
gene_4,3.5
gene_5,2.2
gene_6,0.3


In [276]:
df_R

Unnamed: 0,definition
gene_1,50S ribosome-binding GTPase
gene_2,Surface antigen
gene_4,Elongation factor Tu GTP binding domain
gene_6,Ring finger domain


In [277]:
df_L.join(df_R)

Unnamed: 0,DE,definition
gene_1,1.2,50S ribosome-binding GTPase
gene_2,0.8,Surface antigen
gene_3,2.3,
gene_4,3.5,Elongation factor Tu GTP binding domain
gene_5,2.2,
gene_6,0.3,Ring finger domain


↑ デフォルトでは how="left"が指定されているので、左のデータフレームにあるものはすべて出力される。

In [278]:
# how="inner"を指定すると、両方のデータフレームに存在するもののみが出力される。
df_L.join(df_R, how="inner")

Unnamed: 0,DE,definition
gene_1,1.2,50S ribosome-binding GTPase
gene_2,0.8,Surface antigen
gene_4,3.5,Elongation factor Tu GTP binding domain
gene_6,0.3,Ring finger domain


In [279]:
# 先に述べた pd.concat でも同様の結果は得られる
pd.concat([df_L, df_R], axis=1)

Unnamed: 0,DE,definition
gene_1,1.2,50S ribosome-binding GTPase
gene_2,0.8,Surface antigen
gene_3,2.3,
gene_4,3.5,Elongation factor Tu GTP binding domain
gene_5,2.2,
gene_6,0.3,Ring finger domain


## merge:（index以外をkeyとして連結するのに便利）
多くのオプションがあるので詳細はヘルプ参照のこと

In [281]:
df_L = pd.DataFrame([["gene_1","PF00009"],
                     ["gene_2","PF01103"],
                     ["gene_3","PF01926"],
                     ["gene_4","PF01926"],
                     ["gene_5","PF13639"],
                     ["gene_6","PF02225"]],
                    columns=["gene_id", "PFAM_id",])
df_R = pd.DataFrame([["PF01926","50S ribosome-binding GTPase"],
                     ["PF01103","Surface antigen"],
                     ["PF00009","Elongation factor Tu GTP binding domain"],
                     ["PF13639", "Ring finger domain"]],
                    columns=["PFAM_id", "definition"])

In [282]:
df_L

Unnamed: 0,gene_id,PFAM_id
0,gene_1,PF00009
1,gene_2,PF01103
2,gene_3,PF01926
3,gene_4,PF01926
4,gene_5,PF13639
5,gene_6,PF02225


In [283]:
df_R

Unnamed: 0,PFAM_id,definition
0,PF01926,50S ribosome-binding GTPase
1,PF01103,Surface antigen
2,PF00009,Elongation factor Tu GTP binding domain
3,PF13639,Ring finger domain


In [284]:
# この例では、共通する列ラベル PFAM_id を"key"として結び付けられる
# どの列をkeyにするかは、on, left_on, right_on などで指定可能
#　index の値をkeyとして使うことも可能 (left_index, right_index)
#
# デフォルトでは innerjoin (how='inner', 両方のデータに存在するもののみが結果に現れる)
# 右側のデータフレームにない PF02225 は削除される
pd.merge(df_L, df_R)

Unnamed: 0,gene_id,PFAM_id,definition
0,gene_1,PF00009,Elongation factor Tu GTP binding domain
1,gene_2,PF01103,Surface antigen
2,gene_3,PF01926,50S ribosome-binding GTPase
3,gene_4,PF01926,50S ribosome-binding GTPase
4,gene_5,PF13639,Ring finger domain


In [286]:
# leftjoin (how='left')にすると左側のデータフレームにあるものはすべて表示される
pd.merge(df_L, df_R, how='left')

Unnamed: 0,gene_id,PFAM_id,definition
0,gene_1,PF00009,Elongation factor Tu GTP binding domain
1,gene_2,PF01103,Surface antigen
2,gene_3,PF01926,50S ribosome-binding GTPase
3,gene_4,PF01926,50S ribosome-binding GTPase
4,gene_5,PF13639,Ring finger domain
5,gene_6,PF02225,


In [287]:
# df_Aとdf_Cをindexをkeyにして結合。pd.concat([df_A, df_C], axis=1)と同じ結果になる。
pd.merge(df_A, df_C, left_index=True, right_index=True)

Unnamed: 0,0,1,2,3,4,5
A,A0,A1,A2,A3,A4,A5
B,B0,B1,B2,B3,B4,B5
C,C0,C1,C2,C3,C4,C5
D,D0,D1,D2,D3,D4,D5


In [288]:
# pd.merge以外にも次のような使い方でも結合可能
df_L.merge(df_R)

Unnamed: 0,gene_id,PFAM_id,definition
0,gene_1,PF00009,Elongation factor Tu GTP binding domain
1,gene_2,PF01103,Surface antigen
2,gene_3,PF01926,50S ribosome-binding GTPase
3,gene_4,PF01926,50S ribosome-binding GTPase
4,gene_5,PF13639,Ring finger domain


# その他の機能

## multiindex

In [356]:
df2_multiindex = df2.set_index([df2.group_name, df2.name])

In [357]:
df2_multiindex

Unnamed: 0_level_0,Unnamed: 1_level_0,DOB,age,alive,family_name,group_name,name
group_name,name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Beatles,John,1940/10/09,,False,Lennon,Beatles,John
Beatles,Paul,1942/026/18,76.0,True,McCartney,Beatles,Paul
Beatles,George,1943/02/25,,False,Harrison,Beatles,George
Beatles,Ringo,1940/07/07,78.0,True,Starr,Beatles,Ringo
Simon_and_Garfunkel,Paul,1941/10/13,77.0,True,Simon,Simon_and_Garfunkel,Paul
Simon_and_Garfunkel,Art,1941/11/05,77.0,True,Garfunkel,Simon_and_Garfunkel,Art


In [368]:
df2_multiindex.loc["Beatles"]

Unnamed: 0_level_0,DOB,age,alive,family_name,group_name,name
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
John,1940/10/09,,False,Lennon,Beatles,John
Paul,1942/026/18,76.0,True,McCartney,Beatles,Paul
George,1943/02/25,,False,Harrison,Beatles,George
Ringo,1940/07/07,78.0,True,Starr,Beatles,Ringo


In [370]:
df2_multiindex.loc[("Beatles", "Paul")]  # 複数インデックスの指定には タプル　を使用する

DOB            1942/026/18
age                     76
alive                 True
family_name      McCartney
group_name         Beatles
name                  Paul
Name: (Beatles, Paul), dtype: object

## groupby

In [371]:
df2.groupby("group_name").count()

Unnamed: 0_level_0,DOB,age,alive,family_name,name
group_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Beatles,4,2,4,4,4
Simon_and_Garfunkel,2,2,2,2,2


## pivot

In [380]:
df2.pivot_table(index="group_name", values="age", aggfunc="mean")  # グループごとの平均年齢を計算

Unnamed: 0_level_0,age
group_name,Unnamed: 1_level_1
Beatles,77.0
Simon_and_Garfunkel,77.0


In [398]:
df2.pivot_table(index="group_name", columns="name", values="family_name", aggfunc="first")  # グループごとの平均年齢を計算

name,Art,George,John,Paul,Ringo
group_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Beatles,,Harrison,Lennon,McCartney,Starr
Simon_and_Garfunkel,Garfunkel,,,Simon,


## カテゴリカルデータと時系列データ

pandasではこれらのデータも扱うことができますが、詳細は割愛します。

# データフレームの書き出し

In [404]:
df1.index.name = "INDEX"  # indexに名前をつけておいた。(無くても良いが、ファイルに書き出した時に空欄になるため)

In [405]:
df1.to_csv("output/dataframe1.tsv", sep="\t", header=True, index=True)