# pandasライブラリ

データ分析作業を支援するモジュールが含まれている。

In [2]:
# まずはインポート

import pandas as pd
import numpy as np

In [3]:
# リストからシリーズの作成

s1 = pd.Series([0,1,2])
print(s1)

# 配列からシリーズの作成

s2 = pd.Series(np.random.rand(3))
print(s2)

# 辞書からシリーズの作成
s3 = pd.Series({0: 'boo', 1: 'foo', 2:'woo'})
print(s3)

0    0
1    1
2    2
dtype: int64
0    0.983553
1    0.923445
2    0.787177
dtype: float64
0    boo
1    foo
2    woo
dtype: object


In [4]:
# データフレーム

# 多次元リストからデータフレーム

d1 = pd.DataFrame([[0,1,2],[3,4,5],[6,7,8],[9,10,11]], index=[10,11,12,13], columns=['c1', 'c2', 'c3'])
print(d1)

# 多次元配列からデータフレームの作成
d2 = pd.DataFrame(np.random.rand(12).reshape(4,3), columns=['c1', 'c2', 'c3'])
print(d2)

# 辞書からデータフレームの作成
d3 = pd.DataFrame({'Initial':['B', 'F', 'W'], 'Name':['boo', 'foo', 'woo']}, columns=['Name', 'Initial'])
print(d3)

    c1  c2  c3
10   0   1   2
11   3   4   5
12   6   7   8
13   9  10  11
         c1        c2        c3
0  0.727379  0.466192  0.235745
1  0.447132  0.886119  0.510663
2  0.050143  0.751327  0.410024
3  0.970999  0.091086  0.635434
  Name Initial
0  boo       B
1  foo       F
2  woo       W


In [5]:
# CSVファイルからデータフレーム作成

iris_d = pd.read_csv('iris.csv') # ファイル読み込み

iris_d.head(10) # 先頭10行のデータを表示

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa
6,4.6,3.4,1.4,0.3,Setosa
7,5.0,3.4,1.5,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa


In [6]:
# データフレームオブジェクト`index`により、データフレームのインデックス情報を確認する。

print(iris_d.index) # インデックス情報
len(iris_d.index) # インデックス長さ

RangeIndex(start=0, stop=150, step=1)


150

In [7]:
# データ参照・スライスで行の位置を指定できる

# 先頭5行
iris_d[:5]


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [8]:
# 終端から5行
iris_d[-5:]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


In [9]:
# 任意の列の抽出・ここではvariety行を選択

iris_d['variety'].head(10)

0    Setosa
1    Setosa
2    Setosa
3    Setosa
4    Setosa
5    Setosa
6    Setosa
7    Setosa
8    Setosa
9    Setosa
Name: variety, dtype: object

In [10]:
# 列名をリストで投げると複数の列を抽出出来る
iris_d[['sepal.length', 'variety']].head(10)

Unnamed: 0,sepal.length,variety
0,5.1,Setosa
1,4.9,Setosa
2,4.7,Setosa
3,4.6,Setosa
4,5.0,Setosa
5,5.4,Setosa
6,4.6,Setosa
7,5.0,Setosa
8,4.4,Setosa
9,4.9,Setosa


## ilcoとloc

データフレームオブジェクトの`iloc`属性を用いると、NumPyの多次元配列のスライスと同様に
行と列の位置を指定して任意の行と列を抽出することができる。

In [11]:
# データフレームの2行のデータ

iris_d.iloc[1]

sepal.length       4.9
sepal.width          3
petal.length       1.4
petal.width        0.2
variety         Setosa
Name: 1, dtype: object

In [12]:
# データフレームの2行、2列目のデータ
iris_d.iloc[1,1]

3.0

In [13]:
# データフレームの1から5行目と、1から2列目のデータ
iris_d.iloc[0:5, 0:2]

Unnamed: 0,sepal.length,sepal.width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


データフレームオブジェクトの`loc`属性を用いると、抽出したい行のインデックス・ラベルや
列のラベルを指定して任意の行と列を抽出できる。

複数のラベルはリストで指定する。
行のインデックスは各行に与えられた番号で、`iloc`で指定する行の番号とは必ずしも
一致しないので注意。


In [14]:
# データフレームの行インデックス5のデータ
iris_d.loc[5]

sepal.length       5.4
sepal.width        3.9
petal.length       1.7
petal.width        0.4
variety         Setosa
Name: 5, dtype: object

In [15]:
# データフレームの行インデックス5と'sepal.length'と列のデータ
iris_d.loc[5, 'sepal.length']

5.4

In [16]:
# データフレームの行インデックス1から5と'sepla.length'と'variety'の列のデータ
iris_d.loc[1:5, ['sepal.length', 'variety']]

Unnamed: 0,sepal.length,variety
1,4.9,Setosa
2,4.7,Setosa
3,4.6,Setosa
4,5.0,Setosa
5,5.4,Setosa


## データの条件取り出し

データフレームの列の指定と併せて条件を指定することで、条件に一致するデータフレームを
抽出できる。

Numpyの多次元配列の真理値配列によるインデックスアクセスと同様に、条件式のブール演算では、
`and`,`or`,`not`の代わりに`&`,`|`,`~`を用いる。


In [17]:
# データフレームの'sepal.length'列の値が7より大きく、'variety'列の値が3より小さいデータ
iris_d[(iris_d['sepal.length'] > 7.0) & (iris_d['sepal.width'] < 3.0)]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
107,7.3,2.9,6.3,1.8,Virginica
118,7.7,2.6,6.9,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
130,7.4,2.8,6.1,1.9,Virginica


## 列の追加と削除

データフレームに列を追加する場合は、以下のように、追加したい新たな列名を指定し
値を代入すると新たな列を追加することが出来る。


In [18]:
# データフレームに'mycolumn'という列を追加

iris_d['mycolumn']=np.random.rand(len(iris_d.index))
iris_d.head(10)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,mycolumn
0,5.1,3.5,1.4,0.2,Setosa,0.27128
1,4.9,3.0,1.4,0.2,Setosa,0.843874
2,4.7,3.2,1.3,0.2,Setosa,0.216652
3,4.6,3.1,1.5,0.2,Setosa,0.982138
4,5.0,3.6,1.4,0.2,Setosa,0.385102
5,5.4,3.9,1.7,0.4,Setosa,0.170435
6,4.6,3.4,1.4,0.3,Setosa,0.002194
7,5.0,3.4,1.5,0.2,Setosa,0.357251
8,4.4,2.9,1.4,0.2,Setosa,0.067492
9,4.9,3.1,1.5,0.1,Setosa,0.623716


In [19]:
# データフレームから'mycolumn'を削除
del iris_d['mycolumn']
iris_d.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


`assing()`メソッドを用いると、追加したい列名とその値を指定することで、以下のように
新たな値を追加したデータフレームを作成することが出来る。
`assing()`はもとのデータフレームに変更を加えない。

`drop()`メソッドで指定列を削除したデータフレームを新たに作成することが出来る。
列を削除する場合は`axis`引数に1を指定する。

In [20]:
myiris1 = iris_d.assign(mycolumn=np.random.rand(len(iris_d.index)))
myiris1.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,mycolumn
0,5.1,3.5,1.4,0.2,Setosa,0.950479
1,4.9,3.0,1.4,0.2,Setosa,0.721915
2,4.7,3.2,1.3,0.2,Setosa,0.231074
3,4.6,3.1,1.5,0.2,Setosa,0.115469
4,5.0,3.6,1.4,0.2,Setosa,0.022271


In [21]:
myiris2 = myiris1.drop('mycolumn', axis=1)
myiris2.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


## 行の追加と削除

`pandas`の`append()`メソッドを使うと、データフレームに新たな行を追加することが出来る。

In [22]:
# 追加する行のデータフレーム
row = pd.DataFrame([[1,1,1,1, 'setosa']], columns=iris_d.columns)

# データフレームに行を追加し新たなデータフレームを作成する
myiris3 = iris_d.append(row, ignore_index=True)
myiris3[-2:]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
149,5.9,3.0,5.1,1.8,Virginica
150,1.0,1.0,1.0,1.0,setosa


In [23]:
# 要約統計量
iris_d.describe()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [25]:
# concatでデータフレームを分割・再結合
concat_iris = pd.concat([iris_d[:5],iris_d[-5:]])
concat_iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


In [27]:
# 引数axisに1を指定してデータフレームを列方向に連結
sepal_len = pd.concat([iris_d.loc[:, ['sepal.length']], iris_d.loc[:, ['variety']]], axis=1)
sepal_len.head(10)

Unnamed: 0,sepal.length,variety
0,5.1,Setosa
1,4.9,Setosa
2,4.7,Setosa
3,4.6,Setosa
4,5.0,Setosa
5,5.4,Setosa
6,4.6,Setosa
7,5.0,Setosa
8,4.4,Setosa
9,4.9,Setosa
