# pandasデータフレームの扱い方


## テストデータの取得

<br>

（すでにタブ区切りのテストデータが手元にある場合は、下の「データの読み込み」まで読み飛ばしてください。）

<br>
データフレームを扱うために、pandasをインポートします。

また、定番中の定番データであるirisを取得するため、load_irisをインポートします。

In [1]:
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()

<br>

irisはdictionary-like objectのようですので、とりあえず`keys( )`で項目を確認してみます。

In [2]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

<br>

データの中身も確認してみます。

sklearn.datasetsのデータを確認するためには、データの変数と項目名をドットで繋ぎます。

In [3]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

<br>

'data'は各個体のデータ、'target'は品種のインデックス、'target_names'は品種名、'feature_names'はデータ項目が格納されているようです。

扱いやすくするために、`pandas`の`DataFrame( )`でデータフレームの形式に変換します。

`columns`で列ラベル情報を指定します。

In [4]:
df = pd.DataFrame(iris.data, columns=iris.feature_names)

<br>

dfの中身を確認します。

In [5]:
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


<br>

列ラベル'target'を作って、target情報も追加します。

In [6]:
df['target'] = iris.target

In [7]:
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


target（品種のインデックス）が追加されました。

<br>

targetがインデックスだとわかりにくいので、品種名に変換します。

**特定の行だけ取得する**ためには、`loc[ ]`を使います。

`df.loc[行番号]`

<br>

In [8]:
df.loc[0:4]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


<br>

`loc.[ ]`の`[ ]`内に条件を入れると、その条件と一致する行だけ取得できます。

In [9]:
df.loc[df['target'] == 0]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0


targetが0の行だけ出力されました。

<br>

以下のようにすると、指定の条件に一致する場合だけ、指定した列に値を代入できます。

`loc[条件, 列ラベル] = 代入する値`

In [10]:
df.loc[df['target'] == 0, 'target'] = 'setosa'
df.loc[df['target'] == 1, 'target'] = 'versicolor'
df.loc[df['target'] == 2, 'target'] = 'virginica'

In [11]:
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


<br>

## データフレームのファイルへの出力

<br>

このデータフレーム形式をいったんタブ区切りファイルに出力します。

出力のためには`to_csv( )`を使います。

`( )`内に出力ファイルのパスを記入します。

`sep='\t'`を指定することでタブ区切りファイルとして出力できます。

指定しない場合はcsvファイルとして出力します。

行ラベル(index)は必要ないので、`index=False`を指定します。

もし列ラベルが不要であれば、`header=False`を指定します。

In [12]:
df.to_csv('irisdata.txt', sep='\t', index=False)

<br>

## データの読み込み

<br>

ファイルをデータフレームとして読み込むためには、以下の関数を使用します。

`pd.read_table( )`
タブ区切りファイルの読み込み

`pd.read_csv( )`
csvファイルの読み込み

In [13]:
df = pd.read_table('irisdata.txt')

In [14]:
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


<br>

読み込む時に行ラベル(index)にする列を指定する場合は、`index_col=`で列ラベルか列番号を指定します。

In [15]:
df2 = pd.read_table('irisdata.txt', index_col=4)

In [16]:
df2

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
target,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.1,3.5,1.4,0.2
setosa,4.9,3.0,1.4,0.2
setosa,4.7,3.2,1.3,0.2
setosa,4.6,3.1,1.5,0.2
setosa,5.0,3.6,1.4,0.2
...,...,...,...,...
virginica,6.7,3.0,5.2,2.3
virginica,6.3,2.5,5.0,1.9
virginica,6.5,3.0,5.2,2.0
virginica,6.2,3.4,5.4,2.3


<br>

特定の列だけ取得するには、`[ ]`の中に列ラベルを指定します。

`df['列ラベル']`

In [17]:
df['target']

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: target, Length: 150, dtype: object

<br>

特定の行だけ取得するには、`loc[ ]`を使用します。

`df.loc[行ラベル]`

In [18]:
df.loc[149]

sepal length (cm)          5.9
sepal width (cm)             3
petal length (cm)          5.1
petal width (cm)           1.8
target               virginica
Name: 149, dtype: object

In [19]:
df.loc[145:149]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


<br>

条件に該当する行だけ出力するには、`loc[ ]`を使用します。

In [20]:
df[df['target'] == 'virginica']

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
100,6.3,3.3,6.0,2.5,virginica
101,5.8,2.7,5.1,1.9,virginica
102,7.1,3.0,5.9,2.1,virginica
103,6.3,2.9,5.6,1.8,virginica
104,6.5,3.0,5.8,2.2,virginica
105,7.6,3.0,6.6,2.1,virginica
106,4.9,2.5,4.5,1.7,virginica
107,7.3,2.9,6.3,1.8,virginica
108,6.7,2.5,5.8,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica


In [21]:
df[df['sepal length (cm)'] >= 7]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
50,7.0,3.2,4.7,1.4,versicolor
102,7.1,3.0,5.9,2.1,virginica
105,7.6,3.0,6.6,2.1,virginica
107,7.3,2.9,6.3,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
125,7.2,3.2,6.0,1.8,virginica
129,7.2,3.0,5.8,1.6,virginica


<br>

## データフレームの連結

<br>

空のデータフレームを作成するには、`DataFrame( )`を使用して以下のようにします。

`pd.DataFrame(index=[])`

In [22]:
df2 = pd.DataFrame(index=[])

<br>


データフレームの連結には、`concat( )`を使用します。

縦方向に連結する場合は以下のようにします。

`pd.concat([df1, df2], axis=0)`

axisは省略可

In [23]:
df3 = pd.concat([df2, df[df['target'] == 'setosa']], axis=0)

In [24]:
df3

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [25]:
df4 = pd.concat([df3, df[df['target'] == 'virginica']], axis=0)

In [26]:
df4

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


<br>

横方向に連結

`pd.concat([df1, df2], axis=1)`

In [27]:
df5 = pd.concat([df[df['target'] == 'setosa'], df[df['target'] == 'virginica']], axis=1)

In [28]:
df5

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,sepal length (cm).1,sepal width (cm).1,petal length (cm).1,petal width (cm).1,target.1
0,5.1,3.5,1.4,0.2,setosa,,,,,
1,4.9,3.0,1.4,0.2,setosa,,,,,
2,4.7,3.2,1.3,0.2,setosa,,,,,
3,4.6,3.1,1.5,0.2,setosa,,,,,
4,5.0,3.6,1.4,0.2,setosa,,,,,
...,...,...,...,...,...,...,...,...,...,...
145,,,,,,6.7,3.0,5.2,2.3,virginica
146,,,,,,6.3,2.5,5.0,1.9,virginica
147,,,,,,6.5,3.0,5.2,2.0,virginica
148,,,,,,6.2,3.4,5.4,2.3,virginica


<br>

行列をひっくり返す

`df.T`

In [29]:
df6 = df[df['target'] == 'setosa'].T

In [30]:
df6

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,40,41,42,43,44,45,46,47,48,49
sepal length (cm),5.1,4.9,4.7,4.6,5,5.4,4.6,5,4.4,4.9,...,5,4.5,4.4,5,5.1,4.8,5.1,4.6,5.3,5
sepal width (cm),3.5,3,3.2,3.1,3.6,3.9,3.4,3.4,2.9,3.1,...,3.5,2.3,3.2,3.5,3.8,3,3.8,3.2,3.7,3.3
petal length (cm),1.4,1.4,1.3,1.5,1.4,1.7,1.4,1.5,1.4,1.5,...,1.3,1.3,1.3,1.6,1.9,1.4,1.6,1.4,1.5,1.4
petal width (cm),0.2,0.2,0.2,0.2,0.2,0.4,0.3,0.2,0.2,0.1,...,0.3,0.3,0.2,0.6,0.4,0.3,0.2,0.2,0.2,0.2
target,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,...,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa
