# データフレームの編集

pandasのデータフレームの編集について説明します．
CSVファイルからデータをインポートしてデータフレームを作成するまでは，直前の内容と同様なので一気に実行します．

In [1]:
import pandas as pd
df = pd.read_csv('./sample_data.csv')
df = df.set_index('person')
df

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p01,162.3,55.6,23.0,Male,A
p02,173.1,62.0,35.0,Male,AB
p03,158.8,68.5,47.0,Male,B
p04,120.8,24.3,8.0,Female,
p05,145.7,37.8,11.0,Female,
p06,159.2,44.5,13.0,Male,O
p07,157.5,49.0,18.0,Female,B
p08,158.9,,,,A
p09,160.4,48.5,30.0,,A
p10,170.0,77.7,51.0,Male,O


*****
## 要素の参照

データフレームの中の一つのデータを参照する方法は幾つかあります．
ここでは，person='p02'のweightの値を参照します．
下記のどの記法を用いても同じ結果を得ることができます．

```Python
df.weight['p02']
df.weight[1]
df['weight']['p02']
df['weight'][1]
```

In [2]:
df.weight['p02']

62.0

## 行の参照

person='p02'の全てのカラムを表示するには次のどちらかの記載方法をとります．
ただし，二つの方法でインデックスの終端についての仕様が異なるので注意してください．

```Python
df['p02':'p02']
df[1:2]
```

In [3]:
df['p02':'p02']

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p02,173.1,62.0,35.0,Male,AB


これらの行の参照方法は，参照したい行の範囲をインデックスで指定するので複数行を参照することが可能です．

```Python
df['p05':'p06']
```

In [4]:
df['p05':'p06']

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p05,145.7,37.8,11.0,Female,
p06,159.2,44.5,13.0,Male,O


## 列の参照

一つの列を参照するには，その列の名称だけを指定すれば求まります．
ここでは，weightの列を参照しますが，次のどちらの方法でも可能です．

```Python
df.weight
df['weight']
```

In [5]:
df.weight

person
p01    55.6
p02    62.0
p03    68.5
p04    24.3
p05    37.8
p06    44.5
p07    49.0
p08     NaN
p09    48.5
p10    77.7
Name: weight, dtype: float64

複数の列を参照する場合は，df[ ] の角括弧の中にリスト配列で列名を与えます．
角括弧が2重になることに注意してください．

```Python
df[['height','weight']]
```

In [6]:
df[['height','weight']]

Unnamed: 0_level_0,height,weight
person,Unnamed: 1_level_1,Unnamed: 2_level_1
p01,162.3,55.6
p02,173.1,62.0
p03,158.8,68.5
p04,120.8,24.3
p05,145.7,37.8
p06,159.2,44.5
p07,157.5,49.0
p08,158.9,
p09,160.4,48.5
p10,170.0,77.7


## 要素の値の変更

ある一つの値を変更するには，atあるいはlocを使用します．
値の参照を使って，df.weight['p02'] = 100.0 のようにするとSettingWithCopyWarningが出ますので，これは避けるようにしましょう．

ここでは<font color=green>at</font>属性を使用します．
ここではp02のweightを62.0から100.0に変更します．

```Python
df.at['p02','weight'] = 100.0
df.loc['p02','weight'] = 100.0
```

In [7]:
df.at['p02','weight'] = 100.0

変更した値を確認します．

```Python
df.weight['p02']
```

In [8]:
df.weight['p02']

100.0

## 行の追加

新しい行を追加するには<font color=green>at[ ]</font> の角括弧の中に新しい行のインデックスを記載し，等号記号の右辺にその行の値のリストを記載します．
この値のリスト配列の長さはカラム数に一致していることが前提となります．

```Python
df.at['p11'] = [180.0,70.0,None,'Male','A']
```

In [9]:
df.at['p11'] = [180.0,70.0,None,'Male','A']

## 行の削除

行の削除は，<font color=green>drop()</font>メソッドを使います．
このとき，引数に<font color=green>inplace=True</font>を指定する必要があります．
この引数は，変更をデータフレームの内部に適用するためのものです．

```Python
df.drop('p01',inplace=True)
```

In [10]:
df.drop('p01',inplace=True)

## インデックスの変更

インデックスを変更するには，<font color='green'>rename()</font>メソッドを使用します．
ここで引数に指定した <font color='green'>index={'p03':'q03'}</font> がインデックスの 'p03' を 'q03' へ変更することを指示しています．
ここでも，オプションの引数として<font color=green>inplace=True</font>を付けてデータフレーム内部での変更にします．

```Python
df.rename(index={'p03':'q03'},inplace=True)
```

In [11]:
df.rename(index={'p03':'q03'},inplace=True)

## 行の値の変更

行の値を変更する場合は，行の追加と同じ操作になります．
指定するインデックスが既存の値ならば行の変更になり，インデックスが新しい名前ならば追加になります．

```Python
df.at['q03'] = [155.0,55.0,55,'Female','O']
```

In [12]:
df.at['q03'] = [155.0,55.0,55,'Female','O']

行の操作結果を確認します．

In [13]:
df

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p02,173.1,100.0,35.0,Male,AB
q03,155.0,55.0,55.0,Female,O
p04,120.8,24.3,8.0,Female,
p05,145.7,37.8,11.0,Female,
p06,159.2,44.5,13.0,Male,O
p07,157.5,49.0,18.0,Female,B
p08,158.9,,,,A
p09,160.4,48.5,30.0,,A
p10,170.0,77.7,51.0,Male,O
p11,180.0,70.0,,Male,A


## 列の追加

データフレームに後から列を追加することができます．
データフレーム名の後に角括弧で新規の列名を記載して列の代入を行います．
代入する値に単一の値を指定すると，列の値が全てその値に設定されます．

```Python
df['zero'] = 0
```

In [14]:
df['zero'] = 0

代入する値をリスト配列で指定する場合は，リストの長さをデータフレームの行数に合わせる必要があります．

```Python
df['group'] = ['a1','b2','c3','d4','e5','f6','g7','h8','i9','j10']
```

In [15]:
df['group'] = ['a1','b2','c3','d4','e5','f6','g7','h8','i9','j10']

他の列の計算値を代入する場合は，計算式をそれらの列名を使って記述します．

```Python
df['bmi'] =round(df.weight/(df.height)**2*10000,1)
```

In [16]:
df['bmi'] =round(df.weight/(df.height)**2*10000,1)

## 列の削除

列を削除するときも<font color=green>drop()</font>メソッドを使用します．
オプション引数として，<font color=green>axis=1</font>および<font color=green>inplae=True</font>を渡すことを忘れないようにしましょう．
- axis=1は削除対象が列であることを指定するオプションです．
- inplace=Trueは対象のデータフレーム内で削除することを指定するオプションです．

```Python
df.drop('age',axis=1,inplace=True)
```

In [17]:
df.drop('age',axis=1,inplace=True)

列の追加，削除の結果を確認します．
新たな列として，zero, group, bmi が追加されていて，ageの列が無くなっています．

In [18]:
df

Unnamed: 0_level_0,height,weight,gender,blood,zero,group,bmi
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
p02,173.1,100.0,Male,AB,0,a1,33.4
q03,155.0,55.0,Female,O,0,b2,22.9
p04,120.8,24.3,Female,,0,c3,16.7
p05,145.7,37.8,Female,,0,d4,17.8
p06,159.2,44.5,Male,O,0,e5,17.6
p07,157.5,49.0,Female,B,0,f6,19.8
p08,158.9,,,A,0,g7,
p09,160.4,48.5,,A,0,h8,18.9
p10,170.0,77.7,Male,O,0,i9,26.9
p11,180.0,70.0,Male,A,0,j10,21.6


## 列名の変更

列名を変更するには，<font color=green>rename()</font>メソッドを使用します．
ここで引数に指定した <font color='green'>columns={'zero':'one'}</font> が列名の 'zero' を 'one' へ変更することを指示しています．
ここでも，オプションの引数として<font color=green>inplace=True</font>を付けてデータフレーム内部での変更にします．

```Python
df.rename(columns={'zero':'one'},inplace=True)
```

In [19]:
df.rename(columns={'zero':'one'},inplace=True)

## 列の値の変更

列の値を変更は，列の追加と同じ操作になります．
列名が既存であれば変更となり，新規であれば追加になります．

```Python
df.one = 1
```

In [20]:
df.one = 1

列についての操作結果を確認します．

In [21]:
df

Unnamed: 0_level_0,height,weight,gender,blood,one,group,bmi
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
p02,173.1,100.0,Male,AB,1,a1,33.4
q03,155.0,55.0,Female,O,1,b2,22.9
p04,120.8,24.3,Female,,1,c3,16.7
p05,145.7,37.8,Female,,1,d4,17.8
p06,159.2,44.5,Male,O,1,e5,17.6
p07,157.5,49.0,Female,B,1,f6,19.8
p08,158.9,,,A,1,g7,
p09,160.4,48.5,,A,1,h8,18.9
p10,170.0,77.7,Male,O,1,i9,26.9
p11,180.0,70.0,Male,A,1,j10,21.6


以上でデータフレーム内の操作が出来るようになります．

*****