# pandasの使い方02  〜新しい列への値の代入〜
---
データフレームに新しい列を用意してさまざまな値を代入する方法を説明。


## 動作環境の確認（必要なライブラリインポート）

このNotebook環境に以下のライブラリがインストールされている必要あり。エラーになった場合は、適宜インストールが必要。

In [5]:
import pandas as pd

## データフレームの準備

まずはcsvファイルを読み込み、データフレームに格納する。

In [13]:
df1 = pd.read_csv('InputFile_01.csv')
df1

Unnamed: 0,col1,col2,col3
0,a,b,1
1,aa,bb,20
2,aaa,bbb,3


## 同値が格納された新しい列を作成する場合

とある列(col4)に対して、全行同じ値(=10)を入れる場合

In [7]:
df1['col4'] = 10
df1

Unnamed: 0,col1,col2,col3,col4
0,a,b,1,10
1,aa,bb,20,10
2,aaa,bbb,3,10


## とある列の値を元に新しい列を作成する場合①

とある列(col5)に対して、別の列（Col3)の値を元に設定する場合、applyとlambdaを使って実現することが可能。

* applyとは  
    * 行(列)ごとに同じ演算を行うメソッド。
    * 「df1['col3'].apply」と、列指定でapplyを適用する場合はaxis不要。「df1.apply」と、データフレームにapplyを適用する場合で、行ごとに繰り返し同じ処理を行いたい場合は、axis=1を指定する必要あり。



* lambdaとは  
    * 無名関数とか呼ばれているそう。「lambda 仮引数: 返り値」という簡易的な関数がかける。if文を使う場合は「lambda x: (ifに合致した時の設定値) if 条件式 else (elseに合致した時の設定値) 」と記述する。if,elseは記述可能だが、if,elif,elif,・・,elseといった書き方はできない(と思う)。
    
例えば、col3が20だった場合はcol5に1を、それ以外の場合はclo3に0を設定する場合は以下の通り。

* 列指定でapplyを適用する場合の記述方法

In [18]:
df1['col5'] = df1['col3'].apply(lambda x: 1 if x == 20 else 0)
df1

Unnamed: 0,col1,col2,col3,col5
0,a,b,1,0
1,aa,bb,20,1
2,aaa,bbb,3,0


* データフレームにapplyを適用する場合の記述方法

In [16]:
df1['col5'] = df1.apply(lambda x: 1 if x['col3'] == 20 else 0,axis=1)
df1

Unnamed: 0,col1,col2,col3,col5
0,a,b,1,0
1,aa,bb,20,1
2,aaa,bbb,3,0


## とある列の値を元に新しい列を作成する場合②
if,elif,elif,・・,elseといった複数条件を指定する場合の書き方その1。
* 「<データフレーム型の変数>.iterrows()」で、DataFrameを1行1行ループさせることが可能。keyには行番号、rowに対象行のデータが格納される。
* col6_listはリスト型。ループを回しながら、DataFrameの各行に対応するCol5の値を設定(リスト型の最後に値を追加していく）。
* 最後にdf1のcol6列にリストを代入する。

In [9]:
col6_list = []

for key,row in df1.iterrows():
    if row['col3']  == 20:
        col6_list.append(1)
    elif row['col3'] == 1:
        col6_list.append(0)
    else:
        col6_list.append(3)
df1['col6'] = col6_list
df1

Unnamed: 0,col1,col2,col3,col4,col5,col6
0,a,b,1,10,0,0
1,aa,bb,20,10,1,1
2,aaa,bbb,3,10,0,3


# とある列の値を元に新しい列を作成する場合③
複数条件を指定する場合の書き方その2。
* locは条件に該当する行を抽出する関数。抽出した行に値を代入する。
* Pandas(python)の基本的な考え方として、性能が悪くなるのでループはなるべく避けるというのがあるっぽい。ということでその1よりその2のほうが良い。

In [12]:
df1.loc[df1['col3'] == 20,'col7'] = 1
df1.loc[df1['col3'] == 1,'col7'] = 0
df1.loc[(df1['col3'] != 1) & (df1['col3'] != 20),'col7'] = 3
df1

Unnamed: 0,col1,col2,col3,col4,col5,col6,col7
0,a,b,1,10,0,0,0.0
1,aa,bb,20,10,1,1,1.0
2,aaa,bbb,3,10,0,3,3.0
