## apply()

    - 是DataFrame, Series都可用的一個方法
    - 是一個使用function作為參數的方法
    - 作用的方式: 將給定function套用在每一欄或列的資料
    - 注意axis代表的意思

In [2]:
import pandas as pd

In [5]:
df = pd.DataFrame({'a':[4,4,4], 'b':[9,9,9]})

In [6]:
df

Unnamed: 0,a,b
0,4,9
1,4,9
2,4,9


## 對Series使用apply

    - 不需要考慮axis
    - function套用每一個Series元素

In [5]:
df['a']

0    4
1    4
2    4
Name: a, dtype: int64

    - 開根號

In [7]:
df['a'].apply(pd.np.sqrt)

0    2.0
1    2.0
2    2.0
Name: a, dtype: float64

## 自訂函式搭配apply

- ### 定義新函式

In [8]:
def add_five(val):
    return val + 5

In [9]:
df['a'].apply(add_five)

0    9
1    9
2    9
Name: a, dtype: int64

- ### lambda 搭配apply

In [11]:
df['a'].apply(lambda x: x + 5)

0    9
1    9
2    9
Name: a, dtype: int64

## 對DataFrame使用apply

- ### 如何解讀axis


    - apply一次帶入一個Series
        - axis=1時: Series沿著DataFrame的column算 (apply在每一row)
        - axis=0時: Series沿著DataFrame的index算 (apply在每一column)
    
    - 回傳結果:
        - axis=1: 一個新的column (長度等同DataFrame的index的Series)
        - axis=0: 一個新的row    (長度等同DataFrame的column的Series)

In [12]:
df

Unnamed: 0,a,b
0,4,9
1,4,9
2,4,9


In [13]:
df.apply(pd.np.sum, axis=1)

0    13
1    13
2    13
dtype: int64

In [14]:
df.apply(pd.np.sum, axis=0)

a    12
b    27
dtype: int64

- ### 帶入函式時的注意事項


    - 確定帶入函式接受的參數類型

In [15]:
df['a'].apply(sum)

TypeError: 'int' object is not iterable

In [16]:
df.apply(sum)

a    12
b    27
dtype: int64

## 如何使用apply得到兩個以上的值

- ### Series

    - 將 b 欄位的 正負 1 新增為兩個欄位

In [17]:
df = pd.DataFrame({'a':[4,4,4], 'b':[9,9,9]})
df

Unnamed: 0,a,b
0,4,9
1,4,9
2,4,9


In [8]:
temp = df['b'].apply(lambda x: [x-1, x+1])
temp

0    [8, 10]
1    [8, 10]
2    [8, 10]
Name: b, dtype: object

    - 將結果轉為list

In [20]:
temp.to_list()

[[8, 10], [8, 10], [8, 10]]

    - 原df新增欄位

In [22]:
df[['c','d']] = temp

In [23]:
df

Unnamed: 0,a,b,c,d
0,4,9,8,10
1,4,9,8,10
2,4,9,8,10


- ### DataFrame

In [3]:
df = pd.DataFrame({'a':[4,4,4], 'b':[9,9,9]})
df

Unnamed: 0,a,b
0,4,9
1,4,9
2,4,9


In [7]:
temp = df.apply(lambda x: [x.sum(), x['a']-x['b']], axis=1, result_type='expand')
temp

Unnamed: 0,0,1
0,13,-5
1,13,-5
2,13,-5


In [8]:
df[['c', 'd']] = temp
df

Unnamed: 0,a,b,c,d
0,4,9,13,-5
1,4,9,13,-5
2,4,9,13,-5


[--QUIZ--]

1. 載入emergency.csv
2. 更改設定將隱藏欄位全開
3. 第一列資料為空白行，刪除他
4. index為純數列，不利檢視，用區域別欄位取代index
5. 假定急病及一般車禍為所有事故中佔比最高，將兩欄位相加得出一新欄位"常見傷害"
6. 假定墜落傷及穿刺傷屬於同一類型傷害，將兩欄位相加得出一新欄位"開放性傷害" (注意檢視目前處理的資料狀態)
7. 建立二新欄位"救護車使用狀況"與"不當使用率"
    - 不當使用率為"未運送次數2"與"救護出勤合計"的比率
    - 若"不當使用率"超過20%，則標示為"不佳"，反之標示為"正常" 
