<img width=200 src="https://camo.githubusercontent.com/903f3cc51db134b8c9faed2ba2b18ffedff67ff2aafe75259cbde477b27d9b4f/68747470733a2f2f75706c6f61642e77696b696d656469612e6f72672f77696b6970656469612f636f6d6d6f6e732f7468756d622f652f65642f50616e6461735f6c6f676f2e7376672f3132303070782d50616e6461735f6c6f676f2e7376672e706e673f7261773d74727565"></img>

# Day-12 Pandas 迭代與重複操作

* 教學目標
  * 知道 DataFrame 中迴圈的運作規則
  * 了解 DataFrame 中 Map、 Apply、Applymap 差異
  * 知道不建議在 DataFrame 進行迭代操作的原因

## 匯入套件

In [None]:
# 載入 NumPy, Pandas 套件
import numpy as np
import pandas as pd

# 檢查正確載入與版本
print(np)
print(np.__version__)
print(pd)
print(pd.__version__)

<module 'numpy' from 'D:\\anaconda3\\lib\\site-packages\\numpy\\__init__.py'>
1.19.2
<module 'pandas' from 'D:\\anaconda3\\lib\\site-packages\\pandas\\__init__.py'>
1.1.3


## DataFrame 當中的 For Loop

In [None]:
df = pd.DataFrame({
  'name': ['Alice', 'Bob'],
  'age': [20, 32]
})

for c in df:
    print(c)

name
age


### 橫向的資料迭代

如果我們想要對以「筆」為單位的資料迭代的話，最暴力的方法可以這樣做：

In [None]:
df = pd.DataFrame({
  'name': ['Alice', 'Bob'],
  'age': [20, 32]
})

for i in range(len(df)):
    print(df.iloc[i])

name    Alice
age        20
Name: 0, dtype: object
name    Bob
age      32
Name: 1, dtype: object


### iteritems()、iterrows()、itertuples()

第二種方法可以直接用 DataFrame 內建的 iterative 方法

In [None]:
for d in df.iteritems():
    print(d)

for d in df.iterrows():
    print(d)

for d in df.itertuples():
    print(d)

('name', 0    Alice
1      Bob
Name: name, dtype: object)
('age', 0    20
1    32
Name: age, dtype: int64)
(0, name    Alice
age        20
Name: 0, dtype: object)
(1, name    Bob
age      32
Name: 1, dtype: object)
Pandas(Index=0, name='Alice', age=20)
Pandas(Index=1, name='Bob', age=32)


### apply

第三種方法是使用 Pandas 當中的 apply 方法，apply 是一種用於逐行或逐列的循環處理方法，常搭配 lambda 匿名函式一起使用：

In [None]:
df = pd.DataFrame({
  'score': [98, 67, 85],
  'age': [20, 32, 28]
})

print(df.apply(np.max))
print('='*20)
print(df.apply(np.min))
print('='*20)
print(df.apply(lambda x: x.max() - x.min()))

score    98
age      32
dtype: int64
score    67
age      20
dtype: int64
score    31
age      12
dtype: int64


### map

另外一種跟 apply 很像的方法叫做 map：

In [None]:
df = pd.DataFrame({
  'score': [98, 67, 85],
  'age': [20, 32, 28]
})

df['age'].map(lambda x: -x)

0   -20
1   -32
2   -28
Name: age, dtype: int64

### applymap

在 Pandas 當中，有一種同時 apply 和 map 方法稱為 applymap：

In [None]:
df = pd.DataFrame({
  'score': [98, 67, 85],
  'age': [20, 32, 28]
})

df.applymap(lambda x: -x)

Unnamed: 0,score,age
0,-98,-20
1,-67,-32
2,-85,-28


### Map、 Apply、Applymap

* map：對 series 所有元素作一樣的操作 
* apply：對 series  或 dataframe 逐行或逐列做一樣的操作
* applymap：對 dataframe 所有元素作一樣的操作

### 補充：lambda 匿名函式

Map、 Apply、Applymap 很常搭配 lambda 匿名函式 一起使用，但其實裡面也可以放函式名稱，我們來比較看看：

In [None]:
df.apply(lambda x: x.max() - x.min())

score    31
age      12
dtype: int64

In [None]:
def f(x):
    return x.max() - x.min()
print(df.apply(f))

score    31
age      12
dtype: int64


* 補充：
  * lambda 匿名函式是對於 Python 入門者來說比較難的一個坎，很多人會覺得這是一種「炫技」的手法
  * 不建議在 DataFrame 進行迭代操作

## 不建議在 DataFrame 進行迭代操作

如同我們在 NumPy 提過的，不建議在 DataFrame 進行迭代操作。原因是這樣就回到了 Python 列表的操作，無法享受矩陣特性帶來的優勢

# 參考資料

* [Iterate pandas dataframe](https://pythonbasics.org/pandas-iterate-dataframe/)
* [Introduction to Pandas apply, applymap and map](https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff)
* [lambda 運算式](https://openhome.cc/zh-tw/python/function/first-class/)
* [Python Lambda Function應用技巧分享](https://www.learncodewithmike.com/2019/12/python-lambda-functions.html)
* [五種Pandas循還方法效率對比](https://zhuanlan.zhihu.com/p/80880493)
