## Filtering

    設定條件來選取資料

- ### 邏輯判斷法
    
    
    - 即使用 >, <, =, !=...等邏輯運算式來過濾資料
    - 格式: df[條件]

In [2]:
import pandas as pd

In [2]:
df = pd.DataFrame({'name':['Tony', 'James', 'Frank', 'Lisa'], 'age':[30, 52, 55, 23], 'credit':[100, 100, 100, 90]})
df

Unnamed: 0,name,age,credit
0,Tony,30,100
1,James,52,100
2,Frank,55,100
3,Lisa,23,90


    - 選出年齡大於50的人

In [3]:
# 條件的表達方式 返回布林值
df['age'] > 50

0    False
1     True
2     True
3    False
Name: age, dtype: bool

In [4]:
# 將此條件放入原 df 中
df[df['age'] > 50]

Unnamed: 0,name,age,credit
1,James,52,100
2,Frank,55,100


    - 選出信用度不足100的人

In [5]:
df[df['credit']!=100]

Unnamed: 0,name,age,credit
3,Lisa,23,90


    - 處理多重條件
    - 使用"&" / "|"
    - 使用()區隔條件
    - 選出小於35歲且信用度100的人

In [6]:
df[(df['age']<35) & (df['credit']==100)]

Unnamed: 0,name,age,credit
0,Tony,30,100


- ### 搜尋特定清單內的資料

    例: 某清單['a', 'b', 'c']，尋找某欄位中的值有在清單內的紀錄

In [9]:
df = pd.DataFrame({'name':['apple', 'steak', 'milk', 'car', 'bed'], 'type':['food', 'food', 'drinks', 'vehicle', 'housing']})

In [10]:
df

Unnamed: 0,name,type
0,apple,food
1,steak,food
2,milk,drinks
3,car,vehicle
4,bed,housing


In [9]:
# 搜尋食物與飲料
df[df['type'].isin(['food', 'drinks'])]

Unnamed: 0,name,type
0,apple,food
1,steak,food
2,milk,drinks


- ### 搜尋欄位的值中，包含特定字串內容的資料

    支援正規表達法

In [15]:
df = pd.DataFrame({'students':['a','b','c'], 'habits':['sports,games', 'books,sports', 'music,movies']})
df

Unnamed: 0,students,habits
0,a,"sports,games"
1,b,"books,sports"
2,c,"music,movies"


In [12]:
# 喜歡 sports 的學生
df[df['habits'].str.contains('sports')]

Unnamed: 0,students,habits
0,a,"sports,games"
1,b,"books,sports"


    - 用str取出的結果，可以套用Python String方法

In [14]:
df['habits'].str.split(',')

0    [sports, games]
1    [books, sports]
2    [music, movies]
Name: habits, dtype: object

    - 加入expand參數，將結果用DataFrame表示

In [15]:
df['habits'].str.split(',', expand=True)

Unnamed: 0,0,1
0,sports,games
1,books,sports
2,music,movies


- ### 對欄位名稱做篩選

In [3]:
df = pd.DataFrame({'a_test':[1,2,3], 'a_result':[3,2,1], 'b_test':[2,3,4], 'b_result':[4,3,2]})
df

Unnamed: 0,a_test,a_result,b_test,b_result
0,1,3,2,4
1,2,2,3,3
2,3,1,4,2


    - 選取包含test的欄位名

In [4]:
cols = df.columns[df.columns.str.contains('test')]
print(cols)
df[cols]

Index(['a_test', 'b_test'], dtype='object')


Unnamed: 0,a_test,b_test
0,1,2
1,2,3
2,3,4


    - 另一種更簡潔的寫法

In [17]:
df.filter(like='test')

Unnamed: 0,a_test,b_test
0,1,2
1,2,3
2,3,4


[--QUIZ--]

載入planet.csv

找出樟樹的別名

找出砲彈樹的園區位置

科別是"千屈菜科"的植物有哪些 (只印出植物名)

科名是"桑科" 且 植物名中含有"桑"字的植物是哪個植物

找出紫薇屬, 木槿屬, 月桃屬的植物

是否所有植物都有別名? 那些植物沒有別名?

取出每個植物生長地區清單中第一個生長地區，並將它新增為"最常出現區域"欄位

找出欄位名中有'URL'的所有欄位，然後刪除照片數少於2張的植物