In [1]:
import pandas as pd
import numpy as np

# 5.5.1 df.where()

In [2]:
df = pd.read_excel("team2.xlsx")
df

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,1city,what color
0,Liver,E,89,21,24,1,shanghai,yellew
1,Arry,C,55,37,37,2,nanjin,red
2,Ack,A,57,60,33,3,beijin,purple
3,Eorge,C,93,4,71,4,tianjin,blue
4,Oah,D,93,49,44,5,henan,black
5,Harlie,C,24,13,87,6,hebei,pink


In [3]:
# 只保留数字类型的列
df = df.select_dtypes(include='number')
df

Unnamed: 0,Q1,Q2,Q3,Q4
0,89,21,24,1
1,55,37,37,2
2,57,60,33,3
3,93,4,71,4
4,93,49,44,5
5,24,13,87,6


In [4]:
# df.where满足条件的保留原值，不满足改为NaN
# 对所有列，数值大于70保留，不满足为NaN
df.where(df>70)

Unnamed: 0,Q1,Q2,Q3,Q4
0,89.0,,,
1,,,,
2,,,,
3,93.0,,71.0,
4,93.0,,,
5,,,87.0,


In [6]:
# 对Q1大于60的保留，不满足的为NaN，并影响所有列。
df.where(lambda d:d.Q1>60)

Unnamed: 0,Q1,Q2,Q3,Q4
0,89.0,21.0,24.0,1.0
1,,,,
2,,,,
3,93.0,4.0,71.0,4.0
4,93.0,49.0,44.0,5.0
5,,,,


In [8]:
# 对前3个值为真保留值，其他不满足为NaN
df.Q1.where(pd.Series([True]*3))

0    89.0
1    55.0
2    57.0
3     NaN
4     NaN
5     NaN
Name: Q1, dtype: float64

In [9]:
# 对所有列，分数大于60的保留，不满足的改为不及格
df.where(df>60, '不及格')

Unnamed: 0,Q1,Q2,Q3,Q4
0,89,不及格,不及格,不及格
1,不及格,不及格,不及格,不及格
2,不及格,不及格,不及格,不及格
3,93,不及格,71,不及格
4,93,不及格,不及格,不及格
5,不及格,不及格,87,不及格


In [10]:
# 将偶数减去20后取相反数。
# 定义一个偶数变量c
c = df%2 == 0
df.where(-c, -(df-20)) # 非偶保留，将偶数减去20后取相反数

Unnamed: 0,Q1,Q2,Q3,Q4
0,89,21,-4,1
1,55,37,37,18
2,57,-40,33,3
3,93,16,71,16
4,93,49,-24,5
5,-4,13,87,14


# 5.5.2 np.where

In [13]:
# np.where 可设置满足及不满足时输出显示内容。
np.where(df>60,'合格','不合格')

array([['合格', '不合格', '不合格', '不合格'],
       ['不合格', '不合格', '不合格', '不合格'],
       ['不合格', '不合格', '不合格', '不合格'],
       ['合格', '不合格', '合格', '不合格'],
       ['合格', '不合格', '不合格', '不合格'],
       ['不合格', '不合格', '合格', '不合格']], dtype='<U3')

In [16]:
# 获取Q1到Q4的平均值avg，并判断平均值大于40显示是，否则显示否。
df.assign(avg=df.mean(1)).assign(及格=lambda d: np.where(d.avg>40, '是','否'))

Unnamed: 0,Q1,Q2,Q3,Q4,avg,及格
0,89,21,24,1,33.75,否
1,55,37,37,2,32.75,否
2,57,60,33,3,38.25,否
3,93,4,71,4,43.0,是
4,93,49,44,5,47.75,是
5,24,13,87,6,32.5,否


# 5.5.3 df.mask()

In [17]:
# df.mask()将满足条件的位置填充NaN
df.mask(df>80)

Unnamed: 0,Q1,Q2,Q3,Q4
0,,21,24.0,1
1,55.0,37,37.0,2
2,57.0,60,33.0,3
3,,4,71.0,4
4,,49,44.0,5
5,24.0,13,,6


In [24]:
# 输出Q1大于80显示优秀，不满足保留。Series
df.Q1.mask(df.Q1>80,'优秀')

0    优秀
1    55
2    57
3    优秀
4    优秀
5    24
Name: Q1, dtype: object

# 5.5.4 df.lookup()

In [26]:
# df.lookup 返回一个ndarry
df

Unnamed: 0,Q1,Q2,Q3,Q4
0,89,21,24,1
1,55,37,37,2
2,57,60,33,3
3,93,4,71,4
4,93,49,44,5
5,24,13,87,6


In [28]:
df.lookup([1,3,4],['Q1','Q2','Q3'])

  df.lookup([1,3,4],['Q1','Q2','Q3'])


array([55,  4, 44])

In [31]:
df.lookup([1,3,4],['Q1','Q2','Q3'])[1]

  df.lookup([1,3,4],['Q1','Q2','Q3'])[1]


4

In [32]:
# 迭代所有列
for c in df:
    print(c)

Q1
Q2
Q3
Q4


In [36]:
# 只迭代想要的列
for c in df.columns.intersection(['Q1','Q4']):
    print(c)

Q1
Q4
