In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

### replace()函数的用法
- 参数说明
    - to_replace 原值
    - value 新值
- 替换的方式
    - 单值替换
    - 多值替换
        - list
        - dict
- 替换的数据对象
    - Series
        - 额外使用 method 填充方法{pad, ffill, bfill}
        - limit 限制填充的次数
        - 组合使用： to_replace+ method+ limit 
    - DataFrame
        - to_replace 字典dict表示为某一特征下的所有的原值
        - value 新值

In [7]:
data = np.random.randint(150, size=(5, 3))
index = list('ABCDE')
columns = ('数学', '英语', '计算机')

df = DataFrame(data, index, columns)
df

Unnamed: 0,数学,英语,计算机
A,85,73,56
B,61,131,128
C,146,125,138
D,46,90,39
E,144,62,35


In [8]:
c = df['计算机']
c

A     56
B    128
C    138
D     39
E     35
Name: 计算机, dtype: int64

In [9]:
# 将计算机的不及格的成绩改为60
c.replace([39, 35], 60, inplace=True)
df

Unnamed: 0,数学,英语,计算机
A,85,73,56
B,61,131,128
C,146,125,138
D,46,90,60
E,144,62,60


In [12]:
c['A']=60
df

Unnamed: 0,数学,英语,计算机
A,85,73,60
B,61,131,128
C,146,125,138
D,46,90,60
E,144,62,60


In [15]:
# 将计算机成绩为60分的第一位同学的成绩改为前一位同学的计算机成绩
c.replace(60, method='ffill', limit=1)

A     60
B    128
C    138
D    138
E     60
Name: 计算机, dtype: int64

In [17]:
df.iloc[-1, 1] = 61
df

Unnamed: 0,数学,英语,计算机
A,85,73,60
B,61,131,128
C,146,125,138
D,46,90,60
E,144,61,60


In [19]:
# 修改英语中61分的，全部改为80分
# df.replace(61, 80)
df.replace({'英语':61 }, 80)

Unnamed: 0,数学,英语,计算机
A,85,73,60
B,61,131,128
C,146,125,138
D,46,90,60
E,144,80,60


### map() 函数的用法
- 将某一列或多列的数据映射成另一个结果（有意义的数据）
- 两种写法
    - 字典方式
        - 要求：选择的列的值作为key全部存在，如果未指定列值key，结果则为Nan。 
        - 建议：单列
    - 函数方式
        - 将选择的列的每行的值传入到指定函数中，并返回处理结果
        - 不能使用聚合函数和for循环
        - <font color=red>【注】不能对DataFrame进行map,只能对某一行或列map, 即是Series进行map映射操作的。</font>

In [27]:
# 查找数学为146 和144的学生，将其的"名次"定为"第一"和'第二'
df['数学名次'] = df['数学'].map({146:'第一名', 144:'第二名'})
df

Unnamed: 0,数学,英语,计算机,数学名次
A,85,73,60,
B,61,131,128,
C,146,125,138,第一名
D,46,90,60,
E,144,61,60,第二名


In [29]:
# 增加"总成绩"列，计算每位同学的总成绩
df['总成绩'] = df.sum(axis=1)
df

In [39]:
def level_name(item):
    # item 是某一列（总成绩）的数值
    if item>= 400:
        return '优'
    elif item >= 300:
        return '良'
    elif item >= 270:
        return '及格'
    
    return '补考'

In [36]:
# df.drop('总成绩',axis=1, inplace=True)
df['数英平均'] = df[['数学', '英语']].mean(axis=1)

In [38]:
# 根据总成绩，标出成绩等级('优', '良', '及格', '补考')
# 400+ 优
# 300+ 良
# 270+ 及格
# 270- 补考
df['总成绩'] = df.iloc[:, :3].sum(axis=1)
df

Unnamed: 0,数学,英语,计算机,数学名次,数英平均,总成绩
A,85,73,60,,79.0,218
B,61,131,128,,96.0,320
C,146,125,138,第一名,135.5,409
D,46,90,60,,68.0,196
E,144,61,60,第二名,102.5,265


In [40]:
# 400+ 优
# 300+ 良
# 270+ 及格
# 270- 补考
df['等级'] = df['总成绩'].map(level_name)
df

Unnamed: 0,数学,英语,计算机,数学名次,数英平均,总成绩,等级
A,85,73,60,,79.0,218,补考
B,61,131,128,,96.0,320,良
C,146,125,138,第一名,135.5,409,优
D,46,90,60,,68.0,196,补考
E,144,61,60,第二名,102.5,265,补考


### transform() 函数
- 同map()相同, 但是不能使用dict字典

In [41]:
df['等级2'] = df['总成绩'].transform(level_name)
df

Unnamed: 0,数学,英语,计算机,数学名次,数英平均,总成绩,等级,等级2
A,85,73,60,,79.0,218,补考,补考
B,61,131,128,,96.0,320,良,良
C,146,125,138,第一名,135.5,409,优,优
D,46,90,60,,68.0,196,补考,补考
E,144,61,60,第二名,102.5,265,补考,补考


练习：
新增两列，分别为张三、李四的成绩状态，如果分数低于90，则为"failed"，如果分数高于120，则为"excellent"，其他则为"pass"
【提示】使用函数作为map的参数

In [46]:
d = df['总成绩']

In [82]:
ds = d.sort_values(ascending=False)
ds

C    409
B    320
E    265
A    218
D    196
Name: 总成绩, dtype: int64

In [80]:
ds[ds == 196].index  # D 196 -> Series -> Index
ds.index.get_loc(ds[ds == 196].index.values[0])

0

In [92]:
ds[ds==196].index.values[0]

'D'

In [93]:
dd = ds.copy()
dd

C    409
B    320
E    265
A    218
D    196
Name: 总成绩, dtype: int64

In [104]:
def l_name(item):  # 根据总成绩，返回成绩名次
    # item是总成绩的数值
    # ds[ds == item]   -> D 196 -> Series
    # 获取item值对应的索引名
    # values -> ndarray
    index_name = dd[dd==item].index.values[0]
    
    # 获取索引名，从已排序的Series读取索引的位置
    index_value = dd.index.get_loc(index_name)
    index_value += 1
    return f'第{index_value}名'

In [105]:
df['名次'] = df['总成绩'].transform(l_name)
df

Unnamed: 0,数学,英语,计算机,数学名次,数英平均,总成绩,等级,等级2,名次
A,85,73,60,,79.0,218,补考,补考,第4名
B,61,131,128,,96.0,320,良,良,第2名
C,146,125,138,第一名,135.5,409,优,优,第1名
D,46,90,60,,68.0,196,补考,补考,第5名
E,144,61,60,第二名,102.5,265,补考,补考,第3名


### rename() 重命名行或列标签
- index 行
- columns 列
- level 多层索引或列标签， 可以指定哪一级别，默认为一级

In [107]:
df.drop('等级2', axis=1, inplace=True)
df

Unnamed: 0,数学,英语,计算机,数学名次,数英平均,总成绩,等级,名次
A,85,73,60,,79.0,218,补考,第4名
B,61,131,128,,96.0,320,良,第2名
C,146,125,138,第一名,135.5,409,优,第1名
D,46,90,60,,68.0,196,补考,第5名
E,144,61,60,第二名,102.5,265,补考,第3名


In [111]:
# 将 A~ E 重新命名为 具体人名
df.rename(index={'A': '李大哥',
                 'B':'王大哥',
                 'C':'狄大叔',
                 'D': '黄小妹',
                 'E': '刘小庆'}, inplace=True)

In [113]:
# 同时修改index和列
df.rename(index={'狄大叔':'狄哥'},
         columns={'等级': '是否补考'}, inplace=True)
df

Unnamed: 0,数学,英语,计算机,数学名次,数英平均,总成绩,是否补考,名次
李大哥,85,73,60,,79.0,218,补考,第4名
王大哥,61,131,128,,96.0,320,良,第2名
狄哥,146,125,138,第一名,135.5,409,优,第1名
黄小妹,46,90,60,,68.0,196,补考,第5名
刘小庆,144,61,60,第二名,102.5,265,补考,第3名


In [114]:
data = np.random.randint(150, size=(5, 3))
index = list('ABCDE')
columns = ('数学', '英语', '计算机')

df1 = DataFrame(data, index, columns)
df2 = DataFrame(np.random.randint(150, size=(5, 3)),
                index, columns)
# 连接两个DF， 按行，并指定第一张表是2017年, 第二张表是2018年
df3 = pd.concat((df1, df2), axis=0,
          keys=('2017年', '2018年'))
df3

Unnamed: 0,Unnamed: 1,数学,英语,计算机
2017年,A,34,79,35
2017年,B,119,11,120
2017年,C,44,81,36
2017年,D,46,97,98
2017年,E,47,109,35
2018年,A,123,109,85
2018年,B,105,122,61
2018年,C,79,46,21
2018年,D,129,49,87
2018年,E,21,78,109


In [134]:
# 修改 2018年D的姓名为 '张三丰' ？？
# 统一针对一级或二级索引或列标签修改
# df3.rename(index={1: '张三丰', 'E': '李小龙'},
#            level=1)

df4 = df3.loc['2018年']
df4.rename(index={'D': '张三丰'}, inplace=True)

In [159]:
# 定义rename函数, 针对2018年的D行索引进行修改
last_level = None
def d_rename(item):
    global last_level
    if item.endswith('年') and last_level != item:
        last_level = item
    else:
        if last_level == '2018年' and item == 'D':
            return '张三丰'
    return item

In [160]:
df3.rename(index=d_rename)

Unnamed: 0,Unnamed: 1,数学,英语,计算机
2017年,A,34,79,35
2017年,B,119,11,120
2017年,C,44,81,36
2017年,D,46,97,98
2017年,E,47,109,35
2018年,A,123,109,85
2018年,B,105,122,61
2018年,C,79,46,21
2018年,张三丰,129,49,87
2018年,E,21,78,109


### 异常值检测和过滤
- describe()  查看每一列数值的统计情况
- std()

In [257]:
df1

Unnamed: 0,数学,英语,计算机
A,34,79,35
B,119,11,120
C,44,81,36
D,46,97,98
E,47,109,35


In [256]:
df1.describe()

Unnamed: 0,数学,英语,计算机
count,5.0,5.0,5.0
mean,58.0,75.4,64.8
std,34.489129,38.036824,41.093795
min,34.0,11.0,35.0
25%,44.0,79.0,35.0
50%,46.0,81.0,36.0
75%,47.0,97.0,98.0
max,119.0,109.0,120.0


In [268]:
# df
# percentiles 查看百分比的比例统计
# include 指定统计哪些数据类型
# exclude 不统计哪些数据类型
df.describe(percentiles=[.45, .8],
            exclude=[np.float, np.object])

Unnamed: 0,数学,英语,计算机,总成绩
count,5.0,5.0,5.0,5.0
mean,96.4,96.0,89.2,281.6
std,46.500538,31.048349,40.139756,85.663878
min,46.0,61.0,60.0,196.0
45%,80.2,86.6,60.0,255.6
50%,85.0,90.0,60.0,265.0
80%,144.4,126.2,130.0,337.8
max,146.0,131.0,138.0,409.0


In [273]:
df.std(axis=1)

李大哥     64.949981
王大哥    100.676214
狄哥     122.263854
黄小妹     60.282667
刘小庆     84.818925
dtype: float64

In [275]:
df['数学'].replace(61, np.nan, inplace=True)
df

Unnamed: 0,数学,英语,计算机,数学名次,数英平均,总成绩,是否补考,名次
李大哥,85.0,73,60,,79.0,218,补考,第4名
王大哥,,131,128,,96.0,320,良,第2名
狄哥,146.0,125,138,第一名,135.5,409,优,第1名
黄小妹,46.0,90,60,,68.0,196,补考,第5名
刘小庆,144.0,61,60,第二名,102.5,265,补考,第3名


In [280]:
df.std(skipna=False) # skipna=True 跳过NaN值， 默认为None

数学            NaN
英语      31.048349
计算机     40.139756
数英平均    25.861651
总成绩     85.663878
dtype: float64

In [284]:
df.std(numeric_only=True) # numeric_only是否只针对数值型

数学      48.589265
英语      31.048349
计算机     40.139756
数英平均    25.861651
总成绩     85.663878
dtype: float64

练习：
新建一个形状为10000*3的标准正态分布的DataFrame(np.random.randn)，去除掉所有满足以下情况的行：其中任一元素绝对值大于3倍标准差

In [289]:
(df > 100).all(axis=0)

数学      False
英语      False
计算机     False
数学名次     True
数英平均    False
总成绩      True
是否补考     True
名次       True
dtype: bool

In [291]:
ddd = DataFrame(np.random.randn(10000, 3),
                columns=('r', 'g', 'b'))
ddd.head()

Unnamed: 0,r,g,b
0,1.300813,-0.508417,-1.766171
1,-0.134917,-0.497554,-0.653554
2,0.231453,-0.953183,-0.843527
3,1.026438,0.101006,-0.499776
4,1.244582,0.387496,-0.348669


In [298]:
# 81行存在绝对值小于3倍的标准差
ddd[(np.abs(ddd) > ddd.std()*3).any(axis=1)]  

Unnamed: 0,r,g,b
75,-2.225594,3.088346,-1.401448
224,-3.525522,1.032002,0.229907
271,-3.697685,0.275799,0.629543
340,0.351129,3.678072,-1.045166
432,-0.525812,-1.223580,4.081183
599,-1.032930,-3.267971,0.417390
782,-0.773119,0.461525,3.310660
831,-1.199827,-3.356237,1.044527
1122,3.428278,-1.053222,-0.756194
1215,-0.024655,-3.221288,1.294860


In [300]:
ddd.drop((np.abs(ddd) > ddd.std()*3).any(axis=1),
         axis=0,
         inplace=)

Unnamed: 0,r,g,b
2,0.231453,-0.953183,-0.843527
3,1.026438,0.101006,-0.499776
4,1.244582,0.387496,-0.348669
5,-0.538335,0.227585,0.545667
6,1.326753,-0.473597,-0.565738
7,-0.964959,0.698517,1.531014
8,0.419485,0.872058,1.011547
9,-1.252564,1.085063,1.798709
10,-0.816130,-0.279520,0.434321
11,1.253754,2.233216,0.018414
