In [76]:
import pandas as pd
import numpy as np
from pandas import DataFrame

#### 替换操作
  - 替换操作可以同步作用于Series和DataFrame中
  - 单值替换
    - 普通替换: 替换所有符合要求的元素: to_replace=15,value='e'
    - 按照指定单值替换: to_replace={列标签: 替换值} value='value'
  - 多值替换
    - 列表替换: to_replace=[] value=[]
    - 字典替换(推荐) to_replace=(to_replace:value,to_replace:value)

In [77]:
df = DataFrame(np.random.randint(0,100,size=(5,6)))
df

Unnamed: 0,0,1,2,3,4,5
0,99,93,10,71,42,63
1,5,39,22,20,21,77
2,75,30,64,72,18,31
3,96,27,86,39,16,72
4,33,71,73,78,3,58


In [78]:
df.replace(to_replace=16,value='Two') # 把16的值都进行替换

Unnamed: 0,0,1,2,3,4,5
0,99,93,10,71,42,63
1,5,39,22,20,21,77
2,75,30,64,72,18,31
3,96,27,86,39,Two,72
4,33,71,73,78,3,58


In [79]:
df.replace(to_replace={62:'John'}) # 把62的值都进行替换 

Unnamed: 0,0,1,2,3,4,5
0,99,93,10,71,42,63
1,5,39,22,20,21,77
2,75,30,64,72,18,31
3,96,27,86,39,16,72
4,33,71,73,78,3,58


In [80]:
df.replace(to_replace={2:17},value='five') # 将2列的17替换为five
# 将指定列的元素进行替换to_replace={列标签: 被替换值} value='value'

Unnamed: 0,0,1,2,3,4,5
0,99,93,10,71,42,63
1,5,39,22,20,21,77
2,75,30,64,72,18,31
3,96,27,86,39,16,72
4,33,71,73,78,3,58


### 映射操作
  - 概念: 创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定(给一个元素值提供不同的表现形式)
  - 创建一个df,两列分别是姓名和薪资,然后给其名字起对应的英文名

In [81]:
dic = {
    'name': ['John','Jack','Tom','Marry','Zack'],
    'salary': [10000,4500,8000,6000,7000]
}
df = DataFrame(dic)
df

Unnamed: 0,name,salary
0,John,10000
1,Jack,4500
2,Tom,8000
3,Marry,6000
4,Zack,7000


In [82]:
# 创建一个映射关系列表
dic = {
    'John': '约翰',
    'Jack': '杰克',
    'Tom': '汤姆',
    'Marry': '玛丽',
    'Zack': '扎克'
}
df['e_name'] = df['name'].map(dic) # 将name列的值进行映射

- map是一个Series的方法,只能被Series调用

### 运算工具
  - 超过3000部分的钱缴纳50%的税,计算每个人的税后薪资

In [83]:
df

Unnamed: 0,name,salary,e_name
0,John,10000,约翰
1,Jack,4500,杰克
2,Tom,8000,汤姆
3,Marry,6000,玛丽
4,Zack,7000,扎克


In [84]:
def after_sal(s):
    return s - (s-3000)*0.5
df['salary'].map(after_sal) # salary的每个元素都会被传入到after_sal函数中

0    6500.0
1    3750.0
2    5500.0
3    4500.0
4    5000.0
Name: salary, dtype: float64

### 排序实现的随机抽样
  - take()
  - np.random.permutation()

In [85]:
df = DataFrame(np.random.randint(0,100,size=(100,3)),columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,43,12,92
1,79,62,55
2,10,76,15
3,49,30,23
4,74,77,91
...,...,...,...
95,89,64,36
96,4,38,37
97,60,8,49
98,6,95,15


In [86]:
np.random.permutation(100) # 生成一个0-99的随机排列

array([45, 96, 37, 23, 90,  8, 46,  3, 25, 13, 73, 11, 86, 67, 70, 10,  6,
       83, 27, 47, 41, 43, 65, 16, 79, 94, 66, 84,  9, 24, 56, 22, 38, 55,
       54,  5, 69, 19, 81, 98, 95, 85, 29, 60, 14, 92, 18, 31, 91, 50, 32,
       26, 48, 40, 99, 58, 82, 17, 59, 53, 44, 71, 57, 88, 97,  2, 12, 61,
       80, 87, 78,  1, 42, 36,  0, 39, 34, 72,  4, 20, 33, 68, 77, 52, 89,
       93, 35,  7, 49, 75, 62, 63, 28, 74, 51, 76, 21, 64, 30, 15])

In [87]:
# 将原始数据打乱
df.take([2,0,1],axis=1) # axis=1表示按照列进行打乱

Unnamed: 0,C,A,B
0,92,43,12
1,55,79,62
2,15,10,76
3,23,49,30
4,91,74,77
...,...,...,...
95,36,89,64
96,37,4,38
97,49,60,8
98,15,6,95


In [88]:
# 将行和列都打乱,并且随机抽取50行
df.take(np.random.permutation(3),axis=1).take(np.random.permutation(100),axis=0)[0:50]


Unnamed: 0,C,B,A
26,3,38,70
38,83,53,8
21,86,91,17
64,17,65,89
40,85,48,78
19,33,21,77
89,92,27,42
39,37,87,80
75,72,32,43
56,36,50,95


### 数据的分类处理
  - 数据分类处理的核心
    - groupby()
    - groups属性查看分组情况

In [89]:
df = DataFrame({'item':['苹果','香蕉','橘子','苹果','香蕉','橘子'],
                'price':[4,3,3.5,4.5,3.2,3.8],
                'color':['red','yellow','yellow','green','green','yellow'],
                'weight':[12,20,21,15,16,19]})
df

Unnamed: 0,item,price,color,weight
0,苹果,4.0,red,12
1,香蕉,3.0,yellow,20
2,橘子,3.5,yellow,21
3,苹果,4.5,green,15
4,香蕉,3.2,green,16
5,橘子,3.8,yellow,19


In [90]:
# 对水果的种类进行分组
df.groupby(by='item')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f201cf812b0>

In [91]:
# 查看详细的分组情况
df.groupby(by='item').groups

{'橘子': [2, 5], '苹果': [0, 3], '香蕉': [1, 4]}

In [92]:
# 计算出每一种水果的平均价值
df.groupby(by='item')['price'].mean()

item
橘子    3.65
苹果    4.25
香蕉    3.10
Name: price, dtype: float64

In [93]:
# 计算每一种颜色对应水果的平均重量
df.groupby(by='color')['weight'].mean()

color
green     15.5
red       12.0
yellow    20.0
Name: weight, dtype: float64

In [94]:
df

Unnamed: 0,item,price,color,weight
0,苹果,4.0,red,12
1,香蕉,3.0,yellow,20
2,橘子,3.5,yellow,21
3,苹果,4.5,green,15
4,香蕉,3.2,green,16
5,橘子,3.8,yellow,19


In [98]:
# 将计算出的平均重量汇总到源数据
df_dic = df.groupby(by='color')['weight'].mean().to_dict() # to_dict()将Series转换为字典
df['总数据'] = df['color'].map(df_dic)
df

Unnamed: 0,item,price,color,weight,总数据
0,苹果,4.0,red,12,12.0
1,香蕉,3.0,yellow,20,20.0
2,橘子,3.5,yellow,21,20.0
3,苹果,4.5,green,15,15.5
4,香蕉,3.2,green,16,15.5
5,橘子,3.8,yellow,19,20.0


### 高级数据聚合
  - 使用groupby()分组后,也可以使用transform()和apply()提供自定义函数实现更多运算
  - df.groupby('item')['price'].sum() <==> df.groupby('item')['price'].apply(sum)
  - transform()和apply()都可以进行运算
  - transform()和apply()也可以传入一个lambda表达式 

In [99]:
def my_mean(a):
    pass

In [100]:
# 如果你想要对分组后的数据进行运算调用 my_mean函数, 那么就需要使用apply()函数
# 为什么要使用apply()函数呢? 不可以直接.my_mean()吗?
# 通常来说,使用“.”来调用方法的话,那么这个方法必须是需要被调用的对象的方法,所以我们需要使用apply()函数或者transform()函数
df.groupby(by='item')['price'].apply(my_mean)

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7f1fe8d20d30>