In [46]:
import pandas as pd
import json

## 前言

本系列课程不会过多地讲解代码本身的操作，而是更关注帮助大家建立数据挖掘的框架思维体系。

下面的代码是对基础操作的演示，更多的细节，请参考《利用Python进行数据分析》。当你不知道一个操作该如何进行时，首先判断是属于哪一种基本操作，再到书中去寻找对应的代码。

## Extract 抽取
读取本地csv文件

In [102]:
dff = pd.read_csv("input/鱼类数据.csv",dtype={'价格':"int"})
dff

Unnamed: 0,名称,出现地点,鱼影,价格
0,红目鲫,河流,SS,900
1,溪哥,河流,SS,200
2,鲫鱼,河流,S,160
3,雅罗鱼,河流,M,240
4,鲤鱼,池塘,L,300
...,...,...,...,...
75,凤尾鱼,大海,S,200
76,鬼头刀,码头,LL,6000
77,吸盘鱼,大海,K,1500
78,太平洋桶眼鱼,大海,S,15000


In [103]:
# 读取csv文件
dfs = pd.read_csv("input/鱼影数据.csv",converters={"鱼列表": lambda x:eval(x)})
# 这里的dfs和下面的dff就是DataFrame，可以理解为放在内存中的表，是数据处理的核心对象
dfs

Unnamed: 0,鱼影,鱼列表,鱼影宽度
0,J,"[翻车鱼, 双髻鲨, 鲨鱼, 锯鲨, 鲸鲨]",10~12cm
1,K,[吸盘鱼],10cm
2,L,"[鲤鱼, 锦鲤, 鳖, 鲶鱼, 黑鱼, 黑鲈鱼, 鲑鱼, 骨舌鱼, 恩氏多鳍鱼, 鲷鱼, 灯...",10~12cm
3,LL,"[白斑狗鱼, 远东哲罗鱼, 帝王鲑, 黄金河虎, 雀鳝, 鲈鱼, 比目鱼, 白面弄鱼, 鳐鱼...",11~13cm
4,LLL,"[巨骨舌鱼, 苏眉鱼, 鲔鱼, 旗鱼, 皇带鱼, 矛尾鱼, 鲟鱼]",12~14cm
5,M,"[雅罗鱼, 黄鲈鱼, 香鱼, 樱花钩吻鲑, 花羔红点鲑, 狮子鱼, 河豚, 刺豚, 条石鲷,...",6~9cm
6,S,"[鲫鱼, 淡水龙虾, 青蛙, 塘鳢鱼, 泥鳅, 蓝腮太阳鱼, 西太公鱼, 中华绒螯蟹, 神仙...",2~4cm
7,SS,"[红目鲫, 溪哥, 金鱼, 龙睛金鱼, 稻田鱼, 蝌蚪, 孔雀鱼, 温泉医生鱼, 霓虹灯鱼,...",1~3cm
8,U,"[裸胸鳝, 五彩鳗]",15cm


## Load 加载
把数据输出到本地csv文件


In [104]:
dff.to_csv("output/鱼类数据.csv",index=False)

## Transform 转换

### Map 映射

不改变DataFrame的粒度。

映射的操作，主要是对DataFrame的列数据进行操作，可以增加一列、减少一列或者对某一列数据的数据进行修改

In [105]:
# 增加一列价格（元）
dff['价格(元)'] = dff['价格'].astype("str") + '元'
dff

Unnamed: 0,名称,出现地点,鱼影,价格,价格(元)
0,红目鲫,河流,SS,900,900元
1,溪哥,河流,SS,200,200元
2,鲫鱼,河流,S,160,160元
3,雅罗鱼,河流,M,240,240元
4,鲤鱼,池塘,L,300,300元
...,...,...,...,...,...
75,凤尾鱼,大海,S,200,200元
76,鬼头刀,码头,LL,6000,6000元
77,吸盘鱼,大海,K,1500,1500元
78,太平洋桶眼鱼,大海,S,15000,15000元


In [106]:
# 如果已存在该列，可以赋值
# 使用apply函数可以写出更复杂的Map操作
def f_map(row):
    row['地点+名称'] = f"{row['出现地点']} {row['名称']}"
    return row
    
dff = dff.apply(f_map,axis=1)
dff

Unnamed: 0,名称,出现地点,鱼影,价格,价格(元),地点+名称
0,红目鲫,河流,SS,900,900元,河流 红目鲫
1,溪哥,河流,SS,200,200元,河流 溪哥
2,鲫鱼,河流,S,160,160元,河流 鲫鱼
3,雅罗鱼,河流,M,240,240元,河流 雅罗鱼
4,鲤鱼,池塘,L,300,300元,池塘 鲤鱼
...,...,...,...,...,...,...
75,凤尾鱼,大海,S,200,200元,大海 凤尾鱼
76,鬼头刀,码头,LL,6000,6000元,码头 鬼头刀
77,吸盘鱼,大海,K,1500,1500元,大海 吸盘鱼
78,太平洋桶眼鱼,大海,S,15000,15000元,大海 太平洋桶眼鱼


### Aggregation 聚合/上卷
数据的粒度会变粗，方便站在一个更宏观的视角去进行研究


In [107]:
## 按鱼影分组，求出每个鱼影组的平均售价
dff.groupby("鱼影").mean()

Unnamed: 0_level_0,价格
鱼影,Unnamed: 1_level_1
J,10400.0
K,1500.0
L,3329.166667
LL,5430.0
LLL,10142.857143
M,2583.846154
S,1982.941176
SS,842.307692
U,1300.0


### Explode 展开/下钻
数据粒度会变细，方便站在一个更微观的视角去进行研究

In [108]:
# 要进行下钻，是有前提条件的，就是必须要有一列数据是可展开的list或者dict，或者通过横向联结更细粒度的数据
# 下面的例子是展开鱼列表，并把列名改为"名称"
dfs.explode('鱼列表').rename(columns={'鱼列表':'名称'})

Unnamed: 0,鱼影,名称,鱼影宽度
0,J,翻车鱼,10~12cm
0,J,双髻鲨,10~12cm
0,J,鲨鱼,10~12cm
0,J,锯鲨,10~12cm
0,J,鲸鲨,10~12cm
...,...,...,...
7,SS,海马,1~3cm
7,SS,小丑鱼,1~3cm
7,SS,彩虹鱼,1~3cm
8,U,裸胸鳝,15cm


### Slice 切片
也就是取子集，一般是有指定的条件的

In [109]:
# 下面的例子是取所有鱼影为J的鱼类,dff['鱼影']=='J'就是指定的子集条件
dff[dff['鱼影']=='J']

Unnamed: 0,名称,出现地点,鱼影,价格,价格(元),地点+名称
62,翻车鱼,大海,J,4000,4000元,大海 翻车鱼
63,双髻鲨,大海,J,8000,8000元,大海 双髻鲨
64,鲨鱼,大海,J,15000,15000元,大海 鲨鱼
65,锯鲨,大海,J,12000,12000元,大海 锯鲨
66,鲸鲨,大海,J,13000,13000元,大海 鲸鲨


### Merge/Join 合并/联结
将两个DataFrame的数据横向合并到一起。需要指定联结的，也就是**外键**


In [110]:
# on="鱼影" 就是指定外键列为鱼影
dff.merge(dfs,on="鱼影")

Unnamed: 0,名称,出现地点,鱼影,价格,价格(元),地点+名称,鱼列表,鱼影宽度
0,红目鲫,河流,SS,900,900元,河流 红目鲫,"[红目鲫, 溪哥, 金鱼, 龙睛金鱼, 稻田鱼, 蝌蚪, 孔雀鱼, 温泉医生鱼, 霓虹灯鱼,...",1~3cm
1,溪哥,河流,SS,200,200元,河流 溪哥,"[红目鲫, 溪哥, 金鱼, 龙睛金鱼, 稻田鱼, 蝌蚪, 孔雀鱼, 温泉医生鱼, 霓虹灯鱼,...",1~3cm
2,金鱼,池塘,SS,1300,1300元,池塘 金鱼,"[红目鲫, 溪哥, 金鱼, 龙睛金鱼, 稻田鱼, 蝌蚪, 孔雀鱼, 温泉医生鱼, 霓虹灯鱼,...",1~3cm
3,龙睛金鱼,池塘,SS,1300,1300元,池塘 龙睛金鱼,"[红目鲫, 溪哥, 金鱼, 龙睛金鱼, 稻田鱼, 蝌蚪, 孔雀鱼, 温泉医生鱼, 霓虹灯鱼,...",1~3cm
4,稻田鱼,池塘,SS,300,300元,池塘 稻田鱼,"[红目鲫, 溪哥, 金鱼, 龙睛金鱼, 稻田鱼, 蝌蚪, 孔雀鱼, 温泉医生鱼, 霓虹灯鱼,...",1~3cm
...,...,...,...,...,...,...,...,...
75,双髻鲨,大海,J,8000,8000元,大海 双髻鲨,"[翻车鱼, 双髻鲨, 鲨鱼, 锯鲨, 鲸鲨]",10~12cm
76,鲨鱼,大海,J,15000,15000元,大海 鲨鱼,"[翻车鱼, 双髻鲨, 鲨鱼, 锯鲨, 鲸鲨]",10~12cm
77,锯鲨,大海,J,12000,12000元,大海 锯鲨,"[翻车鱼, 双髻鲨, 鲨鱼, 锯鲨, 鲸鲨]",10~12cm
78,鲸鲨,大海,J,13000,13000元,大海 鲸鲨,"[翻车鱼, 双髻鲨, 鲨鱼, 锯鲨, 鲸鲨]",10~12cm


### Union 联合
将多个DataFrame的数据纵向合并到一起。需要每个DataFrame的结构都一致（列数量、列名、数据类型一致）

这个操作类似于集合论中的取并集，但不会去除重复数据

In [112]:
## 合并以下四个切片，并且鱼影=‘L'的切片多合并一份
dfs_j = dff[dff['鱼影']=='J']
dfs_s = dff[dff['鱼影']=='S']
dfs_m = dff[dff['鱼影']=='M']
dfs_l = dff[dff['鱼影']=='L']

df_union = pd.concat([dfs_j, dfs_s, dfs_m, dfs_l, dfs_l])
df_union

Unnamed: 0,名称,出现地点,鱼影,价格,价格(元),地点+名称
62,翻车鱼,大海,J,4000,4000元,大海 翻车鱼
63,双髻鲨,大海,J,8000,8000元,大海 双髻鲨
64,鲨鱼,大海,J,15000,15000元,大海 鲨鱼
65,锯鲨,大海,J,12000,12000元,大海 锯鲨
66,鲸鲨,大海,J,13000,13000元,大海 鲸鲨
2,鲫鱼,河流,S,160,160元,河流 鲫鱼
9,淡水龙虾,池塘,S,200,200元,池塘 淡水龙虾
12,青蛙,池塘,S,120,120元,池塘 青蛙
13,塘鳢鱼,河流,S,400,400元,河流 塘鳢鱼
14,泥鳅,河流,S,400,400元,河流 泥鳅


In [114]:
# 上面的操作有时候会导致出现重复数据，为了保险，会加上去重的操作：重复的数据只保留一条
# 如果不指定主键，则对所有列都一致的数据进行去重。如果指定主键，则对主键相同的数据进行驱虫
df_union.drop_duplicates(['名称'])

Unnamed: 0,名称,出现地点,鱼影,价格,价格(元),地点+名称
62,翻车鱼,大海,J,4000,4000元,大海 翻车鱼
63,双髻鲨,大海,J,8000,8000元,大海 双髻鲨
64,鲨鱼,大海,J,15000,15000元,大海 鲨鱼
65,锯鲨,大海,J,12000,12000元,大海 锯鲨
66,鲸鲨,大海,J,13000,13000元,大海 鲸鲨
2,鲫鱼,河流,S,160,160元,河流 鲫鱼
9,淡水龙虾,池塘,S,200,200元,池塘 淡水龙虾
12,青蛙,池塘,S,120,120元,池塘 青蛙
13,塘鳢鱼,河流,S,400,400元,河流 塘鳢鱼
14,泥鳅,河流,S,400,400元,河流 泥鳅


## 作业
将鱼影宽度取均值（最小与最大之和除以2），合并到鱼类数据上。

也就是在鱼类数据上加上一列：鱼影平均宽度