# 用pandas做数据分析

## 关于数据分析

 根据jetbrains公司2018年对python开发人员的调查, 从事数据分析的python使用者超过了
 web开发和自动化测试.
 
![python%20what%20to%20do.png](attachment:python%20what%20to%20do.png)
 
 在诸多数据科学的框架和库中,numpy pandas是最流行的 
![python%20lib.png](attachment:python%20lib.png)
 
 而numpy为pandas提供了基础的底层数据结构和处理函数, 用ndarray和ufunc解决了性能问题.

 ## pandas的核心数据结构 Series 和 DataFrame
 
Series 是个定长的字典序列, 可以看成是只有一列的Excel, 或者数据库表里面的一行记录
Series有两个基本属性：index 和 values
index如果不指定默认是<code>[0,1,2,3...]</code>  也可以自己指定索引 <code>index=['a', 'b', 'c', 'd']</code>

In [45]:
import pandas as pd
x1 = pd.Series([1,2,3,4])
x2 = pd.Series(data=[1,2,3,4], index=['a', 'b', 'c', 'd'])
print("x1".center(100,"*"))
print(x1)
print("x2".center(100,"*"))
print(x2)


*************************************************x1*************************************************
0    1
1    2
2    3
3    4
dtype: int64
*************************************************x2*************************************************
a    1
b    2
c    3
d    4
dtype: int64


In [46]:
d = {'a':1, 'b':2, 'c':3, 'd':4}
x3 = pd.Series(d)
print(x3)


a    1
b    2
c    3
d    4
dtype: int64


Dataframe 则类似于excel里面的一张表,或者数据库的一张表. 可以看出是一组相同的index组成的Series组成的一个dict. 或者说一个多列的excel表

In [49]:
data = {'Chinese': [66, 95, 93, 90,80],'English': [65, 85, 92, 88, 90],'Math': [30, 98, 96, 77, 90]}
df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data, 
                   index=['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei'], 
                   columns=['English', 'Math', "Chinese"])
print("df1".center(100,"*"))
print(df1)
print("df2".center(100,"*"))
print(df2)


************************************************df1*************************************************
   Chinese  English  Math
0       66       65    30
1       95       85    98
2       93       92    96
3       90       88    77
4       80       90    90
************************************************df2*************************************************
            English  Math  Chinese
ZhangFei         65    30       66
GuanYu           85    98       95
ZhaoYun          92    96       93
HuangZhong       88    77       90
DianWei          90    90       80


## 数据的导入和输出
pandas提供了非常简单的方式来读取excel  csv  数据库 html pickle 甚至是剪贴板中的的数据成为pandas中的DataFrame类型, 也可以很方便的将DataFrame转换成dict list json 数据库 甚至是html里面

In [50]:
print("列出当前路径".center(100,"*"))
!ls
print("用pandas读取csv".center(100,"*"))
df = pd.read_csv("肉类热量表.csv")
print(df)

***********************************************列出当前路径***********************************************
[31mmenzhen_jk.json[m[m                url黑白_from_s.csv
python lib.png                 用pandas做数据分析.ipynb
python what to do.png          肉类热量表.csv
url黑白.csv
********************************************用pandas读取csv********************************************
         食品           数量  热量(大卡)
0       瘦火腿    2 片 (60克)      70
1   烤猪扒(连肥)    1 件 (90克)     300
2   烤猪扒(去肥)    1 件 (60克)     135
3       煎猪扒  2 件 (100 克)     450
4   烧牛肉(薄瘦)   3 片 (90 克)     175
5       烤牛扒          1 件     155
6       午餐肉        1/4 罐     350
7    煎香肠(牛)          2 条     375
8    煎香肠(猪)          2 条     440
9     意大利香肠          2 片     150
10      热狗肠          1 条     150
11     德国香肠          2 条      90
12      蒸腊肠          2 条     310
13     莎乐美肠          4 片     195
14      烧鸡脾         1 只      215
15     白切鸡脾  1 只 (100 克)     200
16       烧鸭  1 份 (120 克)     356


In [51]:
df.to_excel("pandas导出的肉类热量表.xlsx")
!ls

[31mmenzhen_jk.json[m[m                     url黑白.csv
pandas导出的肉类热量表.xlsx         url黑白_from_s.csv
python lib.png                      用pandas做数据分析.ipynb
python what to do.png               肉类热量表.csv


In [53]:
# 为了保证程序能像预料中那样再次运行, 删除掉生成的excel
!rm pandas导出的肉类热量表.xlsx
!ls
df

rm: pandas导出的肉类热量表.xlsx: No such file or directory
[31mmenzhen_jk.json[m[m                url黑白_from_s.csv
python lib.png                 用pandas做数据分析.ipynb
python what to do.png          肉类热量表.csv
url黑白.csv


Unnamed: 0,食品,数量,热量(大卡)
0,瘦火腿,2 片 (60克),70
1,烤猪扒(连肥),1 件 (90克),300
2,烤猪扒(去肥),1 件 (60克),135
3,煎猪扒,2 件 (100 克),450
4,烧牛肉(薄瘦),3 片 (90 克),175
5,烤牛扒,1 件,155
6,午餐肉,1/4 罐,350
7,煎香肠(牛),2 条,375
8,煎香肠(猪),2 条,440
9,意大利香肠,2 片,150


## 数据清洗
### 比方说有以下场景
删除不必要的行 pandas提供了一个drop方法

In [54]:
df["测试"] = "啦啦啦"
df.loc["冰淇淋"] = "乱入"
df

Unnamed: 0,食品,数量,热量(大卡),测试
0,瘦火腿,2 片 (60克),70,啦啦啦
1,烤猪扒(连肥),1 件 (90克),300,啦啦啦
2,烤猪扒(去肥),1 件 (60克),135,啦啦啦
3,煎猪扒,2 件 (100 克),450,啦啦啦
4,烧牛肉(薄瘦),3 片 (90 克),175,啦啦啦
5,烤牛扒,1 件,155,啦啦啦
6,午餐肉,1/4 罐,350,啦啦啦
7,煎香肠(牛),2 条,375,啦啦啦
8,煎香肠(猪),2 条,440,啦啦啦
9,意大利香肠,2 片,150,啦啦啦


In [55]:
df.drop(index=["冰淇淋"], inplace=True)
print("删除index".center(100,"*"))
print(df)
df.drop(columns=["测试"], inplace=True)
print("删除columns".center(100,"*"))
print(df)

**********************************************删除index***********************************************
         食品           数量 热量(大卡)   测试
0       瘦火腿    2 片 (60克)     70  啦啦啦
1   烤猪扒(连肥)    1 件 (90克)    300  啦啦啦
2   烤猪扒(去肥)    1 件 (60克)    135  啦啦啦
3       煎猪扒  2 件 (100 克)    450  啦啦啦
4   烧牛肉(薄瘦)   3 片 (90 克)    175  啦啦啦
5       烤牛扒          1 件    155  啦啦啦
6       午餐肉        1/4 罐    350  啦啦啦
7    煎香肠(牛)          2 条    375  啦啦啦
8    煎香肠(猪)          2 条    440  啦啦啦
9     意大利香肠          2 片    150  啦啦啦
10      热狗肠          1 条    150  啦啦啦
11     德国香肠          2 条     90  啦啦啦
12      蒸腊肠          2 条    310  啦啦啦
13     莎乐美肠          4 片    195  啦啦啦
14      烧鸡脾         1 只     215  啦啦啦
15     白切鸡脾  1 只 (100 克)    200  啦啦啦
16       烧鸭  1 份 (120 克)    356  啦啦啦
*********************************************删除columns**********************************************
         食品           数量 热量(大卡)
0       瘦火腿    2 片 (60克)     70
1   烤猪扒(连肥)    1 件 (90克)    300
2   烤猪扒(去肥)    1 件 (60克)    135
3   

对列名或者行名进行重命名操作, pandas提供了rename方法

In [56]:
df.rename(columns={"食品":"食品名称","数量":"计量单位"},inplace=True)
df

Unnamed: 0,食品名称,计量单位,热量(大卡)
0,瘦火腿,2 片 (60克),70
1,烤猪扒(连肥),1 件 (90克),300
2,烤猪扒(去肥),1 件 (60克),135
3,煎猪扒,2 件 (100 克),450
4,烧牛肉(薄瘦),3 片 (90 克),175
5,烤牛扒,1 件,155
6,午餐肉,1/4 罐,350
7,煎香肠(牛),2 条,375
8,煎香肠(猪),2 条,440
9,意大利香肠,2 片,150


有时候数据可能有重复的值, 可以使用drop_duplicates方法来去除

In [57]:
df.loc[17] = ["烧鸭","1 份 (120 克)",356]
df

Unnamed: 0,食品名称,计量单位,热量(大卡)
0,瘦火腿,2 片 (60克),70
1,烤猪扒(连肥),1 件 (90克),300
2,烤猪扒(去肥),1 件 (60克),135
3,煎猪扒,2 件 (100 克),450
4,烧牛肉(薄瘦),3 片 (90 克),175
5,烤牛扒,1 件,155
6,午餐肉,1/4 罐,350
7,煎香肠(牛),2 条,375
8,煎香肠(猪),2 条,440
9,意大利香肠,2 片,150


In [58]:
df.drop_duplicates(subset="食品名称",inplace=True)
df

Unnamed: 0,食品名称,计量单位,热量(大卡)
0,瘦火腿,2 片 (60克),70
1,烤猪扒(连肥),1 件 (90克),300
2,烤猪扒(去肥),1 件 (60克),135
3,煎猪扒,2 件 (100 克),450
4,烧牛肉(薄瘦),3 片 (90 克),175
5,烤牛扒,1 件,155
6,午餐肉,1/4 罐,350
7,煎香肠(牛),2 条,375
8,煎香肠(猪),2 条,440
9,意大利香肠,2 片,150


排序可以用sort_values

In [59]:
df.sort_values("热量(大卡)", inplace=True, ascending=False)
df

Unnamed: 0,食品名称,计量单位,热量(大卡)
3,煎猪扒,2 件 (100 克),450
8,煎香肠(猪),2 条,440
7,煎香肠(牛),2 条,375
16,烧鸭,1 份 (120 克),356
6,午餐肉,1/4 罐,350
12,蒸腊肠,2 条,310
1,烤猪扒(连肥),1 件 (90克),300
14,烧鸡脾,1 只,215
15,白切鸡脾,1 只 (100 克),200
13,莎乐美肠,4 片,195


做数据清洗的时候,可能由于是爬回来的数据, 数据不完整,有空的情况

In [61]:
import numpy as np
df.loc[15,"计量单位"] = np.nan
df.isnull()
df

Unnamed: 0,食品名称,计量单位,热量(大卡)
3,煎猪扒,2 件 (100 克),450
8,煎香肠(猪),2 条,440
7,煎香肠(牛),2 条,375
16,烧鸭,1 份 (120 克),356
6,午餐肉,1/4 罐,350
12,蒸腊肠,2 条,310
1,烤猪扒(连肥),1 件 (90克),300
14,烧鸡脾,1 只,215
15,白切鸡脾,,200
13,莎乐美肠,4 片,195


In [62]:
df = df.reset_index()
df

Unnamed: 0,index,食品名称,计量单位,热量(大卡)
0,3,煎猪扒,2 件 (100 克),450
1,8,煎香肠(猪),2 条,440
2,7,煎香肠(牛),2 条,375
3,16,烧鸭,1 份 (120 克),356
4,6,午餐肉,1/4 罐,350
5,12,蒸腊肠,2 条,310
6,1,烤猪扒(连肥),1 件 (90克),300
7,14,烧鸡脾,1 只,215
8,15,白切鸡脾,,200
9,13,莎乐美肠,4 片,195


做数据清洗的时候, 有时候可能想根据原有的列,做计算, 然后增加新列. 我们模拟一下场景

In [63]:
size = np.random.randint(1,20,size=17)
df["份数"] = size
df

Unnamed: 0,index,食品名称,计量单位,热量(大卡),份数
0,3,煎猪扒,2 件 (100 克),450,11
1,8,煎香肠(猪),2 条,440,13
2,7,煎香肠(牛),2 条,375,2
3,16,烧鸭,1 份 (120 克),356,18
4,6,午餐肉,1/4 罐,350,17
5,12,蒸腊肠,2 条,310,9
6,1,烤猪扒(连肥),1 件 (90克),300,15
7,14,烧鸡脾,1 只,215,6
8,15,白切鸡脾,,200,2
9,13,莎乐美肠,4 片,195,14


我们希望计算出一列总热量来

In [64]:
df["总热量"] = df["热量(大卡)"] * df["份数"]
df

Unnamed: 0,index,食品名称,计量单位,热量(大卡),份数,总热量
0,3,煎猪扒,2 件 (100 克),450,11,4950
1,8,煎香肠(猪),2 条,440,13,5720
2,7,煎香肠(牛),2 条,375,2,750
3,16,烧鸭,1 份 (120 克),356,18,6408
4,6,午餐肉,1/4 罐,350,17,5950
5,12,蒸腊肠,2 条,310,9,2790
6,1,烤猪扒(连肥),1 件 (90克),300,15,4500
7,14,烧鸡脾,1 只,215,6,1290
8,15,白切鸡脾,,200,2,400
9,13,莎乐美肠,4 片,195,14,2730


## 数据统计
pandas 带了好多数据统计函数, 如果是不能执行的,比如算平均数不是数字的行会自动忽略

In [66]:
print("count".center(100, "*"))
print(df.count())
print("min".center(100, "*"))
print(df.min())
print("sum".center(100, "*"))
print(df.sum())
print("describe".center(100, "*"))
print(df.describe())
print(df["热量(大卡)"].min())

***********************************************count************************************************
index     17
食品名称      17
计量单位      16
热量(大卡)    17
份数        17
总热量       17
dtype: int64
************************************************min*************************************************
index       0
食品名称      午餐肉
热量(大卡)     70
份数          1
总热量       150
dtype: object
************************************************sum*************************************************
index                                                   136
食品名称      煎猪扒煎香肠(猪)煎香肠(牛)烧鸭午餐肉蒸腊肠烤猪扒(连肥)烧鸡脾白切鸡脾莎乐美肠烧牛肉(薄...
热量(大卡)                                                 4116
份数                                                      178
总热量                                                   44788
dtype: object
**********************************************describe**********************************************
           index         份数
count  17.000000  17.000000
mean    8.000000  10.470588
std     5.049752   6.07

## 数据表合并
DataFrame就类似于数据库的表, 有时候希望做一些join操作

In [67]:
df1 = pd.DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5)})
df2 = pd.DataFrame({'name':['ZhangFei', 'GuanYu', 'A', 'B', 'C'], 'data2':range(5)})
print("df1".center(100, "*"))
print(df1)
print("df2".center(100, "*"))
print(df2)

************************************************df1*************************************************
       name  data1
0  ZhangFei      0
1    GuanYu      1
2         a      2
3         b      3
4         c      4
************************************************df2*************************************************
       name  data2
0  ZhangFei      0
1    GuanYu      1
2         A      2
3         B      3
4         C      4


针对指定列进行连接

In [68]:
df3 = pd.merge(df1, df2, on='name')
df3

Unnamed: 0,name,data1,data2
0,ZhangFei,0,0
1,GuanYu,1,1


内连接, 左连接, 右连接 , 内连接

In [69]:
print("inner".center(100,"*"))
df3 = pd.merge(df1, df2, how='inner')
print(df3)
print("left".center(100,"*"))
df3 = pd.merge(df1, df2, how='left')
print(df3)
print("right".center(100,"*"))
df3 = pd.merge(df1, df2, how='right')
print(df3)
print("outer".center(100,"*"))
df3 = pd.merge(df1, df2, how='outer')
print(df3)


***********************************************inner************************************************
       name  data1  data2
0  ZhangFei      0      0
1    GuanYu      1      1
************************************************left************************************************
       name  data1  data2
0  ZhangFei      0    0.0
1    GuanYu      1    1.0
2         a      2    NaN
3         b      3    NaN
4         c      4    NaN
***********************************************right************************************************
       name  data1  data2
0  ZhangFei    0.0      0
1    GuanYu    1.0      1
2         A    NaN      2
3         B    NaN      3
4         C    NaN      4
***********************************************outer************************************************
       name  data1  data2
0  ZhangFei    0.0    0.0
1    GuanYu    1.0    1.0
2         a    2.0    NaN
3         b    3.0    NaN
4         c    4.0    NaN
5         A    NaN    2.0
6         B    NaN    3.

用sql操作pandas

In [70]:
import pandas as pd
from pandas import DataFrame
from pandasql import sqldf
df1 = DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5)})
print("df1".center(100, "*"))
print(df1)
sql = "select * from df1 where name ='ZhangFei'"
print("执行sql".center(100, "*"))
print(sqldf(sql, globals()))


************************************************df1*************************************************
       name  data1
0  ZhangFei      0
1    GuanYu      1
2         a      2
3         b      3
4         c      4
***********************************************执行sql************************************************
       name  data1
0  ZhangFei      0


将json导入到mysql

In [23]:
df = pd.read_json("menzhen_jk.json")
df

Unnamed: 0,临床表现,健康教育,名称,治疗原则,疾病概述,病因
0,"临床表现1.一般特点男性多于女性,患者多伴有高血压、动脉粥样硬化、糖尿病、高血脂等。2.颈内...","###健康教育1.体息与活动指导急性期卧床休息,患者枕头不宜太高,以免影响头部的血液供应;仰...",短暂性脑缺血发作,治疗原则」1.病因治疗控制高血压、糖尿病、高脂血症。2.预防性药物治疗(1)抗血小板聚集药:...,短暂性脑缺血发作疾病概述:短暂性脑缺血发作(TA)是由颅内动脉病变引起的一过性或短暂性、局灶...,病因及多种途径有关。
1,"临床表现本病好发于中老年人,多见于50~-60岁以上的动脉硬化者,男性稍多于女性。通常患者可...","###健康教育1.休息与活动指导急性期卧床休息,恢复期可适当活动,如慢跑、散步等。合理休息,...",脑血栓形成,"治疗原则急性期尽早进行溶栓、调整血压、防治脑水肿、抗凝扩张脑血管,改善微循环和抗血小板聚集等...","脑血栓形成疾病概述:脑血栓形成(CT)是脑血管疾病中最常见的一种疾病,是指颅内外供应脑组织的...",病因。
2,"临床表现起病突然,多在体力活动或情绪激动时发病,有头痛、头晕、呕吐、意识障碍、肢体瘫痪失语、...","###健康教育1.休息与活动指导急性期卧床休息2~4周,抬高床头15°~30°,以减轻脑水肿...",脑出血,"治疗原则①保持安静,防止继续出血;②积极抗脑水肿,减低颇内压;③调整血压,改善循环;④加强护...","脑出血疾病概述:脑出血是指原发性非外伤性脑实质内出血,也称自发性脑出血,占急性脑血管病的20...",病因。其他还有先天性脑血管畸形、血液病、抗凝或溶栓治疗等。
3,"临床表现运动神经元病由于累及上和(或)下运动神经元的不同,出现不同的临床类型。1.肌萎缩侧索...","###健康教育1.休息与活动指导运动神经元病患者劳累后加重,休息后减轻,因此要注意休息,避免...",运动神经元病,治疗原则运动神经元病包括病因治疗、对症治疗和各种非药物治疗。必须是多种方法的联合用。,运动神经元病疾病概述:运动神经元病是一组病因未明的选择性侵犯脊髓前角细胞、脑干运动神经元、皮...,"病因】5%~10%的患者有遗传性,尚未发现确切的环境因素,可能与下列因素有关:中毒因素、免疫..."
4,"临床表现阿尔茨海默病通常是隐匿起病,病程为持续进行性,无缓解,停止进展的平稳期即使有也极罕见...","###健康教育1.休息与活动指导休息或进行户外活动,生活不能自理者要专人看护,切忌让老年人单...",阿尔海默病,"治疗原则查清病因,及时治疗,愈早愈好。1.非药物治疗音乐治疗和群体治疗等。2.药物治疗①改善...","阿尔海默病疾病概述:阿尔茨海默病是发生于老年和老年前期,以进行性认知功能障碍和行为损害为特征...",病因阿尔茨海默病可分为家族性阿尔茨海默病和散发性阿尔茨海默病。家族性阿尔茨海默病呈常染色体显...
5,"临床表现一般为急性起病,无季节性,无地区性,可见于任何年龄。病前有上呼吸道感染及肠道感染史,...","###健康教育1.休息与活动指导注意休息,适当运动,增强抵抗力,防止感冒。第二章神经內科疾病...",病毒性脑炎,治疗原则本病的治疗应包括抗病毒的病因治疗;针对高热、抽搐、精神错乱、颅内压增高等对症治疗及全...,"病毒性脑炎疾病概述:病毒性脑膜炎是一组由各种病毒感染引起的脑膜急性炎症性疾病,临床以发热、头...","病因单纯疱疹病毒属DNA病毒。成人病例90%系由I型单纯疱疹病毒感染,以口、眼、脑的感染为主..."
6,"临床表现)常为急性或亚急性起病,慢性病程。早期表现为发热、头痛、呕吐和体重减轻,通常持续1~...","###健康教育1.休息与活动指导注意休息,适当运动,增强抵抗力,防止感冒2.饮食指导给予高蛋...",结核性脑膜炎,治疗原则是早期、合理、联合和系统的抗结核治疗,结核性脑膜炎疾病概述:结核性脑膜炎是结核分枝杆菌引起的脑膜和脊膜非化脓性炎症性疾病。,"病因结核分枝杆菌感染经血播散后在软脑膜下种植,形成结核结节;结核结节破溃后大量结核分枝杆菌进..."
7,"临床表现本病起病隐袭,进展缓慢,早期有不规则的低热或间歇性头痛,后变为持续性并进行性加重;免...","###健康教育1.休息与活动指导早期卧床休息,床头抬高15°~30°,恢复期根据病情可适当下...",新型隐球菌性脑膜炎,治疗原则抗真菌治疗和对症、全身支持治疗,"新型隐球菌性脑膜炎疾病概述:新型隐球菌性脑膜炎是由新型隐球菌感染所引起的亚急性或慢性脑膜炎,...","病因新型隐球菌在自然界分布广泛,为条件致病菌,当宿主免疫力低下时致病。新型隐球菌感染可单独发..."
8,"临床表现)典型的病程是缓解与复发交替发生,总趋势是病情逐步恶化。多在20~40岁发病,女性略...","###健康教育休息与活动指导发病期卧床休息恢复期鼓励做适当的体育锻炼,但不宜做剧烈运动2.饮...",多发性硬化,"治疗原则1.急性活动期抑制其炎性脱髓鞘过程,遏制病情的发展。2.尽量预防能促使复发的外因,以...",多发性硬化疾病概述:多发性硬化是以中枢神经系统白质炎性脱髓鞘病变为主要特点的自身免疫病。本病...,"病因不明,可能与遗传因素、所处的地理位置、病毒感染、自身免疫反应等有一定关系。"
9,"临床表现1.发病年龄以20-40岁最多,儿童和老年人发病少见,男女均可发病。2.双侧同时或相...",###健康教育休息与活动指导病情稳定后适当锻炼。避免受凉、疲劳等。2.饮食指导多吃富含维生素...,视神经脊髓炎,"治疗原则首选甲泼尼龙大剂量冲击疗法,500-100mgd,静脉滴注,连用3~5天,再改为泼尼...",视神经脊髓炎疾病概述:视神经脊髓炎是视神经与脊髓同时或相继受累的急性或亚急性脱髓鞘病变。其临...,病因及发病机制尚不清楚。


In [71]:
from sqlalchemy import create_engine

# mac下安装mysqlclient失败了, 至今没有装好, 不过可以用pymysql
SQLALCHEMY_DATABASE_URI = 'mysql+pymysql://root:123456@localhost:3306/data_analyze?charset=utf8mb4'
conn= create_engine(SQLALCHEMY_DATABASE_URI)

df.to_sql("menzhen_jk", con=conn,if_exists='replace',index=False, chunksize=100)

## 练习
### 现在有两个csv, 一个是从s查询的结果, 有两列一个是url , 另一个是黑白 . 另一个csv是从url_detect接口查出来的. 一列是url 另一列是检出威胁的引擎的列表用逗号隔开的字符串, 有可能是空字符串或者Nan.  现在要求汇总这两个csv. 如果url_detect接口里面的结果不是Nan或者是空字符串或者是字符串safe, 不是这三种情况结果就按黑, 否则就按s的结果.

In [74]:
!ls
!head url黑白.csv

[31mmenzhen_jk.json[m[m                url黑白_from_s.csv
python lib.png                 用pandas做数据分析.ipynb
python what to do.png          肉类热量表.csv
url黑白.csv
url,黑白
http://0.gravatar.com/avatar/02c7f0cde2ace8a4c739da763248765f?s=80&amp;d=mm&amp;r=g,
http://0.gravatar.com/avatar/?s=48&amp;d=mm&amp;r=g,
http://0.gravatar.com/avatar/68bcea4063e3d4672e55ddf299901922?s=48&amp;d=mm&amp;r=g,
http://0.gravatar.com/avatar/31512b88dd6cd7443107841833e95612?s=80&amp;d=mm&amp;r=g,
http://0.gravatar.com/avatar/67d0956e9de9e20496278c318c59c788?s=26&amp;d=mm&amp;r=g,
http://0.gravatar.com/avatar/3d9250a0bf6201feec8bd1961df105c5?s=80&amp;d=mm&amp;r=g,
http://0.gravatar.com/avatar/3229c1b7955d064ff534807aaf619fea?s=48&amp;d=mm&amp;r=g,
http://0.gravatar.com/avatar/3c4260c4b26558d534157a3a91858a09?s=80&amp;d=mm&amp;r=g,
http://0.gravatar.com/avatar/34526b94adebe16fd69cc5bf1662152b?s=48&amp;d=mm&amp;r=g,


In [75]:
df_url_detect = pd.read_csv("url黑白.csv")
df_url_detect

Unnamed: 0,url,黑白
0,http://0.gravatar.com/avatar/02c7f0cde2ace8a4c...,
1,http://0.gravatar.com/avatar/?s=48&amp;d=mm&am...,
2,http://0.gravatar.com/avatar/68bcea4063e3d4672...,
3,http://0.gravatar.com/avatar/31512b88dd6cd7443...,
4,http://0.gravatar.com/avatar/67d0956e9de9e2049...,
5,http://0.gravatar.com/avatar/3d9250a0bf6201fee...,
6,http://0.gravatar.com/avatar/3229c1b7955d064ff...,
7,http://0.gravatar.com/avatar/3c4260c4b26558d53...,
8,http://0.gravatar.com/avatar/34526b94adebe16fd...,
9,http://0.gravatar.com/avatar/695cce6ae0ad641ad...,


In [76]:
df_s = pd.read_csv("url黑白_from_s.csv")
df_s

Unnamed: 0,url,黑白
0,http://0.gravatar.com/avatar/007cef2f3e91982e0...,白
1,http://0.gravatar.com/avatar/31512b88dd6cd7443...,白
2,http://0.gravatar.com/avatar/0d1613ce075d3047a...,白
3,http://0.gravatar.com,未知
4,http://0.gravatar.com/avatar/0bb7d56d7c5b80220...,白
5,http://0.gravatar.com/avatar/?s=48&amp;d=mm&am...,白
6,http://0.gravatar.com/avatar/02c7f0cde2ace8a4c...,白
7,http://0.gravatar.com/avatar/3d9250a0bf6201fee...,白
8,http://0.gravatar.com/avatar/34526b94adebe16fd...,白
9,http://0.gravatar.com/avatar/3229c1b7955d064ff...,白


In [79]:
import pandas as pd
import numpy as np

new_df = pd.merge(df_url_detect, df_s, on="url")
# new_df

new_df.rename(columns={"黑白_x": "url_detect", "黑白_y": "s"}, inplace=True)


def new_bw(df):
    df["黑白"] = df["s"]
    if df["黑白"] != "黑":
        if not (df["url_detect"] is np.nan or df["url_detect"] == "" or df["url_detect"] == "safe"):
            df["黑白"] = "黑"
    if df["黑白"] == "未知":
        df["黑白"] = "白"
    return df


new_df = new_df.apply(new_bw, axis=1)
new_df



Unnamed: 0,url,url_detect,s,黑白
0,http://0.gravatar.com/avatar/02c7f0cde2ace8a4c...,,白,白
1,http://0.gravatar.com/avatar/?s=48&amp;d=mm&am...,,白,白
2,http://0.gravatar.com/avatar/68bcea4063e3d4672...,,白,白
3,http://0.gravatar.com/avatar/31512b88dd6cd7443...,,白,白
4,http://0.gravatar.com/avatar/67d0956e9de9e2049...,,白,白
5,http://0.gravatar.com/avatar/3d9250a0bf6201fee...,,白,白
6,http://0.gravatar.com/avatar/3229c1b7955d064ff...,,白,白
7,http://0.gravatar.com/avatar/3c4260c4b26558d53...,,白,白
8,http://0.gravatar.com/avatar/34526b94adebe16fd...,,白,白
9,http://0.gravatar.com/avatar/695cce6ae0ad641ad...,,白,白


In [82]:
# new_df.drop(columns=["url_detect", "s"], inplace=True)


new_df.count()

url    47604
黑白     47604
dtype: int64

In [83]:
new_df.to_csv("汇总黑白.csv", index=False)
new_df.to_excel("汇总黑白.xlsx", index=False)

In [84]:
!ls

[31mmenzhen_jk.json[m[m                用pandas做数据分析.ipynb
python lib.png                 汇总黑白.csv
python what to do.png          汇总黑白.xlsx
url黑白.csv                    肉类热量表.csv
url黑白_from_s.csv


In [85]:
!rm  汇总黑白.csv  汇总黑白.xlsx

In [86]:
!ls

[31mmenzhen_jk.json[m[m                url黑白_from_s.csv
python lib.png                 用pandas做数据分析.ipynb
python what to do.png          肉类热量表.csv
url黑白.csv


### 方法二

In [34]:
df_url_detect

Unnamed: 0,url,黑白
0,http://0.gravatar.com/avatar/02c7f0cde2ace8a4c...,
1,http://0.gravatar.com/avatar/?s=48&amp;d=mm&am...,
2,http://0.gravatar.com/avatar/68bcea4063e3d4672...,
3,http://0.gravatar.com/avatar/31512b88dd6cd7443...,
4,http://0.gravatar.com/avatar/67d0956e9de9e2049...,
5,http://0.gravatar.com/avatar/3d9250a0bf6201fee...,
6,http://0.gravatar.com/avatar/3229c1b7955d064ff...,
7,http://0.gravatar.com/avatar/3c4260c4b26558d53...,
8,http://0.gravatar.com/avatar/34526b94adebe16fd...,
9,http://0.gravatar.com/avatar/695cce6ae0ad641ad...,


将NaN填充为safe就好解决了

In [87]:
df_url_detect = df_url_detect.fillna("safe")

再看一下还有没有空白

In [88]:
df_url_detect["黑白"].unique()

array(['safe', 'spam', 'bruteforce', 'compromised', 'zombie,spam',
       'zombie,bruteforce,spam', 'zombie', 'bruteforce,spam', 'scanner',
       'zombie,scanner,spam', 'phishing', 'suspicious'], dtype=object)

甚至可以看一下个数有多少

In [89]:
df_url_detect["黑白"].value_counts()

safe                      47344
compromised                 217
bruteforce                   17
zombie,spam                  12
spam                          6
zombie                        2
zombie,bruteforce,spam        1
scanner                       1
bruteforce,spam               1
phishing                      1
suspicious                    1
zombie,scanner,spam           1
Name: 黑白, dtype: int64

实际上我们如果不知道哪个是最多的, 我们填充NAN值也经常用平均值或者出现个数最多的值来填充.怎样用出现次数最多的值填充呢

In [90]:
max_bk = df_url_detect["黑白"].value_counts().index[0]
print(max_bk)
df_url_detect["黑白"].fillna(max_bk , inplace= True)
df_url_detect

safe


Unnamed: 0,url,黑白
0,http://0.gravatar.com/avatar/02c7f0cde2ace8a4c...,safe
1,http://0.gravatar.com/avatar/?s=48&amp;d=mm&am...,safe
2,http://0.gravatar.com/avatar/68bcea4063e3d4672...,safe
3,http://0.gravatar.com/avatar/31512b88dd6cd7443...,safe
4,http://0.gravatar.com/avatar/67d0956e9de9e2049...,safe
5,http://0.gravatar.com/avatar/3d9250a0bf6201fee...,safe
6,http://0.gravatar.com/avatar/3229c1b7955d064ff...,safe
7,http://0.gravatar.com/avatar/3c4260c4b26558d53...,safe
8,http://0.gravatar.com/avatar/34526b94adebe16fd...,safe
9,http://0.gravatar.com/avatar/695cce6ae0ad641ad...,safe


In [91]:
new_df = pd.merge(df_url_detect, df_s, on="url")
new_df.rename(columns={"黑白_x": "url_detect", "黑白_y": "s"}, inplace=True)
new_df

Unnamed: 0,url,url_detect,s
0,http://0.gravatar.com/avatar/02c7f0cde2ace8a4c...,safe,白
1,http://0.gravatar.com/avatar/?s=48&amp;d=mm&am...,safe,白
2,http://0.gravatar.com/avatar/68bcea4063e3d4672...,safe,白
3,http://0.gravatar.com/avatar/31512b88dd6cd7443...,safe,白
4,http://0.gravatar.com/avatar/67d0956e9de9e2049...,safe,白
5,http://0.gravatar.com/avatar/3d9250a0bf6201fee...,safe,白
6,http://0.gravatar.com/avatar/3229c1b7955d064ff...,safe,白
7,http://0.gravatar.com/avatar/3c4260c4b26558d53...,safe,白
8,http://0.gravatar.com/avatar/34526b94adebe16fd...,safe,白
9,http://0.gravatar.com/avatar/695cce6ae0ad641ad...,safe,白


In [92]:
new_df["黑白"] = np.where(new_df["url_detect"] != "safe", "黑", new_df["s"])
new_df

Unnamed: 0,url,url_detect,s,黑白
0,http://0.gravatar.com/avatar/02c7f0cde2ace8a4c...,safe,白,白
1,http://0.gravatar.com/avatar/?s=48&amp;d=mm&am...,safe,白,白
2,http://0.gravatar.com/avatar/68bcea4063e3d4672...,safe,白,白
3,http://0.gravatar.com/avatar/31512b88dd6cd7443...,safe,白,白
4,http://0.gravatar.com/avatar/67d0956e9de9e2049...,safe,白,白
5,http://0.gravatar.com/avatar/3d9250a0bf6201fee...,safe,白,白
6,http://0.gravatar.com/avatar/3229c1b7955d064ff...,safe,白,白
7,http://0.gravatar.com/avatar/3c4260c4b26558d53...,safe,白,白
8,http://0.gravatar.com/avatar/34526b94adebe16fd...,safe,白,白
9,http://0.gravatar.com/avatar/695cce6ae0ad641ad...,safe,白,白


发现黑白这一列里面有未知, 应该改成白

In [93]:
new_df[new_df["黑白"] == "未知"]

Unnamed: 0,url,url_detect,s,黑白
11,http://0.gravatar.com,safe,未知,未知
54,http://067-umd-991.mktoresp.com,safe,未知,未知
127,http://100000007291.canting.n.weimob.com/saas/...,safe,未知,未知
225,http://106.14.144.67:8010/eoffice10/server/pub...,safe,未知,未知
274,http://110.76.15.147,safe,未知,未知
482,http://113.96.231.155:443,safe,未知,未知
697,http://117.143.109.133/cache/theme-drcn.dbankc...,safe,未知,未知
708,http://117.143.109.134/cache/image.uc.cn/s/uae...,safe,未知,未知
806,http://117.143.109.140/cache/soft.imtt.qq.com/...,safe,未知,未知
813,http://117.143.109.141/cache/mag.reader.3g.qq....,safe,未知,未知


In [94]:
new_df.loc[new_df["黑白"] == "未知", "黑白"] = "白"
new_df.drop(columns=["url_detect", "s"], inplace=True)
new_df

Unnamed: 0,url,黑白
0,http://0.gravatar.com/avatar/02c7f0cde2ace8a4c...,白
1,http://0.gravatar.com/avatar/?s=48&amp;d=mm&am...,白
2,http://0.gravatar.com/avatar/68bcea4063e3d4672...,白
3,http://0.gravatar.com/avatar/31512b88dd6cd7443...,白
4,http://0.gravatar.com/avatar/67d0956e9de9e2049...,白
5,http://0.gravatar.com/avatar/3d9250a0bf6201fee...,白
6,http://0.gravatar.com/avatar/3229c1b7955d064ff...,白
7,http://0.gravatar.com/avatar/3c4260c4b26558d53...,白
8,http://0.gravatar.com/avatar/34526b94adebe16fd...,白
9,http://0.gravatar.com/avatar/695cce6ae0ad641ad...,白


秒出

In [95]:
new_df["黑白"].value_counts()

白    45277
黑     2327
Name: 黑白, dtype: int64

In [44]:
new_df.to_csv

SyntaxError: invalid syntax (<ipython-input-44-26b1b8972cc1>, line 1)