In [1]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import re
import time
import jieba

In [2]:
## 设置字符集，防止中文乱码
mpl.rcParams['font.sans-serif']=[u'simHei']
mpl.rcParams['axes.unicode_minus']=False

In [3]:
# jupyter展示图片，非内嵌显示; 这段代码不属于python代码； 相当于是jupyter的工具参数设置
# tk: 显示出来，inline：内嵌显示，默认为inline
%matplotlib tk

In [4]:
# 1. 文件数据读取
df = pd.read_csv('../data/result_process01', sep=',', header=None, names=['from', 'to', 'date', 'content', 'label'])
df.head(10)

Unnamed: 0,from,to,date,content,label
0,yan<(8月27-28上海)培训课程>,lu@ccert.edu.cn,Tue 30 Aug 2005 10:08:15 +0800,非财务纠淼牟莆窆芾-（沙盘模拟）------如何运用财务岳硖岣吖芾砑ㄐ[课 程 背 景]每一...,1.0
1,pan <pan@jdl.ac.cn>,shi@ccert.edu.cn,Sun 14 Aug 2005 10:16:47 +0800,讲的是孔子后人的故事。一个老领导回到家乡，跟儿子感情不和，跟贪财的孙子孔为本和睦。老领导的弟...,0.0
2,=?GB2312?B?1cW6o8TP?= <jian@163.con>,xing@ccert.edu.cn,Sun 14 Aug 2005 10:17:57 +0800,尊敬的贵公司(财务/经理)负责人您好！我是深圳金海实业有限公司（广州。东莞）等省市有分公司。...,1.0
3,=?GB2312?B?tPq/qreixrE=?= <pan@12.com>,ling@ccert.edu.cn,Sun 14 Aug 2005 10:19:02 +0800,贵公司负责人(经理/财务）您好：深圳市华龙公司受多家公司委托向外低点代开部分增值税电脑发票（...,1.0
4,mei <mei@dghhkjk.com>,tang@ccert.edu.cn,Sun 14 Aug 2005 10:21:22 +0800,这是一封HTML格式信件！---------------------------------...,1.0
5,"ke@163.com"" <chunyang-sz@163.com>",yuan@ccert.edu.cn,Sun 14 Aug 2005 10:22:10 +0800,TO：贵公司经理、财务您好！深圳市春洋贸易有限公司（东莞分公司）我司本着互惠互利的优势和良好...,1.0
6,hong <hong@jdl.ac.cn>,yu@ccert.edu.cn,Sun 14 Aug 2005 10:23:37 +0800,那他为什么不愿意起诉，既然这样了！起诉后也有充分的理由！MM莫不是还生活在电影中，个人认为这...,0.0
7,=?GB2312?B?wbrPyMn6?= <jiang@tom.com>,li@ccert.edu.cn,Sun 14 Aug 2005 10:26:36 +0800,尊敬的负责人（经理／财务）：您好！我是深圳伟仕嘉贸易有公司：兴办贸易、物资供销，实力雄厚；有...,1.0
8,han <han@davidchans.com>,lai@ccert.edu.cn,Sun 14 Aug 2005 10:27:40 +0800,您好 以下是特别为阁下发的香港信息(图片、景点、BBS等) 不知道阁下是否喜...希望没有打...,1.0
9,hou <hou@jdl.ac.cn>,li@ccert.edu.cn,Sun 14 Aug 2005 10:31:20 +0800,我觉得，负债不要紧，最重要的是能负得起这个责任来，欠了那么多钱，至少对当初拿出爱心来的网友们...,0.0


In [6]:
# 2. 特征工程1 => 提取发件人和收件人的邮件服务器地址
def extract_email_server_address(str1):
    it = re.findall(r"@([A-Za-z0-9]*\.[A-Za-z0-9\.]+)", str(str1))
    result = ''
    if len(it) > 0:
        result = it[0]
    if not result:
        result = 'unknown'
    return result

df['to_address'] = pd.Series(map(lambda str: extract_email_server_address(str), df['to']))
df['from_address'] = pd.Series(map(lambda str: extract_email_server_address(str), df['from']))

df.head(4)

Unnamed: 0,from,to,date,content,label,to_address,from_address
0,yan<(8月27-28上海)培训课程>,lu@ccert.edu.cn,Tue 30 Aug 2005 10:08:15 +0800,非财务纠淼牟莆窆芾-（沙盘模拟）------如何运用财务岳硖岣吖芾砑ㄐ[课 程 背 景]每一...,1.0,ccert.edu.cn,unknown
1,pan <pan@jdl.ac.cn>,shi@ccert.edu.cn,Sun 14 Aug 2005 10:16:47 +0800,讲的是孔子后人的故事。一个老领导回到家乡，跟儿子感情不和，跟贪财的孙子孔为本和睦。老领导的弟...,0.0,ccert.edu.cn,jdl.ac.cn
2,=?GB2312?B?1cW6o8TP?= <jian@163.con>,xing@ccert.edu.cn,Sun 14 Aug 2005 10:17:57 +0800,尊敬的贵公司(财务/经理)负责人您好！我是深圳金海实业有限公司（广州。东莞）等省市有分公司。...,1.0,ccert.edu.cn,163.con
3,=?GB2312?B?tPq/qreixrE=?= <pan@12.com>,ling@ccert.edu.cn,Sun 14 Aug 2005 10:19:02 +0800,贵公司负责人(经理/财务）您好：深圳市华龙公司受多家公司委托向外低点代开部分增值税电脑发票（...,1.0,ccert.edu.cn,12.com


In [9]:
# 2. 特征工程1 => 查看邮件服务器的数量
print("========to address=======================")
print(df.to_address.value_counts().head(5))
print("总邮件接收服务器类别数量为:" + str(df.to_address.unique().shape))

print("========from address=======================")
print(df.from_address.value_counts().head(5))
print("总邮件发送服务器类别数量为:" + str(df.from_address.unique().shape))
from_address_df = df.from_address.value_counts().to_frame()
len_less_10_from_address_count = from_address_df[from_address_df.from_address <= 100].shape
print("发送邮件数量小于10封的服务器数量为:" + str(len_less_10_from_address_count))

ccert.edu.cn    64407
unknown           193
yahoo.com.cn        8
163.net             3
quanso.com          2
Name: to_address, dtype: int64
总邮件接收服务器类别数量为:(12,)
163.com                  7500
mail.tsinghua.edu.cn     6498
126.com                  5822
tom.com                  4075
mails.tsinghua.edu.cn    3205
Name: from_address, dtype: int64
总邮件发送服务器类别数量为:(3567,)
发送邮件数量小于10封的服务器数量为:(3513, 1)


In [16]:
# 查看一下发送邮件最多的五个运营商所发送的所有邮件中的正常邮件和异常邮件的比例情况
print("所有发送邮件情况")
print(df.from_address.value_counts().head(5))
print("所有的正常邮件的发送情况")
print(df[df.label==0.0].from_address.value_counts().head(5))
print("所有的异常邮件的发送情况")
print(df[df.label==1.0].from_address.value_counts().head(5))

所有发送邮件情况
163.com                  7500
mail.tsinghua.edu.cn     6498
126.com                  5822
tom.com                  4075
mails.tsinghua.edu.cn    3205
Name: from_address, dtype: int64
所有的正常邮件的发送情况
mail.tsinghua.edu.cn     6495
mails.tsinghua.edu.cn    3203
126.com                  1569
cernet.com               1537
163.com                   971
Name: from_address, dtype: int64
所有的异常邮件的发送情况
163.com    6529
126.com    4253
tom.com    4075
12.com     2057
unknown    1995
Name: from_address, dtype: int64


In [21]:
# 基于上一个的描述信息，我认为如果发送邮箱是：163.com、126.com、tom.com、12.com的情况下，那么邮件有很大可能属于垃圾邮件
# 如果发送邮箱是：mail.tsinghua.edu.cn\mails.tsinghua.edu.cn\cernet.com ,那么邮件有很大可能是属于正常邮件的
# 所以这里根据邮箱的发送运营商，构建一些新的特征属性 
df['from_12'] = pd.Series(map(lambda s: int(s == '12.com'), df['from_address']))
df['from_163'] = pd.Series(map(lambda s: int(s == '163.com'), df['from_address']))
df['from_126'] = pd.Series(map(lambda s: int(s == '126.com'), df['from_address']))
df['from_tom'] = pd.Series(map(lambda s: int(s == 'tom.com'), df['from_address']))
df['from_unknown'] = pd.Series(map(lambda s: int(s == 'unknown'), df['from_address']))
df['from_tsinghua'] = pd.Series(map(lambda s: int(s == 'mail.tsinghua.edu.cn' or s == 'mail.tsinghua.edu.cn'), df['from_address']))
df['from_cernet'] = pd.Series(map(lambda s: int(s == 'cernet.com'), df['from_address']))
df.head(2)

Unnamed: 0,from,to,date,content,label,to_address,from_address,from_12,from_163,from_126,from_tom,from_unknown,from_tsinghua,from_cernet
0,yan<(8月27-28上海)培训课程>,lu@ccert.edu.cn,Tue 30 Aug 2005 10:08:15 +0800,非财务纠淼牟莆窆芾-（沙盘模拟）------如何运用财务岳硖岣吖芾砑ㄐ[课 程 背 景]每一...,1.0,ccert.edu.cn,unknown,0,0,0,0,1,0,0
1,pan <pan@jdl.ac.cn>,shi@ccert.edu.cn,Sun 14 Aug 2005 10:16:47 +0800,讲的是孔子后人的故事。一个老领导回到家乡，跟儿子感情不和，跟贪财的孙子孔为本和睦。老领导的弟...,0.0,ccert.edu.cn,jdl.ac.cn,0,0,0,0,0,0,0
