# Assignment_2

## 问题
- Data: W3C HTML5 中文兴趣小组一个月的邮件存档, 格式mbox
- 试定位邮件中的签名档, 并尽可能提取多的字段
- 编码的问题, 邮件的编码不统一.


## 思考
- 是不是应该考虑先来一波暴力提取
    - 确实思路是层层递进, 先粗略来一波, 慢慢精确到想得到的信息.
- 很多乱码, 涉不涉及转码?
- 每封邮件的起止位置标识是什么?
    - 答: From ....@......
- 如何尽可能多的提取信息?
    - 如何让正则通用性更高
- 新思路: 用分词提取所有姓名, 然后根据每一条邮件内容提取签名档
- 因为提取的姓名格式有几个形式不同, 比如 中英混杂, 名字中间带括号.
    - 所以考虑先生成一份处理过的name_list, 然后, 编译这份name_list到正则表达式.
    - 但是这么做应该会导致程序比较慢, 尤其是当name_list长度特别大时. 
    - 可以通过观察name_list, 发现里面很多条目是重复的, 因为邮件互相往来嘛... 本着'最小'的理念, 先试试!
- 另外一个想法:
    - 对全文进行分词, 提取人名, 加之前通过Flanker提取的人名得到一份名单.
- 签名档没有固定格式, 感觉找不到一个统一的规则去提取签名档...心塞!
    - 难道要写一个巨能容错的正则(规则复杂, 冗长)去匹配, 然后在筛选?


## 过程
- 根据mbox格式分开每一封邮件
- 利用flanker print 邮件内容, 观察是否有一般的提取模式
    - 期间遇到了编码问题, 有NoneType, 以及str, 还有Unicode.
- 发现无法利用内容提取, 想到利用发件人姓名
- 如何提取发件人姓名?
    - 利用flanker在header里面找到'From', 可以提取发件人姓名, 邮箱.


## References
- [mbox-wikipedia](https://en.wikipedia.org/wiki/Mbox)
- 

In [1]:
# -*- coding: utf-8 -*-
import os
import re
from nltk.tag import StanfordNERTagger
import flanker

from bs4 import BeautifulSoup
from flanker import mime

In [2]:
# Add models of NLTK  
os.environ["CLASSPATH"] = "/Users/xpgeng/Library/stanford-ner-2015-12-09"  
os.environ["STANFORD_MODELS"] = "/Users/xpgeng/Library/stanford-ner-2015-12-09/models"

In [3]:
# Add Tagger
st = StanfordNERTagger('english.all.3class.distsim.crf.ser.gz')

In [117]:
def prepare_data(filename='2013-11.mbx'):
    with open(filename, 'r') as f:
        data = f.read()
    f.close()
    data_list = filter(None, re.split(r'From\s([\w+.?]+@(\w+\.)+(\w+))', data))  #  
    # Here I have to add twice for-loop, I haven't analyse the reason
    for data in data_list:
        if len(str(data)) < 500:
            data_list.remove(data)
    for data in data_list:
        if len(str(data)) < 500:
            data_list.remove(data)
    return data_list 

In [118]:
data_list = prepare_data('2013-11.mbx')

In [119]:
def create_name_list(data_list):
    name_list = []
    p = re.compile(ur'\"?([\w\s\(\)]+|[\x80-\xff]+)\"?\s<')
    for message_string in data_list:
        msg = mime.from_string(message_string)
        for item in msg.headers.items():
            if item[0] == 'From':
                name = p.search(item[1].encode('utf-8')).group(1)
                name_list.append(name)
    name_list = list(set(name_list))
    name_list += ['Cindy', 'Kenny', 'Chen Yijun', 'Chunming', '-ambrose']
    name_list.remove('com')
    name_list.remove(' Chunming')
    name_list.remove(' Bobby Tung')
    name_list.remove('Hawkeyes Wind')
    return name_list

In [121]:
def extract_signature(message_string, name_list):
    signature_list = []
    for name in name_list:
        p_name = re.compile(r'^%s.+'%name, re.MULTILINE | re.DOTALL)
        msg = mime.from_string(message_string)
        for part in msg.parts:
            if not isinstance(part.body, (type(None), str)):
                if p_name.findall(part.body.encode('utf-8')):
                    signature_list += p_name.findall(part.body.encode('utf-8'))
    signature = None
    for item in signature_list:
        if len(item) < 300: 
            signature = item # 已经知道小于300的就一个
    if not signature:
        return None
    elif 'Hawkeyes Wind' in signature or 'Zhiqiang' in signature: # 只能不断添加规则...
        return None
    elif '<' in signature:
        soup = BeautifulSoup(item, 'html.parser')
        signature = soup.get_text()
        return signature
    else:
        return signature
    

In [120]:
name_list = create_name_list(data_list)

In [125]:
signature_list = []
for data in data_list:
    signature_list.append(extract_signature(data, name_list))
signature_list = filter(None, signature_list)
signature_list = set(signature_list)
for item in signature_list:
    print item

Chen Yijun,
Twitter: @ethantw


-ambrose <http://gniw.ca>



Bobby Tung
Mobileï¼š+886-975068558
bobbytung@wanderer.tw
Webï¼šhttp://wanderer.tw




Bobby Tung
Mobileï¼š+886-975068558
bobbytung@wanderer.tw
Webï¼šhttp://wanderer.tw





Zi Bin Cheah
HTML5 Chinese IG chair



