# LDA模型应用：一眼看穿希拉里的邮件
我们拿到希拉里泄露的邮件，跑一把LDA，看看她平时都在聊什么。
首先，导入我们需要的一些库

In [3]:
import numpy as np
import pandas as pd
import re
df = pd.read_csv("/home/ubuntu/mydata/HillaryEmails.csv")
# 原邮件数据中有很多Nan的值，直接扔了。
df = df[['Id','ExtractedBodyText']].dropna()
df.head()

Unnamed: 0,Id,ExtractedBodyText
1,2,"B6\nThursday, March 3, 2011 9:45 PM\nH: Latest..."
2,3,Thx
4,5,"H <hrod17@clintonemail.com>\nFriday, March 11,..."
5,6,Pis print.\n-•-...-^\nH < hrod17@clintonernail...
7,8,"H <hrod17@clintonemail.corn>\nFriday, March 11..."


In [4]:
def clean_email_text(text):
    text = text.replace('\n'," ") #新行，我们是不需要的
    text = re.sub(r"-", " ", text) #把 "-" 的两个单词，分开。（比如：july-edu ==> july edu）
    text = re.sub(r"\d+/\d+/\d+", "", text) #日期，对主体模型没什么意义
    text = re.sub(r"[0-2]?[0-9]:[0-6][0-9]", "", text) #时间，没意义
    text = re.sub(r"[\w]+@[\.\w]+", "", text) #邮件地址，没意义
    text = re.sub(r"/[a-zA-Z]*[:\//\]*[A-Za-z0-9\-_]+\.+[A-Za-z0-9\.\/%&=\?\-_]+/i", "", text) #网址，没意义
    pure_text = ''
    # 以防还有其他特殊字符（数字）等等，我们直接把他们loop一遍，过滤掉
    for letter in text:
        # 只留下字母和空格
        if letter.isalpha() or letter==' ':
            pure_text += letter
    # 再把那些去除特殊字符后落单的单词，直接排除。
    # 我们就只剩下有意义的单词了。
    text = ' '.join(word for word in pure_text.split() if len(word)>1)
    return text

In [9]:
docs = df['ExtractedBodyText']
docs = docs.apply(lambda s: clean_email_text(s)) 
doclist = docs.values
docs.head(3).values

array([ 'Thursday March PM Latest How Syria is aiding Qaddafi and more Sid hrc memo syria aiding libya docx hrc memo syria aiding libya docx March For Hillary',
       'Thx',
       'Friday March PM Huma Abedin Fw Latest How Syria is aiding Qaddafi and more Sid hrc memo syria aiding libya docx Pis print'], dtype=object)

# LDA模型构建：
好，我们用Gensim来做一次模型构建
首先，我们得把我们刚刚整出来的一大波文本数据
[[一条邮件字符串]，[另一条邮件字符串], ...]
转化成Gensim认可的语料库形式：
[[一，条，邮件，在，这里],[第，二，条，邮件，在，这里],[今天，天气，肿么，样],...]

In [10]:
from nltk.corpus import stopwords
from gensim import corpora, models, similarities
import gensim
eng_stopwords = set(stopwords.words('english'))

text=[[word for word in doc.lower().split() if word not in eng_stopwords] for doc in doclist]
text[0]

['thursday',
 'march',
 'pm',
 'latest',
 'how',
 'syria',
 'is',
 'aiding',
 'qaddafi',
 'and',
 'more',
 'sid',
 'hrc',
 'memo',
 'syria',
 'aiding',
 'libya',
 'docx',
 'hrc',
 'memo',
 'syria',
 'aiding',
 'libya',
 'docx',
 'march',
 'for',
 'hillary']

# 建立语料库
用词袋的方法，把每个单词用一个数字index指代，并把我们的原文本变成一条长长的数组：

In [12]:
dictionary = corpora.Dictionary(text)
corpus = [dictionary.doc2bow(word) for word in text]
corpus[13]

[(33, 1), (591, 1), (592, 1), (593, 1), (594, 1), (595, 1)]

这个列表告诉我们，第14（从0开始是第一）个邮件中，一共6个有意义的单词（经过我们的文本预处理，并去除了停止词后）
其中，36号单词出现1次，505号单词出现1次，以此类推。。。
接着，我们终于可以建立模型了：

In [13]:
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
#我们可以看到，第10号分类，其中最常出现的单词是：
lda.print_topic(10, topn=5)

'0.040*"the" + 0.035*"and" + 0.022*"of" + 0.021*"to" + 0.017*"in"'

In [14]:
#我们把所有的主题打印出来看看
lda.print_topics(num_topics=20, num_words=5)

[(0, '0.028*"to" + 0.025*"the" + 0.017*"and" + 0.016*"of" + 0.010*"state"'),
 (1,
  '0.094*"fyi" + 0.017*"richards" + 0.016*"and" + 0.010*"see" + 0.009*"below"'),
 (2, '0.044*"the" + 0.026*"of" + 0.026*"to" + 0.022*"and" + 0.017*"in"'),
 (3, '0.019*"the" + 0.015*"and" + 0.012*"in" + 0.011*"to" + 0.011*"on"'),
 (4,
  '0.024*"in" + 0.019*"part" + 0.019*"the" + 0.019*"release" + 0.018*"yes"'),
 (5, '0.024*"ok" + 0.023*"the" + 0.020*"of" + 0.010*"in" + 0.010*"pls"'),
 (6,
  '0.085*"pm" + 0.066*"am" + 0.043*"office" + 0.037*"secretarys" + 0.023*"meeting"'),
 (7, '0.043*"the" + 0.030*"to" + 0.028*"and" + 0.020*"you" + 0.016*"we"'),
 (8, '0.076*"the" + 0.034*"of" + 0.033*"to" + 0.031*"and" + 0.024*"in"'),
 (9, '0.036*"pm" + 0.022*"re" + 0.022*"am" + 0.022*"fw" + 0.015*"to"'),
 (10, '0.040*"the" + 0.035*"and" + 0.022*"of" + 0.021*"to" + 0.017*"in"'),
 (11, '0.035*"to" + 0.023*"will" + 0.021*"we" + 0.018*"on" + 0.015*"the"'),
 (12, '0.056*"the" + 0.037*"to" + 0.023*"and" + 0.020*"in" + 0.017*"t