In [44]:
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split 
#

# 读取文件
采用 `load_files` 读取文件，该方法按文件夹读取文件，读取文件内容和文件所属文件夹。

In [37]:
# MAC OS 可能产生 .DS_Store 文件夹，影响数据读取
# 目前 load_files 并不能过滤，解决办法是自己修改源代码或删除该文件
email = load_files('data/ch4/email/')
x = email.data  # 文件内容
y = email.target # 文件所属文件夹，即文件分类

# 文本处理
分类模型并不能处理文本数据，需要将文本转为词向量：
* Occurrence count：统计所有文件中的词，并统计每个词出现的频率，每个文件返回一个向量，该向量长度为所有词的个数。
* Term Frequencies(TF): Occurrence count 存在的问题是若某一个文件特别长，某词出现的次数会越大，TF 词向量可以解决这个问题。
* TF-IDF: 若某词（如 is）容易出现在大部分文件中，则更容易影响结果。TF-IDF 解决某词出现在大部分文件中的情况。

In [38]:
# CountVectorizer 将文本转为 Occurrence count 词向量
# 过滤停用词
# 
count_vect = CountVectorizer(stop_words='english')
x = count_vect.fit_transform(email.data)
# 由于 x 是稀疏矩阵，sklearn 将其稀疏表示
print x.toarray()

[[2 0 2 ..., 0 0 1]
 [0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]
 ..., 
 [0 0 0 ..., 0 0 0]
 [3 0 0 ..., 0 0 0]
 [0 0 1 ..., 0 0 0]]


In [42]:
# 将 Occurrence count 转为 TF-IDF
tfidf_transformer = TfidfTransformer()
x_tf_idf = tfidf_transformer.fit_transform(x)

# 朴素贝叶斯分类

In [45]:
x_train, x_test, y_train, y_test = train_test_split(x_tf_idf, y, test_size=0.1)
clf = MultinomialNB()
clf.fit(x_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [47]:
clf.score(x_test, y_test)

1.0

ps：关于中文的处理流程一致，可参考 [简书](https://www.jianshu.com/p/1e7ce95db2da)