# 贝叶斯分类器
**贝叶斯公式：**
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

## 贝叶斯决策论
![](./img/1.png)

具体来说，若目标是最小化分类错误率，则误判损失$\lambda_{ij}$可写为：
![](./img/2.PNG)
**前提小注：**判别式模型目标在于得到一个判别边界，而生成式模型目标在于数据与标签的联合分布。

不难看出，欲使贝叶斯判定准则来最小化决策风险，首先要获得后验概率$P(c|x)$。然而，在现实任务中这通常难以获得。从这个角度来看，机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率$P(c|x)$。 大体来说，主要有两种策略：给定X，可通过直接建模P(c|x)来预测c，这样得到的是”判别式模型“。也可以先对联合概率分布$P(c|x)$建模，然后再由此获得$P(c|x)$,这样得到的是”生成式模型“。显然决策树，神经网络，支持向量机都属于判别式范畴，而贝叶斯属于”生成式模型“。对于”生成式模型“来说，必然考虑：
![](./img/3.PNG)

**一句话总结：**使用贝叶斯分类的主旨是使用各种办法使得被分为正确的类的概率最大

## 极大似然估计
* 估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。也就是将上面的$P(x|c)$假设其具有确定的形式且被$\theta_c$唯一确定，则我们的任务就是利用训练集$D$来估计参数$\theta_c$。估计参数有两个办法:

    1. 认为参数虽然未知，但却是客观存在的固定值，因此可以通过**优化似然函数**等方法来求解。
    1. 可假定参数服从一个先验分布，然后基于先验分布计算后验分布。

这一节主要讲：极大似然估计法（MLE）

* 一个例子：假如你去赌场，但是不知道能不能赚钱，你就在门口堵着
出来一个人就问一个赚了还是赔了，如果问了5个人都说赚了，那么
你就会认为，赚钱的概率肯定是非常大的。

已知：（1）样本服从分布的模型， （2）观测到的样本

求解：模型的参数

**总的来说：**极大似然估计就是用来估计模型参数的统计学方法

## [朴素贝叶斯分类器](https://zhuanlan.zhihu.com/p/25493221)
朴素贝叶斯算法仍然是流行的十大挖掘算法之一，该算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。接下来我们就详细介绍该算法的知识点及实际应用。

* 采用属性条件独立性假设：假设每个属性独立的对分类结果发生影响。
* 训练过程：基于训练集$D$来估计先验概率$P(c)$，并为每个属性估计条件概率$P(x_i|c)$,离散属性：按照频率计算，连续属性：假定其服从正态分布。

## Example：贝叶斯拼写检查

**求解：argmaxc P(c|w) -> argmaxc P(w|c) P(c) / P(w)**

* P(c), 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大
* P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 w
* argmaxc, 用来枚举所有可能的 c 并且选取概率最大的

In [27]:
# 把语料中的单词全部抽取出来, 转成小写, 并且去除单词中间的特殊符号
def words(text): return re.findall('[a-z]+', text.lower()) 
# 返回词频 
def train(features):
    model = collections.defaultdict(lambda: 1)#给没有出现但要返回的词默认lambda: 1
    for f in features:
        model[f] += 1
    return model
 
NWORDS = train(words(open('./data/big.txt').read()))#字典格式{单词：单词频率}

要是遇到我们从来没有过见过的新词怎么办. 假如说一个词拼写完全正确, 但是语料库中没有包含这个词, 从而这个词也永远不会出现在训练集中. 于是, 我们就要返回出现这个词的概率是0. 这个情况不太妙, 因为概率为0这个代表了这个事件绝对不可能发生, 而在我们的概率模型中, 我们期望用一个很小的概率来代表这种情况. lambda: 1

**编辑距离:**

两个词之间的编辑距离定义为使用了几次插入(在词中插入一个单字母), 删除(删除一个单字母), 交换(交换相邻两个字母), 替换(把一个字母换成另一个)的操作从一个词变到另一个词.

In [30]:
alphabet = 'abcdefghijklmnopqrstuvwxyz'

In [38]:
#返回所有与单词 w 编辑距离为 1 的集合
def edits1(word):
    n = len(word)
    return set([word[0:i]+word[i+1:] for i in range(n)] +                     # 删除
               [word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)] + # 交换
               [word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet] + # 替换
               [word[0:i]+c+word[i:] for i in range(n+1) for c in alphabet])  # 插入

In [39]:
print(edits1('ink'))

{'inq', 'tnk', 'fink', 'iwnk', 'snk', 'inl', 'mnk', 'eink', 'fnk', 'ynk', 'iqnk', 'isnk', 'inyk', 'ingk', 'nink', 'iny', 'inbk', 'inkf', 'inm', 'iunk', 'ank', 'infk', 'rnk', 'znk', 'pink', 'ignk', 'lnk', 'qnk', 'inkt', 'inhk', 'pnk', 'irk', 'aink', 'uink', 'inkb', 'inky', 'ilnk', 'inp', 'insk', 'imnk', 'gink', 'inj', 'ing', 'mink', 'gnk', 'ifnk', 'inkw', 'inkl', 'bink', 'idnk', 'iuk', 'bnk', 'inc', 'izk', 'ivnk', 'injk', 'qink', 'iik', 'iek', 'inkd', 'knk', 'inka', 'ivk', 'inx', 'intk', 'ihk', 'cnk', 'inek', 'zink', 'inak', 'kink', 'ifk', 'ijk', 'inkq', 'innk', 'inkc', 'ick', 'inzk', 'inkp', 'iynk', 'iink', 'hink', 'inkk', 'igk', 'ine', 'icnk', 'iwk', 'dink', 'iak', 'inkv', 'jink', 'inkm', 'ikn', 'cink', 'inrk', 'iznk', 'vnk', 'inqk', 'onk', 'inv', 'ini', 'idk', 'isk', 'inkn', 'indk', 'inpk', 'inko', 'iqk', 'inku', 'inke', 'inb', 'inr', 'inkj', 'inck', 'ind', 'xnk', 'dnk', 'itk', 'ixk', 'iyk', 'hnk', 'xink', 'inkh', 'inkx', 'inkg', 'inmk', 'nnk', 'enk', 'ipk', 'inki', 'tink', 'ixnk', '

与 something 编辑距离为2的单词居然达到了 114,324 个

优化:在这些编辑距离小于2的词中间, 只把那些正确的词作为候选词,只能返回 3 个单词: ‘smoothing’, ‘something’ 和 ‘soothing’

In [41]:
#返回所有与单词 w 编辑距离为 2 的集合
#在这些编辑距离小于2的词中间, 只把那些正确的词作为候选词
def edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1))
def known(words): return set(w for w in words if w in NWORDS)

正常来说把一个元音拼成另一个的概率要大于辅音 (因为人常常把 hello 打成 hallo 这样); 把单词的第一个字母拼错的概率会相对小, 等等.但是为了简单起见, 选择了一个简单的方法: 编辑距离为1的正确单词比编辑距离为2的优先级高, 而编辑距离为0的正确单词优先级比编辑距离为1的高. 

In [46]:
#如果known(set)非空, candidate 就会选取这个集合, 而不继续计算后面的
def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=lambda w: NWORDS[w])

In [47]:
correct('laste')

'last'

## Example：sklearn朴素贝叶斯分类

In [50]:
#测试数据  
import numpy as np  
#引入高斯朴素贝叶斯  
from sklearn.naive_bayes import GaussianNB  
from sklearn.metrics import accuracy_score

In [54]:
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
Y = np.array([1, 1, 1, 2, 2, 2])

In [55]:
clf = GaussianNB()
clf.fit(X, Y)
GaussianNB(priors=None)

GaussianNB(priors=None)

In [56]:
print(clf.predict([[-0.8, -1]]))

[1]


## Example:贝叶斯新闻分类

In [57]:
import pandas as pd
import jieba
import numpy

### 数据源：http://www.sogou.com/labs/resource/ca.php ###

In [58]:
df_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
df_news = df_news.dropna()
df_news.tail()

Unnamed: 0,category,theme,URL,content
4995,时尚,常吃六类食物快速补充水分,http://lady.people.com.cn/GB/18248366.html,随着天气逐渐炎热，补水变得日益重要。据美国《跑步世界》杂志报道，喝水并不是为身体补充水分的唯...
4996,时尚,情感：你是我的那盘菜　吃不起我走【２】,http://lady.people.com.cn/n/2012/0712/c1014-18...,我其实不想说这些话刺激他，他也是不得已。可是，我又该怎样说，怎样做？我只能走，离开这个伤心地...
4997,时尚,揭秘不老女神刘晓庆的四任丈夫（图）,http://lady.people.com.cn/n/2012/0730/c1014-18...,５８岁刘晓庆最新嫩照Ｏ衷诘牧跸庆绝对看不出她已经５８岁了，她绝对可以秒杀刘亦菲、范冰冰这类美...
4998,时尚,样板潮爸　时尚圈里的父亲们,http://lady.people.com.cn/GB/18215232.html,导语：做了爸爸就是一种幸福，无论是领养还是亲生，更何况出现在影视剧中。时尚圈永远是需要领军人...
4999,时尚,全球最美女人长啥样？中国最美女人酷似章子怡（图）,http://lady.people.com.cn/BIG5/n/2012/0727/c10...,全球最美女人合成图：：国整形外科教授李承哲，在国际学术杂志美容整形外科学会学报发表了考虑种族...


In [59]:
df_news.shape

(5000, 4)

###  分词：使用结吧分词器 ###

In [62]:
content = df_news.content.values.tolist()
print (content[1000],'\n',type(content[1000]))

阿里巴巴集团昨日宣布，将在集团管理层面设立首席数据官岗位（Ｃｈｉｅｆ　Ｄａｔａ　Ｏｆｆｉｃｅｒ），阿里巴巴Ｂ２Ｂ公司ＣＥＯ陆兆禧将会出任上述职务，向集团ＣＥＯ马云直接汇报。＞菹ぃ和６月初的首席风险官职务任命相同，首席数据官亦为阿里巴巴集团在完成与雅虎股权谈判，推进“ｏｎｅ　ｃｏｍｐａｎｙ”目标后，在集团决策层面新增的管理岗位。０⒗锛团昨日表示，“变成一家真正意义上的数据公司”已是战略共识。记者刘夏 
 <class 'str'>


In [63]:
content_S = []
for line in content:
    current_segment = jieba.lcut(line)
    if len(current_segment) > 1 and current_segment != '\r\n': #换行符
        content_S.append(current_segment)

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\adsss\AppData\Local\Temp\jieba.cache
Loading model cost 1.865 seconds.
Prefix dict has been built succesfully.


In [64]:
content_S[1000]

['阿里巴巴',
 '集团',
 '昨日',
 '宣布',
 '，',
 '将',
 '在',
 '集团',
 '管理',
 '层面',
 '设立',
 '首席',
 '数据',
 '官',
 '岗位',
 '（',
 'Ｃ',
 'ｈ',
 'ｉ',
 'ｅ',
 'ｆ',
 '\u3000',
 'Ｄ',
 'ａ',
 'ｔ',
 'ａ',
 '\u3000',
 'Ｏ',
 'ｆ',
 'ｆ',
 'ｉ',
 'ｃ',
 'ｅ',
 'ｒ',
 '）',
 '，',
 '阿里巴巴',
 'Ｂ',
 '２',
 'Ｂ',
 '公司',
 'Ｃ',
 'Ｅ',
 'Ｏ',
 '陆兆禧',
 '将',
 '会',
 '出任',
 '上述',
 '职务',
 '，',
 '向',
 '集团',
 'Ｃ',
 'Ｅ',
 'Ｏ',
 '马云',
 '直接',
 '汇报',
 '。',
 '＞',
 '菹',
 'ぃ',
 '和',
 '６',
 '月初',
 '的',
 '首席',
 '风险',
 '官',
 '职务',
 '任命',
 '相同',
 '，',
 '首席',
 '数据',
 '官亦为',
 '阿里巴巴',
 '集团',
 '在',
 '完成',
 '与',
 '雅虎',
 '股权',
 '谈判',
 '，',
 '推进',
 '“',
 'ｏ',
 'ｎ',
 'ｅ',
 '\u3000',
 'ｃ',
 'ｏ',
 'ｍ',
 'ｐ',
 'ａ',
 'ｎ',
 'ｙ',
 '”',
 '目标',
 '后',
 '，',
 '在',
 '集团',
 '决策',
 '层面',
 '新增',
 '的',
 '管理',
 '岗位',
 '。',
 '０',
 '⒗',
 '锛',
 '团',
 '昨日',
 '表示',
 '，',
 '“',
 '变成',
 '一家',
 '真正',
 '意义',
 '上',
 '的',
 '数据',
 '公司',
 '”',
 '已',
 '是',
 '战略',
 '共识',
 '。',
 '记者',
 '刘夏']

In [65]:
df_content=pd.DataFrame({'content_S':content_S})#转为pandas数据格式
df_content.head()

Unnamed: 0,content_S
0,"[经销商, , 电话, , 试驾, ／, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, ..."
1,"[呼叫, 热线, , ４, ０, ０, ８, －, １, ０, ０, －, ３, ０, ０..."
2,"[Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 在, 二月, 曾经, 公布, 了, 最新, 的, Ｍ, Ｉ..."
3,"[清仓, 大, 甩卖, ！, 一汽, 夏利, Ｎ, ５, 、, 威志, Ｖ, ２, 低至, ..."
4,"[在, 今年, ３, 月, 的, 日内瓦, 车展, 上, ，, 我们, 见到, 了, 高尔夫..."


In [67]:
stopwords=pd.read_csv("./data/stopwords.txt",index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8')
stopwords.head(5)

Unnamed: 0,stopword
0,!
1,""""
2,#
3,$
4,%


In [69]:
#去除停用词
def drop_stopwords(contents,stopwords):
    contents_clean = []
    all_words = []
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
            all_words.append(str(word))
        contents_clean.append(line_clean)
    return contents_clean,all_words
    #print (contents_clean)
        

contents = df_content.content_S.values.tolist() #将dataframe格式转为列表格式   
stopwords = stopwords.stopword.values.tolist() #将dataframe格式转为列表格式
contents_clean,all_words = drop_stopwords(contents,stopwords)

In [70]:
df_content=pd.DataFrame({'contents_clean':contents_clean})
df_content.head()

Unnamed: 0,contents_clean
0,"[经销商, 电话, 试驾, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, 路, 号, 转, ..."
1,"[呼叫, 热线, 服务, 邮箱, ｋ, ｆ, ｐ, ｅ, ｏ, ｐ, ｌ, ｅ, ｄ, ａ,..."
2,"[Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 二月, 公布, 最新, Ｍ, Ｉ, Ｎ, Ｉ, 新, 概念..."
3,"[清仓, 甩卖, 一汽, 夏利, Ｎ, 威志, Ｖ, 低至, 万, 启新, 中国, 一汽, ..."
4,"[日内瓦, 车展, 见到, 高尔夫, 家族, 新, 成员, 高尔夫, 敞篷版, 款, 全新,..."


In [71]:
df_all_words=pd.DataFrame({'all_words':all_words})
df_all_words.head()

Unnamed: 0,all_words
0,经销商
1,电话
2,试驾
3,订车
4,Ｕ


In [79]:
words_count=df_all_words.groupby(by=['all_words'])['all_words'].agg({"count"})
words_count=words_count.reset_index().sort_values(by=["count"],ascending=False)
words_count.head()

Unnamed: 0,all_words,count
4077,中,5199
4209,中国,3115
88255,说,3055
104747,Ｓ,2646
1373,万,2390


###  [TF-IDF ](https://blog.csdn.net/zrc199021/article/details/53728499)：提取关键词###

In [81]:
import jieba.analyse
index = 2400
print (df_news['content'][index])
print('------------------------------------------------------------------------------------')
content_S_str = "".join(content_S[index])  
print ("  ".join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))

法国ＶＳ西班牙、里贝里ＶＳ哈维，北京时间６月２４日凌晨一场的大战举世瞩目，而这场胜利不仅仅关乎两支顶级强队的命运，同时也是他们背后的球衣赞助商耐克和阿迪达斯之间的一次角逐。Ｔ谌胙”窘炫分薇的１６支球队之中，阿迪达斯和耐克的势力范围也是几乎旗鼓相当：其中有５家球衣由耐克提供，而阿迪达斯则赞助了６家，此外茵宝有３家，而剩下的两家则由彪马赞助。而当比赛进行到现在，率先挺进四强的两支球队分别被耐克支持的葡萄牙和阿迪达斯支持的德国占据，而由于最后一场１／４决赛是茵宝（英格兰）和彪马（意大利）的对决，这也意味着明天凌晨西班牙同法国这场阿迪达斯和耐克在１／４决赛的唯一一次直接交手将直接决定两家体育巨头在此次欧洲杯上的胜负。８据评估，在２０１２年足球商品的销售额能总共超过４０亿欧元，而单单是不足一个月的欧洲杯就有高达５亿的销售额，也就是说在欧洲杯期间将有７００万件球衣被抢购一空。根据市场评估，两大巨头阿迪达斯和耐克的市场占有率也是并驾齐驱，其中前者占据３８％，而后者占据３６％。体育权利顾问奥利弗－米歇尔在接受《队报》采访时说：“欧洲杯是耐克通过法国翻身的一个绝佳机会！”Ｃ仔尔接着谈到两大赞助商的经营策略：“竞技体育的成功会燃起球衣购买的热情，不过即便是水平相当，不同国家之间的欧洲杯效应却存在不同。在德国就很出色，大约１／４的德国人通过电视观看了比赛，而在西班牙效果则差很多，由于民族主义高涨的加泰罗尼亚地区只关注巴萨和巴萨的球衣，他们对西班牙国家队根本没什么兴趣。”因此尽管西班牙接连拿下欧洲杯和世界杯，但是阿迪达斯只为西班牙足协支付每年２６００万的赞助费＃相比之下尽管最近两届大赛表现糟糕法国足协将从耐克手中每年可以得到４０００万欧元。米歇尔解释道：“法国创纪录的４０００万欧元赞助费得益于阿迪达斯和耐克竞逐未来１５年欧洲市场的竞争。耐克需要笼络一个大国来打赢这场欧洲大陆的战争，而尽管德国拿到的赞助费并不太高，但是他们却显然牢牢掌握在民族品牌阿迪达斯手中。从长期投资来看，耐克给法国的赞助并不算过高。”
------------------------------------------------------------------------------------
耐克  阿迪达斯  欧洲杯  球衣  西班牙


### [LDA ](https://blog.csdn.net/aws3217150/article/details/53840029)：主题模型###

格式要求：list of list形式，分词好的的整个语料

In [84]:
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')
from gensim import corpora, models, similarities
import gensim
#http://radimrehurek.com/gensim/

In [83]:
#做映射，相当于词袋
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

In [85]:
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) #类似Kmeans自己指定K值

In [86]:
#一号分类结果
print (lda.print_topic(1, topn=5))

0.005*"剧" + 0.004*"剧中" + 0.004*"中" + 0.003*"Ｓ" + 0.003*"Ｄ"


In [87]:
for topic in lda.print_topics(num_topics=20, num_words=5):
    print (topic[1])

0.006*"中" + 0.005*"节目" + 0.004*"粉丝" + 0.004*"音乐" + 0.003*"歌曲"
0.005*"剧" + 0.004*"剧中" + 0.004*"中" + 0.003*"Ｓ" + 0.003*"Ｄ"
0.009*"中" + 0.006*"说" + 0.004*"男人" + 0.004*"孩子" + 0.003*"做"
0.007*"卫视" + 0.006*"中" + 0.005*"中国" + 0.003*"评委" + 0.003*"工作"
0.011*"观众" + 0.006*"ｅ" + 0.006*"中国" + 0.005*"中" + 0.005*"ｏ"
0.014*"万" + 0.008*"号" + 0.007*"转" + 0.004*"Ｌ" + 0.004*"ｅ"
0.006*"饰演" + 0.004*"万" + 0.004*"播出" + 0.003*"中" + 0.003*"恋情"
0.010*"电影" + 0.006*"中" + 0.004*"说" + 0.003*"表演" + 0.003*"导演"
0.004*"中" + 0.004*"说" + 0.003*"中国" + 0.003*"学校" + 0.002*"发展"
0.024*"ａ" + 0.020*"ｅ" + 0.016*"ｉ" + 0.015*"ｏ" + 0.015*"ｎ"
0.011*"男人" + 0.010*"女人" + 0.006*"说" + 0.003*"中" + 0.003*"比赛"
0.006*"中" + 0.005*"文化" + 0.004*"决赛" + 0.004*"陈坤" + 0.003*"电影"
0.005*"选手" + 0.005*"中" + 0.004*"比赛" + 0.004*"Ｔ" + 0.004*"Ｍ"
0.006*"中" + 0.003*"球队" + 0.003*"说" + 0.003*"中国" + 0.002*"作品"
0.005*"节目" + 0.004*"中国" + 0.004*"中" + 0.004*"Ｓ" + 0.004*"Ｍ"
0.005*"中" + 0.004*"饰演" + 0.002*"性感" + 0.002*"部队" + 0.002*"工作"
0.007*"肌肤" + 0.005*"吃" + 0.005*"

In [88]:
df_train=pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})
df_train.tail()

Unnamed: 0,contents_clean,label
4995,"[天气, 炎热, 补水, 变得, 美国, 跑步, 世界, 杂志, 报道, 喝水, 身体, 补...",时尚
4996,"[不想, 说, 话, 刺激, 说, 做, 只能, 走, 离开, 伤心地, 想起, 一句, 话...",时尚
4997,"[岁, 刘晓庆, 最新, 嫩照, Ｏ, 衷, 诘, 牧跸, 庆, 看不出, 岁, 秒杀, 刘...",时尚
4998,"[导语, 做, 爸爸, 一种, 幸福, 无论是, 领养, 亲生, 更何况, 影视剧, 中, ...",时尚
4999,"[全球, 最美, 女人, 合成图, 国, 整形外科, 教授, 李承哲, 国际, 学术, 杂志...",时尚


In [89]:
df_train.label.unique()#标签的总共类别

array(['汽车', '财经', '科技', '健康', '体育', '教育', '文化', '军事', '娱乐', '时尚'],
      dtype=object)

In [90]:
label_mapping = {"汽车": 1, "财经": 2, "科技": 3, "健康": 4, "体育":5, "教育": 6,"文化": 7,"军事": 8,"娱乐": 9,"时尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

Unnamed: 0,contents_clean,label
0,"[经销商, 电话, 试驾, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, 路, 号, 转, ...",1
1,"[呼叫, 热线, 服务, 邮箱, ｋ, ｆ, ｐ, ｅ, ｏ, ｐ, ｌ, ｅ, ｄ, ａ,...",1
2,"[Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 二月, 公布, 最新, Ｍ, Ｉ, Ｎ, Ｉ, 新, 概念...",1
3,"[清仓, 甩卖, 一汽, 夏利, Ｎ, 威志, Ｖ, 低至, 万, 启新, 中国, 一汽, ...",1
4,"[日内瓦, 车展, 见到, 高尔夫, 家族, 新, 成员, 高尔夫, 敞篷版, 款, 全新,...",1


### 使用贝叶斯进行分类

In [91]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values, random_state=1)

In [92]:
#x_train = x_train.flatten()
x_train[0][1]

'上海'

In [94]:
words = []
for line_index in range(len(x_train)):
    try:
        #x_train[line_index][word_index] = str(x_train[line_index][word_index])
        words.append(' '.join(x_train[line_index]))
    except:
        print (line_index,word_index)

In [95]:
print (len(words))

3750


* 一个简单的小示例：将文章转换为单词-文档矩阵

In [99]:
from sklearn.feature_extraction.text import CountVectorizer
texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))

['bird', 'cat', 'dog', 'fish']
[[0 1 1 1]
 [0 2 1 0]
 [1 0 0 1]
 [1 0 0 0]]
[2 3 2 2]


* 为了保留一些局部顺序信息，我们可以在抽取词的1-grams（词本身）之外，再抽取2-grams：

In [119]:
from sklearn.feature_extraction.text import CountVectorizer
texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer(ngram_range=(1,2))
cv_fit=cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())


print(cv_fit.toarray().sum(axis=0))

['bird', 'cat', 'cat cat', 'cat fish', 'dog', 'dog cat', 'fish', 'fish bird']
[[0 1 0 1 1 1 1 0]
 [0 2 1 0 1 1 0 0]
 [1 0 0 0 0 0 1 1]
 [1 0 0 0 0 0 0 0]]
[2 3 1 1 2 2 2 1]


In [111]:
vec = CountVectorizer(analyzer='word', max_features=4000,  lowercase = False)#抽取词频最高的4000个作为特征
vec.fit(words)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=False, max_df=1.0, max_features=4000, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

In [112]:
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words), y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [113]:
test_words = []
for line_index in range(len(x_test)):
    try:
        #x_train[line_index][word_index] = str(x_train[line_index][word_index])
        test_words.append(' '.join(x_test[line_index]))
    except:
         print (line_index,word_index)

In [114]:
classifier.score(vec.transform(test_words), y_test)

0.804

In [115]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(analyzer='word', max_features=4000,  lowercase = False)#抽取TFIDF值最高的4000词作为特征
vectorizer.fit(words)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=False, max_df=1.0, max_features=4000, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

In [116]:
classifier = MultinomialNB()
classifier.fit(vectorizer.transform(words), y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [117]:
classifier.score(vectorizer.transform(test_words), y_test)

0.8152

## EM算法
* EM算法也称期望最大化（Expectation-Maximum,简称EM）算法，它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）， LDA主题模型的变分推断等等。它的算法思想很简单，基本来说由两步组成

    1. E步：求期望（Expectation）
    1. M步：求极大（Maximization）
[EM算法详解](https://zhuanlan.zhihu.com/p/26162237)