## 朴素贝叶斯
 
贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。

核心算法：（贝叶斯公式）
![贝叶斯公式](https://ws4.sinaimg.cn/large/006tKfTcly1g0wkdfa6rrj307l028aa1.jpg)

![其他形式](https://ws3.sinaimg.cn/large/006tKfTcly1g0wkeey1nxj30ey02mdg1.jpg)

基于朴素贝叶斯公式，比较出后验概率的最大值来进行分类，后验概率的计算是由先验概率与类条件概率的乘积得出，先验概率和类条件概率要通过训练数据集得出，即为朴素贝叶斯分类模型，将其保存为中间结果，测试文档进行分类时调用这个中间结果得出后验概率。

In [25]:
import pandas as pd, numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import time
from sklearn.naive_bayes import MultinomialNB as MNB

train = pd.read_csv('./data/train_set.csv')[:1000]
test = pd.read_csv('./data/test_set.csv')[:100]

column="word_seg"
n = train.shape[0]
vec = TfidfVectorizer(ngram_range=(1,2),min_df=3, max_df=0.9,use_idf=1,smooth_idf=1, sublinear_tf=1)
trn_term_doc = vec.fit_transform(train[column])
test_term_doc = vec.transform(test[column])

y = (train["class"]-1).astype(int)

In [27]:
train[:10]

Unnamed: 0,id,article,word_seg,class
0,0,7368 1252069 365865 755561 1044285 129532 1053...,816903 597526 520477 1179558 1033823 758724 63...,14
1,1,581131 165432 7368 957317 1197553 570900 33659...,90540 816903 441039 816903 569138 816903 10343...,3
2,2,7368 87936 40494 490286 856005 641588 145611 1...,816903 1012629 957974 1033823 328210 947200 65...,12
3,3,299237 760651 299237 887082 159592 556634 7489...,563568 1239563 680125 780219 782805 1033823 19...,13
4,4,7368 7368 7368 865510 7368 396966 995243 37685...,816903 816903 816903 139132 816903 312320 1103...,12
5,5,7368 1160791 299237 1238054 569999 1044285 117...,816903 669476 21577 520477 1004165 4184 616471...,13
6,6,893673 7368 836872 674898 231468 856005 105964...,277781 816903 1098157 986174 1033823 780491 10...,1
7,7,1122654 125310 907560 1172361 979583 983951 12...,289186 640942 363388 585102 261174 1217680 520...,10
8,8,793790 599682 1223643 1030656 569999 178976 45...,1257015 966562 1054308 599826 811205 520477 28...,10
9,9,7368 1120647 360394 79747 1140778 472252 7368 ...,816903 266069 1226448 1276450 816903 769051 12...,19


In [26]:
clf = MNB()
clf.fit(trn_term_doc, y)
res = clf.predict(test_term_doc)
res

array([12,  2, 12,  2,  8, 12,  2, 12,  2, 12,  7,  7, 14, 12, 14,  2,  8,
        8,  2, 13,  8,  2,  8,  8, 12, 14,  2, 14, 12,  2, 12,  7,  2, 14,
       12,  7, 12, 12,  2, 12,  7, 12, 13, 14,  2, 12, 12, 13, 18,  5, 14,
       12, 12,  8,  2,  8,  2, 12, 14,  7, 12, 12, 13,  2,  8,  2,  2, 13,
       12, 14,  7, 12,  2, 12,  2, 12, 13, 12, 12, 12, 12, 12,  2, 12,  2,
       12,  2,  2,  7, 12, 12,  7,  2,  2,  2,  7, 12, 13, 12,  2])

## SVM

支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面.

一般SVM有下面三种：
硬间隔支持向量机（线性可分支持向量机）：当训练数据线性可分时，可通过硬间隔最大化学得一个线性可分支持向量机。
软间隔支持向量机：当训练数据近似线性可分时，可通过软间隔最大化学得一个线性支持向量机。
非线性支持向量机：当训练数据线性不可分时，可通过核方法以及软间隔最大化学得一个非线性支持向量机。

In [29]:
from sklearn import svm

clf = svm.SVC(kernel="linear", C=0.4)
clf.fit(trn_term_doc, y)
res = clf.predict(test_term_doc)
res

array([ 2,  2, 12,  2,  2, 12,  2, 12,  2, 12,  7, 12, 14, 12, 14,  2,  8,
        8,  2, 13,  8,  2,  8,  8,  2, 14,  2,  2,  2,  2, 12,  2,  2, 14,
       13,  7, 12, 12,  2, 12,  2, 12, 13, 14,  2,  2,  2, 13,  2,  5,  2,
        2, 12,  8,  2,  8,  2, 12,  2, 12, 12, 12, 13,  2,  8,  2,  2, 13,
       12, 14,  7, 12,  2, 12,  2, 12, 13,  2,  2, 12, 12, 12,  2,  2,  2,
       12,  2,  2,  7, 12, 12,  7,  2,  2,  2,  7, 12, 13, 12,  2])

### PLSA

1、朴素贝叶斯的分析

（1）可以胜任许多文本分类问题。
（2）无法解决语料中一词多义和多词一义的问题——它更像是词法分析，而非语义分析。
（3）如果使用词向量作为文档的特征，一词多义和多词一义会造成计算文档间相似度的不准确性。
（4）可以通过增加“主题”的方式，一定程度的解决上述
问题：一个词可能被映射到多个主题中（一词多义），多个词可能被映射到某个主题的概率很高（多词一义）

2.pLSA模型

基于概率统计的pLSA模型(probabilistic latentsemantic analysis, 概率隐语义分析)，增加了主题模型，
形成简单的贝叶斯网络，可以使用EM算法学习模型参数.

### 共轭先验分布

1）由于x为给定样本，P(x)有时被称为“证据”，仅仅是归一化因子，如果不关心P(θ|x)的具体值，只考察θ取何值时

后验概率P(θ|x)最大，则可将分母省去。

![公式](https://ws2.sinaimg.cn/large/006tKfTcly1g0wmgd9ticj30ea02rglm.jpg)

在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共

轭分布，同时，先验分布叫做似然函数的共轭先验分布。

2）共轭先验分布的实践意义

似然函数P(x|θ)表示以先验θ为参数的概率分布，可以直接求得。 先验分布P(θ)是θ的分布率，可根据先验知识获得。

方案：选取似然函数P(x|θ)的共轭先验作为P(θ)的分布，这样，P(x|θ)乘以P(θ) (然后归一化)得到的P(θ|x)的形式和P(θ)的形式一样。

### LDA

共有m篇文章，一共涉及了K个主题；每篇文章(长度为N m )都有各自的主题分布，主题分布是多项分布，该多项分布的参数服从Dirichlet分布，Dirichlet分布的参数为α；
每个主题都有各自的词分布，词分布为多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为 β;
对于某篇文章中的第n个词，首先从该文章的主题分布中采样一个主题，然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程，直到m篇文章全部完成上述过程。

In [34]:
from gensim import corpora, models, similarities
from gensim.models import hdpmodel, ldamodel

documents = ["Human machine interface for lab abc computer applications",
              "A survey of user opinion of computer system response time",
              "The EPS user interface management system",
              "System and human system engineering testing of EPS",
              "Relation of user perceived response time to error measurement",
              "The generation of random binary unordered trees",
              "The intersection graph of paths in trees",
              "Graph minors IV Widths of trees and well quasi ordering",
              "Graph minors A survey"]

# remove common words and tokenize
stoplist = set('for a of the and to in'.split())
texts = [[word for word in document.lower().split() if word not in stoplist]
         for document in documents]

# remove words that appear only once
all_tokens = sum(texts, [])
tokens_once = set(word for word in set(all_tokens) if all_tokens.count(word) == 1)
texts = [[word for word in text if word not in tokens_once]
         for text in texts]

dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]


# I can print out the documents and which is the most probable topics for each doc.
lda = ldamodel.LdaModel(corpus, id2word=dictionary, num_topics=50)

for i in lda.show_topics():
    print(i[0], i[1])

6 0.083*"user" + 0.083*"system" + 0.083*"graph" + 0.083*"trees" + 0.083*"eps" + 0.083*"computer" + 0.083*"time" + 0.083*"interface" + 0.083*"response" + 0.083*"human"
44 0.083*"user" + 0.083*"system" + 0.083*"graph" + 0.083*"trees" + 0.083*"eps" + 0.083*"computer" + 0.083*"time" + 0.083*"interface" + 0.083*"response" + 0.083*"human"
2 0.083*"user" + 0.083*"system" + 0.083*"graph" + 0.083*"trees" + 0.083*"eps" + 0.083*"computer" + 0.083*"time" + 0.083*"interface" + 0.083*"response" + 0.083*"human"
17 0.083*"user" + 0.083*"system" + 0.083*"graph" + 0.083*"trees" + 0.083*"eps" + 0.083*"computer" + 0.083*"time" + 0.083*"interface" + 0.083*"response" + 0.083*"human"
3 0.476*"system" + 0.241*"human" + 0.241*"eps" + 0.005*"user" + 0.005*"graph" + 0.005*"trees" + 0.005*"computer" + 0.005*"interface" + 0.005*"response" + 0.005*"time"
7 0.083*"user" + 0.083*"system" + 0.083*"graph" + 0.083*"trees" + 0.083*"eps" + 0.083*"computer" + 0.083*"time" + 0.083*"interface" + 0.083*"response" + 0.083*"hum