# NaiveBayes algorithm
- 文書をdoc, 文書が属すべきカテゴリをcatとする
- **ベイズの公式より、P(cat|doc) = P(doc|cat) * P(cat) / P(doc)**
- **P(cat|doc)の大小関係を求めれば、ある文書が与えられた際にどのカテゴリに属すのが尤もらしいか？を判断できる**  
- P(doc)は文章の生起する確率であり、今回は影響しないので、P(doc|cat) * P(cat)を各文書について計算して比較すればOK  
- P(doc|cat)は、あるカテゴリが与えられたときの文章の生起確率である。ここで、文書を何らかの単語のリストとみなし、さらに**各々の単語の独立性を仮定する**と、P(doc|cat)はP(word1|cat) * P(word2|cat) * ... P(wordn|cat)と表せる →　ナイーブ（単純な）ベイズの由来 
- P(wordn|cat)は、分割した単語があるカテゴリに属する確率であり、ある単語がそのカテゴリに出現した回数/そのカテゴリ内の全単語の出現回数の総和で求まる
- P(cat)は、あるカテゴリに属する文書の数/文書総数でOK  


# Implement

In [6]:
import math
import sys
from mecab_split import mecab_split

In [20]:
class NaiveBayes:
    def __init__(self):
        self.vocabularies = set()
        # あるカテゴリ中に、あるワードが登場した回数
        self.wordcount = {} # {category1:{word1:n, word2:n,...}, category2:{...}}
        # あるカテゴリが登場した回数
        self.catcount = {} # {category1:n, category2:n...}
        
    def wordcountup(self, word, cat):
        self.wordcount.setdefault(cat, {})
        self.wordcount[cat].setdefault(word, 0)
        self.wordcount[cat][word] += 1
        self.vocabularies.add(word)
        
    def catcountup(self, cat):
        self.catcount.setdefault(cat, 0)
        self.catcount[cat] += 1
    
    def train(self, doc, cat):
        word = mecab_split(doc)
        for w in word:
            self.wordcountup(w, cat)
        self.catcountup(cat)
        
    def priorprob(self, cat):
        # P(cat)を求める
        # catカテゴリに分類された回数/総文書数
        return float(self.catcount[cat]) / sum(self.catcount.values())
        
    def incategory(self, word, cat):
        # あるカテゴリの中に単語が登場した回数を返す
        if word in self.wordcount[cat]:
            return float(self.wordcount[cat][word])
        return 0.0
    
    def wordprob(self, word, cat):
        # P(word|cat)が生起する確率を求める
        # ある単語がそのカテゴリに出現した回数/そのカテゴリ内の全単語の出現回数の総和
        # 1.0を足すのはスムージングのため(訓練データでは登場しなかった単語のP(doc|cat)がゼロになるのを防ぐ)
        prob = (self.incategory(word, cat) + 1.0) /\
            (sum(self.wordcount[cat].values()) + len(self.vocabularies) * 1.0)
        return prob
    
    def score(self, word, cat):
        # P(word|cat)すべての積がP(doc|cat)になるが、少数の掛け算を繰り返すことでアンダーフローの恐れがある
        # よって、P(word|cat)を対数化して、積の計算を和の計算に変換する
        score = math.log(self.priorprob(cat))
        for w in word:
            # P(cat)+P(doc|cat)を求める
            score += math.log(self.wordprob(w, cat))
        return score
    
        
    
    def classifier(self, doc):
        best = None # 最適なカテゴリ
        max = -8045634563
        word = mecab_split(doc)
        
        # 各カテゴリごとに、文書がそのカテゴリに属する確率を求める
        for cat in self.catcount.keys():
            prob = self.score(word, cat)
            if prob > max:
                max = prob
                best = cat
        return best

In [36]:
nb = NaiveBayes()

nb.train('''Python（パイソン）は，オランダ人のグイド・ヴァンロッサムが作ったオープンソースのプログラミング言語。
オブジェクト指向スクリプト言語の一種であり，Perlとともに欧米で広く普及している。イギリスのテレビ局 BBC が製作したコメディ番組『空飛ぶモンティパイソン』にちなんで名付けられた。
Python は英語で爬虫類のニシキヘビの意味で，Python言語のマスコットやアイコンとして使われることがある。Pythonは汎用の高水準言語である。プログラマの生産性とコードの信頼性を重視して設計されており，核となるシンタックスおよびセマンティクスは必要最小限に抑えられている反面，利便性の高い大規模な標準ライブラリを備えている。
Unicode による文字列操作をサポートしており，日本語処理も標準で可能である。多くのプラットフォームをサポートしており（動作するプラットフォーム），また，豊富なドキュメント，豊富なライブラリがあることから，産業界でも利用が増えつつある。''', 'Python')

nb.train('''Ruby（ルビー）は，まつもとゆきひろ（通称Matz）により開発されたオブジェクト指向スクリプト言語であり，従来 Perlなどのスクリプト言語が用いられてきた領域でのオブジェクト指向プログラミングを実現する。Rubyは当初1993年2月24日に生まれ， 1995年12月にfj上で発表された。名称のRubyは，プログラミング言語Perlが6月の誕生石であるPearl（真珠）と同じ発音をすることから，まつもとの同僚の誕生石（7月）のルビーを取って名付けられた。''', 'Ruby')

nb.train('''豊富な機械学習（きかいがくしゅう，Machine learning）とは，人工知能における研究課題の一つで，人間が自然に行っている学習能力と同様の機能をコンピュータで実現させるための技術・手法のことである。ある程度の数のサンプルデータ集合を対象に解析を行い，そのデータから有用な規則，ルール，知識表現，判断基準などを抽出する。データ集合を解析するため，統計学との関連も非常に深い。
機械学習は検索エンジン，医療診断，スパムメールの検出，金融市場の予測，DNA配列の分類，音声認識や文字認識などのパターン認識，ゲーム戦略，ロボット，など幅広い分野で用いられている。応用分野の特性に応じて学習手法も適切に選択する必要があり，様々な手法が提案されている。それらの手法は， Machine Learning や IEEE Transactions on Pattern Analysis and Machine Intelligence などの学術雑誌などで発表されることが多い。''', '機械学習')

#Python
words = 'ヴァンロッサム氏によって開発された.'
print('%s => 推定カテゴリ: %s' % (words ,nb.classifier(words)))

words = '豊富なドキュメントや豊富なライブラリがあります.'
print('%s => 推定カテゴリ: %s' % (words ,nb.classifier(words)))

#Ruby
words = '純粋なオブジェクト指向言語です.'
print('%s => 推定カテゴリ: %s' % (words ,nb.classifier(words)))

words = 'Rubyはまつもとゆきひろ氏(通称Matz)により開発されました.'
print('%s => 推定カテゴリ: %s' % (words ,nb.classifier(words)))

#機械学習
words = '「機械学習 はじめよう」が始まりました.'
print('%s => 推定カテゴリ: %s' % (words ,nb.classifier(words)))

words = '検索エンジンや画像認識に利用されています.'
print('%s => 推定カテゴリ: %s' % (words , nb.classifier(words)))

ヴァンロッサム氏によって開発された. => 推定カテゴリ: Ruby
豊富なドキュメントや豊富なライブラリがあります. => 推定カテゴリ: Python
純粋なオブジェクト指向言語です. => 推定カテゴリ: Ruby
Rubyはまつもとゆきひろ氏(通称Matz)により開発されました. => 推定カテゴリ: Ruby
「機械学習 はじめよう」が始まりました. => 推定カテゴリ: 機械学習
検索エンジンや画像認識に利用されています. => 推定カテゴリ: 機械学習


**実行結果1個目の分類がミスってる、Why?**

In [35]:
print(nb.score(nb.wordcount['Ruby'], 'Python'))
print(nb.score(nb.wordcount['Python'], 'Python'))
print(nb.score(nb.wordcount['機械学習'], 'Python'))

-222.29691645894027
-367.9050970421592
-457.5583909452782


**Pythonカテゴリの学習に使ったワードリストが、PythonカテゴリよりもRubyカテゴリにおいて高い尤度になっている**  
**サンプル量が各カテゴリ1文書ずつでは少なすぎる？**