#### Import libraries  

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

#### Make DataFrame  

In [5]:
df = pd.read_csv("dogs.csv", delimiter=',', skiprows=0, header=0,
                 encoding='shift-jis')
print(df.shape)
print(df.info())
display(df.head())

(3, 2)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   category  3 non-null      object
 1   text      3 non-null      object
dtypes: object(2)
memory usage: 176.0+ bytes
None


Unnamed: 0,category,text
0,chihuahua,19 世紀 半ば アメリカ 品種 改良 進める られる （ この 時期 、 ロング コート ...
1,poodle,飼う 、 知能 高い さ 全 犬 種 人気 ランキング 不動 1 位 獲得 する いる 。 ...
2,french_bulldog,がっしり する 体つき 、 極めて 鼻 短い 中型 犬 。 特徴 的 の コウモリ 羽 広げ...


#### Obtain X_train (data) and y_train (true category)  

In [7]:
X_train = df['text']
y_train = df['category']
print(X_train)
print(y_train)

0    19 世紀 半ば アメリカ 品種 改良 進める られる （ この 時期 、 ロング コート ...
1    飼う 、 知能 高い さ 全 犬 種 人気 ランキング 不動 1 位 獲得 する いる 。 ...
2    がっしり する 体つき 、 極めて 鼻 短い 中型 犬 。 特徴 的 の コウモリ 羽 広げ...
Name: text, dtype: object
0         chihuahua
1            poodle
2    french_bulldog
Name: category, dtype: object


#### Specify X_test and y_test  

In [8]:
X_test = ['毛 人気 知能 小型 鼻 日本 食事 犬 雑種']
print(X_test)

['毛 人気 知能 小型 鼻 日本 食事 犬 雑種']


#### Collect words  

In [9]:
vectorizer = CountVectorizer()
vectorizer.fit(X_train)
vocab = vectorizer. get_feature_names_out()
print('Vocabulary size:', len(vocab))
print(vocab)

Vocabulary size: 707
['11' '12' '13' '15' '156' '16' '163' '1632' '17' '173' '18' '1850' '19'
 '1904' '1949' '1970' '1998' '2000' '2002' '2006' '2008' '2013' '2019'
 '2228' '27' '28' '33' '641' '68' '72' '72941' '74240' '85' '86' '90'
 '913' '980' 'bobo' 'britain' 'bulldog' 'chihuahua' 'cm' 'de' 'dj' 'dna'
 'jkc' 'kg' 'of' 'pra' 'pudel' 'toy' 'あいだ' 'あまり' 'ある' 'いく' 'いる' 'うえ' 'おる'
 'かかる' 'かかわる' 'かく' 'かつ' 'かなり' 'かわいらしい' 'がかる' 'がっしり' 'きわめて' 'こうした' 'こと'
 'この' 'これ' 'これら' 'こん' 'ごと' 'ごろ' 'さらに' 'しかし' 'しまう' 'しれる' 'しわ' 'すぎ' 'すぐ'
 'する' 'ずんぐり' 'せる' 'その' 'その他' 'その後' 'それ' 'ただし' 'たち' 'たとえば' 'たまる' 'ため' 'たるみ'
 'だぶつく' 'つきあい' 'つぶれる' 'てんかん' 'できあがる' 'できる' 'とおり' 'どうし' 'どんどん' 'ない' 'ならでは'
 'なる' 'にくい' 'はしゃぐ' 'ひとつ' 'ほとんど' 'また' 'または' 'まとう' 'まもなく' 'まれ' 'みる' 'むく'
 'もち' 'もともと' 'もの' 'やく' 'やすい' 'やはり' 'やや' 'ゆえ' 'よう' 'よって' 'より' 'られる' 'れる'
 'わかる' 'わずか' 'アップルドーム' 'アドバイス' 'アプリコット' 'アメリカ' 'アメリカンケネルクラブ' 'イア' 'イギリス'
 'イビキ' 'ウォーター' 'ウサギ' 'オレンジフォーン' 'カニシュ' 'カニッシュ' 'カフェオレ' 'カモ' 'カラー'
 'カンバーランド' 'ギジェット' 'クリーム' 'グレー' 'ケネルクラブ' 'ケース

#### Make BoW (word frequency vectors)     

In [10]:
X_train_bow = vectorizer.transform(X_train)
X_test_bow = vectorizer.transform(X_test)
print('X_train_bow:')
print(repr(X_train_bow))
print('X_test_bow:')
print(repr(X_test_bow))

X_train_bow:
<3x707 sparse matrix of type '<class 'numpy.int64'>'
	with 861 stored elements in Compressed Sparse Row format>
X_test_bow:
<1x707 sparse matrix of type '<class 'numpy.int64'>'
	with 5 stored elements in Compressed Sparse Row format>


#### Display BoW  

In [11]:
Xbow = pd.DataFrame(X_train_bow.toarray(), 
                    index=y_train, columns=vocab)
display(Xbow)

Unnamed: 0_level_0,11,12,13,15,156,16,163,1632,17,173,...,食欲,飼い主,飼う,飼育,骨格,高い,高まる,高額,麻酔,鼻水
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
chihuahua,0,0,0,2,0,0,0,0,0,0,...,0,1,1,2,1,4,0,1,0,0
poodle,0,2,1,0,1,2,1,1,1,1,...,0,0,1,2,0,3,1,0,0,0
french_bulldog,1,1,0,0,0,0,0,0,1,0,...,1,0,0,1,0,2,0,0,1,1


#### Training of naive Bayes classifier  

In [12]:
model = MultinomialNB(alpha=1.0, class_prior=[15/50,10/50,25/50])
model.fit(X_train_bow, y_train)
print(model.classes_)
train_score = model.score(X_train_bow, y_train)
print('Train accuracy:', train_score)

['chihuahua' 'french_bulldog' 'poodle']
Train accuracy: 1.0


#### Prediction using naive Bayes classifier after training  

In [13]:
proba = model.predict_proba(X_test_bow)
results = pd.DataFrame(proba, columns=model.classes_)
print('Prediction:')
display(results)
print(model.predict(X_test_bow))

Prediction:


Unnamed: 0,chihuahua,french_bulldog,poodle
0,0.492259,0.009958,0.497783


['poodle']
