Make CSV

In [1]:
import os, glob
import pandas as pd
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.tokenfilter import POSStopFilter, LowerCaseFilter

In [2]:
wakati = True
target_dir = 'text_dogs'
csv_out = 'text_dogs.csv'

In [3]:
token_filters = [ POSStopFilter(['助詞','助動詞']),
                  LowerCaseFilter(),
                ]
tokenizer = Tokenizer()
analyzer = Analyzer(tokenizer=tokenizer, token_filters=token_filters)

In [4]:
file_pat = '*.txt'
dir_pat = os.path.join(target_dir, '*')

text = []
for d in glob.glob(dir_pat):  # for-loop of directories in target_dir
    if not os.path.isdir(d): continue  # skip if d is not a directory
    category = os.path.basename(d)  # use directory name as the category name
    full_pat = os.path.join(d, file_pat)  # generate full path name for text files
    n_files = 0  # counter for number of files
    for file in glob.glob(full_pat):  # for-loop of text files
        n_files += 1
        with open(file, 'r', encoding='shift-jis') as f:
            lines = f.read().splitlines()  # if you want to omit newline character
            body = ' '.join(lines[2:])  # 1st line: URL, 2nd line: Date, so skip these lines
            if wakati:  # add space between words (wakati-gaki)
                body = ' '.join([t.base_form for t in analyzer.analyze(body)])
            text.append([category, body])
    print(n_files, 'files read for', category)

1 files read for chihuahua
1 files read for golden_retriever
1 files read for shiba


In [5]:
df = pd.DataFrame(text, columns=['category', 'text'])
print(df.shape)
print(df.info())
display(df.head())
display(df.tail())

(3, 2)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   category  3 non-null      object
 1   text      3 non-null      object
dtypes: object(2)
memory usage: 176.0+ bytes
None


Unnamed: 0,category,text
0,chihuahua,19 世紀 半ば アメリカ 品種 改良 進める られる （ この 時期 、 ロング コート ...
1,golden_retriever,1903 年 、 英国 ケネルクラブ ゴールデンレトリーバー 「 フラット コート − ゴー...
2,shiba,温暖 湿潤 気候 強い 。 一般 主人 非常 忠実 、 よそ者 馴れ馴れしい する 、 賢い...


Unnamed: 0,category,text
0,chihuahua,19 世紀 半ば アメリカ 品種 改良 進める られる （ この 時期 、 ロング コート ...
1,golden_retriever,1903 年 、 英国 ケネルクラブ ゴールデンレトリーバー 「 フラット コート − ゴー...
2,shiba,温暖 湿潤 気候 強い 。 一般 主人 非常 忠実 、 よそ者 馴れ馴れしい する 、 賢い...


In [6]:
df.to_csv(csv_out, index=False)

Doing Bayes

In [7]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

In [8]:
csv_in = 'text_dogs.csv'

# To show all columns and rows  
pd.options.display.max_columns=999
pd.options.display.max_rows=999

In [9]:
df = pd.read_csv(csv_in, skiprows=0, delimiter=',', header=0)
display(df.head())
print(df.shape)
print(df.info())
display(df.head())

Unnamed: 0,category,text
0,chihuahua,19 世紀 半ば アメリカ 品種 改良 進める られる （ この 時期 、 ロング コート ...
1,golden_retriever,1903 年 、 英国 ケネルクラブ ゴールデンレトリーバー 「 フラット コート − ゴー...
2,shiba,温暖 湿潤 気候 強い 。 一般 主人 非常 忠実 、 よそ者 馴れ馴れしい する 、 賢い...


(3, 2)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   category  3 non-null      object
 1   text      3 non-null      object
dtypes: object(2)
memory usage: 176.0+ bytes
None


Unnamed: 0,category,text
0,chihuahua,19 世紀 半ば アメリカ 品種 改良 進める られる （ この 時期 、 ロング コート ...
1,golden_retriever,1903 年 、 英国 ケネルクラブ ゴールデンレトリーバー 「 フラット コート − ゴー...
2,shiba,温暖 湿潤 気候 強い 。 一般 主人 非常 忠実 、 よそ者 馴れ馴れしい する 、 賢い...


In [10]:
X_train = df['text']
y_train = df['category']
print(X_train)
print(y_train)

0    19 世紀 半ば アメリカ 品種 改良 進める られる （ この 時期 、 ロング コート ...
1    1903 年 、 英国 ケネルクラブ ゴールデンレトリーバー 「 フラット コート − ゴー...
2    温暖 湿潤 気候 強い 。 一般 主人 非常 忠実 、 よそ者 馴れ馴れしい する 、 賢い...
Name: text, dtype: object
0           chihuahua
1    golden_retriever
2               shiba
Name: category, dtype: object


In [11]:
X_test = ['短 毛 主人 忠実 勇敢 小型 犬']
print(X_test)

['短 毛 主人 忠実 勇敢 小型 犬']


In [12]:
vectorizer = CountVectorizer(token_pattern='(?u)\\b\\w+\\b')
vectorizer.fit(X_train)
vocab = vectorizer. get_feature_names()
print('Vocabulary size:', len(vocab))
print(vocab)

Vocabulary size: 702
['1', '10', '11', '15', '18', '19', '1903', '1904', '1911', '1938', '1970', '1998', '2', '2000', '2002', '2006', '2017', '24', '29', '3', '34', '37', '4', '40', '5000', '54', '57', '58', '6', '61', '7', '8', 'akc', 'bobo', 'chihuahua', 'cm', 'de', 'dj', 'grca', 'jkc', 'kg', 'あまり', 'ある', 'いう', 'いる', 'おく', 'おる', 'かかわる', 'かつ', 'かむ', 'がかる', 'くる', 'げ', 'こと', 'この', 'これ', 'こん', 'さ', 'さし', 'しかし', 'しつける', 'しまう', 'すぐ', 'する', 'せる', 'その', 'その後', 'それ', 'ただし', 'たち', 'ため', 'つきあい', 'つと', 'てんかん', 'できる', 'とき', 'とも', 'どうし', 'どんどん', 'ない', 'ならでは', 'なる', 'の', 'はしゃぐ', 'また', 'もち', 'もの', 'やく', 'やすい', 'やや', 'やる', 'ゆえ', 'よう', 'よそ者', 'より', 'られる', 'れる', 'わかる', 'アップルドーム', 'アドバイス', 'アメリカ', 'アメリカンケネルクラブ', 'アンダー', 'アーモンド', 'イエロー', 'ウサギ', 'オス', 'オブ', 'カラー', 'ガン', 'ガンドッグ', 'ギジェット', 'クラブ', 'クリーム', 'ケネルクラブ', 'ケース', 'コース', 'コート', 'ゴールデン', 'ゴールデンレトリーバー', 'ショードッグ', 'ジャパンケネルクラブ', 'スペイン', 'スムース', 'ソング', 'タコ', 'タレント', 'タン', 'ダックスフント', 'ダブル', 'チワワ', 'デコ', 'デンタルケア', 'トップコート', 'ドック', 'ハイキング', 'パピヨン', 'ヒット', 'フ

In [13]:
X_train_bow = vectorizer.transform(X_train)
X_test_bow = vectorizer.transform(X_test)
print('X_train_bow:')
print(repr(X_train_bow))
print('X_test_bow:')
print(repr(X_test_bow))

X_train_bow:
<3x702 sparse matrix of type '<class 'numpy.int64'>'
	with 870 stored elements in Compressed Sparse Row format>
X_test_bow:
<1x702 sparse matrix of type '<class 'numpy.int64'>'
	with 7 stored elements in Compressed Sparse Row format>


In [14]:
Xbow = pd.DataFrame(X_train_bow.toarray(), 
                    index=y_train, columns=vocab)
display(Xbow)

Unnamed: 0_level_0,1,10,11,15,18,19,1903,1904,1911,1938,1970,1998,2,2000,2002,2006,2017,24,29,3,34,37,4,40,5000,54,57,58,6,61,7,8,akc,bobo,chihuahua,cm,de,dj,grca,jkc,kg,あまり,ある,いう,いる,おく,おる,かかわる,かつ,かむ,がかる,くる,げ,こと,この,これ,こん,さ,さし,しかし,しつける,しまう,すぐ,する,せる,その,その後,それ,ただし,たち,ため,つきあい,つと,てんかん,できる,とき,とも,どうし,どんどん,ない,ならでは,なる,の,はしゃぐ,また,もち,もの,やく,やすい,やや,やる,ゆえ,よう,よそ者,より,られる,れる,わかる,アップルドーム,アドバイス,アメリカ,アメリカンケネルクラブ,アンダー,アーモンド,イエロー,ウサギ,オス,オブ,カラー,ガン,ガンドッグ,ギジェット,クラブ,クリーム,ケネルクラブ,ケース,コース,コート,ゴールデン,ゴールデンレトリーバー,ショードッグ,ジャパンケネルクラブ,スペイン,スムース,ソング,タコ,タレント,タン,ダックスフント,ダブル,チワワ,デコ,デンタルケア,トップコート,ドック,ハイキング,パピヨン,ヒット,フクロウ,フラット,フラットコーテッド,ブラック,ブーム,ベル,ベルク,ベース,ペット,ボディ,ポメラニアン,ポンド,マズル,マン,メス,モンキー,ヨーロッパ,リス,リンゴ,レトリーバー,ロング,ヶ月,一つ,一方,一番,一緒,一般,万,上,上昇,下毛,下部,不全,不足,世紀,並びに,中,丸み,主,主人,乱,事,事故,二,交配,人,人気,人間,今,仔犬,仕事,他,付き,以上,以下,以降,仲間,会員,伸ばす,伸びる,位,低い,低下,住宅,体,体格,体温,体重,体長,体高,作る,作出,使う,使途,例えば,供給,価値,侵入,信頼,個体,個性,偏食,健全,健康,側,傘下,傷付ける,傾向,僅か,働く,優先,先天,光景,入る,全土,全米,公園,兼ね備える,内,再び,冷水,出る,出典,分娩,分担,分野,切る,初めて,別,削る,削除,前述,前部,割,割合,力,劣性,努力,勇敢,動く,動物,化,医師,千,半ば,単独,占める,危険,原因,参照,又は,及び,友好,反る,反面,取れる,取引,古代,可愛い,可愛がる,可能,右,各々,同様,同種,同調,名,向き,吻,呼ぶ,品種,唸る,問題,喜び,噛み付く,四肢,回,国,均一,均整,垂れる,基本,場合,増加,変更,外側,多い,多く,多彩,多様,多種,大,大いに,大きい,大きな,大型,大変,大好き,大胆,失格,女児,女性,好き,好む,好奇,嫌う,子ども,存,季節,孤独,学的,定める,定期,実情,室内,家,家庭,家族,寒い,察知,対峙,対象,寿命,小,小さい,小さな,小型,少ない,尾,尾形,屋内,屋外,山あい,山地,工夫,左巻き,巻き,巻く,希,希少,帯びる,常時,幅広い,年,年代,幼児,幼少,広まる,弱い,張る,強い,強める,弾力,当,当該,形,形成,影響,役割,役目,彼ら,後,後部,心,必要,必須,忍耐,応える,忠実,忠誠,念頭,怠る,性,性格,性質,恒温動物,患う,愛す,愛情,愛想,感染,慣れる,戸外,手伝う,扱う,折れる,抜け落ちる,担う,持ち合わせる,持つ,指定,挙げる,振る舞う,捕らえる,捕食,損ねる,擁す,改良,攻撃,放す,故,敏感,散歩,数,数値,斜視,方,日本,日課,明るい,時,時期,暗い,替わる,最大,月,期,本来,本能,柔らかい,柴犬,根元,検査,極めて,楽しむ,楽天的,概して,様々,機会,機敏,機能,次,次ぐ,欧州,歳,歴史,死亡,死因,毎日,比べる,比率,比較的,毛,毛色,気に入る,気候,気温,気配り,水,求める,沈静,沿う,泉,法則,注意,洋,活動,活発,活躍,派生,浮き上がる,涵養,混同,減少,温和,温暖,湿潤,点,為,無い,無謀,無頓着,爪,特に,特徴,特性,犬,状態,狩り,狩猟,独居,独立,狼,猛禽,猟犬,献身,獣,獰猛,獲物,現在,理想,甘やかす,生える,生まれる,生後,生活,生産,用,由来,甲状腺,留意,番犬,異常,疾患,疾病,病,病気,症,発作,発生,発症,発達,登場,登録,白,的,皮膚,目,目的,直接,真っ直ぐ,眼,瞳,知る,知性,知的,短,短い,研究,硬い,確実,確率,社会,神経,種,種類,穏和,突然,立つ,第,等,管理,米国,約,細やか,細心,組み合わせ,縮れる,繁殖,繊細,繋ぐ,置く,羽毛,習慣,老人,考慮,耳,股関節,肥満,胡麻,胸,能力,脆弱,脱臼,腫れる,腹部,膝蓋骨,臆,自信,臭い,良い,色,若い,英国,茶,茶褐色,菌,行く,行動,表現,被,要,要求,覆う,見た目,見る,見受ける,見知らぬ,規定,視界,親しい,親交,観点,訓練,設立,評判,詰まる,話題,該犬種,認める,語,誰,課題,調整,調査,調節,警戒,豊富,賛美,賞賛,賢い,赤,赤毛,赤金,走り回る,走る,超,身体,近年,追う,追って,通り,連れ出す,進める,遊ぶ,運動,過ぎる,違う,適す,適する,適切,適宜,適応,遺伝,遺伝子,邦題,部分,部屋,重,重んじる,野良,量,鑑みる,長い,長寿,長毛,門,開,関係,関節,防水,雄,集中,雌,難しい,静か,非常,面,項目,頑固,頬,頭,頭数,頭部,額,願う,類,食事,飼い主,飼い犬,飼う,飼育,飾り,餌,馴れ馴れしい,骨格,高い,高額,鳶,鷹,黒,黒色,鼻,８
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1,Unnamed: 82_level_1,Unnamed: 83_level_1,Unnamed: 84_level_1,Unnamed: 85_level_1,Unnamed: 86_level_1,Unnamed: 87_level_1,Unnamed: 88_level_1,Unnamed: 89_level_1,Unnamed: 90_level_1,Unnamed: 91_level_1,Unnamed: 92_level_1,Unnamed: 93_level_1,Unnamed: 94_level_1,Unnamed: 95_level_1,Unnamed: 96_level_1,Unnamed: 97_level_1,Unnamed: 98_level_1,Unnamed: 99_level_1,Unnamed: 100_level_1,Unnamed: 101_level_1,Unnamed: 102_level_1,Unnamed: 103_level_1,Unnamed: 104_level_1,Unnamed: 105_level_1,Unnamed: 106_level_1,Unnamed: 107_level_1,Unnamed: 108_level_1,Unnamed: 109_level_1,Unnamed: 110_level_1,Unnamed: 111_level_1,Unnamed: 112_level_1,Unnamed: 113_level_1,Unnamed: 114_level_1,Unnamed: 115_level_1,Unnamed: 116_level_1,Unnamed: 117_level_1,Unnamed: 118_level_1,Unnamed: 119_level_1,Unnamed: 120_level_1,Unnamed: 121_level_1,Unnamed: 122_level_1,Unnamed: 123_level_1,Unnamed: 124_level_1,Unnamed: 125_level_1,Unnamed: 126_level_1,Unnamed: 127_level_1,Unnamed: 128_level_1,Unnamed: 129_level_1,Unnamed: 130_level_1,Unnamed: 131_level_1,Unnamed: 132_level_1,Unnamed: 133_level_1,Unnamed: 134_level_1,Unnamed: 135_level_1,Unnamed: 136_level_1,Unnamed: 137_level_1,Unnamed: 138_level_1,Unnamed: 139_level_1,Unnamed: 140_level_1,Unnamed: 141_level_1,Unnamed: 142_level_1,Unnamed: 143_level_1,Unnamed: 144_level_1,Unnamed: 145_level_1,Unnamed: 146_level_1,Unnamed: 147_level_1,Unnamed: 148_level_1,Unnamed: 149_level_1,Unnamed: 150_level_1,Unnamed: 151_level_1,Unnamed: 152_level_1,Unnamed: 153_level_1,Unnamed: 154_level_1,Unnamed: 155_level_1,Unnamed: 156_level_1,Unnamed: 157_level_1,Unnamed: 158_level_1,Unnamed: 159_level_1,Unnamed: 160_level_1,Unnamed: 161_level_1,Unnamed: 162_level_1,Unnamed: 163_level_1,Unnamed: 164_level_1,Unnamed: 165_level_1,Unnamed: 166_level_1,Unnamed: 167_level_1,Unnamed: 168_level_1,Unnamed: 169_level_1,Unnamed: 170_level_1,Unnamed: 171_level_1,Unnamed: 172_level_1,Unnamed: 173_level_1,Unnamed: 174_level_1,Unnamed: 175_level_1,Unnamed: 176_level_1,Unnamed: 177_level_1,Unnamed: 178_level_1,Unnamed: 179_level_1,Unnamed: 180_level_1,Unnamed: 181_level_1,Unnamed: 182_level_1,Unnamed: 183_level_1,Unnamed: 184_level_1,Unnamed: 185_level_1,Unnamed: 186_level_1,Unnamed: 187_level_1,Unnamed: 188_level_1,Unnamed: 189_level_1,Unnamed: 190_level_1,Unnamed: 191_level_1,Unnamed: 192_level_1,Unnamed: 193_level_1,Unnamed: 194_level_1,Unnamed: 195_level_1,Unnamed: 196_level_1,Unnamed: 197_level_1,Unnamed: 198_level_1,Unnamed: 199_level_1,Unnamed: 200_level_1,Unnamed: 201_level_1,Unnamed: 202_level_1,Unnamed: 203_level_1,Unnamed: 204_level_1,Unnamed: 205_level_1,Unnamed: 206_level_1,Unnamed: 207_level_1,Unnamed: 208_level_1,Unnamed: 209_level_1,Unnamed: 210_level_1,Unnamed: 211_level_1,Unnamed: 212_level_1,Unnamed: 213_level_1,Unnamed: 214_level_1,Unnamed: 215_level_1,Unnamed: 216_level_1,Unnamed: 217_level_1,Unnamed: 218_level_1,Unnamed: 219_level_1,Unnamed: 220_level_1,Unnamed: 221_level_1,Unnamed: 222_level_1,Unnamed: 223_level_1,Unnamed: 224_level_1,Unnamed: 225_level_1,Unnamed: 226_level_1,Unnamed: 227_level_1,Unnamed: 228_level_1,Unnamed: 229_level_1,Unnamed: 230_level_1,Unnamed: 231_level_1,Unnamed: 232_level_1,Unnamed: 233_level_1,Unnamed: 234_level_1,Unnamed: 235_level_1,Unnamed: 236_level_1,Unnamed: 237_level_1,Unnamed: 238_level_1,Unnamed: 239_level_1,Unnamed: 240_level_1,Unnamed: 241_level_1,Unnamed: 242_level_1,Unnamed: 243_level_1,Unnamed: 244_level_1,Unnamed: 245_level_1,Unnamed: 246_level_1,Unnamed: 247_level_1,Unnamed: 248_level_1,Unnamed: 249_level_1,Unnamed: 250_level_1,Unnamed: 251_level_1,Unnamed: 252_level_1,Unnamed: 253_level_1,Unnamed: 254_level_1,Unnamed: 255_level_1,Unnamed: 256_level_1,Unnamed: 257_level_1,Unnamed: 258_level_1,Unnamed: 259_level_1,Unnamed: 260_level_1,Unnamed: 261_level_1,Unnamed: 262_level_1,Unnamed: 263_level_1,Unnamed: 264_level_1,Unnamed: 265_level_1,Unnamed: 266_level_1,Unnamed: 267_level_1,Unnamed: 268_level_1,Unnamed: 269_level_1,Unnamed: 270_level_1,Unnamed: 271_level_1,Unnamed: 272_level_1,Unnamed: 273_level_1,Unnamed: 274_level_1,Unnamed: 275_level_1,Unnamed: 276_level_1,Unnamed: 277_level_1,Unnamed: 278_level_1,Unnamed: 279_level_1,Unnamed: 280_level_1,Unnamed: 281_level_1,Unnamed: 282_level_1,Unnamed: 283_level_1,Unnamed: 284_level_1,Unnamed: 285_level_1,Unnamed: 286_level_1,Unnamed: 287_level_1,Unnamed: 288_level_1,Unnamed: 289_level_1,Unnamed: 290_level_1,Unnamed: 291_level_1,Unnamed: 292_level_1,Unnamed: 293_level_1,Unnamed: 294_level_1,Unnamed: 295_level_1,Unnamed: 296_level_1,Unnamed: 297_level_1,Unnamed: 298_level_1,Unnamed: 299_level_1,Unnamed: 300_level_1,Unnamed: 301_level_1,Unnamed: 302_level_1,Unnamed: 303_level_1,Unnamed: 304_level_1,Unnamed: 305_level_1,Unnamed: 306_level_1,Unnamed: 307_level_1,Unnamed: 308_level_1,Unnamed: 309_level_1,Unnamed: 310_level_1,Unnamed: 311_level_1,Unnamed: 312_level_1,Unnamed: 313_level_1,Unnamed: 314_level_1,Unnamed: 315_level_1,Unnamed: 316_level_1,Unnamed: 317_level_1,Unnamed: 318_level_1,Unnamed: 319_level_1,Unnamed: 320_level_1,Unnamed: 321_level_1,Unnamed: 322_level_1,Unnamed: 323_level_1,Unnamed: 324_level_1,Unnamed: 325_level_1,Unnamed: 326_level_1,Unnamed: 327_level_1,Unnamed: 328_level_1,Unnamed: 329_level_1,Unnamed: 330_level_1,Unnamed: 331_level_1,Unnamed: 332_level_1,Unnamed: 333_level_1,Unnamed: 334_level_1,Unnamed: 335_level_1,Unnamed: 336_level_1,Unnamed: 337_level_1,Unnamed: 338_level_1,Unnamed: 339_level_1,Unnamed: 340_level_1,Unnamed: 341_level_1,Unnamed: 342_level_1,Unnamed: 343_level_1,Unnamed: 344_level_1,Unnamed: 345_level_1,Unnamed: 346_level_1,Unnamed: 347_level_1,Unnamed: 348_level_1,Unnamed: 349_level_1,Unnamed: 350_level_1,Unnamed: 351_level_1,Unnamed: 352_level_1,Unnamed: 353_level_1,Unnamed: 354_level_1,Unnamed: 355_level_1,Unnamed: 356_level_1,Unnamed: 357_level_1,Unnamed: 358_level_1,Unnamed: 359_level_1,Unnamed: 360_level_1,Unnamed: 361_level_1,Unnamed: 362_level_1,Unnamed: 363_level_1,Unnamed: 364_level_1,Unnamed: 365_level_1,Unnamed: 366_level_1,Unnamed: 367_level_1,Unnamed: 368_level_1,Unnamed: 369_level_1,Unnamed: 370_level_1,Unnamed: 371_level_1,Unnamed: 372_level_1,Unnamed: 373_level_1,Unnamed: 374_level_1,Unnamed: 375_level_1,Unnamed: 376_level_1,Unnamed: 377_level_1,Unnamed: 378_level_1,Unnamed: 379_level_1,Unnamed: 380_level_1,Unnamed: 381_level_1,Unnamed: 382_level_1,Unnamed: 383_level_1,Unnamed: 384_level_1,Unnamed: 385_level_1,Unnamed: 386_level_1,Unnamed: 387_level_1,Unnamed: 388_level_1,Unnamed: 389_level_1,Unnamed: 390_level_1,Unnamed: 391_level_1,Unnamed: 392_level_1,Unnamed: 393_level_1,Unnamed: 394_level_1,Unnamed: 395_level_1,Unnamed: 396_level_1,Unnamed: 397_level_1,Unnamed: 398_level_1,Unnamed: 399_level_1,Unnamed: 400_level_1,Unnamed: 401_level_1,Unnamed: 402_level_1,Unnamed: 403_level_1,Unnamed: 404_level_1,Unnamed: 405_level_1,Unnamed: 406_level_1,Unnamed: 407_level_1,Unnamed: 408_level_1,Unnamed: 409_level_1,Unnamed: 410_level_1,Unnamed: 411_level_1,Unnamed: 412_level_1,Unnamed: 413_level_1,Unnamed: 414_level_1,Unnamed: 415_level_1,Unnamed: 416_level_1,Unnamed: 417_level_1,Unnamed: 418_level_1,Unnamed: 419_level_1,Unnamed: 420_level_1,Unnamed: 421_level_1,Unnamed: 422_level_1,Unnamed: 423_level_1,Unnamed: 424_level_1,Unnamed: 425_level_1,Unnamed: 426_level_1,Unnamed: 427_level_1,Unnamed: 428_level_1,Unnamed: 429_level_1,Unnamed: 430_level_1,Unnamed: 431_level_1,Unnamed: 432_level_1,Unnamed: 433_level_1,Unnamed: 434_level_1,Unnamed: 435_level_1,Unnamed: 436_level_1,Unnamed: 437_level_1,Unnamed: 438_level_1,Unnamed: 439_level_1,Unnamed: 440_level_1,Unnamed: 441_level_1,Unnamed: 442_level_1,Unnamed: 443_level_1,Unnamed: 444_level_1,Unnamed: 445_level_1,Unnamed: 446_level_1,Unnamed: 447_level_1,Unnamed: 448_level_1,Unnamed: 449_level_1,Unnamed: 450_level_1,Unnamed: 451_level_1,Unnamed: 452_level_1,Unnamed: 453_level_1,Unnamed: 454_level_1,Unnamed: 455_level_1,Unnamed: 456_level_1,Unnamed: 457_level_1,Unnamed: 458_level_1,Unnamed: 459_level_1,Unnamed: 460_level_1,Unnamed: 461_level_1,Unnamed: 462_level_1,Unnamed: 463_level_1,Unnamed: 464_level_1,Unnamed: 465_level_1,Unnamed: 466_level_1,Unnamed: 467_level_1,Unnamed: 468_level_1,Unnamed: 469_level_1,Unnamed: 470_level_1,Unnamed: 471_level_1,Unnamed: 472_level_1,Unnamed: 473_level_1,Unnamed: 474_level_1,Unnamed: 475_level_1,Unnamed: 476_level_1,Unnamed: 477_level_1,Unnamed: 478_level_1,Unnamed: 479_level_1,Unnamed: 480_level_1,Unnamed: 481_level_1,Unnamed: 482_level_1,Unnamed: 483_level_1,Unnamed: 484_level_1,Unnamed: 485_level_1,Unnamed: 486_level_1,Unnamed: 487_level_1,Unnamed: 488_level_1,Unnamed: 489_level_1,Unnamed: 490_level_1,Unnamed: 491_level_1,Unnamed: 492_level_1,Unnamed: 493_level_1,Unnamed: 494_level_1,Unnamed: 495_level_1,Unnamed: 496_level_1,Unnamed: 497_level_1,Unnamed: 498_level_1,Unnamed: 499_level_1,Unnamed: 500_level_1,Unnamed: 501_level_1,Unnamed: 502_level_1,Unnamed: 503_level_1,Unnamed: 504_level_1,Unnamed: 505_level_1,Unnamed: 506_level_1,Unnamed: 507_level_1,Unnamed: 508_level_1,Unnamed: 509_level_1,Unnamed: 510_level_1,Unnamed: 511_level_1,Unnamed: 512_level_1,Unnamed: 513_level_1,Unnamed: 514_level_1,Unnamed: 515_level_1,Unnamed: 516_level_1,Unnamed: 517_level_1,Unnamed: 518_level_1,Unnamed: 519_level_1,Unnamed: 520_level_1,Unnamed: 521_level_1,Unnamed: 522_level_1,Unnamed: 523_level_1,Unnamed: 524_level_1,Unnamed: 525_level_1,Unnamed: 526_level_1,Unnamed: 527_level_1,Unnamed: 528_level_1,Unnamed: 529_level_1,Unnamed: 530_level_1,Unnamed: 531_level_1,Unnamed: 532_level_1,Unnamed: 533_level_1,Unnamed: 534_level_1,Unnamed: 535_level_1,Unnamed: 536_level_1,Unnamed: 537_level_1,Unnamed: 538_level_1,Unnamed: 539_level_1,Unnamed: 540_level_1,Unnamed: 541_level_1,Unnamed: 542_level_1,Unnamed: 543_level_1,Unnamed: 544_level_1,Unnamed: 545_level_1,Unnamed: 546_level_1,Unnamed: 547_level_1,Unnamed: 548_level_1,Unnamed: 549_level_1,Unnamed: 550_level_1,Unnamed: 551_level_1,Unnamed: 552_level_1,Unnamed: 553_level_1,Unnamed: 554_level_1,Unnamed: 555_level_1,Unnamed: 556_level_1,Unnamed: 557_level_1,Unnamed: 558_level_1,Unnamed: 559_level_1,Unnamed: 560_level_1,Unnamed: 561_level_1,Unnamed: 562_level_1,Unnamed: 563_level_1,Unnamed: 564_level_1,Unnamed: 565_level_1,Unnamed: 566_level_1,Unnamed: 567_level_1,Unnamed: 568_level_1,Unnamed: 569_level_1,Unnamed: 570_level_1,Unnamed: 571_level_1,Unnamed: 572_level_1,Unnamed: 573_level_1,Unnamed: 574_level_1,Unnamed: 575_level_1,Unnamed: 576_level_1,Unnamed: 577_level_1,Unnamed: 578_level_1,Unnamed: 579_level_1,Unnamed: 580_level_1,Unnamed: 581_level_1,Unnamed: 582_level_1,Unnamed: 583_level_1,Unnamed: 584_level_1,Unnamed: 585_level_1,Unnamed: 586_level_1,Unnamed: 587_level_1,Unnamed: 588_level_1,Unnamed: 589_level_1,Unnamed: 590_level_1,Unnamed: 591_level_1,Unnamed: 592_level_1,Unnamed: 593_level_1,Unnamed: 594_level_1,Unnamed: 595_level_1,Unnamed: 596_level_1,Unnamed: 597_level_1,Unnamed: 598_level_1,Unnamed: 599_level_1,Unnamed: 600_level_1,Unnamed: 601_level_1,Unnamed: 602_level_1,Unnamed: 603_level_1,Unnamed: 604_level_1,Unnamed: 605_level_1,Unnamed: 606_level_1,Unnamed: 607_level_1,Unnamed: 608_level_1,Unnamed: 609_level_1,Unnamed: 610_level_1,Unnamed: 611_level_1,Unnamed: 612_level_1,Unnamed: 613_level_1,Unnamed: 614_level_1,Unnamed: 615_level_1,Unnamed: 616_level_1,Unnamed: 617_level_1,Unnamed: 618_level_1,Unnamed: 619_level_1,Unnamed: 620_level_1,Unnamed: 621_level_1,Unnamed: 622_level_1,Unnamed: 623_level_1,Unnamed: 624_level_1,Unnamed: 625_level_1,Unnamed: 626_level_1,Unnamed: 627_level_1,Unnamed: 628_level_1,Unnamed: 629_level_1,Unnamed: 630_level_1,Unnamed: 631_level_1,Unnamed: 632_level_1,Unnamed: 633_level_1,Unnamed: 634_level_1,Unnamed: 635_level_1,Unnamed: 636_level_1,Unnamed: 637_level_1,Unnamed: 638_level_1,Unnamed: 639_level_1,Unnamed: 640_level_1,Unnamed: 641_level_1,Unnamed: 642_level_1,Unnamed: 643_level_1,Unnamed: 644_level_1,Unnamed: 645_level_1,Unnamed: 646_level_1,Unnamed: 647_level_1,Unnamed: 648_level_1,Unnamed: 649_level_1,Unnamed: 650_level_1,Unnamed: 651_level_1,Unnamed: 652_level_1,Unnamed: 653_level_1,Unnamed: 654_level_1,Unnamed: 655_level_1,Unnamed: 656_level_1,Unnamed: 657_level_1,Unnamed: 658_level_1,Unnamed: 659_level_1,Unnamed: 660_level_1,Unnamed: 661_level_1,Unnamed: 662_level_1,Unnamed: 663_level_1,Unnamed: 664_level_1,Unnamed: 665_level_1,Unnamed: 666_level_1,Unnamed: 667_level_1,Unnamed: 668_level_1,Unnamed: 669_level_1,Unnamed: 670_level_1,Unnamed: 671_level_1,Unnamed: 672_level_1,Unnamed: 673_level_1,Unnamed: 674_level_1,Unnamed: 675_level_1,Unnamed: 676_level_1,Unnamed: 677_level_1,Unnamed: 678_level_1,Unnamed: 679_level_1,Unnamed: 680_level_1,Unnamed: 681_level_1,Unnamed: 682_level_1,Unnamed: 683_level_1,Unnamed: 684_level_1,Unnamed: 685_level_1,Unnamed: 686_level_1,Unnamed: 687_level_1,Unnamed: 688_level_1,Unnamed: 689_level_1,Unnamed: 690_level_1,Unnamed: 691_level_1,Unnamed: 692_level_1,Unnamed: 693_level_1,Unnamed: 694_level_1,Unnamed: 695_level_1,Unnamed: 696_level_1,Unnamed: 697_level_1,Unnamed: 698_level_1,Unnamed: 699_level_1,Unnamed: 700_level_1,Unnamed: 701_level_1,Unnamed: 702_level_1
chihuahua,1,0,0,2,1,1,0,1,0,0,1,1,3,1,1,1,0,0,0,1,0,0,0,0,0,0,0,0,2,0,1,2,0,1,1,2,1,1,0,1,3,1,11,0,8,0,2,1,1,0,0,0,0,3,1,1,1,6,0,1,0,1,1,21,1,2,1,3,0,1,1,1,0,0,0,0,0,1,1,2,1,8,1,0,4,1,2,2,1,1,0,1,3,0,1,7,12,1,1,1,2,1,0,0,0,1,0,0,1,0,0,1,0,0,1,1,1,5,0,0,1,1,1,2,1,1,1,1,1,0,16,1,1,0,0,1,1,1,1,0,0,1,2,1,1,1,1,0,1,1,1,1,0,0,1,1,1,0,3,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,1,0,5,0,0,2,2,5,2,0,1,0,4,0,3,2,0,0,0,0,0,1,0,0,1,1,2,1,1,0,0,1,0,1,0,2,1,1,0,0,2,1,1,1,1,2,0,0,5,1,0,1,1,1,1,1,1,1,0,0,0,0,1,2,1,0,1,0,0,0,0,0,1,0,0,0,1,1,0,0,0,3,4,1,1,2,0,0,2,0,1,0,0,0,1,1,0,1,0,1,1,2,0,0,2,1,0,1,0,1,2,1,1,1,0,1,0,0,1,1,0,0,1,0,0,1,1,5,2,0,1,1,2,0,4,2,1,1,0,1,1,0,2,1,1,1,0,0,1,0,0,1,0,0,2,0,1,0,0,1,0,1,1,1,1,4,1,5,1,0,0,0,2,0,0,0,0,0,0,0,1,1,0,0,5,2,0,1,1,2,1,2,0,0,0,0,1,0,0,0,0,1,0,0,3,3,1,0,1,0,1,0,1,4,0,1,1,0,0,1,1,1,0,0,0,0,0,0,1,0,3,0,1,1,0,0,0,0,2,0,1,0,1,1,0,1,1,0,4,0,0,1,1,0,0,0,0,0,1,0,0,0,0,0,1,1,0,1,2,0,1,0,0,1,0,1,0,0,0,1,0,0,0,1,2,1,0,0,0,1,1,1,0,1,1,1,0,0,0,0,0,0,1,1,0,0,0,0,0,1,1,1,0,0,3,1,0,12,0,0,1,0,1,0,1,0,1,1,0,1,0,0,1,0,0,0,0,1,1,1,0,0,0,2,1,0,1,0,2,1,0,1,0,1,2,0,2,0,0,0,0,0,1,1,1,1,0,1,0,0,0,0,0,3,1,7,0,0,0,0,0,2,1,0,2,0,1,0,0,0,0,0,0,0,0,0,1,2,0,0,0,0,0,1,1,0,0,1,1,0,1,1,2,2,0,0,1,0,1,0,0,0,2,0,0,1,2,1,0,1,0,0,1,1,0,0,1,2,1,0,1,0,1,0,0,1,1,0,1,1,1,0,0,0,0,0,0,1,3,2,0,0,2,0,1,0,1,0,0,1,0,0,1,1,0,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,0,0,1,0,0,0,3,2,0,0,0,2,1,1,1,0,1,1,1,0,1,2,0,0,0,1,4,1,1,1,1,0,1,0
golden_retriever,3,2,1,0,0,0,1,0,1,1,0,0,0,0,0,0,1,1,2,1,1,1,1,0,1,1,1,1,0,1,0,0,1,0,0,2,0,0,1,0,3,0,11,1,6,1,1,0,0,1,1,0,1,11,0,0,0,1,0,0,2,0,0,32,1,2,0,0,1,0,8,0,1,1,4,2,0,0,0,1,0,4,1,2,2,0,1,0,2,0,1,0,3,0,0,2,10,0,0,0,1,1,2,1,2,0,2,1,0,1,0,0,3,1,1,0,0,4,4,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,4,0,1,0,0,0,2,2,0,1,1,1,1,2,1,0,1,0,0,0,2,1,0,2,1,0,1,1,3,0,0,1,1,1,0,0,1,1,1,1,1,1,1,2,0,1,0,1,3,1,3,0,2,0,1,0,0,0,1,2,3,1,0,0,0,0,1,1,2,0,1,0,0,0,0,0,0,0,1,1,1,1,2,0,0,0,0,2,1,1,1,1,0,1,0,1,1,0,1,0,1,0,0,0,0,0,1,0,2,1,0,2,4,0,0,0,1,0,0,0,0,0,0,1,1,0,1,0,0,0,1,0,0,0,2,0,1,0,0,0,1,1,0,2,1,0,0,1,0,1,0,0,0,1,2,1,0,0,1,0,0,1,0,0,0,0,2,1,0,1,1,0,1,2,0,2,0,0,2,0,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,1,0,0,0,0,0,0,1,0,5,0,1,0,0,0,0,1,0,1,1,2,1,2,1,1,1,0,1,1,0,3,1,1,0,0,0,1,1,5,2,0,0,1,0,0,0,0,0,2,0,1,1,1,1,0,4,1,0,0,0,0,1,1,0,0,0,1,0,1,1,0,0,0,0,1,2,0,0,1,0,1,1,1,1,0,1,0,2,1,0,0,1,0,0,1,0,2,1,0,0,1,0,1,1,0,0,1,0,3,1,1,0,2,1,1,0,0,1,0,0,0,0,1,1,0,0,1,0,0,1,1,0,0,1,0,0,0,1,7,0,0,1,9,1,0,0,1,0,2,0,0,0,0,0,0,2,1,0,1,0,1,1,0,0,0,1,1,0,0,2,1,1,1,1,0,3,0,1,0,1,0,5,1,1,1,0,0,0,0,0,0,1,0,1,1,0,1,0,0,0,8,1,1,1,0,1,0,0,1,1,1,0,0,0,1,0,1,1,1,1,1,0,1,3,1,0,1,1,0,1,1,1,0,0,1,0,0,3,0,1,1,0,1,0,1,1,0,0,1,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,1,2,1,1,1,2,0,0,0,0,0,0,1,0,0,1,1,1,0,0,0,0,0,0,1,0,2,3,1,0,0,1,1,0,0,1,0,0,1,0,0,0,0,0,0,3,0,0,0,0,0,0,1,0,0,0,0,3,1,0,1,0,1,0,0,2,0,1,0,0,1,1,0,1,1,1,0,0,1,0,0,0,1,1,1,0
shiba,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,5,0,3,0,1,0,1,0,0,2,0,0,0,0,0,0,1,1,0,0,0,6,1,0,0,0,1,0,2,0,0,0,0,0,1,0,0,0,0,0,0,0,2,0,1,0,0,1,0,0,1,1,0,1,2,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,1,0,4,0,0,0,0,0,0,0,0,0,1,0,1,2,0,0,0,1,0,2,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,2,0,0,1,0,0,0,0,0,0,3,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,1,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,0,0,0,2,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,2,1,0,0,1,1,0,1,1,1,1,0,0,0,1,1,0,0,0,0,0,0,5,1,0,0,0,0,0,0,1,0,0,0,0,4,0,0,0,0,2,0,0,0,1,2,0,0,0,1,0,0,0,1,0,1,0,0,0,0,1,0,0,0,0,1,1,0,0,0,2,0,0,0,0,2,0,0,2,1,0,0,0,0,0,1,0,0,0,1,1,1,3,0,0,1,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,1,0,2,5,1,0,1,0,0,0,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,0,1,1,0,0,0,0,0,0,1,1,0,5,0,1,1,0,1,0,0,1,0,0,1,1,1,0,0,1,1,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,1,3,0,0,0,1,1,0,0,0,0,0,1,0,0,1,0,1,0,0,1,0,0,0,1,0,0,0,0,0,0,0,1,1,0,1,0,0,0,0,0,0,1,0,0,2,0,0,0,0,0,0,0,0,0,0,1,2,0,0,1,0,0,0,0,0,2,0,0,0,0,1,0,1,0,1,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,3,0,0,0,1,1,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,2,0,2,1,0,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,2,0,0,1,0,0,0,0,0,1,0,0,1


In [15]:
model = MultinomialNB(alpha=1.0)
model.fit(X_train_bow, y_train)
print(model.classes_)
train_score = model.score(X_train_bow, y_train)
print('Train accuracy:', train_score)

['chihuahua' 'golden_retriever' 'shiba']
Train accuracy: 1.0


In [16]:
proba = model.predict_proba(X_test_bow)
results = pd.DataFrame(proba, columns=model.classes_)
print('Prediction:')
display(results)
print(model.predict(X_test_bow))

Prediction:


Unnamed: 0,chihuahua,golden_retriever,shiba
0,0.042454,0.011998,0.945547


['shiba']
