<a href="https://colab.research.google.com/github/hiroto-noguchi/weekly_articles_2023/blob/main/Untitled3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#青空文庫のテキストのURLを辞書形式で定義する。
urls = {'natsume1':'https://www.aozora.gr.jp/cards/000148/files/773_14560.html',
        'natsume2':'https://www.aozora.gr.jp/cards/000148/files/776_14941.html',
        'natsume3':'https://www.aozora.gr.jp/cards/000148/files/794_14946.html',
        'natsume4':'https://www.aozora.gr.jp/cards/000148/files/752_14964.html',
        'akutagawa1':'https://www.aozora.gr.jp/cards/000879/files/127_15260.html',
        'akutagawa2':'https://www.aozora.gr.jp/cards/000879/files/179_15255.html',
        'akutagawa3':'https://www.aozora.gr.jp/cards/000879/files/42_15228.html',
        'akutagawa4':'https://www.aozora.gr.jp/cards/000879/files/43015_17432.html',
        'natsume5':'https://www.aozora.gr.jp/cards/000148/files/789_14547.html',
        'natsume6':'https://www.aozora.gr.jp/cards/000148/files/56143_50921.html',
        'akutagawa5':'https://www.aozora.gr.jp/cards/000879/files/92_14545.html',
        'akutagawa6': 'https://www.aozora.gr.jp/cards/000879/files/43016_16836.html'}

In [None]:
#引数に指定した青空文庫のurlからプレインテキストを取得する。
def aozora(url):

  import requests
  from bs4 import BeautifulSoup

  webpage = requests.get(url)
  #青空文庫はshift_jisのためエンコーディングを指定する。
  webpage.encoding = "shift_jis" 
  soup = BeautifulSoup(webpage.content, 'html.parser')
  #ふりがなを削除する。
  for tag in soup.findAll(["rt", "rp"]):
    tag.decompose()
  #本文の最初の1ooo文字を抽出する。
  text = soup.find(class_="main_text").get_text().strip()[:1000]
  #スペースを処理する。
  text = ''.join(text.split())
  return text

In [None]:
#natsume1の値のurlを引数として関数を実行する。
natsume_test = aozora(urls['natsume1'])
natsume_test

In [None]:
#janomeをインストールする。
!pip install janome

In [None]:
#「こころ」の最初の100文字を形態素解析する。
from janome.tokenizer import Tokenizer

for token in Tokenizer().tokenize(natsume_test[:100]):
  print(token)

In [None]:
#品詞、原形、表層系、読みをプリントする。
for token in Tokenizer().tokenize(natsume_test[:100]):
  print(token.part_of_speech.split(',')[0], token.base_form, token.surface, token.reading)

In [None]:
#分かち書きをする。
' '.join(list(Tokenizer(wakati=True).tokenize(natsume_test[:100])))

In [None]:
#スクレイピング結果を分かち書きして辞書にする。
texts = {}
for author, url in urls.items():
  text = aozora(url)
  wakati = Tokenizer(wakati=True)
  text = list(wakati.tokenize(text))
  text = ' '.join(text)
  texts[author]=text

In [None]:
#著者名と書き出しの50文字をプリントする。
for author, text in texts.items():
  print(author,text[:50])

In [None]:
#それぞれの作品における単語の出現回数をカウントする
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

text_array = np.array(list(texts.values()))
count = CountVectorizer()
count.fit(text_array)
x = count.transform(text_array)
x = x.toarray()
pd.DataFrame(x, columns=count.get_feature_names_out())

In [None]:
#TF-IDFを求める。
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

text_array = np.array(list(texts.values()))
tfidf = TfidfVectorizer()
x = tfidf.fit_transform(text_array)
x = x.toarray()
pd.DataFrame(x, columns=count.get_feature_names_out())

In [None]:
#正解ラベルを付与しておく。
y = [0,0,0,0,1,1,1,1,0,0,1,1]
y = np.array(y)
y

In [None]:
#データを学習用とテスト用に分割する。
x_train, x_test, y_train, y_test = x[:8], x[8:], y[:8], y[8:]

In [None]:
#ナイーブベイズモデル分類器の訓練と評価をする。
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(x_train, y_train)
print("Accuracy:", clf.score(x_test, y_test))

In [None]:
#正解ラベルと予想した答えをプリントする。
y_pred = clf.predict(x_test)
print(y_test, y_pred)

In [None]:
#混合行列を用いて可視化する。
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, cmap='Blues')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()