## 青空文庫データのスクレイピングとクリーニング
このスクリプトは青空文庫から指定された作品をダウンロードし、HTMLタグを除去してルビや不要な文字をクリーンアップし、
指定したディレクトリにクリーンなテキストを保存します。

### 使用方法
1. 必要なライブラリをインストールします。
2. `url` 変数に青空文庫の作品ページのURLを設定します。ダウンロードしたい作品のhtmlを開き、URLをコピーしてください。
3. `output_directory` と `filename` を設定して、保存先のディレクトリとファイル名を指定します。
4. スクリプトを実行すると、指定したURLからデータを取得し、テキストクリーニングを行った後、ファイルに保存します。

### 参考
[文章生成] スクレイピングで青空文庫からデータを取得してみよう：作って試そう！ ディープラーニング工作室
https://atmarkit.itmedia.co.jp/ait/articles/2101/29/news030.html


In [None]:
! pip install beautifulsoup4 lxml

In [None]:
# 青空文庫から特定の作品のURLを指定
url = 'https://www.aozora.gr.jp/cards/000148/files/773_14560.html'

# 保存したいディレクトリとファイル名を指定
output_directory = 'ディレクトリ名'
filename = 'cleaned_text.txt'

In [None]:
from bs4 import BeautifulSoup
from urllib import request
import re
import os

response = request.urlopen(url)
soup = BeautifulSoup(response, 'html.parser')
response.close()

# divタグでclass="main_text"を検索し、その中の本文だけを取得
main_text = soup.find('div', class_='main_text')

# <rp>タグと<rt>タグを削除
tags_to_delete = main_text.find_all(['rp', 'rt'])
for tag in tags_to_delete:
    tag.decompose()

# タグを削除した後のテキストからさらにルビ情報を削除
main_text = main_text.get_text()
main_text = re.sub('（[\u3041-\u309F]+）', '', main_text)

# 不要な文字を削除
main_text = main_text.replace('\r', '').replace('\n', '').replace('\u3000', '')

# 結果を表示
print(main_text)

# ディレクトリが存在しない場合は作成
if not os.path.exists(output_directory):
    os.makedirs(output_directory)

# 完全なファイルパスを生成
file_path = os.path.join(output_directory, filename)

# ファイルにテキストを書き込む
with open(file_path, 'w', encoding='utf-8') as file:
    file.write(main_text)

print(f'ファイルが保存されました: {file_path}')

In [None]:
from bs4 import BeautifulSoup
from urllib import request
import re
import os

# SSL証明書の検証を無効にするコンテキストを作成
context = ssl._create_unverified_context()

url = 'https://www.aozora.gr.jp/cards/000074/files/427_19793.html'
response = request.urlopen(url, context=context)
soup = BeautifulSoup(response, 'html.parser')
response.close()

# divタグでclass="main_text"を検索し、その中の本文だけを取得
main_text = soup.find('div', class_='main_text')

# <rp>タグと<rt>タグを削除
tags_to_delete = main_text.find_all(['rp', 'rt'])
for tag in tags_to_delete:
    tag.decompose()

# タグを削除した後のテキストからさらにルビ情報を削除
main_text = main_text.get_text()
main_text = re.sub('（[\u3041-\u309F]+）', '', main_text)

# 不要な文字を削除
main_text = main_text.replace('\r', '').replace('\n', '').replace('\u3000', '')

# 結果を表示
print(main_text)

# ディレクトリが存在しない場合は作成
if not os.path.exists(output_directory):
    os.makedirs(output_directory)

# 完全なファイルパスを生成
file_path = os.path.join(output_directory, filename)

# ファイルにテキストを書き込む
with open(file_path, 'w', encoding='utf-8') as file:
    file.write(main_text)

print(f'ファイルが保存されました: {file_path}')