# HTML to JSON Converter for RAG
業務システムのマニュアル・FAQのHTMLファイルをRAG用のJSONに変換するデモ

## 実行手順
1. 必要なライブラリをインストール
2. HTMLファイルを`input`フォルダにアップロード
3. 必要に応じて`noise_pattern.txt`にノイズパターンを設定
4. 変換処理を実行
5. `output`フォルダから結果をダウンロード


## 1. 環境準備とファイルアップロード


In [None]:
# 必要なディレクトリを作成
import os
os.makedirs('input', exist_ok=True)
os.makedirs('output', exist_ok=True)

# noise_pattern.txtを作成（必要に応じて編集）
with open('noise_pattern.txt', 'w', encoding='utf-8') as f:
    f.write("# ノイズパターン（正規表現）\n")
    f.write("# 例：\n")
    f.write("# <div class=\"advertisement\">.*?</div>\n")
    f.write("# <footer>.*?</footer>\n")

print("ディレクトリとファイルを作成しました")
print("次に、HTMLファイルをinputフォルダにアップロードしてください")


In [None]:
# ファイルアップロード（Google Colab用）
from google.colab import files
import shutil

print("HTMLファイルをアップロードしてください")
uploaded = files.upload()

# アップロードされたファイルをinputフォルダに移動
for filename in uploaded.keys():
    if filename.endswith(('.html', '.htm')):
        shutil.move(filename, f'input/{filename}')
        print(f"移動完了: {filename} -> input/{filename}")
    else:
        print(f"HTMLファイルではありません: {filename}")


## 2. 変換処理の実行


In [None]:
# 変換スクリプトを実行
%run html_to_json_converter.py


## 3. 結果の確認とダウンロード


In [None]:
# 結果ファイルの内容を確認
import json
import os

output_file = 'output/converted_documents.json'
if os.path.exists(output_file):
    with open(output_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    print(f"変換完了: {len(data)} 個のドキュメントを生成")
    print("\n=== サンプルドキュメント ===")
    if data:
        sample = data[0]
        print(f"ID: {sample['id']}")
        print(f"ソース: {sample['metadata']['source']}")
        print(f"URL: {sample['metadata']['url']}")
        print(f"内容プレビュー: {sample['content'][:200]}...")
else:
    print("変換結果ファイルが見つかりません")


In [None]:
# 結果ファイルをダウンロード
from google.colab import files

if os.path.exists('output/converted_documents.json'):
    files.download('output/converted_documents.json')
    print("ダウンロード完了")
else:
    print("ダウンロードするファイルがありません")
