In [4]:
import os
import json
from bs4 import BeautifulSoup

def convert_html_to_json(input_folder, output_folder):
    # 入力フォルダ内のすべてのファイルを取得
    for filename in os.listdir(input_folder):
        if filename.endswith('.html'):
            input_path = os.path.join(input_folder, filename)

            # HTMLファイルを読み込み
            with open(input_path, 'r', encoding='utf-8') as file:
                html_content = file.read()

            # BeautifulSoupを使用してHTMLコンテンツをパース
            soup = BeautifulSoup(html_content, 'html.parser')

            # ページのテキストを抽出し、余分な改行を削除
            text_content = soup.get_text(separator='\n')
            clean_text_content = ' '.join(text_content.split())

            # クリーンなテキストをJSON形式で保存
            output_data = {
                "content": clean_text_content
            }

            # 出力ファイルパスを設定
            json_filename = os.path.splitext(filename)[0] + '.json'
            output_path = os.path.join(output_folder, json_filename)

            # JSONファイルとして保存
            with open(output_path, 'w', encoding='utf-8') as json_file:
                json.dump(output_data, json_file, ensure_ascii=False, indent=4)
            print(f"{filename} のクリーンなテキストコンテンツが {json_filename} として保存されました。")


# 入力フォルダと出力フォルダのパス
input_folder_path = 'src/HTMLs'
output_folder_path = 'src/JSONs'

# HTMLファイルを処理してJSONファイルに変換
convert_html_to_json(input_folder_path, output_folder_path)


BTP All IN Program.html のクリーンなテキストコンテンツが BTP All IN Program.json として保存されました。
BTP, Analytics Cloud_ Service Map - Ad Hoc Advisory.html のクリーンなテキストコンテンツが BTP, Analytics Cloud_ Service Map - Ad Hoc Advisory.json として保存されました。
BTP, Analytics Cloud_ Service Map - Development Infrastructure & Administrative Readiness.html のクリーンなテキストコンテンツが BTP, Analytics Cloud_ Service Map - Development Infrastructure & Administrative Readiness.json として保存されました。
BTP, Analytics Cloud_ Service Map - New Feature Adoption Guidance.html のクリーンなテキストコンテンツが BTP, Analytics Cloud_ Service Map - New Feature Adoption Guidance.json として保存されました。
BTP, Analytics Cloud_ Service Map - System Administrator & End User Training.html のクリーンなテキストコンテンツが BTP, Analytics Cloud_ Service Map - System Administrator & End User Training.json として保存されました。
BTP, Analytics Cloud_ Service Maps - Success Check_ Business Goals & KPI Reporting.html のクリーンなテキストコンテンツが BTP, Analytics Cloud_ Service Maps - Success Check_ Business Goals & KPI Reporting.json として保

In [5]:
import os
import shutil
import pdfkit
from pptx import Presentation
from openpyxl import load_workbook

def organize_files(input_folder, output_folder):
    # 出力フォルダに必要なサブフォルダを定義
    excel_folder = os.path.join(output_folder, 'Excel')
    pdf_folder = os.path.join(output_folder, 'PDF')
    other_folder = os.path.join(output_folder, 'Other')

    # 必要なフォルダを作成
    os.makedirs(excel_folder, exist_ok=True)
    os.makedirs(pdf_folder, exist_ok=True)
    os.makedirs(other_folder, exist_ok=True)

    # 入力フォルダ内のすべてのファイルを取得
    for filename in os.listdir(input_folder):
        input_path = os.path.join(input_folder, filename)

        # ファイルかどうかを確認
        if os.path.isfile(input_path):
            # ファイル拡張子を取得
            file_extension = os.path.splitext(filename)[1].lower()

            if file_extension == '.xlsx':
                # ExcelファイルをExcelフォルダに移動
                shutil.move(input_path, os.path.join(excel_folder, filename))
                print(f"Moved {filename} to Excel folder.")

            elif file_extension == '.pptx':
                # PPTXファイルをPDFに変換してPDFフォルダに保存
                presentation = Presentation(input_path)
                pdf_path = os.path.join(pdf_folder, os.path.splitext(filename)[0] + '.pdf')
                presentation.save(pdf_path)
                shutil.move(input_path, os.path.join(pdf_folder, filename))
                print(f"Converted {filename} to PDF and moved to PDF folder.")

            elif file_extension == '.pdf':
                # PDFファイルをPDFフォルダに移動
                shutil.move(input_path, os.path.join(pdf_folder, filename))
                print(f"Moved {filename} to PDF folder.")

            else:
                # その他のファイルをOtherフォルダに移動
                shutil.move(input_path, os.path.join(other_folder, filename))
                print(f"Moved {filename} to Other folder.")

# 入力フォルダと出力フォルダのパスを指定
input_folder = './src/original_folder'
output_folder = './src'

# ファイルを整理
organize_files(input_folder, output_folder)


Collecting openpyxl
  Using cached openpyxl-3.1.2-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting python-pptx
  Downloading python_pptx-0.6.23-py3-none-any.whl.metadata (18 kB)
Collecting pdfkit
  Downloading pdfkit-1.0.0-py3-none-any.whl.metadata (9.3 kB)
Collecting et-xmlfile (from openpyxl)
  Using cached et_xmlfile-1.1.0-py3-none-any.whl.metadata (1.8 kB)
Collecting XlsxWriter>=0.5.7 (from python-pptx)
  Downloading XlsxWriter-3.2.0-py3-none-any.whl.metadata (2.6 kB)
Using cached openpyxl-3.1.2-py2.py3-none-any.whl (249 kB)
Downloading python_pptx-0.6.23-py3-none-any.whl (471 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m471.6/471.6 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25hDownloading pdfkit-1.0.0-py3-none-any.whl (12 kB)
Downloading XlsxWriter-3.2.0-py3-none-any.whl (159 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m159.9/159.9 kB[0m [31m11.5 MB/s[0m eta [36m0:00:00[0m
[?25hUsing cached et_xmlfile-1.1.0-py3-none-