# テキストからHTML/XMLタグ削除

In [None]:
pip install beautifulsoup4

In [8]:
# ライブラリインストール必須： pip install beautifulsoup4
from bs4 import BeautifulSoup

html_doc = "<p>これは<b>サンプル</b>テキストです。</p>"
soup = BeautifulSoup(html_doc, 'html.parser')
cleaned_text = soup.get_text()
print(cleaned_text)

これはサンプルテキストです。


In [9]:
from bs4 import BeautifulSoup

def clean_html_and_compare(html_docs):
    """
    複数のHTMLドキュメントを処理し、処理前後のテキストを比較して表示する関数。
    richライブラリを使用せずに、print()で出力します。

    Args:
        html_docs (list): HTMLドキュメントのリスト。
    """
    print("-" * 40)
    print("HTMLクリーニング比較")  # デバッグテキストを日本語化
    print("-" * 40)

    for i, html_doc in enumerate(html_docs):
        soup = BeautifulSoup(html_doc, 'html.parser')
        cleaned_text = soup.get_text()

        print(f"\nパターン {i+1}:")  # デバッグテキストを日本語化
        print("  元のHTML:")  # デバッグテキストを日本語化
        print(f"    {html_doc}")
        print("  クリーニング後のテキスト:")  # デバッグテキストを日本語化
        print(f"    {cleaned_text}")
        print("-" * 20)


def main():
    """
    メイン関数。複数のHTMLパターンをリストで作成し、処理前後の比較を表示します。
    """
    html_docs = [
        "<p>これは<b>サンプル</b>テキストです。</p>",
        "<p>これは<i>イタリック</i>テキストです。</p>",
        "<p>これは<u>下線付き</u>テキストです。</p>",
        "<p>これは<a href='https://example.com'>リンク</a>テキストです。</p>",
        "<p>これは<span style='color:red;'>色付き</span>テキストです。</p>",
        "<p>これは<br>改行を含む<br>テキストです。</p>",
        "<p>これは<div>div</div>タグを含むテキストです。</p>",
        "<p>これは<h1>見出し</h1>を含むテキストです。</p>",
        "<p>これは<p>入れ子</p>の<p>タグ</p>を含むテキストです。</p>",
        "<p>これは<!-- コメント -->を含むテキストです。</p>",
        "<p>これは&nbsp;空白文字&nbsp;を含むテキストです。</p>",
        "<p>これは<特殊文字>を含むテキストです。</p>",
        "<p>これは&記号&を含むテキストです。</p>",
        "<p>これは<img src='image.jpg' alt='画像'>画像タグを含むテキストです。</p>",
        "<p>これは<ol><li>リスト1</li><li>リスト2</li></ol>を含むテキストです。</p>",
        "<p>これは<ul><li>リスト1</li><li>リスト2</li></ul>を含むテキストです。</p>",
        "<p>これは<table><tr><td>テーブル</td></tr></table>を含むテキストです。</p>",
        "<p>これは<script>alert('スクリプト');</script>スクリプトタグを含むテキストです。</p>",
        "<p>これは<style>body { color: blue; }</style>スタイルタグを含むテキストです。</p>",
        "<p>これは<p><b><i><u>複雑な</u></i></b></p>タグを含むテキストです。</p>",
    ]

    print("=" * 40)
    print("HTMLクリーニングの例") # デバッグテキストを日本語化
    print("=" * 40)
    clean_html_and_compare(html_docs)


if __name__ == "__main__":
    main()

HTMLクリーニングの例
----------------------------------------
HTMLクリーニング比較
----------------------------------------

パターン 1:
  元のHTML:
    <p>これは<b>サンプル</b>テキストです。</p>
  クリーニング後のテキスト:
    これはサンプルテキストです。
--------------------

パターン 2:
  元のHTML:
    <p>これは<i>イタリック</i>テキストです。</p>
  クリーニング後のテキスト:
    これはイタリックテキストです。
--------------------

パターン 3:
  元のHTML:
    <p>これは<u>下線付き</u>テキストです。</p>
  クリーニング後のテキスト:
    これは下線付きテキストです。
--------------------

パターン 4:
  元のHTML:
    <p>これは<a href='https://example.com'>リンク</a>テキストです。</p>
  クリーニング後のテキスト:
    これはリンクテキストです。
--------------------

パターン 5:
  元のHTML:
    <p>これは<span style='color:red;'>色付き</span>テキストです。</p>
  クリーニング後のテキスト:
    これは色付きテキストです。
--------------------

パターン 6:
  元のHTML:
    <p>これは<br>改行を含む<br>テキストです。</p>
  クリーニング後のテキスト:
    これは改行を含むテキストです。
--------------------

パターン 7:
  元のHTML:
    <p>これは<div>div</div>タグを含むテキストです。</p>
  クリーニング後のテキスト:
    これはdivタグを含むテキストです。
--------------------

パターン 8:
  元のHTML:
    <p>これは<h1>見出し</h1>を含むテキストです。</p>
  クリーニング後のテキスト: