# Summarizing Text (テキスト要約)

このノートブックでは、抽出に基づいてテキストを要約する実験を行います。 この要約の手法は、提供されたテキスト内の主要な文を識別しようとし、それらの主要な文だけを返した結果である要約を返します。

テキストを要約するために実行するプロセスは、次の手順を含むテキスト分析パイプラインのサブセットです。

- テキストを正規化します。この場合、改行文字のテキストをクリーンアップするだけです。 これに続いて、簡単な文のトークン化が行われます。これにより、段落が文に分割され、余分な末尾のスペースが削除されます。 最後に、クリーンアップされたテキストが文字列として返されます。
- 分析メソッドを適用します。この場合、gensimライブラリーが提供するsummaryメソッドを使用して、要約された結果を生成します。

**続行する前にノートブック `00 Init`を実行したことを確認してください**

## Task 1 - モジュールをインポートする

まず、ロジックで使用されるモジュールをインポートする必要があります。

In [None]:
import nltk
import re
import unicodedata
import numpy as np
from gensim.summarization import summarize
nltk.download('punkt')

## Task 2 - テキストを正規化する

以下では、改行文字を削除し、テキストの段落を文字列文の配列にトークン化し、文を囲む余分なスペースを取り除くメソッドを定義します。 これは、単純ですが典型的なテキストの正規化手順の例です。

In [None]:
def clean_and_parse_document(document):
    document = re.sub('\n', ' ', document)
    document = document.strip()
    sentences = nltk.sent_tokenize(document)
    sentences = [sentence.strip() for sentence in sentences]
    return sentences

## Task 3 - テキストを要約する

以下では、gensimモジュールのsummaryメソッドを使用するメソッドを定義します。 clean_and_parse_documentルーチンから前処理された出力を取得し、文字列文の配列を連結して1つのテキストアイテムに変換します。 テキスト分析を実行するとき、一部の分析メソッドはトークン化された入力を必要とする場合があり、その他は文字列入力を必要とする場合があるため、これは一般的なプロセスです。 この場合、summaryメソッドには入力としてテキスト文字列が必要です。

In [None]:
def summarize_text(text, summary_ratio=None, word_count=30):
    sentences = clean_and_parse_document(text)
    cleaned_text = ' '.join(sentences)
    summary = summarize(cleaned_text, split=True, ratio=summary_ratio, word_count=word_count)
    return summary 

## Task 4 - Try it out

Contoso Ltd.が遭遇する可能性があるかなり長いクレームの説明を表す文字列の例を作成します。 例文が提供されていますが、ご自分で編集しても構いません。

In [None]:
example_document = """
I was driving down El Camino and stopped at a red light.
It was about 3pm in the afternoon.  
The sun was bright and shining just behind the stoplight.
This made it hard to see the lights.
There was a car on my left in the left turn lane.
A few moments later another car, a black sedan pulled up behind me. 
When the left turn light changed green, the black sedan hit me thinking 
that the light had changed for us, but I had not moved because the light 
was still red.
After hitting my car, the black sedan backed up and then sped past me.
I did manage to catch its license plate. 
The license plate of the black sedan was ABC123. 
"""

次に、サンプルドキュメントに対してsummary_text関数を呼び出し、結果を確認します。

In [None]:
summarize_text(example_document)

概要が文字列の配列として返されることを確認します。 複数の文が返された場合、複数の配列エントリがあります。

## Task 5 - 実験

- 上記の要約テキスト機能は、デフォルトで約30語の長さの要約を提供します。 テキストを60語に要約しようとするとどうなりますか？
- 要約の目標長より短い要約を送信するテキストを送信するとどうなりますか？