# 第4章 テキスト要約

<div class="toc">
 <ul class="toc-item">
     <li><span><a href="#一導入" data-toc-modified-id="一、導入">一、導入</a></span></li>
     <li>
         <span><a href="#二単一テキスト要約" data-toc-modified-id="二、単一テキスト要約実験">二、単一テキスト要約実験</a></span>
         <ul class="toc-item">
             <li><span><a href="#21-出力テキスト長の制限" data-toc-modified-id="2.1 出力テキスト長の制限">2.1 出力テキスト長の制限</a></span></li> 
             <li><span><a href="#22-重要な視点の設定" data-toc-modified-id="2.2 重要な視点の設定">2.2 重要な視点の設定</a></span></li>
             <li><span><a href="#23-重要情報の抽出" data-toc-modified-id="2.3 重要情報の抽出">2.3 重要情報の抽出</a></span></li>
             </ul>
         </li>
     <li><span><a href="#三複数テキストの同時要約" data-toc-modified-id="三、複数テキストの同時要約">三、複数テキストの同時要約</a></span></li>
     </ul>
</div>

## 一、導入

今日の世界にはテキスト情報が膨大に存在し、私たちが理解したいすべてのものを読むのに十分な時間を持つことは非常に困難です。しかし嬉しいことに、現在LLMはテキスト要約タスクにおいて強力なレベルを示しており、多くのチームが様々なアプリケーションで要約機能を実装しています。

本章では、プログラミングを使用してAPIインターフェースを呼び出し、「テキスト要約」機能を実現する方法を紹介します。

まず、OpenAIパッケージをインポートし、APIキーを読み込み、getCompletion関数を定義する必要があります。

In [ ]:
import openai
# サードパーティライブラリのインポート

openai.api_key = "sk-..."
# API_KEYの設定、ご自身のAPI_KEYに置き換えてください

In [ ]:
def get_completion(prompt, model="gpt-3.5-turbo"): 
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0, # 値が低いほど出力テキストのランダム性が低くなる
    )
    return response.choices[0].message["content"]

## 二、単一テキスト要約

商品レビューの要約タスクを例に取ります：ECプラットフォームにとって、ウェブサイト上には膨大な商品レビューが存在することが多く、これらのレビューはすべての顧客の考えを反映しています。これらの膨大で冗長なレビューを要約するツールがあれば、より多くのレビューを迅速に閲覧し、顧客の好みを洞察し、プラットフォームと商店がより優れたサービスを提供するよう導くことができます。

**入力テキスト**

In [3]:
prod_review = """
Got this panda plush toy for my daughter's birthday, \
who loves it and takes it everywhere. It's soft and \ 
super cute, and its face has a friendly look. It's \ 
a bit small for what I paid though. I think there \ 
might be other options that are bigger for the \ 
same price. It arrived a day earlier than expected, \ 
so I got to play with it myself before I gave it \ 
to her.
"""

**入力テキスト（日本語翻訳）**

In [ ]:
prod_review_jp = """
このパンダのぬいぐるみは娘の誕生日プレゼントで、とても気に入って、どこへ行くにも持参しています。
ぬいぐるみはとても柔らかくて超可愛く、顔の表情もとても優しいです。でも価格に比べると、
少し小さくて、同じ価格で他の場所でもっと大きいものが買えると思います。
配送は予定より1日早く到着したので、娘に渡す前に、自分で少し遊んでみました。
"""

### 2.1 出力テキスト長の制限

テキスト長を最大30語に制限してみます。

In [4]:
prompt = f"""
Your task is to generate a short summary of a product \
review from an ecommerce site. 

Summarize the review below, delimited by triple 
backticks, in at most 30 words. 

Review: ```{prod_review}```
"""

response = get_completion(prompt)
print(response)

Soft and cute panda plush toy loved by daughter, but a bit small for the price. Arrived early.


日本語翻訳版

In [ ]:
prompt = f"""
あなたのタスクは、ECサイトの商品レビューの短い要約を作成することです。

三つのバッククォートで区切られた以下のレビューテキストを、最大30語で要約してください。

レビュー: ```{prod_review_jp}```
"""

response = get_completion(prompt)
print(response)

### 2.2 重要な視点の設定

時には、異なるビジネスに対して、テキストの重点が異なることがあります。例えば、商品レビューテキストに対して、物流部門は配送時間により関心を持ち、商店は価格と商品品質により関心を持ち、プラットフォームは全体的なサービス体験により関心を持ちます。

プロンプトの提示を追加することで、特定の視点に対する重点を反映できます。

### 2.2.1 配送サービスに重点を置く

In [6]:
prompt = f"""
Your task is to generate a short summary of a product \
review from an ecommerce site to give feedback to the \
Shipping deparmtment. 

Summarize the review below, delimited by triple 
backticks, in at most 30 words, and focusing on any aspects \
that mention shipping and delivery of the product. 

Review: ```{prod_review}```
"""

response = get_completion(prompt)
print(response)

The panda plush toy arrived a day earlier than expected, but the customer felt it was a bit small for the price paid.


日本語翻訳版

In [ ]:
prompt = f"""
あなたのタスクは、ECサイトの商品レビューの短い要約を作成することです。

三つのバッククォートで区切られた以下のレビューテキストを、最大30語で要約し、商品配送に焦点を当ててください。

レビュー: ```{prod_review_jp}```
"""

response = get_completion(prompt)
print(response)

「配送が早く到着した」で始まる出力結果を見ることができ、配送効率に対する重点が反映されています。

### 2.2.2 価格と品質に重点を置く

In [9]:
prompt = f"""
Your task is to generate a short summary of a product \
review from an ecommerce site to give feedback to the \
pricing deparmtment, responsible for determining the \
price of the product.  

Summarize the review below, delimited by triple 
backticks, in at most 30 words, and focusing on any aspects \
that are relevant to the price and perceived value. 

Review: ```{prod_review}```
"""

response = get_completion(prompt)
print(response)

The panda plush toy is soft, cute, and loved by the recipient, but the price may be too high for its size compared to other options.


日本語翻訳版

In [ ]:
prompt = f"""
あなたのタスクは、ECサイトの商品レビューの短い要約を作成することです。

三つのバッククォートで区切られた以下のレビューテキストを、最大30語で要約し、商品価格と品質に焦点を当ててください。

レビュー: ```{prod_review_jp}```
"""

response = get_completion(prompt)
print(response)

「品質が良い、価格が少し高い、サイズが小さい」で始まる出力結果を見ることができ、商品価格と品質に対する重点が反映されています。

### 2.3 重要情報の抽出

2.2節では、重要な視点に重点を置くプロンプトを追加することで、テキスト要約をより特定の側面に重点を置くようにしましたが、結果にはまだ他の情報も保持されていることが分かります。例えば、価格と品質の視点に重点を置いた要約でも「配送が早く到着した」の情報が保持されています。特定の視点の情報のみを抽出し、他のすべての情報をフィルタリングしたい場合は、LLMに「テキスト抽出（Extract）」を行うよう求め、「要約（Summarize）」ではなくすることができます。

In [13]:
prompt = f"""
Your task is to extract relevant information from \ 
a product review from an ecommerce site to give \
feedback to the Shipping department. 

From the review below, delimited by triple quotes \
extract the information relevant to shipping and \ 
delivery. Limit to 30 words. 

Review: ```{prod_review}```
"""

response = get_completion(prompt)
print(response)

"The product arrived a day earlier than expected."


日本語翻訳版

In [ ]:
prompt = f"""
あなたのタスクは、ECサイトの商品レビューから関連情報を抽出することです。

以下の三つのバッククォートで区切られたレビューテキストから商品配送に関連する情報を抽出してください。最大30語まで。

レビュー: ```{prod_review_jp}```
"""

response = get_completion(prompt)
print(response)

## 三、複数テキストの同時要約

実際のワークフローでは、多くのレビューテキストがあることが多く、以下の例では複数のユーザー評価をリストに入れ、```for```ループを利用して、テキスト要約（Summarize）プロンプトを使用し、評価を20語未満に要約し、順番に印刷します。もちろん、実際の製品では、異なる規模のレビューテキストに対して、```for```ループを使用する以外にも、レビューの統合、分散処理などの方法で運算効率を向上させることを検討する必要があるかもしれません。大量のユーザーレビューを要約するコントロールパネルを構築して、あなたや他の人が迅速に閲覧でき、元のレビューをクリックして表示することもできます。これにより、顧客のすべての考えを効率的に把握できます。

In [5]:
review_1 = prod_review

# review for a standing lamp
review_2 = """
Needed a nice lamp for my bedroom, and this one \
had additional storage and not too high of a price \
point. Got it fast - arrived in 2 days. The string \
to the lamp broke during the transit and the company \
happily sent over a new one. Came within a few days \
as well. It was easy to put together. Then I had a \
missing part, so I contacted their support and they \
very quickly got me the missing piece! Seems to me \
to be a great company that cares about their customers \
and products.
"""

# review for an electric toothbrush
review_3 = """
My dental hygienist recommended an electric toothbrush, \
which is why I got this. The battery life seems to be \
pretty impressive so far. After initial charging and \
leaving the charger plugged in for the first week to \
condition the battery, I've unplugged the charger and \
been using it for twice daily brushing for the last \
3 weeks all on the same charge. But the toothbrush head \
is too small. I’ve seen baby toothbrushes bigger than \
this one. I wish the head was bigger with different \
length bristles to get between teeth better because \
this one doesn’t.  Overall if you can get this one \
around the $50 mark, it's a good deal. The manufactuer's \
replacements heads are pretty expensive, but you can \
get generic ones that're more reasonably priced. This \
toothbrush makes me feel like I've been to the dentist \
every day. My teeth feel sparkly clean!
"""

# review for a blender
review_4 = """
So, they still had the 17 piece system on seasonal \
sale for around $49 in the month of November, about \
half off, but for some reason (call it price gouging) \
around the second week of December the prices all went \
up to about anywhere from between $70-$89 for the same \
system. And the 11 piece system went up around $10 or \
so in price also from the earlier sale price of $29. \
So it looks okay, but if you look at the base, the part \
where the blade locks into place doesn’t look as good \
as in previous editions from a few years ago, but I \
plan to be very gentle with it (example, I crush \
very hard items like beans, ice, rice, etc. in the \
blender first then pulverize them in the serving size \
I want in the blender then switch to the whipping \
blade for a finer flour, and use the cross cutting blade \
first when making smoothies, then use the flat blade \
if I need them finer/less pulpy). Special tip when making \
smoothies, finely cut and freeze the fruits and \
vegetables (if using spinach-lightly stew soften the \
spinach then freeze until ready for use-and if making \
sorbet, use a small to medium sized food processor) \
that you plan to use that way you can avoid adding so \
much ice if at all-when making your smoothie. \
After about a year, the motor was making a funny noise. \
I called customer service but the warranty expired \
already, so I had to buy another one. FYI: The overall \
quality has gone done in these types of products, so \
they are kind of counting on brand recognition and \
consumer loyalty to maintain sales. Got it in about \
two days.
"""

reviews = [review_1, review_2, review_3, review_4]

In [ ]:
review_1 = prod_review_jp

# スタンドランプのレビュー
review_2 = """
寝室用の素敵なランプが欲しくて、このランプは追加の収納スペースもあり、価格もそれほど高くありませんでした。\
購入後すぐに届き、2日で到着しました。しかし輸送中にランプのひもが壊れてしまいましたが、会社の対応は\
とても良く、新しいものを送ってくれました。新しいひもも数日以内に到着しました。このランプはとても組み立てが簡単でした。その後、\
パーツが一つ不足していることが分かったので、カスタマーサポートに連絡したところ、すぐに不足していた部品を\
送ってくれました！顧客と製品を非常に大切にする素晴らしい会社だと思います。
"""

# 電動歯ブラシのレビュー
review_3 = """
歯科衛生士が電動歯ブラシを勧めてくれたので、この歯ブラシを購入しました。現在のところ、電池の\
持続時間はかなり印象的です。初回充電後、第一週は充電器を差し込んだままで電池の調整を行い、その後\
充電器を抜いて、過去3週間、毎日2回の歯磨きをすべて同じ充電で使用しています。しかし、この歯ブラシのブラシ部分は\
本当に小さすぎます。赤ちゃん用歯ブラシでもこれより大きいものを見たことがあります。ブラシ部分をもう少し大きくして、異なる長さの\
毛でより良く歯間を清掃できるようにしてほしいです。現在のものではそれができません。全体的に、約50ドルの価格で購入できれば\
お得だと思います。メーカー純正の替えブラシはかなり高価ですが、より合理的な価格の汎用品を購入できます。\
この歯ブラシを使うと、毎日歯医者に行ったような感じになります。歯がぴかぴかに清潔になります！
"""

# ブレンダーのレビュー
review_4 = """
彼らは11月に17ピースシステムを約49ドルのセール価格で販売していました、ほぼ半額でした。しかし理由は不明ですが（価格操作と言えるかもしれません）\
12月第2週になると、同じシステムの価格が一気に70〜89ドルに跳ね上がりました。11ピースシステムの価格も以前のセール価格29ドルから\
約10ドル上昇しました。見た目はまあまあですが、ベース部分をよく見ると、ブレード固定部分が数年前のバージョンに比べて若干劣っているので、\
とても慎重に使用するつもりです（例えば、豆類、氷、米などの硬い食材はまずブレンダーで砕いてから、必要な分量に調整し、\
その後ホイップブレードで細かい粉状にし、スムージーを作る時は最初にクロスカッティングブレードを使い、より細かく/パルプを少なくしたい時は\
フラットブレードを使います）。スムージーを作る時のコツは、使用予定の果物や野菜を細かく切って冷凍することです（ほうれん草を使う場合は、軽く蒸して\
柔らかくしてから冷凍し、ソルベを作る時は小〜中サイズのフードプロセッサーを使います）。これにより氷をほとんど、あるいは全く\
スムージーに加える必要がなくなります。約1年後、モーターが変な音を出すようになりました。\
カスタマーサービスに連絡しましたが、保証期間がすでに過ぎていたので、新しいものを購入する必要がありました。参考情報：この種の製品の全体的な\
品質は低下しているので、彼らはブランド認知度と消費者の忠誠度に依存して売上を維持しています。2日後に届きました。
"""

reviews = [review_1, review_2, review_3, review_4]

In [10]:
for i in range(len(reviews)):
    prompt = f"""
    Your task is to generate a short summary of a product \
    review from an ecommerce site. 

    Summarize the review below, delimited by triple \
    backticks in at most 20 words. 

    Review: ```{reviews[i]}```
    """
    response = get_completion(prompt)
    print(i, response, "\n")

0 Soft and cute panda plush toy loved by daughter, but a bit small for the price. Arrived early. 

1 Affordable lamp with storage, fast shipping, and excellent customer service. Easy to assemble and missing parts were quickly replaced. 

2 Good battery life, small toothbrush head, but effective cleaning. Good deal if bought around $50. 

3 The product was on sale for $49 in November, but the price increased to $70-$89 in December. The base doesn't look as good as previous editions, but the reviewer plans to be gentle with it. A special tip for making smoothies is to freeze the fruits and vegetables beforehand. The motor made a funny noise after a year, and the warranty had expired. Overall quality has decreased. 



In [ ]:
for i in range(len(reviews)):
    prompt = f"""
    あなたのタスクは、ECサイトの商品レビューから関連情報を抽出することです。

    三つのバッククォートで区切られた以下のレビューテキストを、最大20語で要約してください。

    レビューテキスト: ```{reviews[i]}```
    """
    response = get_completion(prompt)
    print(i, response, "\n")

0 要約：可愛いパンダのぬいぐるみ、品質良好、配送迅速、しかし少し小さい。 

1 このレビューは追加の収納スペースがある寝室用ランプに関するもので、価格が適切。顧客は会社のサービスと製品に満足を表明。 

2 レビュー要約：電動歯ブラシの電池寿命は長いが、ブラシヘッドが小さすぎ、より長い毛が必要。価格合理的、使用後歯がきれいに。 

3 レビュー要約：製品価格が12月に上昇、品質は以前ほど良くないが、配送速度は迅速。 