<a href="https://colab.research.google.com/github/sinheechan/Text_summarization_Translation/blob/main/openapi_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# OpenAPI를 이용한 논문, 기사, 글 요약 및 번역

### Reference

```
이제현, 유시현, 김창기, 김현구, "Open API를 활용한 고속 논문 분석",
실용인공지능학회지 vol.1 p.9, 2022
```

## Get - API key

- Rapid_API Adress : https://rapidapi.com/developer/new
- RapidAPI는 웹 API를 탐색하고 사용할 수 있도록 도와주는 플랫폼입니다.

In [1]:
rapidapi_key = '569afc919amsh345e96c64b0a032p1fc949jsnb6f0a0d5351b'

## 2. Model : TLDRThis

### Human-like Article Summarization

텍스트를 요약해주는 인공지능 모델 4개의 성능을 테스트합니다.
<br /><br />

- Human-like Article Summarization

- Extractive Article Summarization

- Human-like Text Summarization

- Extractive Text Summarization

### 요약의 종류

1. Human-like summarization

> Abstractive summarization(생성 요약)은 기존 Input text를 그대로 인용하지 않고,   
기존의 내용을 새롭게 re-phrasing 하여 Summary를 생성하는 요약 모델입니다.

2. Extractive summarization

> 반면에 Extractive summarization(추출 요약)은 기존 Input text에 존재하는  
 중요한 단어를 그대로 사용하여 Summary를 생성하는 요약 모델입니다.

## 3. Dataset : 예시 논문

본 코드 테스트를 위한 글로 아래 논문을 활용합니다.

- 페이지 : https://arxiv.org/abs/1706.03762
- 본문(pdf) : https://arxiv.org/pdf/1706.03762.pdf

## 4. Setting

In [2]:
import requests
from pprint import pprint

## 5. Text_Summarization

본 코드는 Web에서 요청한 자료이므로 pdf 가 아니라 웹 이므로 html 코드로 반환됩니다.

또한 가장 하단에 summay 텍스트도 함께 첨부됩니다.

In [3]:
# Human-like Article Summarization 모델의 URL 등록
url = 'https://tldrthis.p.rapidapi.com/v1/model/abstractive/summarize-url/'

# 테스트 논문 등록 및 요약글 설정
payload = {
    "url": "https://proceedings.mlr.press/v97/tan19a.html?ref=jina-ai-gmbh.ghost.io",
    "min_length": 100,
    "max_length": 300,
    "is_detailed": False
}

# 설명서 양식 참고
headers = {
    "content-type": "application/json",
    "X-RapidAPI-Key": rapidapi_key,
    "X-RapidAPI-Host": "tldrthis.p.rapidapi.com"
}

response = requests.request("POST", url, json=payload, headers=headers)

pprint(response.json())

{'article_abstract': None,
 'article_authors': ['Mingxing Tan', 'Quoc Le'],
 'article_html': '<div><p class="bibbuttontext column">\n'
                 '    BibTeX\n'
                 '  </p><p class="codebox">\n'
                 '    <code class="citecode" id="bibtex">\n'
                 '@InProceedings{pmlr-v97-tan19a,\n'
                 '  title = \t {{E}fficient{N}et: Rethinking Model Scaling for '
                 'Convolutional Neural Networks},\n'
                 '  author =       {Tan, Mingxing and Le, Quoc},\n'
                 '  booktitle = \t {Proceedings of the 36th International '
                 'Conference on Machine Learning},\n'
                 '  pages = \t {6105--6114},\n'
                 '  year = \t {2019},\n'
                 '  editor = \t {Chaudhuri, Kamalika and Salakhutdinov, '
                 'Ruslan},\n'
                 '  volume = \t {97},\n'
                 '  series = \t {Proceedings of Machine Learning Research},\n'
                 '  month =

HTTP 응답에서 'summary' 키 값을 출력합니다.

In [4]:
summary = response.json()['summary'][0].strip()

print(summary)

Convolutional Neural Networks (ConvNets) are commonly developed at a fixed resource budget, and then scaled up for better accuracy if more resources are given. Based on this observation, we propose a new scaling method that uniformly scales all dimensions of depth/width/resolution using a simple yet highly effective compound coefficient. We demonstrate the effectiveness of this method on MobileNets and ResNet.


## 6. Translation

### 6.1 Google Transe API

- googletranse : api 불필요하며 구글 번역 수준의 성능을 가지고 있습니다.

- 구글 번역 api 래퍼런스 및 코드 메뉴얼은 https://www.dinolabs.ai/386 링크를 참고하였습니다.

In [5]:
!pip install googletrans==3.1.0a0



In [6]:
from googletrans import Translator
import json

def translate_text(text, target_language='ko'):
    translator = Translator()
    translated_sentences = []
    for sentence in text:
        translated_sentence = translator.translate(sentence, dest=target_language)
        translated_sentences.append(translated_sentence.text)
    return translated_sentences

# 응답받은 텍스트 디코딩
# 문자열하고 json은 결은 같지만 형태는 달라 변환이 필요하다.
response_text = response.text
response_json = json.loads(response_text)

# 번역할 텍스트 추출
text_to_translate = response_json.get('summary', '')

# 번역된 텍스트
translated_text = translate_text(text_to_translate)

print("번역된 텍스트:", translated_text)


번역된 텍스트: ['ConvNet(Convolutional Neural Network)은 일반적으로 고정된 리소스 예산으로 개발된 다음 더 많은 리소스가 제공되면 정확도를 높이기 위해 확장됩니다. 이러한 관찰을 바탕으로 우리는 간단하지만 매우 효과적인 복합 계수를 사용하여 깊이/너비/해상도의 모든 차원을 균일하게 스케일링하는 새로운 스케일링 방법을 제안합니다. 우리는 MobileNets 및 ResNet에서 이 방법의 효율성을 보여줍니다.']


## 함수화

앞선 번역 및 실행 과정이 이슈 없이 실행됨을 확인하였으며

본 프로젝트를 진행하기 위한 함수 코드를 제작하여 테스트에 활용합니다.

또한 실험을 위한 4개 요약 모델의 URL을 아래 첨부하여 성능을 비교합니다.

- Human-like Article Summarization URL : 'https://tldrthis.p.rapidapi.com/v1/model/abstractive/summarize-url/'
- Extractive Article Summarization URL : 'https://tldrthis.p.rapidapi.com/v1/model/extractive/summarize-url/'
- Human-like Text Summarization : 'https://tldrthis.p.rapidapi.com/v1/model/abstractive/summarize-text/'
- Extractive Text Summarization URL : 'https://tldrthis.p.rapidapi.com/v1/model/extractive/summarize-text/'

In [28]:
# Rapid API URL

# url = 'https://tldrthis.p.rapidapi.com/v1/model/abstractive/summarize-url/'
url = 'https://tldrthis.p.rapidapi.com/v1/model/extractive/summarize-url/'



# 요약 기능 + 번역기능
def summarize_and_translate(article_url, min_length=100, max_length=300, target_language='ko'):
    payload = {
        "url": article_url,
        "min_length": min_length,
        "max_length": max_length,
        "is_detailed": False
    }

    # 설명서 양식 참고
    headers = {
        "content-type": "application/json",
        "X-RapidAPI-Key": rapidapi_key,
        "X-RapidAPI-Host": "tldrthis.p.rapidapi.com"
    }

    response = requests.request("POST", url, json=payload, headers=headers)
    response_json = response.json()

    # 번역할 텍스트 추출
    text_to_translate = response_json.get('summary', '')

    # 번역 기능
    translated_summary = translate_text(text_to_translate, target_language)

    # 결과 출력
    pprint(translated_summary)

    return translated_summary

# 번역기능
def translate_text(text, target_language='ko'):
    translator = Translator()
    translated_sentences = []
    for sentence in text:
        translated_sentence = translator.translate(sentence, dest=target_language)
        translated_sentences.append(translated_sentence.text)
    return translated_sentences

## 8. Result

### 8.1 Human-like Article Summarization

In [27]:
summary_input = summarize_and_translate("https://www.npr.org/2024/04/04/1242897812/trump-classified-documents-mar-a-lago-jack-smith-judge-cannon-denied", 50, 100)

['판사는 트럼프의 마라라고 기밀문서 사건이 진행될 수 있다고 판결했다. 기소장에서 그는 간첩법 위반 혐의로 32개 혐의를 받고 있다. '
 '검찰은 이번 여름부터 재판이 시작되기를 원하는 반면, 트럼프 측 변호인들은 재판이 11월 대선 이후까지 연기되어야 한다고 생각하고 있다.']


### 8.2 Extractive Article Summarization

In [29]:
summary_input = summarize_and_translate("https://www.npr.org/2024/04/04/1242897812/trump-classified-documents-mar-a-lago-jack-smith-judge-cannon-denied", 50, 100)

['판사는 트럼프의 마라라고 기밀문서 사건을 진행할 수 있다고 판결했다.\n'
 '\n'
 '이 이미지 확대 토글 캡션 Chandan Khanna/AFP via Getty Images Chandan Khanna/AFP via '
 'Getty Images\n'
 '\n'
 '마이애미 — 플로리다 연방 판사는 마라라고 문서 사건에서 자신에 대한 혐의를 기각하라는 도널드 트럼프 전 대통령의 신청을 거부했습니다.',
 '그의 변호사들은 그들을 국립 문서 보관소로 보내는 대신 마라라고(Mar-a-Lago)로 데려가는 것이 사실상 트럼프가 그들을 개인으로 '
 '지정했다고 말합니다.',
 '기소장에서 그는 간첩법 위반 혐의로 32개 혐의를 받고 있다.',
 '캐넌 판사의 이번 명령은 잭 스미스 특별검사가 법원에 제출한 서류에서 트럼프 대통령이 자신을 변호하기 위해 대통령 기록법을 인용할 수 '
 '있는지 여부를 결정하는 것이 "매우 중요하다"고 판사에게 말한 지 이틀 만에 나온 것이다.',
 '그는 검찰이 항소를 제기하려면 시간이 필요할 수 있다며 판사에게 이 문제에 대한 곧 판결을 내려달라고 요청했습니다.',
 '그녀는 당사자들에게 대통령 기록법과 관련된 배심원 지침 초안을 제출하도록 요청한 것은 "다가오는 재판의 맥락에서 당사자들의 경쟁 입장을 '
 '더 잘 이해하려는 진정한 시도"라고 말했습니다.']
