# OpenAPI를 이용한 논문, 기사, 글 요약 및 번역

https://jehyunlee.github.io/2022/07/02/Python-DS-106-aaicon/

### Reference

```
이제현, 유시현, 김창기, 김현구, "Open API를 활용한 고속 논문 분석",
실용인공지능학회지 vol.1 p.9, 2022
```

## API 키 발급

- RapidAPI : https://rapidapi.com/developer/new
- 네이버 : https://developers.naver.com/apps/#/register?api=ppg_n2mt

In [None]:
rapidapi_key = 'YOUR_KEY'
#naver_client_id = 'YOUR_API_KEY_HERE'
#naver_client_secret = 'YOUR_API_KEY_HERE'

# TLDRThis

- https://rapidapi.com/tldrthishq-tldrthishq-default/api/tldrthis/

---

## 요약의 종류

1. Abstractive(Human-like) summarization

> Abstractive summarization(생성 요약)은 기존 Input text를 그대로 인용하지 않고, 기존의 내용을 새롭게 re-phrasing 하여 Summary를 생성하는 요약 모델입니다.

2. Extractive summarization

> 반면에 Extractive summarization(추출 요약)은 기존 Input text에 존재하는 중요한 단어를 그대로 사용하여 Summary를 생성하는 요약 모델입니다.

출처 : https://supkoon.tistory.com/40

| 항목                | Extractive       | Abstractive  |
| ----------------- | ---------------- | ------------ |
| 방식                | 원문 문장 일부를 그대로 복사 | 의미를 파악해 재작성  |
| HTML/구조 잔재 포함 가능성 | 매우 높음 ❗          | 거의 없음 ✅      |
| 자연스러움             | 낮음 (구조의존)        | 높음 (언어모델 기반) |
| 정보량               | 풍부하나 중복 많고 혼란 가능 | 요점 위주, 간결    |


In [6]:
import requests
from pprint import pprint

### 예시 논문

Attention Is All You Need
- 페이지 : https://arxiv.org/abs/1706.03762
- 본문(pdf) : https://arxiv.org/pdf/1706.03762.pdf

## 요약

- Extractive: 원문 문장을 일부 잘라서 그대로 연결

In [23]:
url = "https://tldrthis.p.rapidapi.com/v1/model/extractive/summarize-url/"

payload = {
    "url": "https://proceedings.mlr.press/v97/tan19a.html?ref=jina-ai-gmbh.ghost.io", # 주소   https://arxiv.org/abs/1706.03762   https://arxiv.org/pdf/1706.03762.pdf
    "min_length": 100, # 최소 길이
    "max_length": 300, # 최대 길이
    "is_detailed": False # 한 문장으로 반환할 것인지 여부
}

headers = {
    "content-type": "application/json",
    "X-RapidAPI-Key": rapidapi_key,
    "X-RapidAPI-Host": "tldrthis.p.rapidapi.com"
}

response = requests.request("POST", url, json=payload, headers=headers)

pprint(response.json())

{'article_abstract': None,
 'article_authors': ['Mingxing Tan', 'Quoc Le'],
 'article_html': '<div><p class="bibbuttontext column">\n'
                 '    BibTeX\n'
                 '  </p><p class="codebox">\n'
                 '    <code class="citecode" id="bibtex">\n'
                 '@InProceedings{pmlr-v97-tan19a,\n'
                 '  title = \t {{E}fficient{N}et: Rethinking Model Scaling for '
                 'Convolutional Neural Networks},\n'
                 '  author =       {Tan, Mingxing and Le, Quoc},\n'
                 '  booktitle = \t {Proceedings of the 36th International '
                 'Conference on Machine Learning},\n'
                 '  pages = \t {6105--6114},\n'
                 '  year = \t {2019},\n'
                 '  editor = \t {Chaudhuri, Kamalika and Salakhutdinov, '
                 'Ruslan},\n'
                 '  volume = \t {97},\n'
                 '  series = \t {Proceedings of Machine Learning Research},\n'
                 '  month =

In [24]:
summary = response.json()['summary'][0].strip()

print(summary)

In this paper, we systematically study model scaling and identify that carefully balancing network depth, width, and resolution can lead to better performance.


- Abstractive: 문장 전체를 재구성해 새롭게 요약 생성

In [20]:
url = "https://tldrthis.p.rapidapi.com/v1/model/abstractive/summarize-url/"

payload = {
    "url": "https://proceedings.mlr.press/v97/tan19a.html?ref=jina-ai-gmbh.ghost.io", # 주소   https://arxiv.org/abs/1706.03762   https://arxiv.org/pdf/1706.03762.pdf
    "min_length": 100, # 최소 길이
    "max_length": 300, # 최대 길이
    "is_detailed": False # 한 문장으로 반환할 것인지 여부
}

headers = {
    "content-type": "application/json",
    "X-RapidAPI-Key": rapidapi_key,
    "X-RapidAPI-Host": "tldrthis.p.rapidapi.com"
}

response = requests.request("POST", url, json=payload, headers=headers)

pprint(response.json())

{'article_abstract': None,
 'article_authors': ['Mingxing Tan', 'Quoc Le'],
 'article_html': '<div><p class="bibbuttontext column">\n'
                 '    BibTeX\n'
                 '  </p><p class="codebox">\n'
                 '    <code class="citecode" id="bibtex">\n'
                 '@InProceedings{pmlr-v97-tan19a,\n'
                 '  title = \t {{E}fficient{N}et: Rethinking Model Scaling for '
                 'Convolutional Neural Networks},\n'
                 '  author =       {Tan, Mingxing and Le, Quoc},\n'
                 '  booktitle = \t {Proceedings of the 36th International '
                 'Conference on Machine Learning},\n'
                 '  pages = \t {6105--6114},\n'
                 '  year = \t {2019},\n'
                 '  editor = \t {Chaudhuri, Kamalika and Salakhutdinov, '
                 'Ruslan},\n'
                 '  volume = \t {97},\n'
                 '  series = \t {Proceedings of Machine Learning Research},\n'
                 '  month =

In [21]:
summary = response.json()['summary'][0].strip()

print(summary)

Convolutional Neural Networks (ConvNets) are commonly developed at a fixed resource budget, and then scaled up for better accuracy if more resources are given. Based on this observation, we propose a new scaling method that uniformly scales all dimensions of depth/width/resolution using a simple yet highly effective compound coefficient. We demonstrate the effectiveness of this method on MobileNets and ResNet.


구글 번역 API
1. googletrans
2. google cloud translation : api키도, 유료의 영역도 있음

구글 번역 api 레퍼런스 : https://www.dinolabs.ai/386

In [None]:
!pip install googletrans==3.1.0a0

In [25]:
#<extractive> - 번역
from googletrans import Translator
import json

def translate_text(text, target_language='ko'):
    translator = Translator()
    translated_sentences = []
    for sentence in text:
        translated_sentence = translator.translate(sentence, dest=target_language)
        translated_sentences.append(translated_sentence.text)
    return translated_sentences

# 응답받은 텍스트 디코딩
response_text = response.text # response.content / response.text
response_json = json.loads(response_text)

# 번역할 텍스트 추출
text_to_translate = response_json.get('summary', '')

# 번역된 텍스트
translated_text = translate_text(text_to_translate)

print("번역된 텍스트:", translated_text)

번역된 텍스트: ['이 논문에서는 모델 스케일링을 체계적으로 연구하고 네트워크 깊이, 너비 및 해상도를 신중하게 균형있게 균형을 잡으면 성능이 향상 될 수 있습니다.', '이 관찰에 기초하여, 우리는 간단하면서도 효과적인 화합물 계수를 사용하여 깊이/너비/해상도의 모든 치수를 균일하게 스케일링하는 새로운 스케일링 방법을 제안합니다.', '우리는 Mobilenets 및 Resnet에 대한이 방법의 효과를 보여줍니다.', '더 나아가서, 우리는 신경 아키텍처 검색을 사용하여 새로운 기준 네트워크를 설계하고 확장하여 효율성이라는 모델 패밀리를 얻기 위해 이전 콩품보다 훨씬 더 정확성과 효율성을 달성합니다.', '특히, 우리의 효율적인 NET-B7은 ImageNet에서 84.4% 상위 1 / 97.1% 상위 5 위 정확도를 달성하는 반면, 기존 Convnet (Huang et al., Huang et al., Huang et al., Huang et al., Huang et al.,)보다 8.4 배 더 작고 6.1 배 더 빠릅니다.']


In [None]:
#<abstractive> - 번역
from googletrans import Translator
import json

def translate_text(text, target_language='ko'):
    translator = Translator()
    translated_sentences = []
    for sentence in text:
        translated_sentence = translator.translate(sentence, dest=target_language)
        translated_sentences.append(translated_sentence.text)
    return translated_sentences

# 응답받은 텍스트 디코딩
response_text = response.text # response.content / response.text
response_json = json.loads(response_text)

# 번역할 텍스트 추출
text_to_translate = response_json.get('summary', '')

# 번역된 텍스트
translated_text = translate_text(text_to_translate)

print("번역된 텍스트:", translated_text)


번역된 텍스트: ['Convolutional Neural Networks (Convnets)는 일반적으로 고정 된 자원 예산으로 개발되며 더 많은 자원이 제공되면 더 나은 정확도로 확장됩니다. 이 관찰에 기초하여, 우리는 간단하면서도 효과적인 화합물 계수를 사용하여 깊이/너비/해상도의 모든 치수를 균일하게 스케일링하는 새로운 스케일링 방법을 제안합니다. 우리는 Mobilenets 및 Resnet에 대한이 방법의 효과를 보여줍니다.']


## 다른 기사 영문 번역
기사 url = "https://www.bbc.com/news/articles/c4gkdppymk4o"

In [48]:
url = "https://tldrthis.p.rapidapi.com/v1/model/extractive/summarize-url/"

payload = {
    "url": "https://www.bbc.com/news/articles/c4gkdppymk4o", # 주소   https://arxiv.org/abs/1706.03762   https://arxiv.org/pdf/1706.03762.pdf
    "min_length": 100, # 최소 길이
    "max_length": 300, # 최대 길이
    "is_detailed": False # 한 문장으로 반환할 것인지 여부
}

headers = {
    "content-type": "application/json",
    "X-RapidAPI-Key": rapidapi_key,
    "X-RapidAPI-Host": "tldrthis.p.rapidapi.com"
}

response = requests.request("POST", url, json=payload, headers=headers)

pprint(response.json())

{'article_abstract': None,
 'article_authors': None,
 'article_html': '<div><p class="sc-3b6b161a-0 fDtfvH"><h1 '
                 'class="sc-f98b1ad2-0 dfvxux">Chinese nationals accused of '
                 "smuggling 'dangerous biological pathogen' into "
                 'US</h1></p><p>The two Chinese citizens allegedly sought to '
                 'use the University of Michigan laboratory to conduct '
                 'research on the pathogen</p><p>The fungus called Fusarium '
                 'graminearum can cause a disease in wheat, barley, maize and '
                 'rice that can wipe out crops and lead to vomiting and liver '
                 'damage if it gets into food.</p><p>The complaint alleges Mr '
                 'Liu tried to smuggle the fungus through Detroit airport so '
                 'he could study it at a University of Michigan laboratory '
                 'where his girlfriend, Ms Jian, worked.</p><p>Yunqing Jian, '
                 '33, and Zunyong Li

In [49]:
summary = response.json()['summary'][0].strip()

print(summary)

Chinese nationals accused of smuggling 'dangerous biological pathogen' into US

The two Chinese citizens allegedly sought to use the University of Michigan laboratory to conduct research on the pathogen

The fungus called Fusarium graminearum can cause a disease in wheat, barley, maize and rice that can wipe out crops and lead to vomiting and liver damage if it gets into food.


In [50]:
#<extractive> - 번역
from googletrans import Translator
import json

def translate_text(text, target_language='ko'):
    translator = Translator()
    translated_sentences = []
    for sentence in text:
        translated_sentence = translator.translate(sentence, dest=target_language)
        translated_sentences.append(translated_sentence.text)
    return translated_sentences

# 응답받은 텍스트 디코딩
response_text = response.text # response.content / response.text
response_json = json.loads(response_text)

# 번역할 텍스트 추출
text_to_translate = response_json.get('summary', '')

# 번역된 텍스트
translated_text = translate_text(text_to_translate)

print("번역된 텍스트:", translated_text)

번역된 텍스트: ["'위험한 생물학적 병원체'를 밀수 혐의로 기소 한 중국인들은 우리에게\n\n두 중국 시민은 미시간 대학교 연구소를 사용하여 병원체에 대한 연구를 수행하려고했다고 주장했다.\n\nFusarium graminearum이라는 곰팡이는 밀, 보리, 옥수수 및 쌀에서 질병을 일으켜 농작물을 닦아 내고 음식에 들어가면 구토 및 간 손상을 유발할 수 있습니다.", '그들은 또한 그녀가 중국 공산당의 일원이라고 주장합니다.', '"이 두 외계인은 미국의 [Sic] Heartland에서 \'잠재적 인 농업 무기\'로 묘사 된 곰팡이를 밀수입 한 혐의로 기소되어 미시간 대학교 실험실을 사용하여 자신의 계획을 더욱 발전 시키려고했습니다."', '이 조사는 FBI와 미국 세관과 국경 보호 사이의 공동 노력이었습니다.', 'Jian 씨는 화요일 미시간 주 디트로이트에있는 법정에 출두 할 예정입니다.', '이 기소는 미국과 중국 사이의 긴장된 관계로 인해 트럼프 행정부가 미국에서 공부하는 중국 국민의 비자를 "적극적으로"맹세 한 지 며칠 후 며칠이 지났다.']


In [45]:
url = "https://tldrthis.p.rapidapi.com/v1/model/abstractive/summarize-url/"

payload = {
    "url": "https://www.bbc.com/news/articles/c4gkdppymk4o", # 주소   https://arxiv.org/abs/1706.03762   https://arxiv.org/pdf/1706.03762.pdf
    "min_length": 100, # 최소 길이
    "max_length": 300, # 최대 길이
    "is_detailed": False # 한 문장으로 반환할 것인지 여부
}

headers = {
    "content-type": "application/json",
    "X-RapidAPI-Key": rapidapi_key,
    "X-RapidAPI-Host": "tldrthis.p.rapidapi.com"
}

response = requests.request("POST", url, json=payload, headers=headers)

pprint(response.json())

{'article_abstract': None,
 'article_authors': None,
 'article_html': '<div><p class="sc-3b6b161a-0 fDtfvH"><h1 '
                 'class="sc-f98b1ad2-0 dfvxux">Chinese nationals accused of '
                 "smuggling 'dangerous biological pathogen' into "
                 'US</h1></p><p>The two Chinese citizens allegedly sought to '
                 'use the University of Michigan laboratory to conduct '
                 'research on the pathogen</p><p>The fungus called Fusarium '
                 'graminearum can cause a disease in wheat, barley, maize and '
                 'rice that can wipe out crops and lead to vomiting and liver '
                 'damage if it gets into food.</p><p>The complaint alleges Mr '
                 'Liu tried to smuggle the fungus through Detroit airport so '
                 'he could study it at a University of Michigan laboratory '
                 'where his girlfriend, Ms Jian, worked.</p><p>Yunqing Jian, '
                 '33, and Zunyong Li

In [46]:
summary = response.json()['summary'][0].strip()

print(summary)

Chinese nationals accused of smuggling 'dangerous biological pathogen' into US. The two Chinese citizens allegedly sought to use the University of Michigan laboratory to conduct research on the pathogen. Fusarium graminearum can cause a disease in wheat, barley, maize and rice that can wipe out crops.


In [None]:
#<abstractive> - 번역
from googletrans import Translator
import json

def translate_text(text, target_language='ko'):
    translator = Translator()
    translated_sentences = []
    for sentence in text:
        translated_sentence = translator.translate(sentence, dest=target_language)
        translated_sentences.append(translated_sentence.text)
    return translated_sentences

# 응답받은 텍스트 디코딩
response_text = response.text # response.content / response.text
response_json = json.loads(response_text)

# 번역할 텍스트 추출
text_to_translate = response_json.get('summary', '')

# 번역된 텍스트
translated_text = translate_text(text_to_translate)

print("번역된 텍스트:", translated_text)

번역된 텍스트: ["중국인들은 '위험한 생물학적 병원체'를 우리에게 밀수 한 혐의로 기소되었습니다. 두 중국 시민은 미시간 대학교 실험실을 사용하여 병원체에 대한 연구를 수행하려고했다고 주장했다. Fusarium graminearum은 밀, 보리, 옥수수 및 쌀에서 질병을 일으켜 농작물을 닦을 수 있습니다."]


## 번역

네이버 파파고 API

In [None]:
url = "https://openapi.naver.com/v1/papago/n2mt"

payload = {
    "source": "en",
    "target": "ko",
    "text": summary,
}

headers = {
    "content-type": "application/json",
    "X-Naver-Client-Id": naver_client_id,
    "X-Naver-Client-Secret": naver_client_secret,
}

response = requests.request("POST", url, json=payload, headers=headers)

pprint(response.json())

{'message': {'@service': 'naverservice.nmt.proxy',
             '@type': 'response',
             '@version': '1.0.0',
             'result': {'dict': None,
                        'engineType': 'UNDEF_MULTI_SENTENCE',
                        'pivot': None,
                        'srcLangType': 'en',
                        'tarDict': None,
                        'tarLangType': 'ko',
                        'translatedText': '우리는 주의 메커니즘만을 기반으로 하는 새로운 간단한 네트워크 '
                                          '아키텍처인 트랜스포머를 제안한다. 두 가지 기계 번역 작업에 '
                                          '대한 실험은 이러한 모델이 품질 면에서 우수하면서도 병렬화가 더 '
                                          '가능하고 교육하는 데 훨씬 적은 시간이 필요하다는 것을 '
                                          '보여준다. Transformer는 훨씬 더 많은 병렬화를 '
                                          '가능하게 하며 8개의 P100 GPU에서 12시간 정도 교육을 '
                                          '받은 후 번역 품질에서 새로운 최첨단 기술에 도달할 수 '
                                          '있습니다. 순차 연산을 줄이는 목표

In [None]:
print(response.json()['message']['result']['translatedText'])

우리는 주의 메커니즘만을 기반으로 하는 새로운 간단한 네트워크 아키텍처인 트랜스포머를 제안한다. 두 가지 기계 번역 작업에 대한 실험은 이러한 모델이 품질 면에서 우수하면서도 병렬화가 더 가능하고 교육하는 데 훨씬 적은 시간이 필요하다는 것을 보여준다. Transformer는 훨씬 더 많은 병렬화를 가능하게 하며 8개의 P100 GPU에서 12시간 정도 교육을 받은 후 번역 품질에서 새로운 최첨단 기술에 도달할 수 있습니다. 순차 연산을 줄이는 목표는 확장 신경 GPU[16], ByteNet[18] 및 ConvS2S의 기초를 형성한다.


## 함수화

In [None]:
def summarize_and_translate(article_url, min_length=100, max_length=300):
    url = "https://tldrthis.p.rapidapi.com/v1/model/abstractive/summarize-url/"

    payload = {
        "url": article_url, # 주소
        "min_length": min_length, # 최소 길이
        "max_length": max_length, # 최대 길이
        "is_detailed": False # 한 문장으로 반환할 것인지 여부
    }

    headers = {
        "content-type": "application/json",
        "X-RapidAPI-Key": rapidapi_key,
        "X-RapidAPI-Host": "tldrthis.p.rapidapi.com"
    }

    response = requests.request("POST", url, json=payload, headers=headers)

    summary = response.json()['summary'][0].strip()

    url = "https://openapi.naver.com/v1/papago/n2mt"

    payload = {
        "source": "en",
        "target": "ko",
        "text": summary,
    }

    headers = {
        "content-type": "application/json",
        "X-Naver-Client-Id": naver_client_id,
        "X-Naver-Client-Secret": naver_client_secret
    }

    response = requests.request("POST", url, json=payload, headers=headers)

    return response.json()['message']['result']['translatedText']

- 구글 번역

In [10]:
from PyPDF2 import PdfReader
from transformers import pipeline
from googletrans import Translator
import requests
import tempfile

def summarize_and_translate(pdf_url, min_length=50, max_length=100):
    # 1. PDF 다운로드 및 읽기
    response = requests.get(pdf_url)
    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_pdf:
        tmp_pdf.write(response.content)
        tmp_path = tmp_pdf.name

    reader = PdfReader(tmp_path)
    text = " ".join([page.extract_text() or "" for page in reader.pages])

    # 2. 요약 (HuggingFace transformer 요약 모델 사용)
    summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")
    summary_chunks = summarizer(text[:2000], min_length=min_length, max_length=max_length)  # 일부만 요약
    summary_text = summary_chunks[0]['summary_text']

    # 3. 번역 (googletrans)
    translator = Translator()
    translated = translator.translate(summary_text, src='en', dest='ko')

    return translated.text

### 구글번역

In [None]:
summarize_and_translate("https://arxiv.org/pdf/1706.03762.pdf", 50, 100) 

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Device set to use cpu


'이에 따라 Google은 저널리즘 또는 학술 작품에만 사용하기 위해이 백서의 테이블과 수치를 제작할 수있는 권한을 부여합니다. 우리는 새로운 간단한 네트워크 아키텍처 인 Transformer를 제안합니다.주의 메커니즘 만 기반으로 재발 및 컨볼 루션으로 분배됩니다. 트랜스포머는 영어 선거구 구문 분석에 성공적으로 적용하여 다른 작업에 잘 맞습니다.'

In [12]:
summarize_and_translate("https://arxiv.org/pdf/1905.11946.pdf", 100, 200)

Device set to use cpu


'EfficientNet : Convolutional Neural Network를위한 모델 스케일링을 다시 생각하면 성능이 향상 될 수 있습니다. Mingxing Tan은 간단하면서도 효율적인 화합물 계수를 사용하여 네트워크 깊이/너비/해상도의 모든 차원을 균일하게 스케일링하는 새로운 스케일링 업 방법을 제안합니다. 우리는 up.com/tensorflow/tpu/tpu/tree/tree/.master/models/official/net에 대한이 방법의 효과를 보여줍니다.'

### 네이버 번역
'우리는 주의 메커니즘만을 기반으로 하는 새로운 간단한 네트워크 아키텍처인 트랜스포머를 제안한다. 두 가지 기계 번역 작업에 대한 실험은 이러한 모델이 품질 면에서 우수하면서도 병렬화가 더 가능하고 교육하는 데 훨씬 적은 시간이 필요하다는 것을 보여준다. 트랜스포머는 훨씬 더 많은 병렬화를 가능하게 하며 8개의 P100에서 12시간 동안만 교육을 받은 후 번역 품질에서 새로운 기술에 도달할 수 있습니다.'

In [None]:
summarize_and_translate("https://arxiv.org/pdf/1905.11946.pdf", 100, 200)

'EfficientNet-B7은 ImageNet에서 최고 84.3%의 정확도를 달성하는 동시에 기존 최고의 ConvNet보다 8.4배 작고 추론 속도가 6.1배 빠르다. 우리의 EfficientNets는 다른 ConvNets를 크게 능가한다. 이전 작업에서는 깊이, 너비, 이미지 크기 등 세 가지 차원 중 하나만 스케일링하는 것이 일반적이다. 단순하지만 매우 효과적인 복합 계수를 사용하여 깊이/폭/해상도의 모든 차원을 균일하게 확장하는 단순하지만 효과적인 복합 스케일링 방법을 제안한다. 예를 들어, 우리가 2N배 더 많은 계산 자원을 사용하고 싶다면, 우리는 단순히 원래 모델에서 네트워크를 작은 그리드만큼 늘릴 수 있다.'