# 웹사이트 요약

## 라이브러리 설명
### import os

표준 라이브러리 중 하나로, 운영체제와 상호작용할 수 있게 해준다.<br>
#### 주요 기능
환경변수 접근: os.version['KEY']   
파일/디렉토리 경로 제어: os.path.join(), os.mkdir(), os.listdir()   
현재 작업 디렉토리: os.getcwd(), os.chdir()
<br>
### import requests

HTTP 요청을 보낼 수 있는 외부 라이브러리로, 웹 API와 통신할 때 자주 사용된다.<br>
#### 주요 기능
- GET 요청: <code>requests.get(url)</code>
- POST 요청: <code>requests.post(url, data={})</code>
- 응답코드 확인: <code>response.status_code</code>
- 응답 본문 읽기: <code>response.text</code> 또는 <code>response.json()</code>
> requests는 내장 모듈이 아니므로, 설치가 필요함: pip install requests

### from dotenv import load_dotenv
.env 파일에 저장된 환경변수들을 읽어오는 기능을 제공하는 <code>python-dotenv</code> 라이브러리의 함수이다. <br>
#### 주요 사용법
- <code>.env</code>파일에 설정한 API 키나 비밀번호 등을 코드에서 불러올 때 사용
- 예: <code>.env</code> 파일에 OPENAI_API_KEY=abc123라고 저장되어 있으면,
<pre><code>
load_dotenv()
os.getenv("OPENAI_API_KEY")
</code></pre>


### from bs4 import BeautifulSoup
HTML/XML 문서를 파싱해서, 원하는 데이터를 쉽게 추출하도록 도와주는 파이썬 라이브러리이다.

### from IPython.display import Markdown, display

Jupyter Notebook 등에서 마크다운 형식의 텍스트를 렌더링하거나 다양한 결과물을 시각적으로 표시할 수 있도록 해주는 IPython의 유틸리티
#### 주요 사용법
<code>display(Markdown("# 제목입니다"))</code>

### from openai import OpenAI

OpenAI의 Python SDK에서 OpenAI 클래스 또는 모듈을 가져오는 코드.
#### 주요 기능
- ChatGPT API 호출
- 모델 선택, 포름프트 전송, 응답 받기
- 예
<pre><code>from openai import OpenAI
client = OpenAI(api_key"...")
response = client.chat.completions.create(...)</code></pre>

In [2]:
# 필요한 라이브러리 import
import os
import requests
from dotenv import load_dotenv
from bs4 import BeautifulSoup
from IPython.display import Markdown, display
from openai import OpenAI

In [3]:
# API key 불러오기
load_dotenv(override=True)

api_key = os.getenv('OPENAI_API_KEY') # .env에 저장된 API KEY의 이름

if not api_key:
    print("API Key를 찾을 수 없습니다.")
else:
    print("API key를 찾았습니다.")

API key를 찾았습니다.


In [4]:
openai = OpenAI() # OpenAI 객체 생성

In [5]:
# 테스트
message = "이것은 API Test이다."

response = openai.chat.completions.create(
    model="gpt-4o-mini", 
    messages=[{"role":"user", "content":message}]
)

print(response.choices[0].message.content)

안녕하세요! API 테스트에 대해 궁금한 점이나 요청하실 내용이 있다면 말씀해 주세요. 돕기 위해 여기 있습니다!


In [6]:
print(response) # response 결과

ChatCompletion(id='chatcmpl-BzDX9C1palKgVIZMIF4zUSYhdV16o', choices=[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content='안녕하세요! API 테스트에 대해 궁금한 점이나 요청하실 내용이 있다면 말씀해 주세요. 돕기 위해 여기 있습니다!', refusal=None, role='assistant', annotations=[], audio=None, function_call=None, tool_calls=None))], created=1753929731, model='gpt-4o-mini-2024-07-18', object='chat.completion', service_tier='default', system_fingerprint='fp_34a54ae93c', usage=CompletionUsage(completion_tokens=30, prompt_tokens=14, total_tokens=44, completion_tokens_details=CompletionTokensDetails(accepted_prediction_tokens=0, audio_tokens=0, reasoning_tokens=0, rejected_prediction_tokens=0), prompt_tokens_details=PromptTokensDetails(audio_tokens=0, cached_tokens=0)))


In [7]:
# 크롤링 방지 우회: User-Agent 설정
headers = {
 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}

class Website:

    def __init__(self, url):
        self.url = url
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.content, 'html.parser')
        self.title = soup.title.string if soup.title else "타이틀을 찾을 수 없습니다."
        for irrelevant in soup.body(["script", "style", "img", "input"]):
            irrelevant.decompose()
        self.text = soup.body.get_text(separator="\n", strip=True)
        

In [8]:
naver = Website("https://www.naver.com")
print(naver.title)
print(naver.text)

NAVER
상단영역 바로가기
서비스 메뉴 바로가기
새소식 블록 바로가기
쇼핑 블록 바로가기
관심사 블록 바로가기
MY 영역 바로가기
위젯 보드 바로가기
보기 설정 바로가기
검색
검색
입력도구
자동완성/최근검색어펼치기


#### System prompt와 User prompt
- system_prompt: 모델의 전체 역할, 응답 형식, 무시해야 할 정보, 언어 설정 등
- user_prompt: 입력 데이터와 요약 요청 등 구체적 작업 지시

In [9]:
system_prompt = "You are an assistant that analyzes the contents of a website \
and provides a short summary, ignoring text that might be navigation related. \
Respond in markdown. \
Say in Korean."

In [10]:
def user_prompt_for(website):
    user_prompt = f"You are looking at a website titled {website.title}"
    user_prompt += "\nThe contents of this website is as follows; \
                    please provide a short summary of this website in markdown. \
                    If it includes news or announcements, then summarize these too.\n\n"
    user_prompt += website.text
    return user_prompt

In [11]:
print(user_prompt_for(naver))

You are looking at a website titled NAVER
The contents of this website is as follows;                     please provide a short summary of this website in markdown.                     If it includes news or announcements, then summarize these too.

상단영역 바로가기
서비스 메뉴 바로가기
새소식 블록 바로가기
쇼핑 블록 바로가기
관심사 블록 바로가기
MY 영역 바로가기
위젯 보드 바로가기
보기 설정 바로가기
검색
검색
입력도구
자동완성/최근검색어펼치기


In [12]:
# system, user 테스트 
messages = [
    {"role": "system", "content": "You are a snarky assistant. Say in Korean."},
    {"role": "user", "content": "What is 2 + 2?"}
]

In [13]:
response = openai.chat.completions.create(model="gpt-4o-mini", messages=messages)
print(response.choices[0].message.content)

2 + 2는 4죠. 이렇게 간단한 문제를 의심하실 줄은 몰랐네요!


In [14]:
def messages_for(website):
    return [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt_for(website)}
    ]

In [15]:
messages_for(naver)

[{'role': 'system',
  'content': 'You are an assistant that analyzes the contents of a website and provides a short summary, ignoring text that might be navigation related. Respond in markdown. Say in Korean.'},
 {'role': 'user',
  'content': 'You are looking at a website titled NAVER\nThe contents of this website is as follows;                     please provide a short summary of this website in markdown.                     If it includes news or announcements, then summarize these too.\n\n상단영역 바로가기\n서비스 메뉴 바로가기\n새소식 블록 바로가기\n쇼핑 블록 바로가기\n관심사 블록 바로가기\nMY 영역 바로가기\n위젯 보드 바로가기\n보기 설정 바로가기\n검색\n검색\n입력도구\n자동완성/최근검색어펼치기'}]

In [16]:
def summarize(url):
    website = Website(url)
    response = openai.chat.completions.create(
        model = "gpt-4o-mini",
        messages = messages_for(website)
    )
    return response.choices[0].message.content

In [17]:
summarize("https://naver.com")

'# NAVER 요약\n\nNAVER는 다양한 온라인 서비스와 정보를 제공하는 플랫폼입니다. 사용자는 뉴스, 쇼핑, 그리고 개인적인 관심사에 관련된 콘텐츠를 탐색할 수 있습니다. 상단 메뉴에는 검색 기능이 포함되어 있어 사용자가 원하는 정보를 쉽게 찾을 수 있도록 도와줍니다. \n\n현재 특별한 뉴스나 공지가 포함되어 있지 않습니다.'

In [18]:
def display_summary(url):
    summary = summarize(url)
    display(Markdown(summary))

In [19]:
display_summary("https://naver.com")

# NAVER 웹사이트 요약

NAVER는 다양한 서비스와 정보를 제공하는 플랫폼입니다. 특히 쇼핑 블록과 관심사 블록을 통해 사용자 맞춤형 콘텐츠를 제공하며, 최신 소식이나 공지사항을 쉽게 확인할 수 있도록 새소식 블록을 운영하고 있습니다. 검색 기능이 두드러지며, 자동완성과 최근 검색어를 통해 사용자 경험을 향상시키고 있습니다. 

이 웹사이트는 주로 사용자들이 정보에 쉽게 접근하고, 관심 있는 주제를 탐색할 수 있도록 돕는 데 중점을 둡니다.

In [20]:
display_summary("https://www.dankook.ac.kr/web/kor")

# 단국대학교 웹사이트 요약

단국대학교의 웹사이트는 대학의 종합적인 정보와 여러 서비스, 학사 일정, 연구 및 학생 활동에 관한 다양한 정보를 제공하는 플랫폼입니다. 주된 내용은 다음과 같습니다.

## 대학 소개
- 단국대학교의 역사, 비전, 교육 이념 및 목표에 대한 정보가 포함되어 있습니다.
- 다양한 단과대학 및 대학원 프로그램에 대한 안내가 제공됩니다.

## 최신 뉴스 및 공지사항
- **정선주 교수**가 과기정통부의 RNA 편집 관련 프로젝트 총괄지원과제로 선정되었습니다.
- **단국의 독립유산 전시회**가 광복 80주년을 기념하여 열립니다.
- **합작 프로젝트**를 통한 데이터 검색 인덱스 구축에 대한 연구 결과가 발표되었습니다.
- **전국대학생모의유엔회의**에서 외국인 유학생이 첫 수상을 하였습니다.
- **축구부, 전국 대학 축구 대회**에서 2년 만에 우승하며 정상에 올랐습니다.

## 학생 생활 및 지원
- 수강신청, 장학금, 건강 상담 및 취업 지원 프로그램 등 학생들이 필요로 하는 다양한 서비스와 정보가 제공됩니다.

## 연구 및 교육 혁신
- 교육 및 연구 관련 공지사항과 행사가 주기적으로 안내되며, 특히 AI 및 혁신 기술에 관한 프로그램과 세미나가 계획되어 있습니다.

이 외에도 각종 행사, 채용 공고 및 구매/입찰 정보가 있으며, 대학원 프로그램 및 다양한 연구소에 대한 정보도 포함되어 있습니다.