In [8]:
import boto3
import json

In [9]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from transformers import AutoTokenizer, AutoModel
import torch
import urllib.parse

query = '이재용'

# 드라이버 설정
start_url = 'https://ko.wikipedia.org/wiki/파이썬'
target_url = f'https://ko.wikipedia.org/wiki/{query}'

# 목표 URL에서 마지막 부분 추출 및 띄어쓰기 처리
target_label = urllib.parse.unquote(target_url.split('/')[-1]).replace('_', ' ')

tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-base")
model = AutoModel.from_pretrained("beomi/kcbert-base")

driver = webdriver.Chrome()
driver.get(start_url)

def get_text_features(text):
    encoded_input = tokenizer(text, return_tensors='pt', max_length=512, truncation=True)
    with torch.no_grad():
        features = model(**encoded_input)
    return features.last_hidden_state.squeeze().mean(dim=0)

target_features = get_text_features(target_label)  # 목표 링크 텍스트 특성

# 방문한 페이지를 추적하기 위한 집합
visited_links = set()

# 문서 존재 여부 확인 (a 태그의 title 속성에 "(없는 문서)" 확인)
def is_valid_link(link):
    link_title = link.get_attribute('title')
    if link_title and "(없는 문서)" in link_title:
        return False  # 문서가 존재하지 않음
    return True  # 문서가 존재

# 페이지 본문 길이 확인 함수
def is_valid_length(content_div, min_length=500):
    page_text = content_div.text
    return len(page_text) > min_length

# 탐색 함수
def navigate_to_target(driver, max_depth=50, min_length=100):
    global depth
    depth = 0
    while depth < max_depth:  # 탐색 깊이를 제한하여 더 많은 시도를 하도록 설정
        current_url = driver.current_url
        decoded_current_url = urllib.parse.unquote(current_url).replace('_', ' ')
        decoded_target_url = urllib.parse.unquote(target_url).replace('_', ' ')

        if decoded_current_url == decoded_target_url:
            print("목표 페이지에 도달했습니다. 프로세스를 종료합니다.")
            print(depth)
            return True  # 목표에 도달하면 탐색 종료

        visited_links.add(current_url)  # 현재 URL을 방문 목록에 추가

        # mw-content-ltr mw-parser-output 클래스를 가진 div 태그 내의 링크만 선택
        content_div = driver.find_element(By.ID, "bodyContent")
        links = content_div.find_elements(By.TAG_NAME, 'a')
        
        link_scores = {}

        # 각 링크를 평가
        for link in links:
            link_text = link.text
            link_url = link.get_attribute('href')

            # 링크 필터링: 위키미디어 공용, 각주 (#cite 포함), "편집" 텍스트, 한국어 위키 외 링크, 이미 방문한 링크, 없는 문서 제외
            if (link_text and link_url 
                and 'ko.wikipedia.org' in link_url  # 한국어 위키 문서만 허용
                and 'wiki' in link_url  # 위키 링크만 허용
                and '위키미디어 공용' not in link_text  # "위키미디어 공용" 링크 제외
                and '#cite' not in link_url  # 각주 링크 제외
                and link_text != "편집"  # "편집" 텍스트 제외
                and not link_url.startswith(r"https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:")  # "위키백과:"로 시작하는 URL 제외
                and link_url not in visited_links  # 이미 방문한 링크 제외
                and is_valid_link(link)):  # 없는 문서 필터링
                
                # 코사인 유사도 계산
                link_features = get_text_features(link_text)
                cos_sim = torch.nn.functional.cosine_similarity(target_features, link_features, dim=0)
                link_scores[link_url] = cos_sim.item()

        if not link_scores:
            print("더 이상 탐색할 링크가 없습니다.")
            depth += 1
            continue  # 유사도가 낮더라도 계속 탐색

        # 가장 높은 점수의 링크 선택 (최소 유사도 기준을 적용하지 않음)
        best_link = max(link_scores, key=link_scores.get)
        highest_score = link_scores[best_link]

        # 본문 길이 체크 (본문이 너무 짧은 경우 뒤로 가기)
        if best_link not in visited_links:
            driver.get(best_link)
            visited_links.add(best_link)  # 선택한 링크를 방문한 목록에 추가

            content_div = driver.find_element(By.ID, "bodyContent")

            if not is_valid_length(content_div, min_length):
                print(f"본문 길이가 {min_length}자 이하인 문서는 무시하고 뒤로 돌아갑니다: {best_link}")
                driver.back()  # 뒤로 가기
                visited_links.add(best_link)  # 무시한 링크를 방문한 목록에 추가
                depth += 1
                continue  # 다른 링크로 이동
            else:
                print(f"이동할 링크: {best_link} - 유사도: {highest_score:.4f}")
        else:
            print(f"이미 방문한 링크를 무시합니다: {best_link}")

        depth += 1

    print("탐색 깊이 한도에 도달하여 프로세스를 종료합니다.")
    return False

navigate_to_target(driver)


이동할 링크: https://ko.wikipedia.org/wiki/%ED%8B%80:%ED%8C%8C%EC%9D%B4%EC%8D%AC - 유사도: 0.7900
이동할 링크: https://ko.wikipedia.org/wiki/%ED%8A%B9%EC%88%98:%EB%B6%84%EB%A5%98 - 유사도: 0.7672
이동할 링크: https://ko.wikipedia.org/w/index.php?title=%ED%8A%B9%EC%88%98:%EB%B6%84%EB%A5%98&offset=&limit=250 - 유사도: 0.7662
이동할 링크: https://ko.wikipedia.org/wiki/%EB%B6%84%EB%A5%98:1000 - 유사도: 0.7639
이동할 링크: https://ko.wikipedia.org/wiki/1000 - 유사도: 0.7639
이동할 링크: https://ko.wikipedia.org/wiki/%EB%85%B8%ED%83%9C%EC%9A%B0 - 유사도: 0.7930
이동할 링크: https://ko.wikipedia.org/wiki/%EC%9D%B4%EB%AA%85%EB%B0%95 - 유사도: 0.8257
이동할 링크: https://ko.wikipedia.org/wiki/%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90 - 유사도: 0.8658
이동할 링크: https://ko.wikipedia.org/wiki/%EC%9D%B4%EC%9E%AC%EC%9A%A9 - 유사도: 1.0000
목표 페이지에 도달했습니다. 프로세스를 종료합니다.
9


True

In [10]:
from dotenv import load_dotenv
import os 

# 같은 폴더 내 .env 파일 정도 가져오기
load_dotenv()

# 각 변수에 .env 변수 load
ACCESS_KEY = os.getenv('ACCESS_KEY')
SECRET_KEY = os.getenv('SECRET_KEY')
REGION = os.getenv('region')

In [24]:
# S3 클라이언트 생성
s3 = boto3.client(
    's3',
    aws_access_key_id=ACCESS_KEY,
    aws_secret_access_key=SECRET_KEY,
    region_name=REGION
)

# 데이터 업로드 예시
data = {'query': query, 'page_count': depth}
s3.put_object(Bucket='big9-test-ktk', Key='wikirace_results2.json', Body=json.dumps(data))

{'ResponseMetadata': {'RequestId': 'WRYTYYRCX9RS46GM',
  'HostId': 'sdAJD0YMbEQuE7uzKt19b5BRHKFdL9Gei9geHNHMkBqoSeMSDIxitgvJiMWLeGUAAyEepUmRSDNHiC6qdnm0a+jdtGEClMbq',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amz-id-2': 'sdAJD0YMbEQuE7uzKt19b5BRHKFdL9Gei9geHNHMkBqoSeMSDIxitgvJiMWLeGUAAyEepUmRSDNHiC6qdnm0a+jdtGEClMbq',
   'x-amz-request-id': 'WRYTYYRCX9RS46GM',
   'date': 'Thu, 24 Oct 2024 07:02:34 GMT',
   'x-amz-server-side-encryption': 'AES256',
   'etag': '"30da339adc0ea6bd1cba8611268e7908"',
   'server': 'AmazonS3',
   'content-length': '0'},
  'RetryAttempts': 0},
 'ETag': '"30da339adc0ea6bd1cba8611268e7908"',
 'ServerSideEncryption': 'AES256'}