In [None]:
# 출처 : https://wikidocs.net/233344
# LangChain 설치 및 업데이트
#!pip install -U langchain langchain-community langchain-experimental langchain-core langchain-openai langsmith langchainhub python-dotenv unstructured chromadb faiss-cpu rank_bm25 python-docx sqlalchemy

In [None]:
# 루트경로에 .env 파일을 만들고, OPENAI_API_KEY='{API_KEY}' 식으로 입력한다.
# API 키를 환경변수로 관리하기 위한 .env설정 파일 로딩
import os
from dotenv import load_dotenv

load_dotenv() # API 키 정보 로드
print(f"[API KEY]\n{os.environ['OPENAI_API_KEY']}")

In [1]:
# 웹 크롤링 설명
# 웹크롤링 및 브라우저 자동화를 제어하는 데 사용되는 라이브러리인 Playwright 이용

# Playwright와 BeautifulSoup4 라이브러리를 최신 버전으로 업그레이드하고 조용히(quiet) 설치합니다.
# Playwright 브라우저 엔진을 설치합니다.

%pip install -qU  playwright beautifulsoup4

! playwright install-deps # playwright 관련된 의존성 모듈도 설치 
! playwright install

# html을 text로 파싱하기위한 html2text 설치 
%pip install -qU html2text
    
#[**중요**]
# LangChain 프레임워크를 사용하려고 할 때 RuntimeError: asyncio.run() 이 이미 실행 중인 이벤트 루프에서 호출될 수 없다는 오류가 발생합니다.
# - RuntimeError: asyncio.run() cannot be called from a running event loop
# 이 오류는 보통 asyncio.run() 이 다른 asyncio 이벤트 루프가 이미 실행 중인 상황에서 호출될 때 발생합니다.
#Jupyter Notebook 에서 이미 실행되고 있는 이벤트 루프가 존재하고, 또 하나의 이벤트 루프를 생성하려고 할 때 나타나는 오류 입니다.
# 이러한 오류를 해결하기 위하여 아래의 코드를 실행하여 Jupyter Notebook 의 이벤트 루프를 가져옵니다.

%pip install -qU nest-asyncio

import nest_asyncio
nest_asyncio.apply()


[0mNote: you may need to restart the kernel to use updated packages.
Installing dependencies...
Hit:1 http://security.ubuntu.com/ubuntu jammy-security InRelease
Hit:2 http://archive.ubuntu.com/ubuntu jammy InRelease
Hit:3 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:4 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Reading package lists... Done
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
fonts-freefont-ttf is already the newest version (20120503-10build1).
fonts-liberation is already the newest version (1:1.07.4-11).
libasound2 is already the newest version (1.2.6.1-1ubuntu1).
libatk-bridge2.0-0 is already the newest version (2.38.0-3).
libatk1.0-0 is already the newest version (2.36.0-3build1).
libatspi2.0-0 is already the newest version (2.44.0-3).
libcairo-gobject2 is already the newest version (1.16.0-5ubuntu2).
libcairo2 is already the newest version (1.16.0-5ubuntu2).
libdbus-glib-1-2 is already the 

In [4]:
# AsyncChromiumLoader를 사용하여 웹 페이지의 콘텐츠를 비동기적으로 로드합니다.
# - urls 리스트에 로드할 웹 페이지의 URL을 지정합니다.
# - AsyncChromiumLoader 객체를 생성하고 urls를 전달합니다.
# - load() 메서드를 호출하여 웹 페이지의 콘텐츠를 로드하고 Document 객체의 리스트를 반환합니다.

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import Html2TextTransformer

# 크롤링할 url 설정
urls = ["https://news.naver.com"]

# AsyncChrominumLoader를 사용하여 비동기적으로 URL에서 html 문서 로딩함.
loader = AsyncChromiumLoader(urls)

# 로드된 html 문서를 로딩함.
docs = loader.load()
print(f'*docs 수:{len(docs)}')
print(f'--'*20)

# html 출력해봄
print(f'*html:\n{docs[0].page_content[500:1000]}')
print(f'--'*20)

# html -> text로 파싱
html2text = Html2TextTransformer()
docs_transformed = html2text.transform_documents(docs)

# text로 파싱된 docs 출력해봄
print(f'*Html2TextTransformer:\n{docs_transformed[0].page_content[500:1000]}')
print(f'--'*20)


*docs 수:1
----------------------------------------
*html:
E");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
</script>

		<script>
----------------------------------------
*html2text:
 18일까지 온-오프라인 하이브리드 한국퀴어영

#### 대구MBC05월 09일 22:29

구독

대구 경찰서 옥상서 20대 여직원 떨어져 숨져

5월 9일 오전 7시 20분쯤 대구의 한 경찰서 건물 옥상에서 20대 여성 직원이 떨어져 숨졌습니다. 이 직원은 해당 경찰서에서 행정 업무를
해온 걸로 파악됐습니다. 경찰은 정확한 사건 경위를 조사 중입니다. ※ 우

#### JIBS05월 10일 08:15

구독

"진주만 폭격 잊었나".. 美 해군 공식SNS에 내걸린 일본 욱일기

미국 해군 공식 SNS에 최근 일본 욱일기(전범기)가 담긴 사진이 게재된 것과 관련해 서경덕 성신여대 교수가 항의의 뜻을 전했습니다. 한국
홍보 전문가 서경덕 교수는 오늘(10일) 보도자료를 통해 이 같은 내

In [5]:
# Beautiful Soup
# Beautiful Soup은 HTML 및 XML 문서를 파싱하기 위한 Python 패키지입니다(잘못 형성된 마크업, 즉 닫히지 않은 태그를 포함하여, 태그 수프라고 불립니다).
# 파싱된 페이지에 대한 파싱 트리를 생성하여 HTML에서 데이터를 추출하는 데 사용할 수 있으며, 이는 웹 스크래핑에 유용합니다.
# Beautiful Soup은 HTML 내용에 대한 세밀한 제어를 제공하여, 특정 태그의 추출, 제거 및 내용 정리를 가능하게 합니다.
# 특정 정보를 추출하고 HTML 내용을 필요에 따라 정리하고자 하는 경우에 적합합니다.
#
# 예를 들어, HTML 내용에서 <p>, <li>, <div>, <a> 태그 내의 텍스트 내용을 스크래핑할 수 있습니다.
# - <p>: 단락 태그입니다. HTML에서 단락을 정의하며 관련된 문장 및/또는 구절을 함께 그룹화하는 데 사용됩니다.
# - <li>: 목록 항목 태그입니다. 순서가 있는 (<ol>) 및 순서가 없는 (<ul>) 목록 내에서 개별 항목을 정의하는 데 사용됩니다.
# - <div>: 구분 태그입니다. 블록 수준 요소로 다른 인라인 또는 블록 수준 요소를 그룹화하는 데 사용됩니다.
# - <a>: 앵커 태그입니다. 하이퍼링크를 정의하는 데 사용됩니다.
from langchain_community.document_transformers import BeautifulSoupTransformer

bs_transformer = BeautifulSoupTransformer()

docs_transformed = bs_transformer.transform_documents(docs, # 파싱할 html 문서
                                                      # tag_to_extract=["p", "li", "div", "a"],
                                                      tags_to_extrac=["a"], # 파싱할 테그 지정
                                                     )


# 파싱한 내용 출력
print(f'*bs:\n{docs_transformed[0].page_content[:500]}')

*bs:
본문 바로가기 (#ct)     NAVER   뉴스    (https://entertain.naver.com/home) 연예  (https://entertain.naver.com/home)     (https://sports.news.naver.com/index) 스포츠  (https://sports.news.naver.com/index)     (https://weather.naver.com/) 날씨  (https://weather.naver.com/)     (https://contents.premium.naver.com/) 프리미엄  (https://contents.premium.naver.com/)                 입력 내용 삭제  뉴스검색    통합검색  닫기      최근 검색어 도움말 (https://help.naver.com/support/alias/search/word/word_32.naver)  최근 검색 기록이 없습니다.    전체삭제 (javascr


In [13]:
# WebBaseLoader
# WebBaseLoader는 HTML 웹페이지의 모든 텍스트를 추출 하여, 다양한 용도로 활용할 수 있는 문서 형태로 변환하는 기능을 가진 도구입니다.
# 보다 특정한 사용 사례나 데이터 소스에 최적화된 로직을 적용하기 위해서는, WebBaseLoader의 자식 클래스들을 사용할 수 있습니다. 
#
# 예를 들어
# - IMSDbLoader는 영화 대본을 다루는 IMSDb 웹사이트에서 데이터를 로드하는 데 특화되어 있으며, 
# - AZLyricsLoader는 가사 정보를 제공하는 AZLyrics 웹사이트의 텍스트를 추출하는 데 사용됩니다. 
# - CollegeConfidentialLoader는 대학 커뮤니티 포럼인 CollegeConfidential에서 데이터를 가져오는 데 최적화되어 있습니다.
#
#이러한 자식 클래스들은 WebBaseLoader가 제공하는 기본적인 텍스트 로딩 기능에 추가적인 처리 또는 웹사이트별 데이터 구조에 맞는 파싱 로직을 적용하여, 
# 특정 웹사이트의 구조와 내용에 더 잘 맞는 데이터 추출 방법을 제공합니다. 
#이를 통해, 사용자는 웹에서 정보를 효율적으로 수집하고, 다양한 분석이나 애플리케이션에 필요한 형식으로 쉽게 변환할 수 있습니다.

from langchain_community.document_loaders import WebBaseLoader

# 한글이 깨져서 로드되는 경우에는 encoding="utf-8" 지정
#loader = WebBaseLoader("https://news.naver.com")
loader = WebBaseLoader("https://news.naver.com/", encoding="utf-8")

# SSL 인증서 검증 오류를 우회하기 위해 데이터를 가져오는 동안 "verify" 옵션을 설정할 수 있습니다.
#- 이렇게 하면 SSL 인증서 검증 과정을 건너뛰고 데이터를 가져올 수 있습니다. 
# 하지만 이 방법은 보안상의 이유로 권장되지 않습니다. 가능하다면 올바른 SSL 인증서를 사용하는 것이 좋습니다.

#SSL 인증서 우회
loader.requests_kwargs = {"verify": False}

# 데이터 로딩
web_data = loader.load()

# 데이터 출력
print(web_data[0].page_content[2000:2500].replace("\n",""))
                                                                      



공은 레베카 조인스(30)로 재판 세계일보05월 10일 09:05구독"좋다고 해서 샀는데"… 유명 화장품 썼다가 '피부 트러블', 왜? [수민이가 궁금해요]대학생 이소라(21)씨는 최근 A홈쇼핑에서 구입한 기초 화장품을 바른 뒤 부작용을 호소하고 있다. 취침 전에 화장품을 바른 뒤 아침에 일어나니 얼굴에 울긋불긋한 붉은 반점과 심한 가려움증이 생긴 것이다. 피부과에서는서울신문05월 10일 09:19구독어도어 “하이브, 심야에 여직원 따라가 협박성 불법 감사”모회사 하이브와 경영권 분쟁 중인 어도어가 10일 이사회를 앞두고 “하이브가 불법적인 감사를 저질렀다”고 주장했다. 어도어는 이날 “하이브가 심야에 여성 구성원의 집까지 따라가 노트북은 물론, 회사 소유도 아닌 개인새로보기매일경제05월 10일 08:59구독“12년간 숨기느라, 이젠 지쳤어요”…


In [14]:
from langchain_community.document_loaders import WebBaseLoader
# 여러 페이지 로드

# 웹 페이지 URL 목록을 사용하여 WebBaseLoader 객체를 생성합니다.
loader = WebBaseLoader(["https://news.naver.com/", "https://news.daum.net"])
docs = loader.load()  # 지정된 웹 페이지에서 문서를 로드합니다.

# 로드된 문서를 출력합니다.
print("Naver")
print(docs[0].page_content.replace("\n", "")[200:1000])
print("===" * 20)

print("Daum")
print(docs[1].page_content.replace("\n", "")[:1000])

Naver
                        구독설정                                속보한 총리 "일부 의대 교수, 다시 집단휴진…안타까워"뉴스1내용작성전코스피 2737.95, 원·달러 환율 1366.1개장MBN내용작성전속보 닫기JIBS05월 10일 08:15구독"진주만 폭격 잊었나".. 美 해군 공식SNS에 내걸린 일본 욱일기미국 해군 공식 SNS에 최근 일본 욱일기(전범기)가 담긴 사진이 게재된 것과 관련해 서경덕 성신여대 교수가 항의의 뜻을 전했습니다. 한국 홍보 전문가 서경덕 교수는 오늘(10일) 보도자료를 통해 이 같은 내용을 공서울경제05월 10일 08:39구독"서울의 진짜 보물"…시민이 꼽은 랜드마크는 바로 '이곳'‘서울의 보물’로 알려진 한강이 시민들이 꼽은 서울을 가장 대표하는 장소로 나타났다는 설문조사 결과가 나왔다. 서울의 가장 대표적인 매력으로는 편리한 교통, 다양한 먹거리와 쇼핑이 꼽혔다. 서울시는 이 같은 내용을 한국일보05월 10일 09:19구독'살인 의대생'으로 주목받는 의사 되기 조건... 복역 5년 후면 시험 응시서울 강남 한복판에서 연인을 흉기로 살해한 범인이 의대생으로 알려지면서 일각에서는 만에 하나 그가 사회에 나온 뒤 의사로 일하는 것 아니냐며 불안해하고 있다. 일단 소속 대학이 징계절차에 착수하고, 고의적 살인이라는조세일보05월 10일 07:28구독올여름 코로나 재유행하나…美서 오미크론 변종 확산 조짐미국에서 새로운 오미크론 변종이 발견되면서 올여름 코로나19가 다시 유행할 수 있다는 경고가 나왔다. 9일(현지시간) 뉴스위크에 따르면 미국에서 오
Daum
홈 | 다음뉴스본문 바로가기메뉴 바로가기뉴스관련 서비스연예스포츠 뉴스 메인메뉴홈사회정치경제국제문화IT연재포토팩트체크홈이슈 기사 목록정치                                    '입원 치료' 이재명, 팬카페에 안부인사…"내부갈등에 힘빼지 말자"                                경제      