### 1. SimpleWebPageReader

step1. 관련 라이브러리 설치

In [None]:
%pip install llama-index-readers-web

step2. 관련 라이브러리 불러오기

In [None]:
from llama_index.readers.web import SimpleWebPageReader

step3. 특정 url 웹 페이지 html 정보 로드

In [None]:
# 웹 페이지 로드
documents = SimpleWebPageReader().load_data(urls=["https://www.naver.com"])

print(documents)

### 2. Youtube Transcript Loader

최근 유튜브의 내부 데이터 구조 변경으로, step 1~3에서 설명한 LlamaHub의 라이브러리는 작동하지 않습니다. 대신 그 아래에 대체코드를 작성해두었으니 참고하시기 바랍니다.

step1. 관련 라이브러리 설치

In [None]:
%pip install llama-hub-youtube-transcript llama-index-readers-youtube-transcript

step2. 관련 라이브러리 불러오기

In [None]:
from llama_index.readers.youtube_transcript import YoutubeTranscriptReader

step3. 특정 유튜브 영상의 스크립트 정보 로드

In [None]:
loader = YoutubeTranscriptReader()
documents = loader.load_data(ytlinks=["https://www.youtube.com/watch?v=Oo8-nEuDBkk"])

print(documents)

### Youtube Transcript Loader 대체 코드

In [None]:
%pip install youtube-transcript-api

In [None]:
from youtube_transcript_api import YouTubeTranscriptApi
from llama_index.core import Document

def get_youtube_document(video_url):
    """
    유튜브 URL을 받아 자막을 가져온 뒤 LlamaIndex Document 객체로 반환하는 함수
    """
    try:
        # 1. URL에서 비디오 ID 추출
        video_id = ""
        if "v=" in video_url:
            video_id = video_url.split("v=")[1].split("&")[0]
        elif "youtu.be/" in video_url:
            video_id = video_url.split("youtu.be/")[1].split("?")[0]
        
        if not video_id:
            print("비디오 ID를 찾을 수 없습니다.")
            return []

        # 2. 자막 가져오기 (최신 방식 적용)
        yt = YouTubeTranscriptApi()
        transcript_list = yt.list(video_id)
        
        # 3. 언어 선택 (한국어 -> 영어 순, 없으면 자동생성 등 사용 가능한 것 선택)
        try:
            transcript = transcript_list.find_transcript(['ko', 'en'])
        except:
             # 선호 언어가 없으면 첫 번째로 잡히는 자막(자동생성 포함) 사용
             transcript = next(iter(transcript_list))

        transcript_data = transcript.fetch()
        
        # 4. 텍스트 추출 및 결합
        # (최신 버전은 객체를 반환하므로 .text 속성으로 접근해야 함)
        full_text = " ".join([entry.text for entry in transcript_data])
        
        # 5. Document 객체 생성 및 반환
        return [Document(text=full_text, metadata={"video_url": video_url, "video_id": video_id})]
        
    except Exception as e:
        print(f"에러 발생: {e}")
        return []

# --- 사용 예시 ---
# 기존 코드: documents = loader.load_data(ytlinks=[...])
# 대체 코드:
documents = get_youtube_document("https://www.youtube.com/watch?v=Oo8-nEuDBkk")

print(documents)

### 3. Wikipedia Reader

step1. 관련 라이브러리 설치

In [None]:
%pip install wikipedia llama-index-readers-wikipedia

step2. 관련 라이브러리 불러오기

In [None]:
from llama_index.readers.wikipedia import WikipediaReader

step3. 특정 주제의 위키피디아 정보 로드

In [None]:
reader = WikipediaReader()

documents = reader.load_data(pages=["Python (programming language)"])

print(documents)