In [None]:
# web crawling

In [None]:
!python -m pip install requests
!python -m pip install beautifulsoup4
!python -m pip install lxml
!python -m pip install html5lib

In [None]:
# robots.txt

import requests

url = "https://www.naver.com/robots.txt"
response = requests.get(url)
print(response.text)

In [None]:
# 1. urllib

import urllib.request

url = "https://google.com"
response = urllib.request.urlopen(url)
html = response.read()
print(html)

In [None]:
# urlopen() 으로 웹 페이지 열기

from urllib.request import urlopen

url = "https://www.example.com"
response = urlopen(url)
html = response.read().decode('utf-8')
print(html[:300])

In [None]:
# request 객체로 User-Agent 추가

from urllib.request import Request, urlopen

url = "https://www.example.com"
headers = {"User-Agent": "Mozilla/5.0"}
req = Request(url, headers=headers)
response = urlopen(req)
html = response.read().decode('utf-8')
print(html[:300])

In [None]:
# urllib.parse를 이용한 URL 분석 

from urllib.parse import urlparse, parse_qs 
 
url = "https://www.example.com/search?q=python&sort=latest" 
 
parsed = urlparse(url) 
print(parsed) 
 
params = parse_qs(parsed.query) 
print(params)  # {'q': ['python'], 'sort': ['latest']} 

In [None]:
# urllib.parse.urlencode()로 URL 파라미터 생성

from urllib.parse import urlencode

params = {
    'q': 'chatgpt',
    'lang': 'ko',
    'page': 1
} 
 
query_string = urlencode(params)
url = f"https://www.example.com/search?{query_string}"
print(url)

In [None]:
# 이미지 파일 다운로드 예제

from urllib.request import urlretrieve

image_url = "https://picsum.photos/500/300"
save_path = "image/downloaded_image.png"

urlretrieve(image_url, save_path)
print("이미지 다운로드 완료")

In [None]:
# 크롤링 시 robots.txt 분석 (크롤링 허용 여부 확인) 
from urllib.robotparser import RobotFileParser 
 
rp = RobotFileParser() 
rp.set_url("https://www.example.com/robots.txt") 
rp.read() 
 
can_fetch = rp.can_fetch("*", "https://www.example.com/somepage") 
print("접근 가능 여부:", can_fetch) 

In [None]:
# 2. requests (외부 라이브러리)

In [None]:
# 기본요청-get

import requests
url = "https://example.com"
response = requests.get(url)
html = response.text
print(html)

In [None]:
import requests 
# requests 라이브러리를 불러온다 (웹 요청을 보내기 위한 라이브러리) 

url = 'https://www.python.org/' 
# 접속하고자 하는 URL을 정의한다 

response = requests.get(url) 
# 해당 URL로 GET 요청을 보내고, 응답(response) 객체를 저장한다 

print("상태 코드:", response.status_code) 
# 응답의 상태 코드(status code)를 출력한다 
# 200 이면 성공, 404는 페이지 없음, 403은 접근 금지 등등 

print("본문 일부:\n", response.text[:300])
# 응답의 본문 내용 중 앞부분 300글자만 출력한다 (전체는 너무 길 수 있으므로) 

In [None]:
# post 요청 보내기 

import requests 
data = {'id': 'bc_kim', 'pw': '1234'} 
response = requests.post('https://httpbin.org/post', data=data) 
print(response.json())

In [None]:
# requests.Request 
from requests import Request, Session 
s = Session() 
req = Request('GET', 'https://httpbin.org/get') 
prepped = s.prepare_request(req) 
resp = s.send(prepped) 
print(resp.text)

In [None]:
# requests.Session 
s = requests.Session() 
s.headers.update({'User-Agent': 'my-app/0.0.1'}) 
response = s.get('https://httpbin.org/headers') 
print(response.json())

In [None]:
# 3. BeautifulSoup (HTML/XML 파서)

In [None]:
import requests 
from bs4 import BeautifulSoup 
# 1. requests 로 웹페이지 요청 
response = requests.get("https://example.com") 
# 2. BeautifulSoup 으로 HTML 파싱 
soup = BeautifulSoup(response.text, "html.parser") 
# 3. 원하는 요소 추출 
title = soup.find("title").text 
print("웹 페이지 제목:", title)

In [None]:
from bs4 import BeautifulSoup 

# 분석할 HTML 문자열을 정의한다 (간단한 테스트용 HTML) 
html = ''' 
<html> 
<head><title>테스트 페이지</title></head> 
<body> 
<h1>안녕하세요!</h1> 
<p class="desc">웹 크롤링 예제입니다.</p> 
<a href="https://example.com">Example 사이트</a> 
</body> 
</html> 
''' 

# HTML 문자열을 BeautifulSoup 객체로 파싱한다 
# 'html.parser'는 파이썬 기본 HTML 파서 
soup = BeautifulSoup(html, 'html.parser')
 
# <p> 태그의 class 속성 값을 출력한다 
print(soup.p['class'])  # 출력: ['desc'] → class 속성은 리스트로 반환됨 

# <title> 태그 전체를 출력한다 (태그 포함) 
print(soup.title)  # 출력: <title>테스트 페이지</title> 

# <h1> 태그의 텍스트만 출력한다 
print(soup.h1.text)  # 출력: 안녕하세요! 

# <a> 태그의 href 속성 값을 출력한다 (링크 주소) 
print(soup.a['href'])  # 출력: https://example.com 

In [None]:
import requests
from bs4 import BeautifulSoup 
 
# 크롤링할 웹 페이지의 주소 (Hacker News 메인 페이지) 
url = 'https://news.ycombinator.com' 
 
# requests를 이용해 URL에 GET 요청을 보냄 
response = requests.get(url) 
 
# 받은 응답(response)의 HTML 텍스트를 BeautifulSoup 객체로 파싱함 
# 'html.parser'는 기본 파서로, HTML 문서를 분석할 수 있게 함 
soup = BeautifulSoup(response.text, 'html.parser') 
 
# 'span.titleline > a' 선택자를 이용해 뉴스 제목이 담긴 링크를 모두 선택함 
# Hacker News는 각 뉴스 항목을 <span class="titleline"> 내부의 <a> 태그로 감싸고 있음 
titles = soup.select('span.titleline > a') 
 
# 상위 5개의 뉴스 제목과 링크를 출력 
for i, title in enumerate(titles[:5]): 
  # i+1: 순번 표시, title.text: 뉴스 제목, title['href']: 뉴스 링크 
  print(f"{i+1}. {title.text} → {title['href']}")

In [None]:
# 1. 필요한 모듈 가져오기
from bs4 import BeautifulSoup 
 
# 2. 예시로 사용할 HTML 코드 준비
html_doc = """
<html>
  <head><title>나의 첫 번째 크롤링</title></head>
  <body>
    <h1 class="title">Hello, BeautifulSoup!</h1>
    <p id="first">첫 번째 문단입니다.</p>
    <p id="second">두 번째 문단입니다.</p>
    <a href="http://example.com" class="link">Example 링크</a>
  </body>
</html>
""" 
# 3. BeautifulSoup 객체로 HTML 파싱하기 
soup = BeautifulSoup(html_doc, 'html.parser') # 'html.parser'는 기본 파서 사용

# 4. 다양한 접근 방법들
# 4-1. 문서 구조를 트리처럼 따라가기
print("4-1 타이틀 태그 전체:", soup.title)
print("4-1 타이틀 텍스트:", soup.title.string)

# 4-2. 태그 이름으로 바로 접근하기
print("4-2 h1 태그:", soup.h1)
print("4-2 h1 텍스트:", soup.h1.text)

# 4-3. find(): 첫 번째 해당 태그 찾기
p_tag = soup.find('p')
print("4-3 첫 번째 p 태그:", p_tag)

# 4-4. find_all(): 모든 해당 태그 리스트로 반환
p_tags = soup.find_all('p')
print("4-4 모든 p태그 리스트:")
for p in p_tags:
  print("-", p.text)
  
# 4-5. 속성(attribute) 조회하기
a_tag = soup.find('a')
print("4-5 a 태그 href 속성:", a_tag['href'])
print("4-5 a 태그 class 속성:", a_tag['class'])

# 4-6. select(): css 선택자 방식으로 찾기
title_class = soup.select_one('h1.title')
print("4-6 css 선택자로 찾은 h1:", title_class.text)

# 4-7. select.all(): css 선택자 방식으로 여러 개 찾기
all_p = soup.select('p')
print("4-7 css 선택자로 찾은 모든 p 태그:")
for p in all_p:
  print("-", p.text)

In [None]:
# 3개 parser

from bs4 import BeautifulSoup 
 
html_doc = """ 
<html> 
  <head><title>테스트 페이지</title></head> 
  <body> 
    <h1>Welcome</h1> 
    <p>첫 번째 문단</p> 
    <p>두 번째 문단</p> 
  </body> 
</html> 
"""

# html.parser 사용
soup1 = BeautifulSoup(html_doc, 'html.parser')
print("1. html.parser 사용 결과:")
print(soup1.prettify()) # 들여쓰기 정리된 예쁜 형태 출력

# lxml 사용
soup2 = BeautifulSoup(html_doc, 'lxml')
print("\nlxml 사용 결과:")
print(soup2.prettify())

# html5lib 사용
soup3 = BeautifulSoup(html_doc, 'html5lib')
print("\nhtml5lib 사용 결과:")
print(soup3.prettify())

In [None]:
# beautifulSoup 고급 기능
# 기능 / 메소드 / 설명

# 1. 형제찾기 /
# find_next_sibling(), find_previous_sibling() /
# 다음or이전 형제 태그 찾기, 
# ex) tag.find_next_sibling()

# 2. 부모 찾기 /
# find_parent(), find_parents() /
# 부모 태그 또는 모든 상위 태그 찾기, 
# ex) tag.find_parent()

# 3. 조건 검색 /
# find() + attrs, find(attrs={}) /
# 속성 기반 검색, 
# ex) soup.find('tag', class_="name")

# 4. 텍스트 검색 /
# find(text="텍스트") /
# ex) soup.find(text="Welcome")

# 5. 여러 조건 검색 /
# find_all + 리스트, find_all(['tag1', 'tag2']) /
# 여러 태그를 동시에 찾기, 
# ex) soup.find_all(['h1', 'p'])

In [None]:
# 1) 고급 기능: 형제(sibling) 찾기 

from bs4 import BeautifulSoup 

html_sibling = """ 
<div> 
  <p id="first">첫 번째</p> 
  <p id="second">두 번째</p> 
  <p id="third">세 번째</p> 
</div> 
""" 
 
soup = BeautifulSoup(html_sibling, 'html.parser') 
 
first_p = soup.find('p', id='first')
print("현재 태그:", first_p.text) 
 
next_p = first_p.find_next_sibling('p') # 다음 형제 찾기 
print("다음 형제 태그:", next_p.text) 
 
third_p = next_p.find_next_sibling('p') 
print("또 다음 형제 태그:", third_p.text) 

In [None]:
# 2) 고급 기능: 부모(parent) 찾기 

from bs4 import BeautifulSoup 

html_parent = """ 
<div class="container"> 
  <p>문단 안에 <span>스팬 텍스트</span>가 있어요.</p> 
</div> 
""" 
 
soup = BeautifulSoup(html_parent, 'html.parser') 
 
span_tag = soup.find('span') 
print("현재 span 태그 텍스트:", span_tag.text) 
 
parent_p = span_tag.find_parent('p') 
print("span의 부모 p 태그:", parent_p)

In [None]:
# 3) 고급 기능: 속성으로 찾기

from bs4 import BeautifulSoup 

html_attr = """ 
<div> 
  <a href="https://example.com" class="btn primary">Example</a> 
  <a href="https://another.com" class="btn secondary">Another</a> 
</div> 
""" 
 
soup = BeautifulSoup(html_attr, 'html.parser') 
 
# class="btn primary"인 a 태그 찾기 
primary_btn = soup.find('a', class_="btn primary") 
print("Primary 버튼 텍스트:", primary_btn.text) 
 
# href 속성이 https로 시작하는 a 태그 찾기 
https_links = soup.find_all('a', href=True) 
for link in https_links: 
    print("링크:", link['href'])

In [None]:
# web crawling (기사 링크 수집) 예

# 웹 크롤링을 위한 모듈
import requests
from bs4 import BeautifulSoup

# 크롤링할 웹사이트
url = "https://news.ycombinator.com/"

# 해당 url에 get 요청을 보내고, 값을 받아옴
# 그 값에는 HTML 전체가 텍스트 형태로 담겨 있음
response = requests.get(url)

# HTML 텍스트를 BeautifulSoup으로 파싱하여 분석할 수 있는 구조로 바꿈
# 'html.parser'는 기본 제공되는 HTML 파서로 갇난한 HTML 문서를 분석할 때 사용
# lxml, html5lib 라는 이름의 성능적으로 더 뛰어는 parser도 존재
soup = BeautifulSoup(response.text, 'html.parser')

# 뉴스 기사 제목이 포함된 링크를 추출
links = soup.select('span.titleline > a')

# 수집한 뉴스 링크들 중 하나씩 꺼내어 제목과 링크를 출력
for link in links:
  # link.text: 링크(a태그) 안의 텍스트(기사 제목)
  # link['href']: 링크(a속성)의 실제 URL
  # strip(): 문자열 앞뒤 공백 제거 메서드
  print(link.text.strip(), "==>", link['href'])


In [None]:
# web scraping (기사 상세 정보 추출) 예

import requests
from bs4 import BeautifulSoup

# 실제 뉴스 기사 url (연합뉴스)
article_url = "https://www.yna.co.kr/view/AKR20240419039400017"

# 크롤링 차단 방지를 위해 브라우저처럼 보이게끔 User-Agent 설정
headers = {"User-Agent": "Mozilla/5.0"}

# 해당 url에 get 요청을 보내고, 값을 받아옴
response = requests.get(article_url, headers=headers)

# 응답 받은 HTML 을 BeautifulSoup로 파싱
soup = BeautifulSoup(response.text, 'html.parser')

# 1. 제목 추출
# h1 tag + class 'tit'에서 텍스트 추출
title_tag = soup.find('h1', class_='tit')
# 존재하면 텍스트 추출, 없으면 '제목 없음' 처리
title = title_tag.text.strip() if title_tag else "제목 없음"

# 2. 날짜 추출
# <p class="update-time">에서 텍스트 추출
date_tag = soup.find('p', class_='update-time')
# 존재하면 텍스트 추출, 없으면 '날짜 없음' 처리
date = date_tag.text.strip() if date_tag else "날짜 없음"

# 3. 본문 추출
# <div class="story-news article">에서 텍스트 추출
content_tag = soup.find('div', class_='story-news article')
# 여러 줄의 텍스트가 있으므로 전체 문자열 추출
body = content_tag.text.strip() if content_tag else "본문 없음"

# 4. 결과 출력
print("제목:", title)
print("날짜:", date)
print("내용:\n", body[:500], "...")
