----
# 1. 수업 목표 
----
- python을 활용한 정적 웹 크롤링

- 목표 사이트 : `https://news.naver.com/section/101` (네이버 뉴스 경제 페이지)


&nbsp;


----
# 2. 학습 목표
----
- python 라이브러리인 requests를 활용한 HTTP 요청으로 웹 페이지를 가져오기

- BeautifulSoup을 활용한 HTML 파싱을 실습

- +추가적으로 정기적으로 크롤링을 진행할 수 있는 github repo를 만들고, github actions를 활용한 자동화를 구현


&nbsp;

----
# 3. 학습 내용
----
### 3-1. 리뷰 페이지의 구조 HTML 분석과 HTTP 요청에 대한 이해

- 리뷰 페이지의 구조 HTML 분석

- requests를 활용한 HTTP 요청으로 웹 페이지 가져오기

### 3-2. BeautifulSoup을 활용한 HTML 파싱을 실습

beautifulsoup4를 왜 쓰는 걸까요?
- BeautifulSoup을 활용한 HTML 파싱을 실습

- 리뷰 페이지의 구조를 파싱하여 데이터 추출

### 3-3. github repo를 만들고, github actions를 활용한 자동화를 구현

- github repo를 만들고, github actions를 활용한 자동화를 구현

&nbsp;

----
# 4. 수업에 필요한 기본지식
----

### 4-1. robots.txt

robots.txt는 웹사이트에 웹 [크롤러](https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81 "크롤링") 같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없다.

- https://news.naver.com/robots.txt

```txt
User-agent: Yeti
Allow: /main/imagemontage
Disallow: /

User-Agent: facebookexternalhit
Disallow: /*/template

User-Agent: Twitterbot
Disallow: /*/template

User-agent: *
Disallow: /
```

https://www.whatismybrowser.com/detect/what-is-my-user-agent/

# 수업에 필요한 라이브러리
```
!pip install requests beautifulsoup4
```

In [17]:
# if beautifulsoup4가 존재하지 않는다면 어떻게 됐을까요?
# beautifulsoup4가는 왜 쓰는 걸까요?

import requests

url = "https://news.naver.com/section/101"

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15"
}

response = requests.get(url, headers=headers)

print(response.status_code)  # HTTP 상태 코드 출력 (200이면 성공)
html = response.text  # 응답의 HTML 텍스트
print(html)

200
<!doctype html>
<html lang="ko" data-useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="referrer" contents="always">
		<meta http-equiv="refresh" content="600">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="og:title" content="경제 : 네이버 뉴스">
		<meta property="og:type" content="website">
		<meta property="og:url" content="https://news.naver.com/section/101">
		<meta property="og:image" content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png">
		<meta property="og:description" content="증권, 금융, 부동산, 기업, 국제 등 경제 분야 뉴스 제공">
		<meta property="og:article:author" content="네이버">
		<meta name="twitter:card" content="summary">
		<meta name="twitter:title" content="경제 : 네이버 뉴스">

In [18]:
type(html)

str

In [19]:
import requests
from bs4 import BeautifulSoup

url = "https://news.naver.com/section/101"

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15"
}

# 객체는 정보를 담는 그릇
response = requests.get(url, headers=headers)

# BeautifulSoup으로 파싱
soup = BeautifulSoup(response.text, "html.parser")

# 전체 HTML 출력
print(soup.prettify())  # 앞부분만 3000글자 출력

<!DOCTYPE html>
<html data-useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta contents="always" name="referrer"/>
  <meta content="600" http-equiv="refresh"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
   <meta content="경제 : 네이버 뉴스" property="og:title"/>
   <meta content="website" property="og:type"/>
   <meta content="https://news.naver.com/section/101" property="og:url"/>
   <meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
   <meta content="증권, 금융, 부동산, 기업, 국제 등 경제 분야 뉴스 제공" property="og:description"/>
   <meta content="네이버" property="og:article:author"/>
   <meta content="summary" name="twitter:card"/>
   <meta content="경제 : 네이버 뉴스" name="tw

In [20]:
type(soup)

bs4.BeautifulSoup

# 네이버 경제 뉴스 섹션 페이지 HTML에서 기사 제목 링크 추출



In [None]:
# 네이버 경제 뉴스 섹션 페이지 HTML에서 기사 제목 링크 추출

# <div class="sa_text">
# 						<a href="https://n.news.naver.com/mnews/article/001/0015353455" class="sa_text_title _NLOG_IMPRESSION" data-clk="eco.clart" data-imp-gdid="880000D8_000000000000000015353455" data-imp-url="https://n.news.naver.com/mnews/article/001/0015353455" data-imp-index="1">
# 							<strong class="sa_text_strong">불안한 SKT 가입자들, 무상 교체 전부터 유심 바꾸려 긴 줄</strong>
# 						</a>
# 						<div class="sa_text_lede">사이버 공격으로 가입자 유심(USIM) 정보가 일부 탈취된 SK텔레콤 이용자들이 유심 무상 교체 시행 전에도 보안 사고에 대한 불안감을 떨치지 못하면서 SK텔레콤 대리점 곳곳에 긴 줄이 늘어섰다. 26일 연합뉴스 취</div>
# 						<div class="sa_text_info">
# 							<div class="sa_text_info_left">
# 								<div class="sa_text_press">연합뉴스</div>
# 								<a href="https://n.news.naver.com/mnews/article/comment/001/0015353455" class="sa_text_cmt _COMMENT_COUNT_LIST" style="" data-ticket="news" data-object-id="news001,0015353455" data-zero-allow="false" data-processed="true">100<span class="sa_text_symbol"><span class="blind">이상</span>+</span></a>
# 							</div>
# 							<div class="sa_text_info_right">
# 								<a href="/cluster/c_202504241410_00000024/section/101?oid=001&amp;aid=0015353455" class="sa_text_cluster" data-clk="clcou">
# 									<span class="sa_text_cluster_num">90</span>
# 									<span class="blind">개의 관련뉴스 더보기</span>
# 								</a>
# 							</div>
# 						</div>
# 					</div>

#_SECTION_HEADLINE_LIST_145xv > li:nth-child(1) > div > div > div.sa_text > a > strong
#_SECTION_HEADLINE_LIST_145xv > li:nth-child(1) > div > div > div.sa_text > a > strong

# 제목 strong 태그 추출
news_titles = soup.select(".sa_text strong")

print(f"발견한 뉴스 제목 수: {len(news_titles)}")

# 추출한 제목과 링크를 리스트로 저장
titles = []
links = []

for title_tag in news_titles:
    title = title_tag.get_text(strip=True)
    # 부모인 <a> 태그에서 href 가져오기
    parent_a_tag = title_tag.find_parent("a")
    if parent_a_tag:
        link = parent_a_tag.get("href")
    else:
        link = None  # 혹시나 a가 없는 경우 대비

    titles.append(title)
    links.append(link)

# 결과 출력
for i in range(min(5, len(titles))):  # 처음 5개만 출력
    print("뉴스 제목:", titles[i])
    print("뉴스 링크:", links[i])
    print("-" * 50)
    


발견한 뉴스 제목 수: 46
뉴스 제목: 뉴욕증시, 최악은 지났다는 안도감‥나흘째 강세 마감
뉴스 링크: https://n.news.naver.com/mnews/article/214/0001420696
--------------------------------------------------
뉴스 제목: ㈜효성, 1분기 영업이익 818억원…전년 대비 1254% 증가
뉴스 링크: https://n.news.naver.com/mnews/article/003/0013207050
--------------------------------------------------
뉴스 제목: '이자장사 이 정도였어'...석달만에 5조 번 4대 금융
뉴스 링크: https://n.news.naver.com/mnews/article/374/0000437346
--------------------------------------------------
뉴스 제목: “경북 봉화 등 전국 51개 지하수 중금속 오염 심각”
뉴스 링크: https://n.news.naver.com/mnews/article/030/0003307208
--------------------------------------------------
뉴스 제목: 삼성, '해킹사고' SKT 이용 임원들에 "빨리 유심 교체해라"(종합)
뉴스 링크: https://n.news.naver.com/mnews/article/001/0015352240
--------------------------------------------------


# [Step 1] 먼저 웹페이지에 들어가기

예: https://news.naver.com/section/101
# [Step 2] 개발자 도구 열기 (F12)

브라우저(크롬, 사파리 등)에서 F12 누르거나
우클릭 → "검사" (Inspect)
→ 그러면 화면 오른쪽이나 아래에 HTML 구조가 보여.

# [Step 3] 가져오고 싶은 곳을 직접 클릭해서 찾아보기

마우스로 뉴스 제목 위에 갖다 대고
오른쪽 개발자 도구에 해당 HTML 코드를 찾아.

In [36]:
import requests
from bs4 import BeautifulSoup

url = "https://news.naver.com/section/101"

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

# 제목 strong 태그 추출
news_titles = soup.select(".sa_text .sa_text_strong")

print(f"발견한 뉴스 제목 수: {len(news_titles)}")

# 추출한 제목과 링크를 리스트로 저장
titles = []
links = []

for title_tag in news_titles:
    title = title_tag.get_text(strip=True)
    # 부모인 <a> 태그에서 href 가져오기
    parent_a_tag = title_tag.find_parent("a")
    if parent_a_tag:
        link = parent_a_tag.get("href")
    else:
        link = None  # 혹시나 a가 없는 경우 대비

    titles.append(title)
    links.append(link)

# 결과 출력
for i in range(min(5, len(titles))):  # 처음 5개만 출력
    print("뉴스 제목:", titles[i])
    print("뉴스 링크:", links[i])
    print("-" * 50)


발견한 뉴스 제목 수: 46
뉴스 제목: 이창용 "미중 관세협상 안되면 관세 유예 연장돼도 경제 비용 커"
뉴스 링크: https://n.news.naver.com/mnews/article/057/0001883512
--------------------------------------------------
뉴스 제목: '대구 휘발유 1천500원대' 11주 연속 국내 주유소 휘발유·경유 가격 내려
뉴스 링크: https://n.news.naver.com/mnews/article/088/0000944285
--------------------------------------------------
뉴스 제목: 삼성, SK텔레콤 해킹 사고에 "임원들 유심 교체해라"
뉴스 링크: https://n.news.naver.com/mnews/article/018/0005997557
--------------------------------------------------
뉴스 제목: '최태원 동생' 최기원 이사장, SK㈜ 3500주 또 매수
뉴스 링크: https://n.news.naver.com/mnews/article/011/0004478625
--------------------------------------------------
뉴스 제목: ‘금융위기’ 연상케 해...외국인 떠나는 ‘국장’
뉴스 링크: https://n.news.naver.com/mnews/article/050/0000089915
--------------------------------------------------


In [None]:
import pandas as pd
import os

# 새로운 데이터 (크롤링한 결과)
new_data = pd.DataFrame({
    'Title': titles,
    'Link': links
})

# 기존 파일이 있으면 불러오기
if os.path.exists('news_titles.csv'):
    existing_data = pd.read_csv('news_titles.csv')
    # 기존 데이터에 새로운 데이터 추가
    combined_data = pd.concat([existing_data, new_data], ignore_index=True)
else:
    combined_data = new_data  # 처음이면 새로 시작

# 중복 제거 (옵션) - 제목+링크 둘 다 같으면 중복으로 보기
combined_data = combined_data.drop_duplicates(subset=['Title', 'Link'])

# CSV 파일로 저장
combined_data.to_csv('news_titles.csv', index=False, encoding='utf-8-sig')

print("CSV 파일 누적 저장 완료!")

CSV 파일 저장 완료!
