# 정적크롤링 실습2. 뉴스기사

In [1]:
import requests
from bs4 import BeautifulSoup

#### 크롤링 단계

1. 크롤링하려는 HTML 페이지의 구조와 코드 살펴보기
    - F12 (구글 크롬 개발자도구) : URL주소, 태그 확인  <br><br>
2. 문서 내용 읽어오기 : 
    - html = urllib.request.urlopen(URL주소).read()
    - html = requests.get(URL주소).text  <br><br>
3. 원하는 내용 추출하기(parsing)
    - soup = bs4.BeautifulSoup(html, 'html.parser')
    - soup.find_all(찾아낼태그)
    - soup.select()
    - 동일한 태그가 여러 개인 경우 class 속성 사용

### 1. 뉴스 머리기사 제목 크롤링

- 목적 : 다음 뉴스의 헤드라인 뉴스 제목 크롤링 (https://www.daum.net/)

#### 단계1. HTML 페이지 살펴보기

- 다음 뉴스 페이지
- https://news.daum.net/

[F12] - 개발자도구 확인

#### 단계2. 문서 내용 읽어오기

In [223]:
url = 'https://news.daum.net/'
response = requests.get(url)
html = response.text

- 자동화 봇으로 인식하여 연결을 거부할 경우

In [None]:
headers = {'user-agents' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'}
requests.get(url, headers)

### headers user-agents 찾는 방법
[F12] -> console -> navigator.useragent

#### 참고. 요청을 자동화봇으로 인지하고 연결을 끊는 경우

- 위 코드 처럼 자동화 봇으로 보고 연결을 끊는 경우에는 데이터 전송시 추가되는 header를 구성해 bot이 아님을 증명해야 함
    - header에는 브라우저를 통한 접속이라는 정보를 포함시킨다
    - 크롬 개발자도구 => NetWork => new.naver.com 선택한 후 오른쪽에 새로 나타나는 창에서 heaer 선택
    - requests headers 목록에서 user-agent 확인
- https://developers.whatismybrowser.com/useragents/explore/software_name/chrome/

![image.png](attachment:image.png)

#### 3단계. 원하는 내용 추출하기(parsing)

: 뉴스 머리기사 제목 추출

- 머리기사 제목에 해당하는 태그와 속성값 확인
    - 개발자도구의 콘솔(console)창을 기사의 제목 일부를 입력하여 검색
    - HTML의 \<div\>태그의 class속성값이 item_issue인 것 확인

![image.png](attachment:3c034367-bb65-40d1-969e-d68051e0336c.png)

In [224]:
soup = BeautifulSoup(html, 'html.parser')

In [226]:
news = soup.select('.item_issue')
len(news)

20

In [228]:
headline = soup.select('.tit_g')
len(headline)

32

#### 반복문으로 기사 제목 모두 추출하기

In [11]:
for h in headline:
    print(h.text)



                                    비트코인 시세 급등...암호화폐 탈취 해킹 주의보
                                



                                    이종섭 총선 전 출국에 與 내부서도 “왜 하필 지금”
                                



                                    정부 "5년간 1조 3000억 원 지원해 소아 중증진료 강화"
                                



                                    [단독] 국민의힘, ‘치매관리 주치의 전국 확대’ 공약으로 추진한다
                                



                                    “연두색 가오떨어지네…” 수입 법인차 등록대수 ‘와르르’
                                



                                    의대 교수 사직 선언 이어지나…집단행동 분수령
                                



                                    푸틴이 언급한 '북한 자체 핵우산' 실체는
                                



                                    [격전지 토론] '낙동강벨트' 김두관 vs 김태호..18년만의 재대결
                                



                                    신형탱크 몰며 얼굴 ‘빼꼼’… 김정은 “우리 땅크가 세계서 제일 위력”
                                



                                    시민사회, 野비례후보 '여성 1번' 시각

In [23]:
head_list = []
for n in news:
    head_list.append(n.text)

In [31]:
news_list = []
for head in head_list:
    item = head.split()
    section = item[0]
    title = ''.join(item[1:])
    news_list.append({section,title})
    print(f'분야 : {section}, 제목 : {title}')

In [231]:
news_headlines = {}
section_list =[]
title_list = []
for head in head_list:
    item = head.split()
    section_list.append(item[0])
    title_list.append(' '.join(item[1:]))

news_headlines = {'분야':section_list, '제목':title_list}
new_headlines

{}

In [35]:
import pandas as pd

In [37]:
news_df = pd.DataFrame(news_headlines)
news_df

Unnamed: 0,분야,제목
0,IT,비트코인 시세 급등...암호화폐 탈취 해킹 주의보
1,정치,이종섭 총선 전 출국에 與 내부서도 “왜 하필 지금”
2,사회,"정부 ""5년간 1조 3000억 원 지원해 소아 중증진료 강화"""
3,정치,"[단독] 국민의힘, ‘치매관리 주치의 전국 확대’ 공약으로 추진한다"
4,경제,“연두색 가오떨어지네…” 수입 법인차 등록대수 ‘와르르’
5,사회,의대 교수 사직 선언 이어지나…집단행동 분수령
6,정치,푸틴이 언급한 '북한 자체 핵우산' 실체는
7,정치,[격전지 토론] '낙동강벨트' 김두관 vs 김태호..18년만의 재대결
8,정치,신형탱크 몰며 얼굴 ‘빼꼼’… 김정은 “우리 땅크가 세계서 제일 위력”
9,정치,"시민사회, 野비례후보 '여성 1번' 시각장애인 서미화 추천"


### 2. 뉴스 기사 하이퍼링크 주소 추출하기

- 뉴스기사 페이지로 이동하는 \<a\>태그의 하이퍼링크 주소 가져오기

In [92]:
href = soup.select('.item_issue > a')
href_list = []
for h in href:
    href_list.append(h['href'])
href_list

['https://v.daum.net/v/20240314100524185',
 'https://v.daum.net/v/20240314092725566',
 'https://v.daum.net/v/20240314092210349',
 'https://v.daum.net/v/20240314094558307',
 'https://v.daum.net/v/20240314091508096',
 'https://v.daum.net/v/20240314095541683',
 'https://v.daum.net/v/20240314095955881',
 'https://v.daum.net/v/20240314094807402',
 'https://v.daum.net/v/20240314091301004',
 'https://v.daum.net/v/20240314091303008',
 'https://v.daum.net/v/20240314094312210',
 'https://v.daum.net/v/20240314094612318',
 'https://v.daum.net/v/20240314091411060',
 'https://v.daum.net/v/20240314093515894',
 'https://v.daum.net/v/20240314094215177',
 'https://v.daum.net/v/20240314093340838',
 'https://v.daum.net/v/20240314091302006',
 'https://v.daum.net/v/20240314095351607',
 'https://v.daum.net/v/20240314093506888',
 'https://v.daum.net/v/20240314094339219']

#### 문제. 다음 뉴스 머리기사의 분야, 제목, 링크를 크롤링하고 그 결과를 데이터프레임으로 생성하기

In [193]:
def extract_newslink(url):
# 1. 웹페이지 접속하고 문서내용 읽어오기
    url = 'https://news.daum.net/'
    response = requests.get(url)
    html = response.text

# 2. parsing
    soup = BeautifulSoup(html, 'html.parser')

# 2-1. 원하는 요소를 가져오기
    news = soup.select('.item_issue')
    link_list = []
    section_list =[]
    title_list = []
    for n in news:
        item = n.text.split()
        section_list.append(item[0])
        title_list.append(' '.join(item[1:]))
        link_list.append(n.select('a')[0].get('href'))
    news_headlines = {'분야':section_list, '제목':title_list, '링크':link_list}
    return news_headlines

In [175]:
url = 'https://news.daum.net/'
headnews = extract_newslink(url)
df = pd.DataFrame(headnews)
df

Unnamed: 0,분야,제목,링크
0,정치,윤 대통령 “이순신 ‘약무호남 시무국가’ 정신으로 전남에 최선”,https://v.daum.net/v/20240314134852842
1,사회,북한산 물품 빌반입 비롯 '해양 안보범죄' 신고 시 포상금,https://v.daum.net/v/20240314134504710
2,사회,제주경찰 치안만족도 상승.. 전국 2위,https://v.daum.net/v/20240314131502650
3,IT,"애플 비전 프로, 한국 출시 언제?…""연내 유력""",https://v.daum.net/v/20240314134915866
4,국제,"집밥족 늘어 햄버거 안먹으면 어떡하지?…맥도날드 CFO ""위기상황""",https://v.daum.net/v/20240314130018297
5,정치,"정봉주 막말 논란…이재명 ""심각성 인지, 윤리감찰 사안은 아냐""",https://v.daum.net/v/20240314125241140
6,경제,"신고리 1호기서 화재감지기 작동해 소방 출동…""화재 아냐""",https://v.daum.net/v/20240314134828835
7,경제,"""'반값 오징어' 판매 나선 정부""..천정부지 물가, 잡히려나?",https://v.daum.net/v/20240314113502730
8,정치,"""저를 응원하고 싶죠? 하하하"" 이재명 '와락' 안은 국힘 후보",https://v.daum.net/v/20240314133300223
9,경기일보,"사회 안성시, 미래교육 더하고! 아동복지 높이고!…공동체 행복도시 ‘정조준’",https://v.daum.net/v/20240314133931506


------

### 3. 기사제목과 내용 한꺼번에 추출하기 

#### 기사제목과 내용이 있는 태그 확인

- 기사제목 : class='tit_view' 속성을 갖는 h3태그의 text
- 기사내용 : 모든 p태그의 text

![image.png](attachment:image.png)

In [232]:
url = 'https://v.daum.net/v/20240314095955881'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html,'html.parser')

In [234]:
title = soup.select('.tit_view')[0].text
text = []
for p in soup.find_all('p'):
    text.append(p.text)
article = '\n'.join(text)
print(article)

2차 세계대전에서 핵무기의 위력을 실감한 세계 각국은 경쟁적으로 핵무기 개발에 나섰다.
핵무기를 보유하면 적국이 공멸을 각오하지 않는 한 공격해올 수 없다는 것을 확인했기 때문이다.
실제로 북한은 국제사회에서 9번째 핵무기 보유국으로 평가받고 있다.
또 핵투발장치인 미사일 전력 면에서도 북한은 미국 본토를 위협하는 대륙간탄도미사일(ICBM) 역량을 보유하고 있고, 잠수함발사탄도미사일(SLBM) 개발에도 적극 나서는 것으로 평가 받는다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(서울=연합뉴스) 이우탁 기자 = 2차 세계대전에서 핵무기의 위력을 실감한 세계 각국은 경쟁적으로 핵무기 개발에 나섰다. 
핵무기를 보유하면 적국이 공멸을 각오하지 않는 한 공격해올 수 없다는 것을 확인했기 때문이다. 이것이 바로 '핵억제(nuclear deterrence)' 개념이다. 
이는 핵무기 보유국가 사이에도 적용된다. 다시 말해 적이 핵 공격을 가해올 경우 적의 핵 미사일 등이 도달하기 전에, 또는 도달한 이후에도 남아있는 핵 보복력을 이용해 상대방을 공격하는 보복 핵전략이 정립되는 것이다.
공멸의 핵 전쟁을 피하기 위해 핵보유국 사이에 '공포의 균형(balance of terror)'이 생긴다. 이를 상호확증파괴(mutual assured destruction·MAD)로 설명하기도 한다.
그런데 핵보유국이 핵무기가 없는 동맹국을 방어하기 위해 유사시 핵 전력을 제공해주는 경우가 있다. 이를 확장 핵억제(extended nuclear deterrence, END) 개념이라고 하고, 통상 이해하기 쉽게 핵우산(nuclear umbrella)이라고 부른다.
미국이 핵심동맹국인 한국과 일본에 제공하는 확장억제가 대표적인 핵우산 사례로 거론된다.

블라디미르 푸틴 러시아 대통령은 13일(현지시간) 공개

In [179]:
def print_news(url):
    response = requests.get(url)
    html = response.text
    soup = BeautifulSoup(html,'html.parser')
    title = soup.find('h3', {'class' : 'tit_view'}).text
    text = []
    for p in soup.find_all('p'):
        text.append(p.text)
    article = '\n'.join(text)
    print(f'기사제목: {title}')
    print('--------------------')
    print(article)

In [205]:
def extract_news(url):
    response = requests.get(url)
    html = response.text
    soup = BeautifulSoup(html,'html.parser')
    title = soup.select('.tit_view')[0].text
    date = soup.find('span', {'class':'num_date'}).text
    text = []
    for p in soup.find_all('p'):
        text.append(p.text)
    article = '\n'.join(text)
    return title, date, article

In [207]:
url = 'https://v.daum.net/v/20240314095955881'
extract_news(url)

("푸틴이 언급한 '북한 자체 핵우산' 실체는",
 '2024. 3. 14. 09:59',
 '2차 세계대전에서 핵무기의 위력을 실감한 세계 각국은 경쟁적으로 핵무기 개발에 나섰다.\n핵무기를 보유하면 적국이 공멸을 각오하지 않는 한 공격해올 수 없다는 것을 확인했기 때문이다.\n실제로 북한은 국제사회에서 9번째 핵무기 보유국으로 평가받고 있다.\n또 핵투발장치인 미사일 전력 면에서도 북한은 미국 본토를 위협하는 대륙간탄도미사일(ICBM) 역량을 보유하고 있고, 잠수함발사탄도미사일(SLBM) 개발에도 적극 나서는 것으로 평가 받는다.\n이 글자크기로 변경됩니다.\n(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.\n\n(서울=연합뉴스) 이우탁 기자 = 2차 세계대전에서 핵무기의 위력을 실감한 세계 각국은 경쟁적으로 핵무기 개발에 나섰다. \n핵무기를 보유하면 적국이 공멸을 각오하지 않는 한 공격해올 수 없다는 것을 확인했기 때문이다. 이것이 바로 \'핵억제(nuclear deterrence)\' 개념이다. \n이는 핵무기 보유국가 사이에도 적용된다. 다시 말해 적이 핵 공격을 가해올 경우 적의 핵 미사일 등이 도달하기 전에, 또는 도달한 이후에도 남아있는 핵 보복력을 이용해 상대방을 공격하는 보복 핵전략이 정립되는 것이다.\n공멸의 핵 전쟁을 피하기 위해 핵보유국 사이에 \'공포의 균형(balance of terror)\'이 생긴다. 이를 상호확증파괴(mutual assured destruction·MAD)로 설명하기도 한다.\n그런데 핵보유국이 핵무기가 없는 동맹국을 방어하기 위해 유사시 핵 전력을 제공해주는 경우가 있다. 이를 확장 핵억제(extended nuclear deterrence, END) 개념이라고 하고, 통상 이해하기 쉽게 핵우산(nuclear umbrella)이라고 부른다.\n미국이 핵심동맹국인 

In [182]:
url = 'https://v.daum.net/v/20240314095955881'
print_news(url)

기사제목: 푸틴이 언급한 '북한 자체 핵우산' 실체는
--------------------
2차 세계대전에서 핵무기의 위력을 실감한 세계 각국은 경쟁적으로 핵무기 개발에 나섰다.
핵무기를 보유하면 적국이 공멸을 각오하지 않는 한 공격해올 수 없다는 것을 확인했기 때문이다.
실제로 북한은 국제사회에서 9번째 핵무기 보유국으로 평가받고 있다.
또 핵투발장치인 미사일 전력 면에서도 북한은 미국 본토를 위협하는 대륙간탄도미사일(ICBM) 역량을 보유하고 있고, 잠수함발사탄도미사일(SLBM) 개발에도 적극 나서는 것으로 평가 받는다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(서울=연합뉴스) 이우탁 기자 = 2차 세계대전에서 핵무기의 위력을 실감한 세계 각국은 경쟁적으로 핵무기 개발에 나섰다. 
핵무기를 보유하면 적국이 공멸을 각오하지 않는 한 공격해올 수 없다는 것을 확인했기 때문이다. 이것이 바로 '핵억제(nuclear deterrence)' 개념이다. 
이는 핵무기 보유국가 사이에도 적용된다. 다시 말해 적이 핵 공격을 가해올 경우 적의 핵 미사일 등이 도달하기 전에, 또는 도달한 이후에도 남아있는 핵 보복력을 이용해 상대방을 공격하는 보복 핵전략이 정립되는 것이다.
공멸의 핵 전쟁을 피하기 위해 핵보유국 사이에 '공포의 균형(balance of terror)'이 생긴다. 이를 상호확증파괴(mutual assured destruction·MAD)로 설명하기도 한다.
그런데 핵보유국이 핵무기가 없는 동맹국을 방어하기 위해 유사시 핵 전력을 제공해주는 경우가 있다. 이를 확장 핵억제(extended nuclear deterrence, END) 개념이라고 하고, 통상 이해하기 쉽게 핵우산(nuclear umbrella)이라고 부른다.
미국이 핵심동맹국인 한국과 일본에 제공하는 확장억제가

### 하이퍼링크된 모든 기사의 제목과 본문 추출하기

In [229]:
# 메인뉴스 페이지에서 메인뉴스 제목과 링크 추출
main_url = 'https://news.daum.net'
headnews = extract_newslink(main_url) # '분야' '제목' '링크'
section_list = headnews['분야']
title_list =[]
date_list = []
article_list = []

# 뉴스 링크별 뉴스 제목과 기사 본문 추출하고 출력 
for i, url in enumerate(headnews['링크']):
    title, date, article = extract_news(url)
    title_list.append(title)
    date_list.append(date)
    article_list.append(article)
    print('=====================================================================\n')
    print(f'({i+1})기사제목: {title}')
    print('--------------------')
    print(f'분야: {section_list[i]}, 입력날짜: {date}')
    print(article)


(1)기사제목: '서울-여수 2시간 컷'…1조원 투입해 '무늬만 KTX' 확 바꾼다
--------------------
분야: 경제, 입력날짜: 2024. 3. 14. 14:16
전라남도의 관광 활성화, 생활권 확장 등을 통한 광역경제권 형성이 시급한 만큼 이를 뒷받침하기 위한 도로, 철도, 교통 등 사회간접자본(SOC) 인프라를 확충한다.
이와함께 영암에서 광주까지 47km 구간에는 총사업비 2조 6000억원이 투입되는 초고속도로 건설이 추진된다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
 [이데일리 김아름 기자] 전라남도의 관광 활성화, 생활권 확장 등을 통한 광역경제권 형성이 시급한 만큼 이를 뒷받침하기 위한 도로, 철도, 교통 등 사회간접자본(SOC) 인프라를 확충한다. 한국형 아우토반인 광주-영암 초고속도로, 완도-강진 고속도로, 익산부터 여수 구간 전라선 고속화가 추진된다. 이를 통해 전남 남해안권의 접근성이 획기적으로 높아지고 전남 관광과 미래산업 발전의 기틀이 마련될 전망이다.

먼저 호남내륙 익산에서 남쪽 해양 여수를 있는 전라선 180km구간이 경부·호남 고속선에 못지 않게 빨라진다. 전라선 고속철도 개선에 1조원 이상을 투입해 낮은 속도로 제 기능을 발휘하지 못하는 전라선을 지방주민의 새로운 교통수단으로 탈바꿈시킬 계획이다. 사업 시행시 서울 용산~여수 엑스포 간을 운행하는 대부분의 열차(82%)가 2시간대로 운행하게 되며 1조 8930억원의 생산유발 효과와 1만1048명의 고용유발 효과가 발생할 것으로 예상된다.
전라선은 굴곡 구간이 많고 경부선·호남선에 비해 설계속도가 낮은 편(160~200㎞/h)이지만 고속철도 요금을 지불해 지역 주민들의 불만이 고조돼 왔다. 2021년 7월 제4차 국가철도망 구축계획 신규사업으로 반영돼 사전 타당성조사 용역을 통해 

In [230]:
df = pd.DataFrame({'섹션': section_list, '제목':title_list,
                   '입력날짜':date_list, '기사본문':article_list})
df

Unnamed: 0,섹션,제목,입력날짜,기사본문
0,경제,'서울-여수 2시간 컷'…1조원 투입해 '무늬만 KTX' 확 바꾼다,2024. 3. 14. 14:16,"전라남도의 관광 활성화, 생활권 확장 등을 통한 광역경제권 형성이 시급한 만큼 이를..."
1,문화,"'시한폭탄' 고양이에 경악한 日...""발암물질 묻었다""",2024. 3. 14. 13:40,일본 후쿠시마가 1급 발암물질을 뒤집어쓴 것으로 추정되는 고양이의 존재로 비상사태다...
2,문화,스쿨존 '노란색 횡단보도' 늘어난다,2024. 3. 14. 12:08,어린이보호구역(스쿨존)임을 알리는 '노란색 횡단보도'가 확대된다.\n또한 보호구역이...
3,사회,대학 총장의 호소 “교수님들 의료 현장 지켜주세요”,2024. 3. 14. 13:30,전공의 이탈에 이어 의대 교수 사직 움직임까지 확산하는 등 의료 사태가 악화하는 가...
4,경제,장기화하는 의료대란…반사이익 기대감에 주가 40% 급등한 종목은,2024. 3. 14. 13:42,전공의 집단사직으로 벌어진 의료대란이 24일째에 접어든 가운데 의대 교수들도 집단행...
5,문화,"[뉴스+] ""정부의 의료 개혁 정책은 오답으로 가득한 정책""",2024. 3. 14. 14:35,전공의 집단 사직에 의대생 집단 휴학에 이어 의대 교수들까지 사직서를 내려 하고 있...
6,정치,與 ‘돈봉투 수수 의혹’ 정우택 공천 취소,2024. 3. 14. 13:57,'돈봉투 수수 의혹'이 제기된 정우택 국민의힘 의원의 공천이 취소됐다.\n국민의힘 ...
7,정치,"與, 정우택 '공천 취소'…서승우 전 부지사로 교체",2024. 3. 14. 14:33,국민의힘 공천관리위원회가 14일 '돈봉투 수수 의혹'에 휩싸인 정우택 충북 청주상당...
8,정치,"국민의힘, 정우택 공천 취소…“불미스러운 상황 발생”",2024. 3. 14. 13:56,"이 글자크기로 변경됩니다.\n(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 ..."
9,문화,“미세먼지야 물러가라~” 폐 건강 걱정될 때 해야 할 5가지,2024. 3. 14. 14:31,"봄철 불청객인 중국발 황사, 고농도 미세먼지, 그리고 꽃가루가 휘날리면 마음 놓고 ..."


-------