In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### 라이브러리

In [19]:
import requests
from bs4 import BeautifulSoup
import json
import time
import os

### HTTP 요청 헤더에 사용할 User-Agent 설정

In [20]:
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36"
HEADERS = {"User-Agent": USER_AGENT}

### 입력 파일 디렉토리 경로 설정

In [42]:
input_file_path = '/content/drive/MyDrive/[인공지능기초]데이터크롤링/news/cbs/cbs_news_url_title.json'
input_dir = os.path.dirname(input_file_path)

### 출력 파일 경로 설정

In [43]:
partial_output_file_path = os.path.join(input_dir, 'cbs_news_content.json')
final_output_file_path = os.path.join(input_dir, 'cbs_news_articles_content.json')

### JSON 파일 로드

In [44]:
with open(input_file_path, 'r', encoding='utf-8') as f:
    articles = json.load(f)

### 이미 수집한 데이터 로드 or 초기화

In [45]:
if os.path.exists(partial_output_file_path):
    with open(partial_output_file_path, 'r', encoding='utf-8') as f_out:
        results = json.load(f_out)
    # 이미 처리된 URL의 집합 생성
    processed_urls = set(article['url'] for article in results)
    print(f"이미 처리된 기사 수: {len(processed_urls)}")
else:
    results = []
    processed_urls = set()

이미 처리된 기사 수: 1140


### 뉴스 content 수집

In [25]:
for idx, article in enumerate(articles):
    url = article['url']
    # 이미 처리된 기사라면 스킵
    if url in processed_urls:
        continue
    try:
        # HTTP GET 요청
        response = requests.get(url, headers=HEADERS)
        if response.status_code == 200:
            html = response.text
            # BeautifulSoup을 사용하여 HTML 파싱
            soup = BeautifulSoup(html, 'html.parser')
            # <section class="content__body"> 태그 찾기
            content_section = soup.find('section', class_='content__body')
            if content_section:
                # 해당 섹션 내의 모든 <p> 태그 추출
                paragraphs = content_section.find_all('p')
                # 각 <p> 태그의 텍스트를 추출하여 하나의 문자열로 결합
                content = '\n'.join([p.get_text(strip=True) for p in paragraphs])
                # 기사 딕셔너리에 'content' 키 추가
                article['content'] = content
                results.append(article)
                processed_urls.add(url)
            else:
                print(f"URL에서 컨텐츠 섹션을 찾을 수 없습니다: {url}")
        else:
            print(f"요청 실패 ({response.status_code}): {url}")
    except Exception as e:
        print(f"오류 발생: {url} - {e}")
    # 서버에 과부하를 주지 않기 위해 1초 대기
    time.sleep(1)
    # 진행 상황을 주기적으로 저장
    if (len(results)) % 10 == 0:
        print(f"({len(results)}/{len(articles)})개 뉴스 기사 저장 완료")
        with open(partial_output_file_path, 'w', encoding='utf-8') as f_out:
            json.dump(results, f_out, ensure_ascii=False, indent=2)

# 최종 결과를 JSON 파일로 저장
with open(final_output_file_path, 'w', encoding='utf-8') as f_out:
    json.dump(results, f_out, ensure_ascii=False, indent=2)

(10/1141)개 뉴스 기사 저장 완료
(20/1141)개 뉴스 기사 저장 완료
(30/1141)개 뉴스 기사 저장 완료
(40/1141)개 뉴스 기사 저장 완료
(50/1141)개 뉴스 기사 저장 완료
(60/1141)개 뉴스 기사 저장 완료
(70/1141)개 뉴스 기사 저장 완료
(80/1141)개 뉴스 기사 저장 완료
(90/1141)개 뉴스 기사 저장 완료
(100/1141)개 뉴스 기사 저장 완료
(110/1141)개 뉴스 기사 저장 완료
(120/1141)개 뉴스 기사 저장 완료
(130/1141)개 뉴스 기사 저장 완료
(140/1141)개 뉴스 기사 저장 완료
(150/1141)개 뉴스 기사 저장 완료
(160/1141)개 뉴스 기사 저장 완료
(170/1141)개 뉴스 기사 저장 완료
(180/1141)개 뉴스 기사 저장 완료
(190/1141)개 뉴스 기사 저장 완료
(200/1141)개 뉴스 기사 저장 완료
(210/1141)개 뉴스 기사 저장 완료
(220/1141)개 뉴스 기사 저장 완료
(230/1141)개 뉴스 기사 저장 완료
(240/1141)개 뉴스 기사 저장 완료
(250/1141)개 뉴스 기사 저장 완료
(260/1141)개 뉴스 기사 저장 완료
(270/1141)개 뉴스 기사 저장 완료
(280/1141)개 뉴스 기사 저장 완료
(290/1141)개 뉴스 기사 저장 완료
(300/1141)개 뉴스 기사 저장 완료
(310/1141)개 뉴스 기사 저장 완료
(320/1141)개 뉴스 기사 저장 완료
(330/1141)개 뉴스 기사 저장 완료
(340/1141)개 뉴스 기사 저장 완료
(350/1141)개 뉴스 기사 저장 완료
(360/1141)개 뉴스 기사 저장 완료
(370/1141)개 뉴스 기사 저장 완료
(380/1141)개 뉴스 기사 저장 완료
(390/1141)개 뉴스 기사 저장 완료
(400/1141)개 뉴스 기사 저장 완료
(410/1141)개 뉴스 기사 저장 완료
(420/1141)개 뉴스 기사 저장 완료
(

In [41]:
with open(final_output_file_path, 'r', encoding='utf-8') as f:
    final_test = json.load(f)

len(final_test)

1140

In [40]:
print("TITLE: ", final_test[1139].get('title'), "\n")
print("URL: ", final_test[1139].get('url'), "\n")
print("DATE: ", final_test[1139].get('date'), "\n")
print("CONTENT: ", final_test[1139].get('content'), "\n")

TITLE:  An unconventional week in presidential politics 

URL:  https://www.cbsnews.com/news/an-unconventional-week-in-presidential-politics-rnc-trump-biden/ 

DATE:  2024-07-21 

CONTENT:  Golden balloons fell (along with red, white and blue), as theRepublican National Conventionended this past week with operatic flair. It was a fitting close for a gathering defined by a sense of drama and history, coming just days after former President Donald Trump survived an assassination attempt. Trump's defiance in the aftermath brought some Republicans to tears. "I had God on my side," Trump said.
Trump's 90-minute acceptance speech, the longest in convention history, won mixed reviews, enthralling many early on with his account of the attack, only to then veer into old grievances: "And then we had that horrible, horrible result that we'll never let happen again, the election result," he said, repeating the lie about a stolen election. "We're never going to let that happen again. They used COVI