### 정적 웹 크롤링
- 총 10,000개의 뉴스 크롤링
- 포함 범위 : 제목, 내용, 작성시간
- 형식 : json


In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import json
from typing import List, Dict

import time

def get_ai_news_info(page:int) -> list:

    url = "https://www.aitimes.com/news/articleList.html"
    root_url = "https://www.aitimes.com"

    # total은 실시간 성으로 바뀌기 때문에 에러 방지를 위해 삭제함
    params = {"page": page}

    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    }


    try:
        response = requests.get(url, params=params, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')

        articles = []
        target_divs = soup.find_all("h4", class_ = "titles")

        for one in target_divs[:20]:

            get_url = one.find("a").get("href")
            articles.append(root_url + get_url)
        response.raise_for_status()  # 오류가 있으면 예외를 발생시킴
        return articles
    except requests.exceptions.RequestException as e:
        print(f"페이지 {page} 요청 중 에러 발생: {e}")

# 테스트: 첫 페이지 가져오기
html = get_ai_news_info(1)
print("기사:\n", html)  # 처음 500자만 출력

기사:
 ['https://www.aitimes.com/news/articleView.html?idxno=166150', 'https://www.aitimes.com/news/articleView.html?idxno=166125', 'https://www.aitimes.com/news/articleView.html?idxno=166142', 'https://www.aitimes.com/news/articleView.html?idxno=166148', 'https://www.aitimes.com/news/articleView.html?idxno=166124', 'https://www.aitimes.com/news/articleView.html?idxno=166127', 'https://www.aitimes.com/news/articleView.html?idxno=166128', 'https://www.aitimes.com/news/articleView.html?idxno=166134', 'https://www.aitimes.com/news/articleView.html?idxno=166135', 'https://www.aitimes.com/news/articleView.html?idxno=166137', 'https://www.aitimes.com/news/articleView.html?idxno=166138', 'https://www.aitimes.com/news/articleView.html?idxno=166140', 'https://www.aitimes.com/news/articleView.html?idxno=166141', 'https://www.aitimes.com/news/articleView.html?idxno=166144', 'https://www.aitimes.com/news/articleView.html?idxno=166145', 'https://www.aitimes.com/news/articleView.html?idxno=166146', 'h

In [2]:
def get_article_content(url: str) -> str:
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    }

    try:
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')

        # `article-view-content-div` id를 가진 article 태그 찾기
        target_div = soup.find("article", id="article-view-content-div")

        # <p> 태그들 추출
        articles = target_div.find_all("p") if target_div else []

        # 문자열만 추출하여 리스트 생성
        text_list = [p.get_text(strip=True) for p in articles]
        
        return ' '.join(text_list)
    
    except requests.exceptions.RequestException as e:
        print(f"URL {url} 요청 중 에러 발생: {e}")
        return ""

# 함수 호출
url = "https://www.aitimes.com/news/articleView.html?idxno=165462"
article_texts = get_article_content(url)

# 결과 출력
print(article_texts)

지난 15일(현지시간) 일론 머스크 CEO가오픈AI를 상대로 소송을 확대하며 공개한 이메일에서 갖가지 이야기가 쏟아지고 있습니다. 우선 오픈AI가 설립된 배경이 머스크 CEO라는 것이 드러났습니다. 그는 무슨 이유에서인지딥마인드를 매우 경계한 것으로 알려졌습니다. 특히 데미스 허사비스 창립자가 인공일반지능(AGI)을 개발해 AI로 독재 체제를 구축하려는 것으로 판단, 이를 막으려는 의도로 딥마인드 인수에 나선 것으로 밝혀졌습니다.하지만 구글에 딥마인드를 빼앗기자, 이런 사실을 알고 있던 샘 알트먼 CEO가 경쟁사를 만들자고 제안한 것이 오픈AI의 설립으로 이어졌다는 것입니다. 그리고 초기 자금으로 5000만~1억달러가량을 투자하고, 사실상 초기 이사회장 역할을 담당했던 것으로 전해졌습니다. 더 버지의 19일 보도에는 알트먼 CEO가 머스크 CEO에게 이메일을 보내 결제를 받는 듯한 모습이 묘사됐습니다. 마이크로소프트(MS)가 일찌감치 오픈AI에 관심을 보였다는 것도 드러났습니다. MS는 오픈AI 설립 몇개월 뒤인 2016년 9월에 저렴한 가격에 컴퓨팅 인프라를 제공하고 5000만달러의 조건 없는 투자를 제안했으나, 머스크 CEO가 이를 거절했다는 것입니다. 특히 그 과정에 오고 간 대화가 충격적입니다. 알트먼 CEO는 "MS가 '오픈AI의 단독 재량에 따른 선의의 노력'과 언제든지 완전한 상호 해지 권리를 보장하는 조건으로 전체 5000만 달러에 계약을 체결하겠다는 의사를 밝혀왔다"라며 "조건도 없고 MS의 마케팅 들러리로 보이지도 않는데, 계속 진행해도 되겠나"라고 물었습니다. 그러나 머스크 CEO는 이런 제안이 MS의 마케팅에 이용당할 것이라며 "매스껍다"라고 답했습니다. 그리고 "MS의 마이크로소프트의 마케팅 암캐( bitch)처럼 보이지 않는 것이 5000만달러보다 훨씬 더 가치가 있을 것"이라고 쏘아붙였습니다. 이처럼 머스크 CEO는 초기 결제권을 쥔 사실상의 CEO 역할을 맡았고, 결국 2018년 2월 갈등으로 인해 오픈AI 이사회를 떠났습니다. 이

In [3]:
from datetime import datetime


def get_article_info(url:str) -> json:

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    }

    try:
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')


        heading_div = soup.find("header", class_="article-view-header")
        title = heading_div.find("h3", class_="heading").get_text(strip=True)
        created_at = heading_div.find_all("li")[4].get_text(strip=True)[3:]

        # `article-view-content-div` id를 가진 article 태그 찾기
        content_div = soup.find("article", id="article-view-content-div")

        # <p> 태그들 추출
        articles = content_div.find_all("p") if content_div else []

        # 문자열만 추출하여 리스트 생성
        text_list = [p.get_text(strip=True) for p in articles]
        content = ' '.join(text_list)

        # JSON 형식으로 반환
        article_info = {
            "url" : url,
            "title": title,
            "created_at": created_at,
            "content": content
        }

        return article_info
    
    except requests.exceptions.RequestException as e:
        print(f"URL {url} 요청 중 에러 발생: {e}")
        return {"error": "요청 실패", "details": str(e)}

# 함수 호출
# url = "https://www.aitimes.com/news/articleView.html?idxno=165462"
# print(get_article_info(url))

# # JSON 형식 출력
# print(json.dumps(article_data, ensure_ascii=False, indent=4))

In [None]:
all_articles = []

for one in html:
    

In [78]:
all_articles[0]

'https://www.aitimes.com/news/articleView.html?idxno=165511'

In [4]:
import json
import os

# all_articles_url = all_articles  # URL 리스트 (선언 필요)

# all_articles_content = []
article_path = "recent_news_json"

# 경로가 없으면 생성
if not os.path.exists(article_path):
    os.makedirs(article_path)

for url in html:
    article_json = get_article_info(url)  # URL에서 기사 데이터 가져오기

    # 파일 이름 생성
    file_name = f"ai_news_{article_json.get('title').replace('/', '_')}.json"
    file_path = os.path.join(article_path, file_name)

    # JSON 파일 저장
    with open(file_path, 'w', encoding='utf-8') as file:
        json.dump(article_json, file, ensure_ascii=False, indent=4)

    print(f"파일 저장 완료: {file_path}")



파일 저장 완료: recent_news_json/ai_news_애플, '챗GPT' 통합한 iOS 18.2 출시...아이폰 판매 급증할까.json
파일 저장 완료: recent_news_json/ai_news_[12월11일] 데이터 라벨링, 단순노동에서 전문가 중심으로 변화...'맞춤형 모델' 증가가 핵심.json
파일 저장 완료: recent_news_json/ai_news_아내가 AI랑 바람피는 것 같아요… 결과는?.json
파일 저장 완료: recent_news_json/ai_news_구글, '제미나이 2.0' 출시·AI 에이전트 3종 공개..."스마트 안경에 AI 비서 탑재할 것".json
파일 저장 완료: recent_news_json/ai_news_오픈AI 지원 언어 교육 스타트업, 유니콘 달성..."한국 10대 기업 중 8곳 사용".json
파일 저장 완료: recent_news_json/ai_news_아마존, AI 에이전트 중심 연구소 설립..."AGI 작업 기반 구축".json
파일 저장 완료: recent_news_json/ai_news_'소라'의 유튜브 무단 학습 증거 등장..."내 방송 일부가 소라 영상에 등장".json
파일 저장 완료: recent_news_json/ai_news_구글 "양자 칩으로 '멀티버스' 존재 입증".json
파일 저장 완료: recent_news_json/ai_news_"구글 양자 기술, AI에 큰 도움"...머스크·알트먼도 "환영".json
파일 저장 완료: recent_news_json/ai_news_'챗GPT' 지원 AI 스마트 안경 출시...가격도 메타 '레이밴'과 동일.json
파일 저장 완료: recent_news_json/ai_news_듀오링고-넷플릭스, '오징어 게임 2' 공개 맞춰 '한국어를 배워라' 캠페인 진행.json
파일 저장 완료: recent_news_json/ai_news_유튜브, 동영상 자동 더빙 기능 정식 출시.json
파일 저장 완료: recent_news_json/ai_news_