### 정적 웹 크롤링
- 총 10,000개의 뉴스 크롤링
- 포함 범위 : 제목, 내용, 작성시간
- 형식 : json


In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import json
from typing import List, Dict

import time

def get_ai_news_info(page:int) -> list:

    url = "https://www.aitimes.com/news/articleList.html"
    root_url = "https://www.aitimes.com"

    # total은 실시간 성으로 바뀌기 때문에 에러 방지를 위해 삭제함
    params = {"page": page}

    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    }


    try:
        response = requests.get(url, params=params, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')

        articles = []
        target_divs = soup.find_all("h4", class_ = "titles")

        for one in target_divs[:20]:

            get_url = one.find("a").get("href")
            articles.append(root_url + get_url)
        response.raise_for_status()  # 오류가 있으면 예외를 발생시킴
        return articles
    except requests.exceptions.RequestException as e:
        print(f"페이지 {page} 요청 중 에러 발생: {e}")

# 테스트: 첫 페이지 가져오기
html = get_ai_news_info(1)
print("기사:\n", html)  # 처음 500자만 출력

기사:
 ['https://www.aitimes.com/news/articleView.html?idxno=165638', 'https://www.aitimes.com/news/articleView.html?idxno=165654', 'https://www.aitimes.com/news/articleView.html?idxno=165631', 'https://www.aitimes.com/news/articleView.html?idxno=165639', 'https://www.aitimes.com/news/articleView.html?idxno=165641', 'https://www.aitimes.com/news/articleView.html?idxno=165642', 'https://www.aitimes.com/news/articleView.html?idxno=165650', 'https://www.aitimes.com/news/articleView.html?idxno=165637', 'https://www.aitimes.com/news/articleView.html?idxno=165653', 'https://www.aitimes.com/news/articleView.html?idxno=165656', 'https://www.aitimes.com/news/articleView.html?idxno=165649', 'https://www.aitimes.com/news/articleView.html?idxno=165635', 'https://www.aitimes.com/news/articleView.html?idxno=165634', 'https://www.aitimes.com/news/articleView.html?idxno=165633', 'https://www.aitimes.com/news/articleView.html?idxno=165630', 'https://www.aitimes.com/news/articleView.html?idxno=165632', 'h

In [None]:
def get_article_content(url: str) -> str:
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    }

    try:
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')

        # `article-view-content-div` id를 가진 article 태그 찾기
        target_div = soup.find("article", id="article-view-content-div")

        # <p> 태그들 추출
        articles = target_div.find_all("p") if target_div else []

        # 문자열만 추출하여 리스트 생성
        text_list = [p.get_text(strip=True) for p in articles]
        
        return ' '.join(text_list)
    
    except requests.exceptions.RequestException as e:
        print(f"URL {url} 요청 중 에러 발생: {e}")
        return ""

# 함수 호출
url = "https://www.aitimes.com/news/articleView.html?idxno=165462"
article_texts = get_article_content(url)

# 결과 출력
print(article_texts)

지난 15일(현지시간) 일론 머스크 CEO가오픈AI를 상대로 소송을 확대하며 공개한 이메일에서 갖가지 이야기가 쏟아지고 있습니다. 우선 오픈AI가 설립된 배경이 머스크 CEO라는 것이 드러났습니다. 그는 무슨 이유에서인지딥마인드를 매우 경계한 것으로 알려졌습니다. 특히 데미스 허사비스 창립자가 인공일반지능(AGI)을 개발해 AI로 독재 체제를 구축하려는 것으로 판단, 이를 막으려는 의도로 딥마인드 인수에 나선 것으로 밝혀졌습니다.하지만 구글에 딥마인드를 빼앗기자, 이런 사실을 알고 있던 샘 알트먼 CEO가 경쟁사를 만들자고 제안한 것이 오픈AI의 설립으로 이어졌다는 것입니다. 그리고 초기 자금으로 5000만~1억달러가량을 투자하고, 사실상 초기 이사회장 역할을 담당했던 것으로 전해졌습니다. 더 버지의 19일 보도에는 알트먼 CEO가 머스크 CEO에게 이메일을 보내 결제를 받는 듯한 모습이 묘사됐습니다. 마이크로소프트(MS)가 일찌감치 오픈AI에 관심을 보였다는 것도 드러났습니다. MS는 오픈AI 설립 몇개월 뒤인 2016년 9월에 저렴한 가격에 컴퓨팅 인프라를 제공하고 5000만달러의 조건 없는 투자를 제안했으나, 머스크 CEO가 이를 거절했다는 것입니다. 특히 그 과정에 오고 간 대화가 충격적입니다. 알트먼 CEO는 "MS가 '오픈AI의 단독 재량에 따른 선의의 노력'과 언제든지 완전한 상호 해지 권리를 보장하는 조건으로 전체 5000만 달러에 계약을 체결하겠다는 의사를 밝혀왔다"라며 "조건도 없고 MS의 마케팅 들러리로 보이지도 않는데, 계속 진행해도 되겠나"라고 물었습니다. 그러나 머스크 CEO는 이런 제안이 MS의 마케팅에 이용당할 것이라며 "매스껍다"라고 답했습니다. 그리고 "MS의 마이크로소프트의 마케팅 암캐( bitch)처럼 보이지 않는 것이 5000만달러보다 훨씬 더 가치가 있을 것"이라고 쏘아붙였습니다. 이처럼 머스크 CEO는 초기 결제권을 쥔 사실상의 CEO 역할을 맡았고, 결국 2018년 2월 갈등으로 인해 오픈AI 이사회를 떠났습니다. 이

In [11]:
from datetime import datetime


def get_article_info(url:str) -> json:

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    }

    try:
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')


        heading_div = soup.find("header", class_="article-view-header")
        title = heading_div.find("h3", class_="heading").get_text(strip=True)
        created_at = heading_div.find_all("li")[4].get_text(strip=True)[3:]

        # `article-view-content-div` id를 가진 article 태그 찾기
        content_div = soup.find("article", id="article-view-content-div")

        # <p> 태그들 추출
        articles = content_div.find_all("p") if content_div else []

        # 문자열만 추출하여 리스트 생성
        text_list = [p.get_text(strip=True) for p in articles]
        content = ' '.join(text_list)

        # JSON 형식으로 반환
        article_info = {
            "url" : url,
            "title": title,
            "created_at": created_at,
            "content": content
        }

        return article_info
    
    except requests.exceptions.RequestException as e:
        print(f"URL {url} 요청 중 에러 발생: {e}")
        return {"error": "요청 실패", "details": str(e)}

# 함수 호출
url = "https://www.aitimes.com/news/articleView.html?idxno=165462"
print(get_article_info(url))

# # JSON 형식 출력
# print(json.dumps(article_data, ensure_ascii=False, indent=4))

{'url': 'https://www.aitimes.com/news/articleView.html?idxno=165462', 'title': "[11월19일] 머스크의 오픈AI 관계 폭로는 '알트먼 흔들기' 위한 것", 'created_at': '2024.11.20 07:00', 'content': '지난 15일(현지시간) 일론 머스크 CEO가오픈AI를 상대로 소송을 확대하며 공개한\xa0이메일에서 갖가지 이야기가 쏟아지고 있습니다. 우선 오픈AI가 설립된 배경이 머스크 CEO라는 것이 드러났습니다. 그는 무슨 이유에서인지딥마인드를 매우 경계한 것으로 알려졌습니다. 특히 데미스 허사비스 창립자가 인공일반지능(AGI)을 개발해 AI로 독재 체제를 구축하려는 것으로 판단, 이를 막으려는 의도로 딥마인드 인수에 나선 것으로 밝혀졌습니다.하지만 구글에 딥마인드를 빼앗기자, 이런 사실을 알고 있던 샘 알트먼 CEO가 경쟁사를 만들자고 제안한 것이 오픈AI의 설립으로 이어졌다는 것입니다. 그리고 초기 자금으로 5000만~1억달러가량을 투자하고, 사실상 초기 이사회장 역할을 담당했던 것으로 전해졌습니다. 더 버지의 19일 보도에는 알트먼 CEO가 머스크 CEO에게 이메일을 보내 결제를 받는 듯한 모습이 묘사됐습니다. 마이크로소프트(MS)가 일찌감치 오픈AI에 관심을 보였다는 것도 드러났습니다. MS는 오픈AI 설립 몇개월 뒤인 2016년 9월에 저렴한 가격에 컴퓨팅 인프라를 제공하고 5000만달러의 조건 없는 투자를 제안했으나, 머스크 CEO가 이를 거절했다는 것입니다. 특히 그 과정에 오고 간 대화가 충격적입니다. 알트먼 CEO는 "MS가 \'오픈AI의 단독 재량에 따른 선의의 노력\'과 언제든지 완전한 상호 해지 권리를 보장하는 조건으로 전체 5000만 달러에 계약을 체결하겠다는 의사를 밝혀왔다"라며 "조건도 없고 MS의 마케팅 들러리로 보이지도 않는데, 계속 진행해도 되겠나"라고 물었습니다. 그러나 머스크 CEO는 이런 제안이 MS의 마케팅에 이용당할 것이라며 "매스

In [8]:
all_articles = []

for i in range(501):
    url_list = get_ai_news_info(i+1)

    for url in url_list:
        all_articles.append(url)
    time.sleep(1)   

In [78]:
all_articles[0]

'https://www.aitimes.com/news/articleView.html?idxno=165511'

In [13]:
import json
import os

all_articles_url = all_articles  # URL 리스트 (선언 필요)

all_articles_content = []
article_path = "ai_news_json"

# 경로가 없으면 생성
if not os.path.exists(article_path):
    os.makedirs(article_path)

for url in all_articles_url:
    article_json = get_article_info(url)  # URL에서 기사 데이터 가져오기

    # 파일 이름 생성
    file_name = f"ai_news_{article_json.get('title').replace('/', '_')}.json"
    file_path = os.path.join(article_path, file_name)

    # JSON 파일 저장
    with open(file_path, 'w', encoding='utf-8') as file:
        json.dump(article_json, file, ensure_ascii=False, indent=4)

    print(f"파일 저장 완료: {file_path}")



파일 저장 완료: ai_news_json/ai_news_[11월25일] 인간 두뇌는 AI '벡터 데이터베이스'와 유사...읽기·쓰기·쿼리 기술 더 중요해져.json
파일 저장 완료: ai_news_json/ai_news_2시간 인터뷰 후…인간 복제본(!) 완성.json
파일 저장 완료: ai_news_json/ai_news_젠슨 황 "스케일링 세가지 요소 모두 발전 중...AI 환각 해결에 몇년 더 걸릴 것".json
파일 저장 완료: ai_news_json/ai_news_로봇 AI, LLM보다 탈옥에 취약..."엔비디아·유니트리 모델 100% 탈옥 성공".json
파일 저장 완료: ai_news_json/ai_news_"오픈AI, NYT의 AI 활용 방법 조사할 권리는 없어".json
파일 저장 완료: ai_news_json/ai_news_라이트릭스, 4초만에 동영상 생성하는 모델 출시..."오픈 소스로 거대 기업과 경쟁".json
파일 저장 완료: ai_news_json/ai_news_구글, '실험용 제미나이' 잇달아 공개..."수학·추론 성능 강화".json
파일 저장 완료: ai_news_json/ai_news_링크드인 창립자 "xAI 소유한 머스크가 트럼프 AI 정책 개입하는 것은 문제".json
파일 저장 완료: ai_news_json/ai_news_"AI 모델, 훈련 중 훨씬 많은 능력 습득…일반 프롬프트에 반응 안 해".json
파일 저장 완료: ai_news_json/ai_news_AI2, 오픈 소스 성능 첨단 모델급으로 올려주는 '사후 훈련' 풀셋 공개.json
파일 저장 완료: ai_news_json/ai_news_[게시판] 딥브레인, 남서울대에 'AI 스튜디오스' 제공 등 국내 단신.json
파일 저장 완료: ai_news_json/ai_news_이스트소프트, AI 휴먼 출시 반년 만에 국내외 회원 2만 달성.json
파일 저장 완료: ai_news_json/ai_news_빅웨이브로보틱스, 로봇 자동화 국비지원 사업 무료 매칭∙컨설팅 지원