In [1]:
pip install requests beautifulsoup4 openpyxl

Note: you may need to restart the kernel to use updated packages.


In [28]:
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

# 검색 URL 설정
base_url = "https://search.etnews.com/etnews/search.html"
params = {
    "kwd": "인공지능",
    "date": "0",
    "startDate": "2023-12-23",
    "endDate": "2024-12-23",
    "detailSearch": "true",
    "category": "CATEGORY1",
    "sort": "1",
}

# 데이터 저장 리스트
data = []

# 크롤링 함수
def fetch_articles(page=1):
    params["page"] = page
    response = requests.get(base_url, params=params, headers={"User-Agent": "Mozilla/5.0"})
    response.raise_for_status()
    
    soup = BeautifulSoup(response.text, "html.parser")
    articles = soup.select("div.search_list > dl")
    
    if not articles:
        return False  # 더 이상 기사 없음
    
    for article in articles:
        # 제목 추출
        title_tag = article.select_one("dt > a")
        title = title_tag.get_text(strip=True) if title_tag else "제목 없음"
        
        # 날짜 추출
        date_tag = article.select_one("dd.date")
        date = date_tag.get_text(strip=True) if date_tag else "날짜 없음"
        
        # 날짜 형식 변경
        # 예: 2024/12/26으로 변경
        if date != "날짜 없음":
            date = date.replace(".", "/")
        
        # 요약 추출
        summary_tag = article.select_one("dd.summury")
        summary = summary_tag.get_text(strip=True) if summary_tag else "요약 없음"
        
        # 데이터 저장
        data.append([title, date, summary])
    
    return True

# 페이지 순회하며 데이터 수집
page = 1
while fetch_articles(page):
    print(f"Page {page} processed.")
    page += 1

# 엑셀 파일로 저장
wb = Workbook()
ws = wb.active
ws.title = "AI Articles"
ws.append(["제목", "날짜", "요약"])

for row in data:
    ws.append(row)

wb.save("ai_articles.xlsx")
print("크롤링 완료: ai_articles.xlsx 파일 저장 완료")


크롤링 완료: ai_articles.xlsx 파일 저장 완료


In [17]:
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

# 검색 URL 설정
base_url = "https://search.etnews.com/etnews/search.html"
params = {
    "kwd": "인공지능",
    "date": "0",
    "startDate": "2023-12-23",
    "endDate": "2024-12-23",
    "detailSearch": "true",
    "category": "CATEGORY1",
    "sort": "1",
    "page": 1,
}

# 데이터 저장 리스트
data = []

# HTTP 요청 헤더
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 크롤링 함수
def fetch_articles(page=1):
    params["page"] = page
    response = requests.get(base_url, params=params, headers=headers)
    
    if response.status_code != 200:
        print(f"HTTP 요청 실패: {response.status_code}")
        return False

    soup = BeautifulSoup(response.text, "html.parser")
    articles = soup.select("ul.news_list > li")

    if not articles:
        print(f"페이지 {page}에서 기사를 찾을 수 없습니다.")
        return False

    for article in articles:
        try:
            # 제목 추출
            title_tag = article.select_one("div.text > strong > a")
            title = title_tag.get_text(strip=True) if title_tag else "제목 없음"
            
            # 날짜 추출
            date_tag = article.select_one("span.date")
            date = date_tag.get_text(strip=True).replace("년 ", "/").replace("월 ", "/").replace("일", "") if date_tag else "날짜 없음"

            # 요약 추출
            summary_tag = article.select_one("p.summary")
            summary = summary_tag.get_text(strip=True) if summary_tag else "요약 없음"

            # 데이터 저장
            data.append([title, date, summary])
        except Exception as e:
            print(f"데이터 추출 오류: {e}")
    
    return True

# 페이지 순회하며 데이터 수집
page = 1
while fetch_articles(page):
    print(f"페이지 {page} 크롤링 완료.")
    page += 1

# 엑셀 파일로 저장
if data:
    wb = Workbook()
    ws = wb.active
    ws.title = "AI Articles"
    ws.append(["제목", "날짜", "요약"])

    for row in data:
        ws.append(row)

    wb.save("ai_articles.xlsx")
    print("크롤링 완료: ai_articles.xlsx 파일 저장 완료")
else:
    print("수집된 데이터가 없습니다.")


페이지 1 크롤링 완료.
페이지 2 크롤링 완료.
페이지 3 크롤링 완료.
페이지 4 크롤링 완료.
페이지 5 크롤링 완료.
페이지 6 크롤링 완료.
페이지 7 크롤링 완료.
페이지 8 크롤링 완료.
페이지 9 크롤링 완료.
페이지 10 크롤링 완료.
페이지 11 크롤링 완료.
페이지 12 크롤링 완료.
페이지 13 크롤링 완료.
페이지 14 크롤링 완료.
페이지 15 크롤링 완료.
페이지 16 크롤링 완료.
페이지 17 크롤링 완료.
페이지 18 크롤링 완료.
페이지 19 크롤링 완료.
페이지 20 크롤링 완료.
페이지 21 크롤링 완료.
페이지 22 크롤링 완료.
페이지 23 크롤링 완료.
페이지 24 크롤링 완료.
페이지 25 크롤링 완료.
페이지 26 크롤링 완료.
페이지 27 크롤링 완료.
페이지 28 크롤링 완료.
페이지 29 크롤링 완료.
페이지 30 크롤링 완료.
페이지 31 크롤링 완료.
페이지 32 크롤링 완료.
페이지 33 크롤링 완료.
페이지 34 크롤링 완료.
페이지 35 크롤링 완료.
페이지 36 크롤링 완료.
페이지 37 크롤링 완료.
페이지 38 크롤링 완료.
페이지 39 크롤링 완료.
페이지 40 크롤링 완료.
페이지 41 크롤링 완료.
페이지 42 크롤링 완료.
페이지 43 크롤링 완료.
페이지 44 크롤링 완료.
페이지 45 크롤링 완료.
페이지 46 크롤링 완료.
페이지 47 크롤링 완료.
페이지 48 크롤링 완료.
페이지 49 크롤링 완료.
페이지 50 크롤링 완료.
페이지 51 크롤링 완료.
페이지 52 크롤링 완료.
페이지 53 크롤링 완료.
페이지 54 크롤링 완료.
페이지 55 크롤링 완료.
페이지 56 크롤링 완료.
페이지 57 크롤링 완료.
페이지 58 크롤링 완료.
페이지 59 크롤링 완료.
페이지 60 크롤링 완료.
페이지 61 크롤링 완료.
페이지 62 크롤링 완료.
페이지 63 크롤링 완료.
페이지 64 크롤링 완료.
페이지 65 크롤링 완료.
페이지 66 크롤링 완료.
페이지 67 크롤링 완료.
페이지 

ConnectionError: ('Connection aborted.', ConnectionAbortedError(10053, '현재 연결은 사용자의 호스트 시스템의 소프트웨어의 의해 중단되었습니다', None, 10053, None))

In [14]:
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

# 검색 URL 설정
base_url = "https://search.etnews.com/etnews/search.html"
params = {
    "kwd": "인공지능",
    "date": "0",
    "startDate": "2023-12-23",
    "endDate": "2024-12-23",
    "detailSearch": "true",
    "category": "CATEGORY1",
    "sort": "1",
    "page": 1,
}

# 데이터 저장 리스트
data = []

# HTTP 요청 헤더
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 크롤링 함수
def fetch_articles(page):
    params["page"] = page
    response = requests.get(base_url, params=params, headers=headers)
    
    if response.status_code != 200:
        print(f"HTTP 요청 실패: {response.status_code}")
        return False

    soup = BeautifulSoup(response.text, "html.parser")
    articles = soup.select("ul.news_list > li")

    if not articles:
        print(f"페이지 {page}에서 기사를 찾을 수 없습니다.")
        return False

    for article in articles:
        try:
            # 제목 추출
            title_tag = article.select_one("div.text > strong > a")
            title = title_tag.get_text(strip=True) if title_tag else "제목 없음"
            
            # 날짜 추출
            date_tag = article.select_one("span.date")
            date = date_tag.get_text(strip=True).replace("년 ", "/").replace("월 ", "/").replace("일", "") if date_tag else "날짜 없음"

            # 요약 추출
            summary_tag = article.select_one("p.summary")
            summary = summary_tag.get_text(strip=True) if summary_tag else "요약 없음"

            # 데이터 저장
            data.append([title, date, summary])
        except Exception as e:
            print(f"데이터 추출 오류: {e}")
    
    return True

# 전체 페이지 순회하며 데이터 수집
page = 1
while True:
    print(f"페이지 {page} 크롤링 중...")
    success = fetch_articles(page)
    if not success:  # 더 이상 기사가 없는 경우 종료
        break
    page += 1

# 엑셀 파일로 저장
if data:
    wb = Workbook()
    ws = wb.active
    ws.title = "AI Articles"
    ws.append(["제목", "날짜", "요약"])

    for row in data:
        ws.append(row)

    wb.save("ai_articles.xlsx")
    print("크롤링 완료: ai_articles.xlsx 파일 저장 완료")
else:
    print("수집된 데이터가 없습니다.")


페이지 1 크롤링 중...
페이지 2 크롤링 중...
페이지 3 크롤링 중...
페이지 4 크롤링 중...
페이지 5 크롤링 중...
페이지 6 크롤링 중...
페이지 7 크롤링 중...
페이지 8 크롤링 중...
페이지 9 크롤링 중...
페이지 10 크롤링 중...
페이지 11 크롤링 중...
페이지 12 크롤링 중...
페이지 13 크롤링 중...
페이지 14 크롤링 중...
페이지 15 크롤링 중...
페이지 16 크롤링 중...
페이지 17 크롤링 중...
페이지 18 크롤링 중...
페이지 19 크롤링 중...
페이지 20 크롤링 중...
페이지 21 크롤링 중...
페이지 22 크롤링 중...
페이지 23 크롤링 중...
페이지 24 크롤링 중...
페이지 25 크롤링 중...
페이지 26 크롤링 중...
페이지 27 크롤링 중...
페이지 28 크롤링 중...
페이지 29 크롤링 중...
페이지 30 크롤링 중...
페이지 31 크롤링 중...
페이지 32 크롤링 중...
페이지 33 크롤링 중...
페이지 34 크롤링 중...
페이지 35 크롤링 중...
페이지 36 크롤링 중...
페이지 37 크롤링 중...
페이지 38 크롤링 중...
페이지 39 크롤링 중...
페이지 40 크롤링 중...
페이지 41 크롤링 중...
페이지 42 크롤링 중...
페이지 43 크롤링 중...
페이지 44 크롤링 중...
페이지 45 크롤링 중...
페이지 46 크롤링 중...
페이지 47 크롤링 중...
페이지 48 크롤링 중...
페이지 49 크롤링 중...
페이지 50 크롤링 중...
페이지 51 크롤링 중...
페이지 52 크롤링 중...
페이지 53 크롤링 중...
페이지 54 크롤링 중...
페이지 55 크롤링 중...
페이지 56 크롤링 중...
페이지 57 크롤링 중...
페이지 58 크롤링 중...
페이지 59 크롤링 중...
페이지 60 크롤링 중...
페이지 61 크롤링 중...
페이지 62 크롤링 중...
페이지 63 크롤링 중...
페

ConnectTimeout: HTTPSConnectionPool(host='search.etnews.com', port=443): Max retries exceeded with url: /etnews/search.html?kwd=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5&date=0&startDate=2023-12-23&endDate=2024-12-23&detailSearch=true&category=CATEGORY1&sort=1&page=6129 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x00000203109E70E0>, 'Connection to search.etnews.com timed out. (connect timeout=None)'))

In [None]:
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

# 검색 URL 설정
base_url = "https://search.etnews.com/etnews/search.html"
params = {
    "kwd": "인공지능",
    "date": "0",
    "startDate": "2023-12-23",
    "endDate": "2024-12-23",
    "detailSearch": "true",
    "category": "CATEGORY1",
    "sort": "1",
    "page": 1,
}

# 데이터 저장 리스트
data = []

# HTTP 요청 헤더
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 크롤링 함수
def fetch_articles(page):
    params["page"] = page
    response = requests.get(base_url, params=params, headers=headers)
    
    if response.status_code != 200:
        print(f"HTTP 요청 실패: {response.status_code}")
        return False

    soup = BeautifulSoup(response.text, "html.parser")
    articles = soup.select("ul.news_list > li")

    if not articles:
        print(f"페이지 {page}에서 기사를 찾을 수 없습니다.")
        return False

    for article in articles:
        try:
            # 제목 추출
            title_tag = article.select_one("div.text > strong > a")
            title = title_tag.get_text(strip=True) if title_tag else "제목 없음"
            
            # 날짜 추출
            date_tag = article.select_one("span.date")
            date = date_tag.get_text(strip=True).replace("년 ", "/").replace("월 ", "/").replace("일", "") if date_tag else "날짜 없음"

            # 요약 추출
            summary_tag = article.select_one("p.summary")
            summary = summary_tag.get_text(strip=True) if summary_tag else "요약 없음"

            # 데이터 저장
            data.append([title, date, summary])
        except Exception as e:
            print(f"데이터 추출 오류: {e}")
    
    return True

# 최대 페이지 수 설정
MAX_PAGES =   # 총 705페이지까지만 크롤링

# 전체 페이지 순회하며 데이터 수집
page = 1
while page <= MAX_PAGES:
    print(f"페이지 {page} 크롤링 중...")
    success = fetch_articles(page)
    if not success:  # 더 이상 기사가 없는 경우 종료
        break
    page += 1

# 엑셀 파일로 저장
if data:
    wb = Workbook()
    ws = wb.active
    ws.title = "AI Articles"
    ws.append(["제목", "날짜", "요약"])

    for row in data:
        ws.append(row)

    wb.save("ai_articles.xlsx")
    print("크롤링 완료: ai_articles.xlsx 파일 저장 완료")
else:
    print("수집된 데이터가 없습니다.")


페이지 1 크롤링 중...
페이지 2 크롤링 중...
페이지 3 크롤링 중...
페이지 4 크롤링 중...
페이지 5 크롤링 중...
페이지 6 크롤링 중...
페이지 7 크롤링 중...
페이지 8 크롤링 중...
페이지 9 크롤링 중...
페이지 10 크롤링 중...
페이지 11 크롤링 중...
페이지 12 크롤링 중...
페이지 13 크롤링 중...
페이지 14 크롤링 중...
페이지 15 크롤링 중...
페이지 16 크롤링 중...
페이지 17 크롤링 중...
페이지 18 크롤링 중...
페이지 19 크롤링 중...
페이지 20 크롤링 중...
페이지 21 크롤링 중...
페이지 22 크롤링 중...
페이지 23 크롤링 중...
페이지 24 크롤링 중...
페이지 25 크롤링 중...
페이지 26 크롤링 중...
페이지 27 크롤링 중...
페이지 28 크롤링 중...
페이지 29 크롤링 중...
페이지 30 크롤링 중...
페이지 31 크롤링 중...
페이지 32 크롤링 중...
페이지 33 크롤링 중...
페이지 34 크롤링 중...
페이지 35 크롤링 중...
페이지 36 크롤링 중...
페이지 37 크롤링 중...
페이지 38 크롤링 중...
페이지 39 크롤링 중...
페이지 40 크롤링 중...
페이지 41 크롤링 중...
페이지 42 크롤링 중...
페이지 43 크롤링 중...
페이지 44 크롤링 중...
페이지 45 크롤링 중...
페이지 46 크롤링 중...
페이지 47 크롤링 중...
페이지 48 크롤링 중...
페이지 49 크롤링 중...
페이지 50 크롤링 중...
페이지 51 크롤링 중...
페이지 52 크롤링 중...
페이지 53 크롤링 중...
페이지 54 크롤링 중...
페이지 55 크롤링 중...
페이지 56 크롤링 중...
페이지 57 크롤링 중...
페이지 58 크롤링 중...
페이지 59 크롤링 중...
페이지 60 크롤링 중...
페이지 61 크롤링 중...
페이지 62 크롤링 중...
페이지 63 크롤링 중...
페

In [25]:
for article in articles:
    link = article.select_one("a.article-link")["href"]  # 링크 가져오기
    response = requests.get(link)
    detail_soup = BeautifulSoup(response.text, "html.parser")
    date = detail_soup.select_one("span.date").text.strip()  # 상세 페이지에서 날짜 추출
    print(date)

In [26]:
for article in articles:
    print(article)  # 기사 전체 출력 (HTML 구조 확인)

In [15]:
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

# 검색 URL 설정
base_url = "https://search.etnews.com/etnews/search.html"
params = {
    "kwd": "인공지능",
    "startDate": "2023-12-23",
    "endDate": "2024-12-24",
    "detailSearch": "true",
    "category": "CATEGORY1",
    "sort": "1",
    "page": page
}
response = requests.get(base_url, params=params, headers=headers)

# 데이터 저장 리스트 및 중복 체크를 위한 집합
data = []
titles_set = set()  # 중복 제목을 저장할 집합

# HTTP 요청 헤더
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 크롤링 함수
def fetch_articles(page):
    params["page"] = page
    response = requests.get(base_url, params=params, headers=headers)
    
    if response.status_code != 200:
        print(f"HTTP 요청 실패: {response.status_code}")
        return False

    soup = BeautifulSoup(response.text, "html.parser")
    articles = soup.select("ul.news_list > li")

    if not articles:
        print(f"페이지 {page}에서 기사를 찾을 수 없습니다.")
        return False

    for article in articles:
        try:
            # 제목 추출
            title_tag = article.select_one("div.text > strong > a")
            title = title_tag.get_text(strip=True) if title_tag else "제목 없음"
            
            # 중복 체크
            if title in titles_set:
                print(f"중복 기사 발견: {title}")
                continue  # 중복된 기사는 건너뜀
            
            # 날짜 추출
            date_tag = article.select_one("span.date")
            date = date_tag.get_text(strip=True).replace("년 ", "/").replace("월 ", "/").replace("일", "") if date_tag else "날짜 없음"

            # 요약 추출
            summary_tag = article.select_one("p.summary")
            summary = summary_tag.get_text(strip=True) if summary_tag else "요약 없음"

            # 데이터 저장
            data.append([title, date, summary])
            titles_set.add(title)  # 제목을 집합에 추가
        except Exception as e:
            print(f"데이터 추출 오류: {e}")
    
    return True

# 최대 페이지 수 설정
MAX_PAGES = 705  # 총 705페이지까지만 크롤링

# 전체 페이지 순회하며 데이터 수집
page = 1
while page <= MAX_PAGES:
    print(f"페이지 {page} 크롤링 중...")
    success = fetch_articles(page)
    if not success:  # 더 이상 기사가 없는 경우 종료
        break
    page += 1

# 엑셀 파일로 저장
if data:
    wb = Workbook()
    ws = wb.active
    ws.title = "AI Articles"
    ws.append(["제목", "날짜", "요약"])

    for row in data:
        ws.append(row)

    wb.save("ai_articles.xlsx")
    print("크롤링 완료: ai_articles.xlsx 파일 저장 완료")
else:
    print("수집된 데이터가 없습니다.")


페이지 1 크롤링 중...
페이지 2 크롤링 중...
중복 기사 발견: 성남시, KAIST와 AI 교육연구시설 대부계약 체결…첨단도시 도약 신호탄
중복 기사 발견: 올해 유럽 VC 투자액 중 25%, AI 스타트업에 몰렸다
중복 기사 발견: 보스턴 다이내믹스, 공중제비하는 산타로봇 영상 공개
중복 기사 발견: [ET라씨로] '오징어게임2' 기대감에 올랐던 아티스트유나이티드… 이정재측 특별관계자 지분 매각 소식에 약세
중복 기사 발견: 위세아이텍, 23억 규모 '데이터관리기반 운영·유지관리 사업' 수주
중복 기사 발견: AI 기본법, 26일 본회의 처리 유력
중복 기사 발견: 라온로드 “국산 NPU 기반 SW 상용화 가능성 입증”
중복 기사 발견: 카카오, '기술윤리 보고서' 발간
중복 기사 발견: GICON, '2025년 SW미래채움 강사 양성과정 3기' 교육생 모집
중복 기사 발견: 쿠쿠, AI 기술 첫 탑재한 '파워클론 로봇청소기 AI' 출시
중복 기사 발견: 이대성 한국해양대 교수, 한국정보통신학회 학회장 선임
중복 기사 발견: 안랩, 프로스트 앤드 설리번 '올해의 한국 엔드포인트 보안 기업' 선정
중복 기사 발견: 지브라 “스마트 공장-머신비전 시장에 주력”
중복 기사 발견: [ET라씨로] 풍산홀딩스, 회장 트럼프 취임식 초청 소식에 6%↑
중복 기사 발견: 메디컬아이피-헬스온클라우드, AI 솔루션 글로벌 판매 맞손
중복 기사 발견: 한눈에 보는 CES 2025 'CES 2025 리뷰 & 인사이트 콘서트' 개최한다
중복 기사 발견: 한국탄소산업진흥원, '제2회 기관 혁신 아이디어 공모전' 우수작 시상식 개최
중복 기사 발견: 전국 첫 디지털 갯벌 '서산 가로림만' 지도 구축…다양한 지리정보 업무에 '꿀팁'
중복 기사 발견: 지금부터 주목해야 할 2025년 IT 행사
중복 기사 발견: 에이치투오 '원 메시지', K-PaaS 호환성 인증 획득
페이지 3 크롤링 중...
중복 기사 발견: 성남시, KAIST와 AI 교육연구시설 대부계약 체결…첨단도시 도약 신

PermissionError: [Errno 13] Permission denied: 'ai_articles.xlsx'

In [9]:
with open(f"page_{page}.html", "w", encoding="utf-8") as file:
    file.write(response.text)

In [11]:
import requests
from bs4 import BeautifulSoup
import time
import csv

# 기본 URL 및 요청 헤더
base_url = "https://search.etnews.com/etnews/search.html"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}

# 파라미터 설정
params = {
    "kwd": "인공지능",  # 검색어
    "startDate": "2023-12-23",  # 시작 날짜
    "endDate": "2024-12-23",    # 종료 날짜
    "detailSearch": "true",     # 상세 검색 활성화
    "category": "CATEGORY1",    # 뉴스 카테고리
    "sort": "1",                # 정렬 방식 (최신순)
    "page": 1                   # 시작 페이지
}

# CSV 파일 생성
output_file = "news_data.csv"
with open(output_file, mode="w", encoding="utf-8", newline="") as file:
    writer = csv.writer(file)
    writer.writerow(["제목", "날짜", "기사 요약"])  # 헤더 작성

# 크롤링 함수
def fetch_articles(page):
    params["page"] = page
    response = requests.get(base_url, params=params, headers=headers)

    # HTTP 상태 확인
    if response.status_code != 200:
        print(f"HTTP 요청 실패: {response.status_code}")
        return False

    # HTML 파싱
    soup = BeautifulSoup(response.text, "html.parser")
    articles = soup.select("ul.news_list > li")  # 기사 리스트 선택

    if not articles:  # 기사가 없으면 종료
        print(f"페이지 {page}: 더 이상 기사가 없습니다.")
        return False

    # 기사 데이터 파싱
    with open(output_file, mode="a", encoding="utf-8", newline="") as file:
        writer = csv.writer(file)
        for article in articles:
            # 제목
            title_element = article.select_one("h2.tit a")
            title = title_element.text.strip() if title_element else "제목 없음"

            # 날짜
            date_element = article.select_one("span.date")
            date = date_element.text.strip() if date_element else "날짜 없음"

            # 기사 요약
            summary_element = article.select_one("p.dsc")
            summary = summary_element.text.strip() if summary_element else "요약 없음"

            # 데이터 저장
            writer.writerow([title, date, summary])

    return True

# 페이지 반복 크롤링
page = 1
while True:
    print(f"페이지 {page} 크롤링 중...")
    success = fetch_articles(page)
    if not success:  # 더 이상 기사가 없는 경우 종료
        break
    page += 1
    time.sleep(1)  # 서버 부하 방지를 위해 1초 대기

print("크롤링 완료. 데이터가 저장되었습니다:", output_file)


페이지 1 크롤링 중...
페이지 1: 더 이상 기사가 없습니다.
크롤링 완료. 데이터가 저장되었습니다: news_data.csv


In [12]:
# HTML 출력 디버깅 코드 추가
response = requests.get(base_url, params=params, headers=headers)
print(response.text)  # 응답된 HTML 확인


 
<!DOCTYPE html>
<html lang="ko">
<head>
	<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
	<meta name="viewport" content="width=device-width">
    <title>미래를 보는 신문 - 전자신문</title>
	<meta http-equiv="Expires" content="-1">
    <meta http-equiv="Pragma" content="no-cache">
    <meta http-equiv="Cache-Control" content="no-cache">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
	<!--[if IE]><meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'><![endif]-->
    <meta name="robots" content="all">
    <meta name="author" content="www.etnews.com">
    <meta name="copyright" content="Copyright &copy; Electronic Times Internet. All Right Reserved.">
    <meta name="keywords" content="전자신문,전자신문인터넷,Etnews,Etnews.com,뉴스,News,속보,방송,연예,통신,SW,바이오,소재,부품,과학,전자,자동차,경제,금융,산업,정책,글로벌,리포트,동영상,">
    <meta name="description" content="미래를 보는 창 - 전자신문">
    <meta property="fb:app_id" content="1425291491111655">
	<meta name="format-detection" content="telephone=no">
	<meta

In [13]:
import requests
from bs4 import BeautifulSoup
import time
import csv

# 기본 URL 및 요청 헤더
base_url = "https://search.etnews.com/etnews/search.html"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}

# 파라미터 설정
params = {
    "kwd": "인공지능",  # 검색어
    "startDate": "2023-12-23",  # 시작 날짜
    "endDate": "2024-12-23",    # 종료 날짜
    "detailSearch": "true",     # 상세 검색 활성화
    "category": "CATEGORY1",    # 뉴스 카테고리
    "sort": "1",                # 정렬 방식 (최신순)
    "page": 1                   # 시작 페이지
}

# CSV 파일 생성
output_file = "news_data.csv"
with open(output_file, mode="w", encoding="utf-8", newline="") as file:
    writer = csv.writer(file)
    writer.writerow(["제목", "날짜", "기사 요약"])  # 헤더 작성

# 크롤링 함수
def fetch_articles(page):
    params["page"] = page
    response = requests.get(base_url, params=params, headers=headers)

    # HTTP 상태 확인
    if response.status_code != 200:
        print(f"HTTP 요청 실패: {response.status_code}")
        return False

    # HTML 파싱
    soup = BeautifulSoup(response.text, "html.parser")
    
    # 디버깅: 응답된 HTML 출력
    if page == 1:  # 첫 페이지에서만 출력
        print(soup.prettify())
    
    articles = soup.select("ul.list_news > li")  # 수정된 선택자

    if not articles:  # 기사가 없으면 종료
        print(f"페이지 {page}: 더 이상 기사가 없습니다.")
        return False

    # 기사 데이터 파싱
    with open(output_file, mode="a", encoding="utf-8", newline="") as file:
        writer = csv.writer(file)
        for article in articles:
            # 제목
            title_element = article.select_one("a.news_tit")
            title = title_element.text.strip() if title_element else "제목 없음"

            # 날짜
            date_element = article.select_one("span.date")
            date = date_element.text.strip() if date_element else "날짜 없음"

            # 기사 요약
            summary_element = article.select_one("p.dsc")
            summary = summary_element.text.strip() if summary_element else "요약 없음"

            # 데이터 저장
            writer.writerow([title, date, summary])

    return True

# 페이지 반복 크롤링
page = 1
while True:
    print(f"페이지 {page} 크롤링 중...")
    success = fetch_articles(page)
    if not success:  # 더 이상 기사가 없는 경우 종료
        break
    page += 1
    time.sleep(1)  # 서버 부하 방지를 위해 1초 대기

print("크롤링 완료. 데이터가 저장되었습니다:", output_file)


페이지 1 크롤링 중...
<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="width=device-width" name="viewport"/>
  <title>
   미래를 보는 신문 - 전자신문
  </title>
  <meta content="-1" http-equiv="Expires"/>
  <meta content="no-cache" http-equiv="Pragma"/>
  <meta content="no-cache" http-equiv="Cache-Control"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <!--[if IE]><meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'><![endif]-->
  <meta content="all" name="robots"/>
  <meta content="www.etnews.com" name="author"/>
  <meta content="Copyright © Electronic Times Internet. All Right Reserved." name="copyright"/>
  <meta content="전자신문,전자신문인터넷,Etnews,Etnews.com,뉴스,News,속보,방송,연예,통신,SW,바이오,소재,부품,과학,전자,자동차,경제,금융,산업,정책,글로벌,리포트,동영상," name="keywords"/>
  <meta content="미래를 보는 창 - 전자신문" name="description"/>
  <meta content="1425291491111655" property="fb:app_id"/>
  <meta content="telephone=no" name="format-detecti

In [None]:
import requests
from bs4 import BeautifulSoup
import csv
import time

# 기본 URL
base_url = "https://search.etnews.com/etnews/search.html"

# HTTP 헤더 설정
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}

# 파라미터 설정
params = {
    "kwd": "인공지능",            # 검색어
    "startDate": "2023-12-23",   # 시작 날짜
    "endDate": "2024-12-23",     # 종료 날짜
    "detailSearch": "true",      # 상세 검색 활성화
    "category": "CATEGORY1",     # 뉴스 카테고리
    "sort": "1",                 # 최신순 정렬
    "page": 1                    # 페이지 번호
}

# CSV 파일 생성
output_file = "etnews_ai_news.csv"
with open(output_file, mode="w", encoding="utf-8", newline="") as file:
    writer = csv.writer(file)
    writer.writerow(["제목", "날짜", "요약"])  # CSV 헤더 작성

# 크롤링 함수
def fetch_articles(page):
    params["page"] = page  # 페이지 번호 설정
    response = requests.get(base_url, params=params, headers=headers)
    
    # HTTP 상태 확인
    if response.status_code != 200:
        print(f"HTTP 요청 실패: {response.status_code}")
        return False

    # HTML 파싱
    soup = BeautifulSoup(response.text, "html.parser")
    
    # 기사 리스트 선택
    articles = soup.select("ul.news_list > li")  # HTML 구조에 맞는 선택자 사용
    
    if not articles:  # 기사가 없는 경우
        print(f"페이지 {page}: 기사가 없습니다.")
        return False

    # 데이터 저장
    with open(output_file, mode="a", encoding="utf-8", newline="") as file:
        writer = csv.writer(file)
        for article in articles:
            # 제목 추출
            title_element = article.select_one("div.text > strong > a")
            title = title_element.text.strip() if title_element else "제목 없음"

            # 날짜 추출
            date_element = article.select_one("span.date")
            date = date_element.text.strip() if date_element else "날짜 없음"

            # 요약 추출
            summary_element = article.select_one("p.summary")  # 요약에 맞는 선택자 사용
            summary = summary_element.text.strip() if summary_element else "요약 없음"

            # CSV에 저장
            writer.writerow([title, date, summary])

    return True

# 크롤링 실행
page = 1
while True:
    print(f"페이지 {page} 크롤링 중...")
    success = fetch_articles(page)
    if not success:  # 기사가 더 이상 없는 경우 종료
        break
    page += 1
    time.sleep(1)  # 요청 간 지연 시간 추가 (서버 부하 방지)

print(f"크롤링 완료. 데이터가 저장되었습니다: {output_file}")


페이지 1 크롤링 중...
페이지 2 크롤링 중...
페이지 3 크롤링 중...
페이지 4 크롤링 중...
페이지 5 크롤링 중...
페이지 6 크롤링 중...
페이지 7 크롤링 중...
페이지 8 크롤링 중...
페이지 9 크롤링 중...
페이지 10 크롤링 중...
페이지 11 크롤링 중...
페이지 12 크롤링 중...
페이지 13 크롤링 중...
페이지 14 크롤링 중...
페이지 15 크롤링 중...
페이지 16 크롤링 중...
페이지 17 크롤링 중...
페이지 18 크롤링 중...
페이지 19 크롤링 중...
페이지 20 크롤링 중...
페이지 21 크롤링 중...
페이지 22 크롤링 중...
페이지 23 크롤링 중...
페이지 24 크롤링 중...
페이지 25 크롤링 중...
페이지 26 크롤링 중...
페이지 27 크롤링 중...
페이지 28 크롤링 중...
페이지 29 크롤링 중...
페이지 30 크롤링 중...
페이지 31 크롤링 중...
페이지 32 크롤링 중...
페이지 33 크롤링 중...
페이지 34 크롤링 중...
페이지 35 크롤링 중...
페이지 36 크롤링 중...
페이지 37 크롤링 중...
페이지 38 크롤링 중...
페이지 39 크롤링 중...
페이지 40 크롤링 중...
페이지 41 크롤링 중...
페이지 42 크롤링 중...
페이지 43 크롤링 중...
페이지 44 크롤링 중...
페이지 45 크롤링 중...
페이지 46 크롤링 중...
페이지 47 크롤링 중...
페이지 48 크롤링 중...
페이지 49 크롤링 중...
페이지 50 크롤링 중...
페이지 51 크롤링 중...
페이지 52 크롤링 중...
페이지 53 크롤링 중...
페이지 54 크롤링 중...
페이지 55 크롤링 중...
페이지 56 크롤링 중...
페이지 57 크롤링 중...
페이지 58 크롤링 중...
페이지 59 크롤링 중...
페이지 60 크롤링 중...
페이지 61 크롤링 중...
페이지 62 크롤링 중...
페이지 63 크롤링 중...
페

ConnectionError: HTTPSConnectionPool(host='search.etnews.com', port=443): Max retries exceeded with url: /etnews/search.html?kwd=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5&startDate=2023-12-23&endDate=2024-12-23&detailSearch=true&category=CATEGORY1&sort=1&page=1526 (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x000001D2DB89CDA0>: Failed to resolve 'search.etnews.com' ([Errno 11001] getaddrinfo failed)"))