In [69]:
import os
import urllib.parse
from dotenv import load_dotenv
import urllib
import json
# env파일 사용
load_dotenv()

client_id = os.getenv('NAVER_ID')
client_secret = os.getenv('NAVER_PW')

base_url = 'https://openapi.naver.com/v1/search/news.json'
query = '이재명'
encQuery = urllib.parse.quote(query) # 한글이나 특수문자가 포함된 검색어(쿼리)를 URL에 안전하게 쓸 수 있도록 인코딩해주는 것
n_display = 10
start = 1
sort = 'sim'

# 최종 URL 구조
url = f'{base_url}?query={encQuery}&display={n_display}&start={start}&sort={sort}'

# 네이버 검색 API 호출
## HTTP 요청 헤더에 클라이언트 아이디와 클라이언트 시크릿을 추가해야함

import requests

headers = {
    'X-Naver-Client-Id': client_id,
    'X-Naver-Client-Secret': client_secret
}

response = requests.get(url, headers=headers)

if response.status_code == 200:
    data = response.json()
    print(json.dumps(data['items'], indent=2, ensure_ascii=False))
else:
    print('❌ 요청 실패 ', response.status_code)

data = data['items']



[
  {
    "title": "[속보] <b>이재명</b> &quot;김대남 영입은 실수…문책 검토&quot;",
    "originallink": "https://www.hankyung.com/article/2025052298997",
    "link": "https://n.news.naver.com/mnews/article/015/0005135302?sid=154",
    "description": "<b>이재명</b> 더불어민주당 대선 후보는 합류의사를 밝혔다가 김문수 국민의힘 지지를 선언한 김대남 전 대통령실... 김문수 후보는 김 전 행정관이 <b>이재명</b> 후보 선대위 합류를 철회하고 자신을 지지한다고 밝힌 데 대해... ",
    "pubDate": "Thu, 22 May 2025 15:57:00 +0900"
  },
  {
    "title": "<b>이재명</b> 46%·김문수 32%·이준석 10%[NBS]",
    "originallink": "https://www.newsis.com/view/NISX20250522_0003185850",
    "link": "https://n.news.naver.com/mnews/article/003/0013258401?sid=100",
    "description": "제21대 대통령 선거 후보 지지도 조사에서 <b>이재명</b> 더불어민주당 후보가 46%, 김문수 국민의힘 후보가 32... 질문에 <b>이재명</b> 후보 46%, 김문수 후보 32%로 나타났다. 전주 같은 조사에 비해 <b>이재명</b> 후보는 3%포인트(p)... ",
    "pubDate": "Thu, 22 May 2025 11:46:00 +0900"
  },
  {
    "title": "<b>이재명</b> 46% 김문수 32% 이준석 10% [NBS]",
    "originallink": "https://www.chosun.com/politics/election2025/2025/05/22/4XT27P5

In [70]:
print(type(data))
data1 = data.copy()

<class 'list'>


In [71]:
import re
# 태그를 지우는 함수
def remove_tag(my_str):
    p = re.compile('(<([^>]+)>)')
    return p.sub('', my_str)

In [72]:
import html 

platform_list = {
    "001": "연합뉴스",
    "005": "국민일보",
    "011": "서울경제",
    "014": "파이낸셜뉴스",
    "015": "한국경제",
    "016": "헤럴드경제",
    "018": "한겨레",
    "020": "동아일보",
    "021": "문화일보",
    "022": "세계일보",
    "023": "조선일보",
    "025": "중앙일보",
    "028": "한겨레",
    "032": "경향신문",
    "033": "주간경향",
    "038": "한국일보",
    "055": "SBS",
    "056": "KBS",
    "057": "MBC",
    "081": "서울신문",
    "082": "부산일보",
    "087": "강원일보",
    "088": "경남신문",
    "089": "경북일보",
    "090": "대전일보",
    "091": "매일신문",
    "092": "영남일보",
    "093": "울산신문",
    "094": "전남일보",
    "095": "전북일보",
    "096": "제주일보",
    "097": "중도일보",
    "098": "충북일보",
    "099": "충청일보",
    "100": "강원도민일보",
    "101": "경기일보",
    "102": "경남도민일보",
    "103": "경북도민일보",
    "104": "광주일보",
    "105": "대구일보",
    "106": "대전투데이",
    "107": "동양일보",
    "108": "무등일보",
    "109": "부산일보",
    "110": "서울일보",
    "111": "세계타임즈",
    "112": "울산매일",
    "113": "인천일보",
    "114": "전라일보",
    "115": "전북도민일보",
    "116": "제주신보",
    "117": "중부매일",
    "118": "충북도민일보",
    "119": "충청타임즈",
    "120": "한라일보",
    "121": "헤럴드경제"
}

all_result = dict()
i = 0
for news in data1:
    link = html.unescape(news['link'])
    pubdate = news['pubDate']

    if 'n.news.naver.com' in link:
        all_result[i] = dict()
        all_result[i]['link'] = link
        match = re.search(r'article/(\d+)', link)
        if match:
            press_code = match.group(1)
            press_name = platform_list.get(press_code, '기타')
        else:
            press_name = '기타'
        all_result[i]['platform'] = press_name
        all_result[i]['pubdate'] = pubdate
        all_result[i]['keyword'] = query
        i += 1

all_result



{0: {'link': 'https://n.news.naver.com/mnews/article/015/0005135302?sid=154',
  'platform': '한국경제',
  'pubdate': 'Thu, 22 May 2025 15:57:00 +0900',
  'keyword': '이재명'},
 1: {'link': 'https://n.news.naver.com/mnews/article/003/0013258401?sid=100',
  'platform': '기타',
  'pubdate': 'Thu, 22 May 2025 11:46:00 +0900',
  'keyword': '이재명'},
 2: {'link': 'https://n.news.naver.com/mnews/article/023/0003906661?sid=154',
  'platform': '조선일보',
  'pubdate': 'Thu, 22 May 2025 08:49:00 +0900',
  'keyword': '이재명'},
 3: {'link': 'https://n.news.naver.com/mnews/article/001/0015404701?sid=100',
  'platform': '연합뉴스',
  'pubdate': 'Thu, 22 May 2025 12:08:00 +0900',
  'keyword': '이재명'},
 4: {'link': 'https://n.news.naver.com/mnews/article/421/0008266977?sid=154',
  'platform': '기타',
  'pubdate': 'Thu, 22 May 2025 12:21:00 +0900',
  'keyword': '이재명'},
 5: {'link': 'https://n.news.naver.com/mnews/article/028/0002747118?sid=154',
  'platform': '한겨레',
  'pubdate': 'Thu, 22 May 2025 12:12:00 +0900',
  'keyword':

In [75]:
from selenium import webdriver

driver = webdriver.Chrome()

for data in all_result.values():
    url = data['link']
    driver.get(url)
    
    break




In [76]:
driver.quit()

In [78]:
import time
from selenium.webdriver.common.by import By
import pandas as pd

def extract_comments_from_url(driver, url):
    print(f"기사 접속 : {url}")
    driver.get(url)
    time.sleep(2)

    # 1. 댓글 보기 버튼 클릭
    try:
        comment_btn = driver.find_element(By.CLASS_NAME, 'simplecmt_link_text')
        comment_btn.click()
        time.sleep(1)
    except:
        print("❌ 댓글 보기 버튼 없음\n")
        return []

    # 2. 더보기 버튼 반복
    while True:
        try:
            more_btn = driver.find_element(By.CLASS_NAME, 'u_cbox_page_more')
            more_btn.click()
            time.sleep(0.5)
        except:
            break

    # 3. 댓글 수집
    results = []
    try:
        comment_elements = driver.find_elements(By.CLASS_NAME, 'u_cbox_contents')
        for one in comment_elements:
            results.append(one.text.strip())
    except:
        print("⚠️ 댓글 수집 중 오류 발생")
    
    return results

def crawl_all_comments(news_dict):
    driver = webdriver.Chrome()

    all_results = []

    for idx, article in news_dict.items():
        url = html.unescape(article['link'])
        platform = article['platform']
        keyword = article['keyword']

        print(f"[{platform}] : 기사 접속 중 : {url}")

        try:
            comments = extract_comments_from_url(driver, url)
            if comments:
                for c in comments:
                    all_results.append({
                        'platfrom':platform,
                        'keyword':keyword,
                        'comment':c
                    })
                print(f"댓글 {len(comments)}개 수집 완료")
            else:
                print("댓글 없음")
        except:
            print('error')
    driver.quit()
    return all_results

results = crawl_all_comments(all_result)
df = pd.DataFrame(results)
df.head()


[한국경제] : 기사 접속 중 : https://n.news.naver.com/mnews/article/015/0005135302?sid=154
기사 접속 : https://n.news.naver.com/mnews/article/015/0005135302?sid=154
댓글 25개 수집 완료
[기타] : 기사 접속 중 : https://n.news.naver.com/mnews/article/003/0013258401?sid=100
기사 접속 : https://n.news.naver.com/mnews/article/003/0013258401?sid=100
댓글 220개 수집 완료
[조선일보] : 기사 접속 중 : https://n.news.naver.com/mnews/article/023/0003906661?sid=154
기사 접속 : https://n.news.naver.com/mnews/article/023/0003906661?sid=154
댓글 275개 수집 완료
[연합뉴스] : 기사 접속 중 : https://n.news.naver.com/mnews/article/001/0015404701?sid=100
기사 접속 : https://n.news.naver.com/mnews/article/001/0015404701?sid=100
댓글 1432개 수집 완료
[기타] : 기사 접속 중 : https://n.news.naver.com/mnews/article/421/0008266977?sid=154
기사 접속 : https://n.news.naver.com/mnews/article/421/0008266977?sid=154
댓글 42개 수집 완료
[한겨레] : 기사 접속 중 : https://n.news.naver.com/mnews/article/028/0002747118?sid=154
기사 접속 : https://n.news.naver.com/mnews/article/028/0002747118?sid=154
댓글 190개 수집 완료
[국민일보] : 기사 접속 중

Unnamed: 0,platfrom,keyword,comment
0,한국경제,이재명,아 여기는 극우들이 구글구글하네.댓글이 전부 뇌썩남 수준이군.한심하다 ㅋㅋ
1,한국경제,이재명,내란당이란 손도 잡는 이재명
2,한국경제,이재명,개나걸이나 득표에 도움되면 만사오케? 철학이란게 있기는 한건가?
3,한국경제,이재명,김대남이는 완전 기회주의자인데 누가 영입하겠냐?저 인간은 이재명 대통령 되면 또 민...
4,한국경제,이재명,본인이 나오는게 실수아니인가? 죄짓고 대통령까지 한다고?


In [85]:
df = df.rename(columns={'platfrom':'press'})

In [86]:
df.head()

Unnamed: 0,press,keyword,comment
0,한국경제,이재명,아 여기는 극우들이 구글구글하네.댓글이 전부 뇌썩남 수준이군.한심하다 ㅋㅋ
1,한국경제,이재명,내란당이란 손도 잡는 이재명
2,한국경제,이재명,개나걸이나 득표에 도움되면 만사오케? 철학이란게 있기는 한건가?
3,한국경제,이재명,김대남이는 완전 기회주의자인데 누가 영입하겠냐?저 인간은 이재명 대통령 되면 또 민...
4,한국경제,이재명,본인이 나오는게 실수아니인가? 죄짓고 대통령까지 한다고?


In [87]:
df['platform'] = 'news'

In [88]:
df.head()

Unnamed: 0,press,keyword,comment,platform
0,한국경제,이재명,아 여기는 극우들이 구글구글하네.댓글이 전부 뇌썩남 수준이군.한심하다 ㅋㅋ,news
1,한국경제,이재명,내란당이란 손도 잡는 이재명,news
2,한국경제,이재명,개나걸이나 득표에 도움되면 만사오케? 철학이란게 있기는 한건가?,news
3,한국경제,이재명,김대남이는 완전 기회주의자인데 누가 영입하겠냐?저 인간은 이재명 대통령 되면 또 민...,news
4,한국경제,이재명,본인이 나오는게 실수아니인가? 죄짓고 대통령까지 한다고?,news


In [91]:
df = df[['platform', 'press', 'keyword','comment']]