In [32]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
import threading
import pandas as pd


# pip install selenium
# pip install webdriver_manager

In [33]:
# Selenium 웹드라이버를 사용하여 크롬 브라우저를 자동으로 실행
# ChromeDriverManager는 크롬 드라이버를 자동으로 다운로드하고 설치합니다.
driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))

In [34]:
# 네이버 홈페이지를 열기
driver.get("https://www.naver.com/")

In [35]:
# (가로, 세로) - 1024 * 768 픽셀의 사이즈로 윈도우 브라우져를 열어줍니다.
driver.set_window_size(1024, 768)

In [36]:
# 자바스크립트를 사용하여 페이지를 수직으로 스크롤
driver.execute_script("window.scrollTo(200, 300);")

In [37]:
# 페이지에 alert 창이 있는지 확인하고, 있으면 그 내용 출력
try:
    # alert 창으로 전환
    alert = driver.switch_to.alert
    
    # alert 창의 텍스트 출력
    print(alert.text)
except:
    # alert 창이 없으면 'alert 없음' 출력
    print('alert 없음')

alert 없음


In [38]:
# 자바스크립트를 사용하여 alert 창 띄우기
driver.execute_script("alert('selenium test');")

In [39]:
# 다시 alert 창이 나타났으므로, 그것을 확인하고 텍스트 출력
try:
    # alert 창으로 전환
    alert = driver.switch_to.alert
    
    # alert 창의 텍스트 출력
    print(alert.text)
except:
    # alert 창이 없으면 'alert 없음' 출력
    print('alert 없음')

selenium test


In [40]:
# alert 창의 확인 버튼 클릭 (닫기)
alert.accept()

In [41]:
driver.find_element(By.CSS_SELECTOR,".MyView-module__link_login___HpHMW").click()
# 특정 CSS 선택자(".MyView-module__link_login___HpHMW")를 사용하여 로그인 링크 요소를 찾고, 클릭하여 로그인 페이지로 이동

In [42]:
# 브라우저와 드라이버를 종료하고, 열린 모든 관련 창을 닫음
driver.quit()

In [None]:
# ---------------------------------------------
#   urllib 사용법 및 기본 스크랩핑
# ---------------------------------------------


# 기사 제목들을 저장할 빈 리스트
article_list = []

# 주어진 페이지 번호를 이용해 해당 페이지에서 기사를 가져오는 함수
def get_article(page):
    
    # 웹 드라이버를 실행해서 크롬 브라우저 열기
    driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))
    
    # 네이버 뉴스의 특정 페이지로 이동
    driver.get("https://news.naver.com/section/10" + str(page))
    
    # 페이지에서 기사 리스트를 찾는 코드
    articles = driver.find_elements(By.CSS_SELECTOR,'#newsct li')

    # 모든 기사를 하나씩 살펴보는 반복문
    for article in articles:
        try:
            # 첫 번째 방법: 기사 제목을 찾을 수 있으면 제목을 가져옴
            tmp_elements = article.find_elements(By.CSS_SELECTOR, '.sa_text strong')
            if tmp_elements:
                title = tmp_elements[0].text
            else:
                # 두 번째 방법: 다른 방법으로 제목을 찾을 수 있으면 제목을 가져옴
                tmp_elements2 = article.find_elements(By.CSS_SELECTOR, '.ss_text a')
                if tmp_elements2:
                    title = tmp_elements2[0].text
                else:
                # 제목을 찾을 수 없으면 "해당 정보 없음"이라고 씀
                    title = "해당 정보 없음"

                    # 찾은 제목을 리스트에 추가
                article_list.append(title)
        except:
            # 만약 에러가 나면 에러 메시지를 출력
            print("에러 발생!")
            
    # 각 페이지가 끝날 때마다 "end :"와 페이지 번호를 출력
    print("end :", page)

    # 브라우저 닫기
    driver.quit()

In [44]:
%%time
# %%time: 이 코드를 실행하는데 걸리는 시간을 측정할 수 있음
# 각 페이지에서 기사를 가져오는 작업이 얼마나 시간이 걸리는지 알 수 있게 함

# 1번 페이지부터 4번 페이지까지 차례대로 기사들을 가져옴
for page in range(1, 5):
    
    # 각 페이지에 대해 get_article 함수 호출
    get_article(page)

end : 1
end : 2
end : 3
end : 4
CPU times: total: 422 ms
Wall time: 19.8 s


In [45]:
# article_list의 총 개수를 출력함
# 이 값은 지금까지 크롤링한 기사들의 개수를 나타냄
len(article_list)

# article_list에서 처음 30개의 제목을 확인
# 이 부분은 크롤링된 기사들 중 첫 번째부터 30번째까지의 제목을 보여줌
article_list[:30]

['“누리호 4차 위성 탑재” 나라스페이스, 밸류에이션·확약률이 변수',
 '‘코스피 상장’ 티엠씨, K-조선업 호황 업고 상장… 중복상장 논란 넘어설까',
 '‘비건 뷰티’ 아로마티카, 코스닥 상장 앞두고 수익성 개선… 국내 경쟁 심화는 부담',
 'TSMC·삼성전자가 점 찍은 씨엠티엑스… IPO로 글로벌 공급망 진입 정조준',
 '해당 정보 없음',
 '해당 정보 없음',
 "일하다 '심근경색' 산재 승인 받았는데…의사 소견 '반전'",
 "매출 2억 회사 '월 1000만원' 꼬박꼬박 챙겨간 직원 결국…",
 '"또라이 중에 상또라이" 사장 폭언에…\'못 참아\' 금융치료 나섰다',
 '"6000만원 주세요" 인간극장 PD의 반격…\'13년 폭탄\' 터졌다',
 '샤이니 온유, 서울시향과 크리스마스 공연',
 "뮤지컬 '은밀하게 위대하게' 10주년 기념 공연",
 "국립심포니콘서트오케스트라 '크리스마스 콘서트'",
 "베베핀의 두 번째 뮤지컬 '두근두근 새 친구'",
 '박나래, 매니저에 ‘술 강요’ 논란…사실이라면 위험천만한 이유',
 '‘8kg 감량’ 박지윤, 적정 몸무게 맞을까?… 사라진 뱃살 비결 보니',
 '“목 뒤 왜 이래?” 김우빈, 결혼 2주 앞두고 봉변…‘이것’ 때문?',
 '‘이 병’ 불붙인, 배우 권나라…“겨울에는 도전해도 좋아”, 왜?',
 "팔 6개 달린 '초인형 로봇'까지…中 '로봇 굴기' 어디까지 왔나",
 '대낮에 털리더니…루브르. 이번엔 누수로 도서 수백권 손상',
 '英해리왕자, 트럼프 저격?…美토크쇼서 "왕 뽑았잖아"',
 '中, 마크롱 방중 맞춰 佛에 새 판다 대여…習, 청두서 마크롱과 비공식 만남 이어가']

In [46]:
# ---------------------------------------------
#   pandas 사용
# ---------------------------------------------


# Pandas DataFrame을 생성하여 기사 제목과 카테고리를 저장할 빈 테이블을 생성
# 'category'와 'title'이라는 두 개의 컬럼이 있음
df = pd.DataFrame(columns=["category", "title"])


# 기사를 크롤링하고 DataFrame에 저장하는 함수
def get_article(page):
    
    # 크롬 웹 드라이버를 실행하여 브라우저를 여는 코드
    #driver = webdriver.Chrome("C:/Myexam/chromedriver/chromedriver.exe")
    driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))
    
    # 주어진 페이지 번호에 해당하는 뉴스 섹션 페이지로 이동
    driver.get("https://news.naver.com/section/10" + str(page))
    
    # 해당 페이지에서 뉴스 카테고리 제목을 찾아서 category 변수에 저장
    category = driver.find_element(By.CSS_SELECTOR, '.ct_snb_h2_a').get_attribute("innerText")
    
    # 페이지에서 모든 기사 리스트를 찾음
    articles = driver.find_elements(By.CSS_SELECTOR,'#newsct li')
    
    # 각 기사를 하나씩 살펴보는 반복문
    for article in articles:
        try:
            # 첫 번째 방법: 기사 제목을 찾을 수 있으면 그 제목을 가져옴
            tmp_elements = article.find_elements(By.CSS_SELECTOR, '.sa_text strong')
            
            if tmp_elements:
                title = tmp_elements[0].text
            else:
                # 두 번째 방법: 다른 방법으로 제목을 찾을 수 있으면 그 제목을 가져옴
                tmp_elements2 = article.find_elements(By.CSS_SELECTOR, '.ss_text a')
                
                if tmp_elements2:
                    title = tmp_elements2[0].text
                else:
                    # 제목을 찾을 수 없으면 "해당 정보 없음"이라고 씀
                    title = "해당 정보 없음"
        except:
            # 만약 에러가 발생하면 "에러 발생!" 메시지를 출력
            print("에러 발생!")
            
        # 찾은 카테고리와 제목을 DataFrame에 추가
        df.loc[len(df)] = {
            "category": category,   # 기사 카테고리
            "title": title,     # 기사 제목
        }
        
    # 페이지가 끝났다고 출력
    print("end :", page+1)
    
    # 웹 드라이버를 종료하고 브라우저 닫기
    driver.quit()

In [47]:
%%time
# %%time: 이 코드를 실행하는데 걸리는 시간을 측정할 수 있음
# 각 페이지에서 기사를 가져오는 작업이 얼마나 시간이 걸리는지 알 수 있게 함

# 0번 페이지부터 5번 페이지까지 차례대로 기사들을 가져옴
for page in range(0, 6):
    
    # 각 페이지에 대해 get_article 함수 호출
    get_article(page)

end : 1
end : 2
end : 3
end : 4
end : 5
end : 6
CPU times: total: 766 ms
Wall time: 30.6 s


In [48]:
df

Unnamed: 0,category,title
0,정치,"특검, 통일교 '민주당 금품' 의혹에 사건번호…수사 불가피 전망"
1,정치,"이 대통령, 정원오 구청장 콕 집어 ""잘하긴 잘하나 보다"""
2,정치,"與최고위원 보궐 '친명' vs '친청' 구도…鄭, 리더십 수습 나서"
3,정치,김경수 지방시대위원장 “지역은 전략 자산…‘5극 3특’으로 국토 대전환”
4,정치,"민주 의총서 일부 '내란재판부' 우려...정청래 ""로펌 자문 의뢰"""
...,...,...
297,IT/과학,"카카오T 고급택시, 수도권 전역서 배차·운행 가능해진다"
298,IT/과학,'아리랑 7호' 우주 안착…지구관측위성 분야 세계적 개발역량 확보
299,IT/과학,'챗GPT' 유료 가입자 '부글부글'…무슨 일?
300,IT/과학,"공공 재해복구(DR) 시장, IT 분야 최대 먹거리 부상"


In [49]:
# 'category' 컬럼에 있는 각 카테고리별로 개수를 세고, 
# 각 카테고리가 몇 번 나타나는지 출력
df['category'].value_counts()

category
경제       52
IT/과학    52
정치       50
사회       50
세계       50
생활/문화    48
Name: count, dtype: int64