# 웹크롤링

In [45]:
# selenium 라이브러리에서 webdriver 모듈 임포트, 웹 브라우저를 자동으로 제어하기 위한 기능을 제공
from selenium import webdriver

# 크롬 웹드라이버를 위한 서비스 객체를 사용하기 위해 Service 모듈 임포트
from selenium.webdriver.chrome.service import Service

# 크롬 드라이버의 자동 업데이트를 위해 webdriver_manager에서 ChromeDriverManager를 임포트
from webdriver_manager.chrome import ChromeDriverManager

# 크롬 옵션을 설정하기 위한 Options 모듈을 임포트 일반적으로 브라우저의 특정 옵션을 설정할 때 사용
from selenium.webdriver.chrome.options import Options

# html 요소 접근
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

In [46]:
# http 요청, 응답 수행
import requests
# html문서 파싱 (DOM요소 다루듯 접근하는 기능 제공)
from bs4 import BeautifulSoup as bs

In [47]:
import time
import pyautogui
import pyperclip

In [48]:
# 정규표현식
import re

In [70]:
# url = 'http://www.naver.com'
keyword='삼성전자'
url = f'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query={keyword}'
headers = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'
}
params = {}
res = requests.get(url, headers=headers, params=params)
res.raise_for_status() # 문제가 생겼을 때 오류를 내뱉고 프로그램 종료

res.status_code

200

In [72]:
res.text
# res.content

'<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta property="og:title" content="삼성전자 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'삼성전자\'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="\'삼성전자\'의 네이버 통합검색 결과입니다."> <title>삼성전자 : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><script> if (top.frames.length!=0 || window!=top) window.open(location, "_top"); </script><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_240314.css"> <link rel="stylesheet" type="text/css"

In [63]:
# r' ' : raw string
# 이스케이프 시퀀스를 무시하고 문자 그대로 표현하라는 의미
# 이스케이프 문자 : 보통 \(역슬래쉬)문자로 새로운 기능을 부여하거나
#                   기존 기능을 변경, 소멸하는 역할
# 이스케이프 시퀀스 : 이스케이프문자 뒤에 연이어 나오는 문자의 집합
#                     ex) \n, \t, \i, \g
pattern = r'삼성전자'
findall = re.findall(pattern, res.text)
print(len(findall))
# [word for word in findall]

230


In [75]:
# BeautifulSoup
soup = bs(res.text, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="always" name="referrer"/>
  <meta content="telephone=no,address=no,email=no" name="format-detection"/>
  <meta content="삼성전자 : 네이버 통합검색" property="og:title">
   <meta content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png" property="og:image"/>
   <meta content="'삼성전자'의 네이버 통합검색 결과입니다." property="og:description"/>
   <meta content="'삼성전자'의 네이버 통합검색 결과입니다." lang="ko" name="description"/>
   <title>
    삼성전자 : 네이버 통합검색
   </title>
   <link href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico" rel="shortcut icon"/>
   <link href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" rel="search" title="Naver" type="application/opensearchdescription+xml">
    <script>
     if (top.frames.length!=0 || window!=top) window.open(location, "_top");
    </script>
    <link href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_240314.css" rel="stylesheet" ty

In [76]:
soup.select_one('p')

<p class="dsc">검색어와 포함된 키워드를 기반으로 AI 기술을 활용하여 연관된 추천 질문을 제공합니다.</p>

In [77]:
soup.select_one('p').text

'검색어와 포함된 키워드를 기반으로 AI 기술을 활용하여 연관된 추천 질문을 제공합니다.'

In [78]:
soup.select_one('p')['class']

['dsc']

In [79]:
soup.select('p')

[<p class="dsc">검색어와 포함된 키워드를 기반으로 AI 기술을 활용하여 연관된 추천 질문을 제공합니다.</p>,
 <p class="dsc"> <i class="imgsvg ico_election"></i><span class="_alert_passage"></span> </p>,
 <p class="dsc">ON/OFF 설정은 해당기기(브라우저)에 저장됩니다.</p>,
 <p class="dsc">동일한 시간대・연령대・남녀별 사용자 그룹의 관심사에 맞춰 자동완성을 제공합니다. <a class="link_view" href="https://help.naver.com/alias/search/word/word_16.naver" onclick="return goOtherCR(this,'a=sug.cxhelp&amp;r=&amp;i=&amp;u='+urlencode(this.href));" target="_blank">자세히 보기</a></p>,
 <p class="api_txt_lines txts">갤럭시, TV, PC, 가전, 액세서리, 소모품 제품정보, 온라인 스토어 제품판매, 고객지원 정보 제공.</p>,
 <p class="dsc"> 사용자 선호도 및 최신 게시글 존재 여부, 인증 여부 등 다양한 요소들을 고려하여 연관 채널의 최신 게시물을 노출합니다. 공지 사이트의 공지사항은 자동으로 수집하여 노출합니다. </p>,
 <p class="dsc_loading">차트를 불러오는 중입니다.</p>,
 <p class="dsc_loading">차트를 불러오는 중입니다.</p>,
 <p class="dsc_loading">차트를 불러오는 중입니다.</p>,
 <p class="dsc_loading">차트를 불러오는 중입니다.</p>,
 <p class="dsc_loading">차트를 불러오는 중입니다.</p>,
 <p class="dsc_loading">차트를 불러오는 중입니다.</p>,
 <p class="dsc_loading">차트를 불러오는 중입니

In [80]:
[ele.text for ele in soup.select('p')]

['검색어와 포함된 키워드를 기반으로 AI 기술을 활용하여 연관된 추천 질문을 제공합니다.',
 '  ',
 'ON/OFF 설정은 해당기기(브라우저)에 저장됩니다.',
 '동일한 시간대・연령대・남녀별 사용자 그룹의 관심사에 맞춰 자동완성을 제공합니다. 자세히 보기',
 '갤럭시, TV, PC, 가전, 액세서리, 소모품 제품정보, 온라인 스토어 제품판매, 고객지원 정보 제공.',
 ' 사용자 선호도 및 최신 게시글 존재 여부, 인증 여부 등 다양한 요소들을 고려하여 연관 채널의 최신 게시물을 노출합니다. 공지 사이트의 공지사항은 자동으로 수집하여 노출합니다. ',
 '차트를 불러오는 중입니다.',
 '차트를 불러오는 중입니다.',
 '차트를 불러오는 중입니다.',
 '차트를 불러오는 중입니다.',
 '차트를 불러오는 중입니다.',
 '차트를 불러오는 중입니다.',
 '차트를 불러오는 중입니다.',
 '차트를 불러오는 중입니다.',
 ' 2024.04.02. 오전 11:31 장중 ',
 '네이버(주)가 제공하는 금융정보는 각 콘텐츠 제공업체로부터 받는 정보로 투자 참고사항이며, 오류가 발생하거나 지연 될 수 있습니다. 네이버(주)는 제공된 정보에 의한 투자결과에 법적책임을 지지 않습니다. 게시된 정보는 무단으로 배포할 수 없습니다.',
 ' 최근 1주일간 12,002개의 토론이 올라왔어요 ',
 '현지통화, 현지거래소 시간 기준',
 '네이버 AI 기반 분석 알고리즘을 적용하여 사용자들이 많이 물어보고, 궁금해할 정보들을 자동으로 추출하였습니다.',
 '정보를 가져오는 중입니다.',
 ' 제공되는 정보는 NICE평가정보, 블라인드, 잡플래닛, 캐치 등 기업정보를 서비스하는 플랫폼에서 연동 제공하는 정보로써, 회사는 해당 정보의 최신성 및 정확성을 담보하지 않습니다. 오래되거나 사실과 다른 정보는 고객센터의 안내를 참고하여 제보해주세요. 게시된 정보는 무단으로 수집 및 배포할 수 없습니다. ',
 '광고 노출기준은 검색어에 대한 연관성과 광고주의 입찰가이며,이미지 