# 웹 크롤링
1. 필수 라이브러리 requests

In [1]:
import requests

In [2]:
url = 'https://www.naver.com'
response = requests.get(url)

In [5]:
html_data = response.text

In [6]:
html_data.find('네이버')

365

In [8]:
html_data[365:368]

'네이버'

# beautifulsoup 라이브러리 설치
1. html Tag의 데이터를 쉽게 추출하기 위한 라이브러리
2. 웹의 구조를 어느 정도 인지를 한 상태에서 이 라이브러리 사용하면 쉽게 데이터 추출이 가능
3. 파서(parser)를 활용해서 파이썬에서 접근이 쉽게 객체형태(변수)로 제공

In [1]:
%pip install bs4

Note: you may need to restart the kernel to use updated packages.


In [10]:
from bs4 import BeautifulSoup as bs

In [11]:
soup = bs(html_data, 'html.parser')

- 태크명을 사용하여 검색
    - 태그 : 해당 태그의 첫번째 정보를 출력
    - 태그['속성'] : 해당 태그의 첫번째 속성에 대한 값을 출력

In [17]:
print(soup.title)
print(soup.title.name)
print(soup.title.string)

<title>NAVER</title>
title
NAVER


In [20]:
print(soup.img)
print(soup.img['height'])
print(soup.img['src'])

<img alt="" height="49" src="https://static-whale.pstatic.net/main/img_darkmode_v12@2x.png" style="padding-left: 100px" width="200"/>
49
https://static-whale.pstatic.net/main/img_darkmode_v12@2x.png


- find()
    - HTML 안에서 해당 태그에 대한 첫번째 정보를 출력
    - find(속성='값') : HTML 해당 속성과 일치하는 값에 대한 첫번째 정보를 출력
- find_all()
    - HTML 안에 해당 태그에 대한 모든 정보를 리스트 형식으로 출력
    - limit 속성 : 리스트의 길이를 지정

In [21]:
print(soup.find('a'))

<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>


In [None]:
print(soup.find(id = 'newsstand'))

In [28]:
# print(soup.find_all('span'))
# print(soup.find_all('span'), limit = 10)
print(soup.find_all('span')[2])

<span>타임스퀘어 바로가기</span>


In [30]:
# 해당 태크에서 class 값을 기준으로 출력
# print(soup.find_all('span', class_='blind'))
print(soup.find_all('span', attrs={
    'class' : 'blind'
}))

[<span class="blind">NAVER whale</span>, <span class="blind">쥬니어네이버</span>, <span class="blind">해피빈</span>, <span class="blind">검색</span>, <span class="blind">한글 입력기</span>, <span class="blind">자동완성 레이어</span>, <span class="blind">쇼핑</span>, <span class="blind">쇼핑LIVE</span>, <span class="blind">리스트형</span>, <span class="blind">썸네일형</span>, <span class="blind">설정</span>, <span class="blind">이전</span>, <span class="blind">다음</span>, <span class="blind">닫기</span>, <span class="blind">닫기</span>, <span class="blind">이전</span>, <span class="blind">다음</span>, <span class="blind">닫기</span>, <span class="blind">닫기</span>, <span class="blind">이전</span>, <span class="blind">다음</span>, <span class="blind">다음</span>, <span class="blind">닫기</span>, <span class="blind">닫기</span>, <span class="blind">이전</span>, <span class="blind">다음</span>, <span class="blind">닫기</span>, <span class="blind">닫기</span>, <span class="blind">이전</span>, <span class="blind">다음</span>, <span class="blind">재생</span>, <span 

In [32]:
# 태그를 제외하고 텍스트만 가지고 올때
(soup.find('span')).get_text()

'뉴스스탠드 바로가기'

In [33]:
span_list = soup.find_all('span', attrs={'class' : 'blind'})
span_text = []
for i in span_list:
    span_text.append(i.get_text())
print(span_text)


['NAVER whale', '쥬니어네이버', '해피빈', '검색', '한글 입력기', '자동완성 레이어', '쇼핑', '쇼핑LIVE', '리스트형', '썸네일형', '설정', '이전', '다음', '닫기', '닫기', '이전', '다음', '닫기', '닫기', '이전', '다음', '다음', '닫기', '닫기', '이전', '다음', '닫기', '닫기', '이전', '다음', '재생', '재생', '재생', '재생', '재생', '이전', '다음', 'NAVER', '이전', '다음', '하락', '상승', '하락', '  ', 'TOP', '라이트 모드로 보기']


In [34]:
# map 함수
# map(함수, 리스트형태 데이터)
def change(x):
    return x.get_text()
print(list(map(change, span_list)))

['NAVER whale', '쥬니어네이버', '해피빈', '검색', '한글 입력기', '자동완성 레이어', '쇼핑', '쇼핑LIVE', '리스트형', '썸네일형', '설정', '이전', '다음', '닫기', '닫기', '이전', '다음', '닫기', '닫기', '이전', '다음', '다음', '닫기', '닫기', '이전', '다음', '닫기', '닫기', '이전', '다음', '재생', '재생', '재생', '재생', '재생', '이전', '다음', 'NAVER', '이전', '다음', '하락', '상승', '하락', '  ', 'TOP', '라이트 모드로 보기']


In [35]:
print(list(map(lambda x : x.get_text(), span_list)))

['NAVER whale', '쥬니어네이버', '해피빈', '검색', '한글 입력기', '자동완성 레이어', '쇼핑', '쇼핑LIVE', '리스트형', '썸네일형', '설정', '이전', '다음', '닫기', '닫기', '이전', '다음', '닫기', '닫기', '이전', '다음', '다음', '닫기', '닫기', '이전', '다음', '닫기', '닫기', '이전', '다음', '재생', '재생', '재생', '재생', '재생', '이전', '다음', 'NAVER', '이전', '다음', '하락', '상승', '하락', '  ', 'TOP', '라이트 모드로 보기']


In [None]:
# select_one(), select() -> find(), find_all()과 같음
print(soup.select_one('a'))
print(soup.select('body a'))

In [None]:
print(soup.select('div > ul'))

# selenium 라이브러리
1. 웹 어플리케이션 테스트를 위한 라이브러리
2. python으로 웹 브라우저 제어하는 기능
3. 웹 드라이버 별도의 프로그램 설치 필요

In [2]:
%pip install selenium

Collecting seleniumNote: you may need to restart the kernel to use updated packages.

  Downloading selenium-4.8.0-py3-none-any.whl (6.3 MB)
     ---------------------------------------- 6.3/6.3 MB 955.3 kB/s eta 0:00:00
Collecting trio~=0.17
  Downloading trio-0.22.0-py3-none-any.whl (384 kB)
     -------------------------------------- 384.9/384.9 kB 1.1 MB/s eta 0:00:00
Collecting trio-websocket~=0.9
  Downloading trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting sortedcontainers
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl (29 kB)
Collecting async-generator>=1.9
  Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting PySocks!=1.5.7,<2.0,>=1.5.6
  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)
Collecting h11<1,>=0.9.0
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
     ---------------------

In [47]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

In [46]:
# path는 webdriver의 경로 지정
# 절대경로
# windows
# path = 'C:/Users/ssjjk/Downloads/chromedriver_win32/chromdriver.exe
# mac
# 상대경로
path = '../webdriver/chromedriver.exe'
driver= webdriver.Chrome(path)
driver.get('https://www.naver.com')

  driver= webdriver.Chrome(path)


In [48]:
element = driver.find_element(By.ID, 'query')
element.send_keys('구디 맛집')

In [49]:
element.send_keys(Keys.ENTER)

In [None]:
soup = bs(driver.page_source, 'html.parser')
print(soup)

In [52]:
import time

# 크롤링 class 생성
1. 생성자 함수 처음 웹드라이버가 접속할 주소를 입력
2. 새로운 함수 생성 - 검색어를 인자값으로 보내주면 웹드라이버에서 검색 후 검색한 페이지를 텍스트형태로 리턴

In [75]:
class Web():
    # 생성자 함수에서는 입력한 주소 값만 저장
    def __init__(self, _url):
        self.url = _url
    
    # 검색함수에서는 1. 검색어를 인자로 받고 2. 웹드라이버를 실행 3. 검색창에 검색어를 입력하고 검색창 클릭 
    # 4. 페이지 이동 후 페이지 html코드를 bs4 이용하여 객체화 한 데이터를 리턴
    def search(self, _search):
        self.path = '../webdriver/chromedriver'
        self.driver = webdriver.Chrome(self.path)
        time.sleep(1)
        self.driver.get(self.url)
        print(self.url)
        # 1초 딜레이 생성
        time.sleep(1)
        self.element = self.driver.find_element(By.ID, 'query')
        self.element.send_keys('_search')
        self.element.send_keys(Keys.ENTER)
        time.sleep(1)
        self.result = bs(self.driver.page_source, 'html.parser')
        return self.result

In [76]:
test = Web('https//www.naver.com')

In [None]:
test.search('파싱 뜻')