### 웹 크롤링 
- 특정 주소로 요청을 보내고 받아온 응답 메시지(html)안에서 특정 위치의 데이터를 추출 
- 사용이 되는 라이브러리 : requests, bs4 (정적 웹페이지), selenium (동적 웹페이지)

### bs4
- bs4 라이브러리 안에 있는 BeautifulSoup Class를 사용
- html로 이루어진 문자형 데이터를 parsing(데이터의 형태를 변환) 작업을 하여 데이터를 쉽게 추출하기 위한 Class
- html의 TAG를 기준으로 데이터(contents)에 쉽게 접근 
- 웹의 구조를 어느정도 인지하고 사용을 하게 되면 쉽게 사용
- Parser를 활용하여 python에서 접근이 쉽게 객체(변수+함수)의 형태로 제공

In [1]:
import requests

In [2]:
# 요청을 보낼 주소를 변수에 저장 
url = 'https://www.naver.com'
# 요청을 보내고 응답 메시지를 변수에 저장 
response = requests.get(url)

In [3]:
from pprint import pprint

In [None]:
pprint(response.text)

In [5]:
print(type(response.text))

<class 'str'>


In [6]:
html_data = response.text

In [7]:
# html_data에서 '네이버' 문자열을 추출
# '네이버'의 위치를 확인 
print(html_data.index('네이버'))
print(html_data.find('네이버'))

378
378


In [9]:
html_data[378:400]

'네이버 메인에서 다양한 정보와 유용한 컨'

In [None]:
# bs4 라이브러리 설치 
# !pip install bs4

In [11]:
from bs4 import BeautifulSoup as bs

In [12]:
# html로 이루어진 문자열 데이터를 bs Class에 대입 
# 생성자 함수에는 2개의 인자값 대입 
# html로 이루어진 문자열, Parser 지정 
soup = bs(html_data, 'html.parser')

In [14]:
type(soup)

bs4.BeautifulSoup

- BeautifulSoup Class
    - soup.태그명 : 해당 태그명의 첫번째 태그를 출력
    - soup.태그명.string : 첫번째 태그에서 contents를 출력
        - ex) `<p>test</p>` --> test
    - soup.태그명['속성명'] : 첫번째 태그에서 해당 속성의 값을 출력 
        - ex) `<a href='https://www.google.com'>구글</a>` --> https://www.google.com

In [15]:
soup.a

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>

In [16]:
soup.a.string

'상단영역 바로가기'

In [18]:
soup.a['href']

'#topAsideButton'

- Class 안에 함수 
    - find()
        - html 데이터에서 특정 태그의 첫번째 정보를 출력
        - find(속성명 = 속성값) : 태그들 중에 해당 속성명과 속성의 값이 같은 첫번째 태그의 정보를 출력 
        - 결과 값의 타입이 TAG 형태로 출력 
        - find 함수는 TAG, BeautifulSoup 형태의 데이터에서 사용이 가능
    - find_all()
        - html 데이터에서 특정 태그의 모든 정보를 출력 
        - limit 매개변수 : 출력하는 데이터의 개수를 지정 
        - 결과 값의 타입이 TAG들이 모여있는 리스트와 흡사한 ResultSet 형태로 출력
    - get_text()
        - TAG형태의 데이터에서 contents만 추출

In [20]:
print(soup.find('a'))
print(soup.a)
print(type(soup.find('a')))
print(type(soup.a))

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>
<a href="#topAsideButton"><span>상단영역 바로가기</span></a>
<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>


In [22]:
print(type(soup.find_all('a')))
print(soup.find_all('a'))
print(soup.find_all('a')[1])
print(type(soup.find_all('a')[1]))

<class 'bs4.element.ResultSet'>
[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>, <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>, <a href="#newsstand"><span>새소식 블록 바로가기</span></a>, <a href="#shopping"><span>쇼핑 블록 바로가기</span></a>, <a href="#feed"><span>관심사 블록 바로가기</span></a>, <a href="#account"><span>MY 영역 바로가기</span></a>, <a href="#widgetboard"><span>위젯 보드 바로가기</span></a>, <a href="#viewSetting"><span>보기 설정 바로가기</span></a>, <a aria-pressed="false" class="item _delAll" href="#" role="button">전체삭제</a>, <a class="kwd_help" data-clk="sly.help" href="https://help.naver.com/alias/search/word/word_35.naver" target="_blank">도움말</a>, <a class="kwd_help" data-clk="sly.help" href="https://help.naver.com/alias/search/word/word_35.naver" target="_blank">도움말</a>, <a class="close _keywordOnOff" href="#">자동저장 끄기</a>, <a data-clk="sly.help" href="https://help.naver.com/alias/search/word/word_35.naver" target="_blank">도움말</a>, <a class="close _close" href="#">닫기</a>, <a aria-pressed="false" c

In [None]:
# a태그들을 모두 찾아서 안에 텍스트를 추출하여 새로운 리스트에 대입
a_list = soup.find_all('a')
a_list

In [26]:
a_list[1].get_text()

'서비스 메뉴 바로가기'

In [29]:
# 비어있는 리스트 생성
a_data = []
for a in a_list:
    # print(a)
    # print(type(a))
    # print(a.get_text())
    # a_data에 a.get_text()의 결과를 추가 
    a_data.append( a.get_text() )

In [30]:
a_data

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기',
 '전체삭제',
 '도움말',
 '도움말',
 '자동저장 끄기',
 '도움말',
 '닫기',
 '이 정보가 표시된 이유',
 '레이어 닫기',
 '자세히보기',
 '관심사를 반영한 컨텍스트 자동완성도움말',
 '컨텍스트 자동완성',
 '자세히 보기',
 '자세히 보기',
 '네이버로그인',
 '컨텍스트 자동완성 레이어 닫기',
 '자동완성 끄기',
 '도움말',
 '신고',
 '닫기']