#### 웹 크롤링
1. 사용할 라이브러리 목록 
    - requests
        - 웹 통신을 위한 라이브러리 
        - 웹서버에 요청을 보내고 응답을 받아오는 라이브러리 
        - get( 웹주소, params = data, headers = data )
    - bs4
        - BeautifulSoup class를 사용
        - html문서형 데이터를 parsing을 하여 데이터를 쉽게 추출 할 수 있도록 도와주는 기능
        - html의 TAG를 기준으로 데이터를 추출 
        - 웹의 구조를 어느정도 인지하고 사용하면 쉽게 접근이 가능
        - Parser를 활용해서 python에서 접근이 쉽게 객체 형태로 제공
    - selenium 
        - 웹 어플리케이션를 테스트를 하기 위한 라이브러리 
        - 웹 브라우져를 python의 code를 이용해서 제어 
        - Chrome의 버전이 구버전이거나 selenium이 구 버전인 경우에는 별도의 소프트웨어를 설치 
        - 특정 동적인 웹 페이지에서 데이터를 가지고 올때 사용

In [1]:
import requests
from bs4 import BeautifulSoup as bs

In [2]:
url = "http://www.naver.com"
response = requests.get(url)

In [3]:
response

<Response [200]>

In [6]:
html_data = response.text

In [7]:
type(html_data)

str

In [8]:
html_data.find('네이버')

378

In [10]:
html_data[378:410]

'네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요'

In [13]:
# parsing 작업 : 데이터의 타입을 변경 ( 내가 사용하기 편한 형태로 변경 )
soup = bs(html_data, 'html.parser')

In [15]:
type(soup)

bs4.BeautifulSoup

- BeautifulSoup 내장함수
    - soup.태그명 -> html 문서에서 해당 태그명의 첫번째 정보를 출력
    - soup.태그명.string -> 첫번째 정보에서 contents부분의 문자를 출력
    - soup.태그명['속성명'] : 첫번째 태그의 정보에서 속성의 값을 출력
    - find(태그명)
        - html 문서에서 해당 태그명의 첫번째 정보를 출력 
        - find(속성명 = 속성값) : 태그들 중 해당 속성을 가지고 속성값을 가신 태그의 첫번째 정보를 출력
        - 반환되는 값의 type은 TAG
    - find_all(태그명)
        - html 문서에서 해당 태그명의 모든 정보를 출력 
        - limit 매개변수 : 태그 정보의 개수를 설정
        - 반환되는 값의 type이 TAG_list

In [16]:
# soup에서 a태그의 정보를 출력 
print(soup.a)

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>


In [17]:
print(soup.find('a'))

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>


In [19]:
print(soup.a.string)

상단영역 바로가기


In [20]:
print(soup.a['href'])

#topAsideButton


In [21]:
type(soup.a)

bs4.element.Tag

In [22]:
type(soup.find('a'))

bs4.element.Tag

In [23]:
type(soup.find_all('a'))

bs4.element.ResultSet

In [28]:
# a_list = soup.find_all('a', limit=3)
a_list = soup.find_all('a')

In [29]:
a_list

[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>,
 <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>,
 <a href="#newsstand"><span>새소식 블록 바로가기</span></a>,
 <a href="#shopping"><span>쇼핑 블록 바로가기</span></a>,
 <a href="#feed"><span>관심사 블록 바로가기</span></a>,
 <a href="#account"><span>MY 영역 바로가기</span></a>,
 <a href="#widgetboard"><span>위젯 보드 바로가기</span></a>,
 <a href="#viewSetting"><span>보기 설정 바로가기</span></a>]

In [31]:
a_list[1].find('span')

<span>서비스 메뉴 바로가기</span>

In [None]:
# a_list에 있는 모든 원소들에 contents만 추출하여 새로운 리스트 생성

# case1 반복문 이용 
contents_list = []

# 반복문 생성 
for a_tag in a_list:
    # a_tag -> a_list에 있는 각 원소(TAG)들이 한번씩 대입
    contents_list.append( a_tag.string )

contents_list

In [None]:
# while문
contents_list2 = []

# 초기값 
i = 0

while True:
    try:
        contents_list2.append(a_list[i].get_text())
        i += 1
    except:
        break
contents_list2

In [34]:
# case2 map함수를 이용
list(
    map(
        lambda x : x.string, 
        a_list
    )
)

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기']

In [35]:
def get_string(x):
    # x에는 TAG 데이터 대입 
    result = x.get_text()
    return result

list(
    map(
        get_string, 
        a_list
    )
)

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기']

In [51]:
# 네이버 파이낸스 
# 1. 요청을 보내고 응답을 받는다. 
url  = "https://finance.naver.com/"
response = requests.get(url)

In [52]:
response

<Response [200]>

In [53]:
# 2. 응답 메시지에서 문자로 출력 변수에 저장 
html_data = response.text

In [54]:
# bs4에 BeautifulSoup을 이용하여 데이터를 파싱 (class 생성성)
soup = bs(html_data, 'html.parser')

In [55]:
# 주요뉴스의 헤드라인 텍스트를 출력 
# div TAG들 중에 class 속성의 값이 "section_strategy"인 태그를 찾는다. 

len(soup.find_all('div', attrs={
    'class' : 'section_strategy'
}))
# find_all로 태그를 검색하고 길이를 확인하니 1
# html 문서에서 해당 태그는 1개 -> find()함수를 이용

1

In [56]:
div_data = soup.find('div', attrs={
    'class' : 'section_strategy'
})

In [57]:
# div_data에서 li태그의 정보를 모두 출력
li_list = div_data.find_all('li')

In [58]:
# li_list에서 텍스트 추출하여 새로운 리스트로 생성
news_data = list(
    map(
        lambda x : x.get_text().strip(), 
        li_list
    )
)

In [59]:
news_data

['트럼프발 ‘국장·미장·가상자산’ 잔혹사',
 "최수종·하희라 배우들 다 떠났는데…주가 '급등' 무슨 일?",
 "삼성중공업 '8조 수주 잭팟' 기대감에 7%대 강세[핫종목]",
 '"K2 전차 효자네"…현대로템, 역대 최고가 [줍줍리포트]',
 "'믿을맨 데려오자' 바이오헬스케어 외부 인력수혈 바람",
 '엔비디아, 하루 만에 반등…웰스파고 "저가 매수 기회"']