### 웹 크롤링 
- html 문서를 응답 메시지를 받는다. 
- html 태그를 이용하여 데이터를 수집 

In [None]:
import requests
from pprint import pprint

In [None]:
url = "https://www.naver.com"

response = requests.get(url)

In [None]:
html_data = response.text

In [None]:
pprint(html_data)

In [None]:
type(html_data)

In [None]:
html_data.find('네이버')

In [None]:
html_data[378:381]

### BeautifulSoup 라이브러리를 이용하여 크롤링
1. bs4 라이브러리 안에 있는 BeautifulSoup 기능을 이용
2. html 문자형 데이터를 pasing 작업을 하여 데이터를 쉽게 추출하기 위한 라이브러리 
3. html의 태그를 기준으로 하여 데이터를 추출
4. html의 구조를 어느정도 인지하고 있다면 쉽게 접근이 가능 
5. Parser를 활용하여 파이썬에서 접근이 쉽게 객체 형태로 제공

In [None]:
# 라이브러리 설치 
!pip install bs4

In [None]:
# 라이브러리 로드 
from bs4 import BeautifulSoup as bs

In [None]:
# 데이터의 타입을 변경 : parsing 
soup = bs(html_data, 'html.parser')

In [None]:
type(soup)

### 태그명을 이용하여 검색 
- soup.태그명 : 해당 태그의 첫번째 정보를 출력 
- soup.태그명.string : 첫번째 태그의 문자열이 출력 
- soup.태그명['속성명'] : 첫번째 태그의 속성의 값이 출력

In [None]:
# html 문서에서 title 태그를 추출
soup.title

In [None]:
# title 태그 안에 contents만 추출
soup.title.string

In [None]:
# html 문서 안에서 하이퍼링크 태그를 추출
soup.a

In [None]:
# 하이퍼링크에서 href의 값만 추출 
soup.a['href']

### BeautifulSoup 안에 있는 내장함수 
- find()
    - html 문자열 안에서 해당 태그의 첫번째 정보를 출력
    - find(속성 = 값) : 태그들 중에서 해당 속성의 값과 같은 태그의 첫번째 정보를 출력
- find_all()
    - html 문자열 안에서 해당 태그의 모든 정보를 리스트 형태로 출력
    - limit 매개변수 : 리스트의 길이를 지정 
- get_text()
    - 태그의 정보에서 contents만 추출하는 함수 

In [None]:
soup.find('a')

In [None]:
soup.find('a').get_text()

In [None]:
a_list = soup.find_all('a')

In [None]:
a_list2 = []
for i in a_list:
    # print(i.get_text())
    a_list2.append(i.get_text())

a_list2

In [None]:
# map()함수를 이용하여 a태그의 contents 부분만 추출
# map(함수(일반함수, lambda함수), 리스트명)

# map + 일반함수 
def change(x):
    # x는 a태그의 정보가 입력
    # x에서 contents 부분만 추출
    result = x.get_text()
    # 결과값을 되돌려준다.
    return result

list(
    map(
        change, 
        a_list
    )
)

In [None]:
# map + lambda 함수
list(
    map(
        lambda x : x.get_text(), 
        a_list
    )
)

In [None]:
url = 'https://search.shopping.naver.com/search/all?query=%EC%95%84%EC%9D%B4%ED%8C%A8%EB%93%9C&bt=-1&frm=NVSCPRO'

response = requests.get(url)

In [None]:
html_data = response.text

In [None]:
html_data

In [None]:
# Beautifulsoup에서 사용할수 있는 데이터의 형태로 변환
soup = bs(html_data, 'html.parser')
soup

In [None]:
# div 태그중에 id가 content인 태그를 추출
div_data = soup.find('div', attrs={
    'id' : 'content'
})

In [None]:
div_data2 = div_data.find('div')

In [None]:
div_data3 = div_data2.find('div', attrs={
    'class' : 'basicList_list_basis__uNBZx'
})

In [None]:
div_data4 = div_data3.find('div')

In [None]:
test_data = div_data4.find_all('div')[0]

In [None]:
test_data.find('div', attrs = {
    'class' : 'adProduct_title__amInq'
}).get_text()

In [None]:
div_list = div_data4.find_all('div', attrs= {
    'class' : 'adProduct_title__amInq'
})

In [None]:
div_list

In [None]:
item_list = []
for i in  div_list:
    item_list.append(i.get_text())

item_list

In [None]:
div_list2 = div_data4.find('div', attrs={
    'class' : 'product_title__Mmw2K'
})

In [None]:
item_list.append(div_list2.get_text())

In [None]:
item_list

In [None]:
price_list = div_data4.find_all('div', attrs={
    'class' : 'adProduct_price_area__yA7Ad'
})

In [None]:
price_list[0].find('span', attrs={
    'class' : 'price'
}).get_text()

In [None]:
item_price = []

for i in price_list:
    data = i.find('span', attrs={
        'class' : 'price'
    }).get_text()
    item_price.append(data)

item_price

In [None]:
price_data = div_data4.find('div', attrs = {
    'class' : 'product_price_area__eTg7I'
})

In [None]:
price = price_data.find('span', attrs={
    'class' : 'price_num__S2p_v'
}).get_text()

In [None]:
item_price.append(price)

In [None]:
item_price

In [None]:
# 2개의 리스트 데이터를 하나의 dict 형태로 생성
data = {
    '상품명' : item_list, 
    '상품가격' : item_price
}
data

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(data)
df