### 웹 크롤링 
- html 문서를 응답 메시지를 받는다. 
- html 태그를 이용하여 데이터를 수집 

In [1]:
import requests
from pprint import pprint

In [2]:
url = "https://www.naver.com"

response = requests.get(url)

In [3]:
html_data = response.text

In [4]:
pprint(html_data)

('   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta '
 'charset="utf-8"> <meta name="Referrer" content="origin"> <meta '
 'http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" '
 'content="width=1190"> <title>NAVER</title> <meta '
 'name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" '
 'content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 '
 '정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta '
 'property="og:url" content="https://www.naver.com/"> <meta '
 'property="og:image" '
 'content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> '
 '<meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> '
 '<meta name="twitter:card" content="summary"> <meta name="twitter:title" '
 'content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta '
 'name="twitter:image" '
 'content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mo

In [5]:
type(html_data)

str

In [6]:
html_data.find('네이버')

378

In [7]:
html_data[378:381]

'네이버'

### BeautifulSoup 라이브러리를 이용하여 크롤링
1. bs4 라이브러리 안에 있는 BeautifulSoup 기능을 이용
2. html 문자형 데이터를 pasing 작업을 하여 데이터를 쉽게 추출하기 위한 라이브러리 
3. html의 태그를 기준으로 하여 데이터를 추출
4. html의 구조를 어느정도 인지하고 있다면 쉽게 접근이 가능 
5. Parser를 활용하여 파이썬에서 접근이 쉽게 객체 형태로 제공

In [8]:
# 라이브러리 설치 
!pip install bs4

Collecting bs4
  Downloading bs4-0.0.1.tar.gz (1.1 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Building wheels for collected packages: bs4
  Building wheel for bs4 (pyproject.toml): started
  Building wheel for bs4 (pyproject.toml): finished with status 'done'
  Created wheel for bs4: filename=bs4-0.0.1-py3-none-any.whl size=1262 sha256=e0172adee7caaa5263005a92de7dda67391b23db6d7c680c1da24307dce7e0a3
  Stored in directory: c:\users\ezen\appdata\local\pip\cache\wheels\e1\b9\57\b931c8652afd0dbd73a4fc8d4b2df854120933b93d4167d164
Successfully built bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1



[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [9]:
# 라이브러리 로드 
from bs4 import BeautifulSoup as bs

In [10]:
# 데이터의 타입을 변경 : parsing 
soup = bs(html_data, 'html.parser')

In [11]:
type(soup)

bs4.BeautifulSoup

### 태그명을 이용하여 검색 
- soup.태그명 : 해당 태그의 첫번째 정보를 출력 
- soup.태그명.string : 첫번째 태그의 문자열이 출력 
- soup.태그명['속성명'] : 첫번째 태그의 속성의 값이 출력

In [12]:
# html 문서에서 title 태그를 추출
soup.title

<title>NAVER</title>

In [13]:
# title 태그 안에 contents만 추출
soup.title.string

'NAVER'

In [14]:
# html 문서 안에서 하이퍼링크 태그를 추출
soup.a

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>

In [15]:
# 하이퍼링크에서 href의 값만 추출 
soup.a['href']

'#topAsideButton'

### BeautifulSoup 안에 있는 내장함수 
- find()
    - html 문자열 안에서 해당 태그의 첫번째 정보를 출력
    - find(속성 = 값) : 태그들 중에서 해당 속성의 값과 같은 태그의 첫번째 정보를 출력
- find_all()
    - html 문자열 안에서 해당 태그의 모든 정보를 리스트 형태로 출력
    - limit 매개변수 : 리스트의 길이를 지정 
- get_text()
    - 태그의 정보에서 contents만 추출하는 함수 

In [16]:
soup.find('a')

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>

In [17]:
soup.find('a').get_text()

'상단영역 바로가기'

In [18]:
a_list = soup.find_all('a')

In [19]:
a_list2 = []
for i in a_list:
    # print(i.get_text())
    a_list2.append(i.get_text())

a_list2

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기',
 '전체삭제',
 '도움말',
 '도움말',
 '자동저장 끄기',
 '도움말',
 '닫기',
 '이 정보가 표시된 이유',
 '레이어 닫기',
 '자세히보기',
 '관심사를 반영한 컨텍스트 자동완성도움말',
 '컨텍스트 자동완성',
 '자세히 보기',
 '자세히 보기',
 '네이버로그인',
 '컨텍스트 자동완성 레이어 닫기',
 '자동완성 끄기',
 '도움말',
 '신고',
 '닫기']

In [20]:
# map()함수를 이용하여 a태그의 contents 부분만 추출
# map(함수(일반함수, lambda함수), 리스트명)

# map + 일반함수 
def change(x):
    # x는 a태그의 정보가 입력
    # x에서 contents 부분만 추출
    result = x.get_text()
    # 결과값을 되돌려준다.
    return result

list(
    map(
        change, 
        a_list
    )
)

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기',
 '전체삭제',
 '도움말',
 '도움말',
 '자동저장 끄기',
 '도움말',
 '닫기',
 '이 정보가 표시된 이유',
 '레이어 닫기',
 '자세히보기',
 '관심사를 반영한 컨텍스트 자동완성도움말',
 '컨텍스트 자동완성',
 '자세히 보기',
 '자세히 보기',
 '네이버로그인',
 '컨텍스트 자동완성 레이어 닫기',
 '자동완성 끄기',
 '도움말',
 '신고',
 '닫기']

In [21]:
# map + lambda 함수
list(
    map(
        lambda x : x.get_text(), 
        a_list
    )
)

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기',
 '전체삭제',
 '도움말',
 '도움말',
 '자동저장 끄기',
 '도움말',
 '닫기',
 '이 정보가 표시된 이유',
 '레이어 닫기',
 '자세히보기',
 '관심사를 반영한 컨텍스트 자동완성도움말',
 '컨텍스트 자동완성',
 '자세히 보기',
 '자세히 보기',
 '네이버로그인',
 '컨텍스트 자동완성 레이어 닫기',
 '자동완성 끄기',
 '도움말',
 '신고',
 '닫기']

In [22]:
url = 'https://search.shopping.naver.com/search/all?query=%EC%95%84%EC%9D%B4%ED%8C%A8%EB%93%9C&bt=-1&frm=NVSCPRO'

response = requests.get(url)

In [23]:
html_data = response.text

In [24]:
html_data



In [25]:
# Beautifulsoup에서 사용할수 있는 데이터의 형태로 변환
soup = bs(html_data, 'html.parser')
soup

<!DOCTYPE html>

In [26]:
# div 태그중에 id가 content인 태그를 추출
div_data = soup.find('div', attrs={
    'id' : 'content'
})

In [27]:
div_data2 = div_data.find('div')

In [28]:
div_data3 = div_data2.find('div', attrs={
    'class' : 'basicList_list_basis__uNBZx'
})

In [29]:
div_data4 = div_data3.find('div')

In [30]:
test_data = div_data4.find_all('div')[0]

In [31]:
test_data.find('div', attrs = {
    'class' : 'adProduct_title__amInq'
}).get_text()

'Apple 정품 2022 아이패드 프로 11 4세대 M2칩  스페이스그레이  128GB  Wi-Fi MNXD3KH/A'

In [32]:
div_list = div_data4.find_all('div', attrs= {
    'class' : 'adProduct_title__amInq'
})

In [33]:
div_list

[<div class="adProduct_title__amInq"><a class="adProduct_link__NYTV9 linkAnchor" data-i="35908138810" data-ms="613264" data-nclick="N=a:lst*A.title,i:35908138810,r:6" href="https://adcr.naver.com/adcr?x=SxY3WiPIMoB4oXL8AqZ2Df///w==k13BUx7x5L/1FZH1XW+W3T0Llo2xNiqSetLbpmVbR7HhseznTdIIJlnYrDrtOtwi1F5APLqvdje/FxVcvyoVFNZ4jOwqIZ9+FggeAx+Ef6YB6XbYlxtOdO0Tw0uUOJtMuRaJ62QTOmkFms0NfHA8XljWVYSgaADyuvk3S3UO8P0s+mY1VJsSkU5kz9IXMQCu0asKHwHYzbhgueGFKGWOUGrJJDclFlmVEQGoonw24JpCDwaTvMxPsClsAppbXaRJPyXYkTRMTU95eocBJRDCY1aTYljNLUlck2VaqrMOrKQF47mdgv1wrhwxlxNVLnv199NndBTTUSfY2w5+qVhy4SSHjQTCK6Yeo7tMykQtncVdpKeczTC4tzDitJRSeDoNkC0UWBJ/d40xgHau6sxqcVJFWHtjxfSCHUzsRTLjGKIOr6iI7qFZPyXnbvwxPpilX6STOZvTMdIGdJrGTipchyozTbp744ZN3rdEwYbpoBqW5lDPX3FfooadnqEINTAEcOE1h5JFFp8qj/4fuc1lZjFFrzPpUIj8fWNNm9/LkSWvX8ftVIl56bwDc6kVWu9bQ2EHnd8jZqwT92wyfAfEPkBRA+BfoXS+m72fiSy8UFXM1SA+mcq2T6D6vkwbiRYLZfilXUk3yY93XpZ5tYYh165e5PqMi/p7gdnpLmkF+lw9zB7RE1zKmYMyG0Aah5+zlvHlVflfI2QF1NnS9gk/XOoLlyVNoluAsJM0sQV+x3OaJJCmj8X33l3OSk85/iCst

In [34]:
item_list = []
for i in  div_list:
    item_list.append(i.get_text())

item_list

['Apple 정품 2022 아이패드 프로 11 4세대 M2칩  스페이스그레이  128GB  Wi-Fi MNXD3KH/A',
 'Apple 2022 아이패드 에어 5세대  스페이스 그레이  64GB  Wi-Fi MM9C3KH/A',
 'Apple 정품 2022 아이패드 프로 12.9 6세대 M2칩  스페이스그레이  128GB  Wi-Fi MNXP3KH/A',
 'Apple 2022 아이패드 에어 5세대  스타라이트  256GB  Wi-Fi MM9P3KH/A']

In [35]:
div_list2 = div_data4.find('div', attrs={
    'class' : 'product_title__Mmw2K'
})

In [36]:
item_list.append(div_list2.get_text())

In [37]:
item_list

['Apple 정품 2022 아이패드 프로 11 4세대 M2칩  스페이스그레이  128GB  Wi-Fi MNXD3KH/A',
 'Apple 2022 아이패드 에어 5세대  스페이스 그레이  64GB  Wi-Fi MM9C3KH/A',
 'Apple 정품 2022 아이패드 프로 12.9 6세대 M2칩  스페이스그레이  128GB  Wi-Fi MNXP3KH/A',
 'Apple 2022 아이패드 에어 5세대  스타라이트  256GB  Wi-Fi MM9P3KH/A',
 'Apple 아이패드 9세대 WIFI 64G 스페이스 그레이 (MK2K3KH/A)']

In [38]:
price_list = div_data4.find_all('div', attrs={
    'class' : 'adProduct_price_area__yA7Ad'
})

In [39]:
price_list[0].find('span', attrs={
    'class' : 'price'
}).get_text()

'1,179,000원'

In [40]:
item_price = []

for i in price_list:
    data = i.find('span', attrs={
        'class' : 'price'
    }).get_text()
    item_price.append(data)

item_price

['1,179,000원', '859,800원', '1,595,050원', '1,110,550원']

In [41]:
price_data = div_data4.find('div', attrs = {
    'class' : 'product_price_area__eTg7I'
})

In [42]:
price = price_data.find('span', attrs={
    'class' : 'price_num__S2p_v'
}).get_text()

In [43]:
item_price.append(price)

In [44]:
item_price

['1,179,000원', '859,800원', '1,595,050원', '1,110,550원', '414,890원']

In [45]:
# 2개의 리스트 데이터를 하나의 dict 형태로 생성
data = {
    '상품명' : item_list, 
    '상품가격' : item_price
}
data

{'상품명': ['Apple 정품 2022 아이패드 프로 11 4세대 M2칩  스페이스그레이  128GB  Wi-Fi MNXD3KH/A',
  'Apple 2022 아이패드 에어 5세대  스페이스 그레이  64GB  Wi-Fi MM9C3KH/A',
  'Apple 정품 2022 아이패드 프로 12.9 6세대 M2칩  스페이스그레이  128GB  Wi-Fi MNXP3KH/A',
  'Apple 2022 아이패드 에어 5세대  스타라이트  256GB  Wi-Fi MM9P3KH/A',
  'Apple 아이패드 9세대 WIFI 64G 스페이스 그레이 (MK2K3KH/A)'],
 '상품가격': ['1,179,000원', '859,800원', '1,595,050원', '1,110,550원', '414,890원']}

In [46]:
import pandas as pd

In [47]:
df = pd.DataFrame(data)
df

Unnamed: 0,상품명,상품가격
0,Apple 정품 2022 아이패드 프로 11 4세대 M2칩 스페이스그레이 128...,"1,179,000원"
1,Apple 2022 아이패드 에어 5세대 스페이스 그레이 64GB Wi-Fi ...,"859,800원"
2,Apple 정품 2022 아이패드 프로 12.9 6세대 M2칩 스페이스그레이 1...,"1,595,050원"
3,Apple 2022 아이패드 에어 5세대 스타라이트 256GB Wi-Fi MM...,"1,110,550원"
4,Apple 아이패드 9세대 WIFI 64G 스페이스 그레이 (MK2K3KH/A),"414,890원"
