- bs4 : 로그인이 필요없는 크롤링 패키지
- selenium : 로그인이 필요하여 크롬브라우저를 직접 조작하는 패키지

# Simple Web Page

- 간단한 형태의 내용을 추출

## #01. 웹 페이지 제작 기술

### [1] HTML

- 웹 페이지 골격(페이지 구조)를 구성하는 마크업 언어
  - 원래는 연구자들이 논문 등의 책을 집필하기 위해 고안된 언어.
  - 문서 작성에 최적화되어 있음
  - 출처를 표시하기 위한 링크 기능이 HTML의 시작

#### 기본 구조

- 강조하고자 하는 문장을 앞뒤에 `<말머리>~</말머리>` 형식으로 강조한다.
- 이 단위를 태그('Tag')라고 한다.

```html
<말머리>강조하고자 하는 내용</말머리>
```

| 예 | 설명 |
|---|---|
| h1 | 가장 큰 수준의 제목 |
| h2 | 두 번째 수준의 제목 |
| p | 본문 |
| blockquote | 인용문 |
| a | 링크 |

> 특정 말머리를 시작적으로 강조하는 뷰어 프로그램이 웹 브라우저

- HTML 태그는 문서의 구조를 표현하기 위해 다른 태그를 포함할 수 있음.

```html
<blockquote>
    <h1>제목</h1>
    <p>내용</p>
</blockquote>
```

- 주피터 환경에서 파이썬 코드 시작부분에 %%HTML을 입력하면 HTML문 작성 가능

In [1]:
%%HTML
<h1>강조하고자 하는 내용</h1>

### [2] CSS

- HTML에 디자인을 적용하기 위한 언어
- 디자인이 적용될 대상(HTML 태그)를 지정하기 위해 **CSS 선택자(selector)** 라는 표기법을 사용
- 파이썬은 CSS 선택자 표기법을 사용하여 내용을 추출할 대상을 지정

- 자식셀렉터와 자손셀렉터
  - 자식셀렉터는 태그 순차를 구분 (div > span > input) : 사이에 어떤 태그도 있어서는 안됨
  - 자손셀렉터는 태그 순차가 없음 (div span input) : 각 요소 사이에 태그가 얼마나 들어가도 상관없음 (div h p span p input 등)

- 속성셀렉터
  - HTML의 태그의 속성과 값은 []안에 표현함
  - class, id와는 개념이 다름
    - .choose[value='123'] : value 속성의 값이 123이고 클래스가 choose인 요소

- n번째 요소에서 nth-child는 1부터 카운트됨

- 패키지 : bs4, requests

In [2]:
import requests
from bs4 import BeautifulSoup

- 접속 URL

In [3]:
url = "https://data.hossam.kr/py/sample.html"

- 데이터 요청

In [4]:
session = requests.Session()

session.headers.update({
    "Referer": "",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
})

- 데이터 가져오기
  - 웹페이지를 구성하는 HTML 소스코드 가져오기

In [5]:
try:
    r = session.get(url)
        
    if r.status_code != 200:
        msg = "[%d Error] %s 에러가 발생함" % (r.status_code, r.reason)
        raise Exception(msg)
except Exception as e:
    print("접속에 실패했습니다.")
    print(e)

r.encoding = "utf-8"
print(r.text)

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
    <style>
        /* HTML 태그 방식 */
        h1 { color: #f0f; }
        h2 { color: #06f; }

        /** Class 방식 */
        .myclass { color: #f00; }

        /** id 방식 */
        #myid { color: #f60; }

        /** 자식 선택자  */
        .syllabus > li > ol > li {
            text-decoration: underline;
        }

        /** 자손 선택자 */
        .syllabus ol {
            font-weight: bold;
        }

        .part1 {
            background-color: #eeeeee;
        }

        .part2 {
            background-color: #d5d5d5;
        }

        /** 특정 대상을 구체적으로 명시  */
        div.sub.part1 {
            border: 1px dotted #000;
        }

        div.sub.part2#hello {
            border: 1px solid #555;
        }

        /** 특정 속성을 갖고 있는 요소  */
        a[href] {
            font-size: 20px;
        }

        /** 특정 속성 값에 대한

- 데이터 활용
  - beautifulsoup 객체 생성

In [6]:
# 인코딩 형식을 지정하여 beautifulsoup 객체 생성
soup = BeautifulSoup(r.text)
soup

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Document</title>
<style>
        /* HTML 태그 방식 */
        h1 { color: #f0f; }
        h2 { color: #06f; }

        /** Class 방식 */
        .myclass { color: #f00; }

        /** id 방식 */
        #myid { color: #f60; }

        /** 자식 선택자  */
        .syllabus > li > ol > li {
            text-decoration: underline;
        }

        /** 자손 선택자 */
        .syllabus ol {
            font-weight: bold;
        }

        .part1 {
            background-color: #eeeeee;
        }

        .part2 {
            background-color: #d5d5d5;
        }

        /** 특정 대상을 구체적으로 명시  */
        div.sub.part1 {
            border: 1px dotted #000;
        }

        div.sub.part2#hello {
            border: 1px solid #555;
        }

        /** 특정 속성을 갖고 있는 요소  */
        a[href] {
            font-size: 20px;
        }

        /** 특정 속성 값에 대한 적용  */
      

- soup 객체의 select() 메서드에 CSS 선택자를 파라미터로 전달하여 원하는 부분을 추출
  - return 결과는 리스트

- HTML 태그에 의한 접근

In [7]:
test1 = soup.select("h1")
print(test1)

# 리턴타입이 리스트이므로 리스트의 원소에 접근
h1 = test1[0]
print(type(h1))
print(h1)

[<h1>Hello World</h1>]
<class 'bs4.element.Tag'>
<h1>Hello World</h1>


- 태그의 내용만 추출하기
  - 리스트 안에 있는 원소는 str이 아닌 bs4 tag 객체로, text 메서드로 내용만 뽑을 수 있음

In [8]:
result = h1.text.strip()
result

'Hello World'

In [9]:
myselect = soup.select(".myclass")
myselect

[<li class="myclass">연산자</li>,
 <li class="myclass">데이터 전처리</li>,
 <ol class="myclass">
 <li>기초통계</li>
 <li>데이터 시각화</li>
 </ol>]

- 복수요소 반복처리

In [10]:
for i, v in enumerate(myselect):
    # 추출한 요소가 하위 태그를 포함하는 경우 그 안의 텍스트만 일괄 추출
    print("%d번째 요소 : %s" % (i, v.text.strip()))

0번째 요소 : 연산자
1번째 요소 : 데이터 전처리
2번째 요소 : 기초통계
데이터 시각화


- 추출한 요소의 하위요소 추출

In [11]:
myli = myselect[2].select("li")
myli

[<li>기초통계</li>, <li>데이터 시각화</li>]

- id에 의한 추출
  - 정상적인 경우라면 하나의 id값은 웹페이지 안에 하나만 존재

In [12]:
myselect = soup.select("#myid")
myselect

[<h2 id="myid">Python</h2>]

In [13]:
print(myselect[0].text.strip())

Python


- 여러 요소 동시 사용
  - 조건을 하나라도 충족하는 요소를 모두 가져옴

In [14]:
soup.select("#myid, .myclass")

[<h2 id="myid">Python</h2>,
 <li class="myclass">연산자</li>,
 <li class="myclass">데이터 전처리</li>,
 <ol class="myclass">
 <li>기초통계</li>
 <li>데이터 시각화</li>
 </ol>]

- 자식 선택자 사용

In [15]:
soup.select(".syllabus > .myclass")

[<li class="myclass">연산자</li>]

- 자손 선택자 사용

In [16]:
soup.select(".part1 .myclass")

[<li class="myclass">연산자</li>]

- 가상클래스

In [17]:
soup.select(".myclass:first-child")

[<ol class="myclass">
 <li>기초통계</li>
 <li>데이터 시각화</li>
 </ol>]

- 태그의 속성값 추출 (attrs)

In [18]:
myselect = soup.select("a[href]")
myselect

[<a href="#">link1</a>, <a href="https://www.naver.com">link2</a>]

In [19]:
# 속성값은 각 태그 요소의 attrs라는 프로퍼티로 접근 가능 -> dict 형태
for i, v in enumerate(myselect):
    print("----[%d]----" % i)
    print(v.attrs)

    # 딕셔너리에 대한 in 연산자는 key의 존재 여부를 판별
    if "href" in v.attrs:    
        print("%d번째의 href속성값 : %s" % (i, v.attrs['href']))

----[0]----
{'href': '#'}
0번째의 href속성값 : #
----[1]----
{'href': 'https://www.naver.com'}
1번째의 href속성값 : https://www.naver.com


In [21]:
url2 = "https://search.shopping.naver.com/search/all?query=%EC%BD%9C%EB%9D%BC&cat_id=&frm=NVSHATC"
session2 = requests.Session()

session2.headers.update({
    "Referer": "",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
})

try:
    r2 = session2.get(url2)
        
    if r2.status_code != 200:
        msg2 = "[%d Error] %s 에러가 발생함" % (r2.status_code, r2.reason)
        raise Exception(msg2)
except Exception as e:
    print("접속에 실패했습니다.")
    print(e)

r2.encoding = "utf-8"
print(r2.text)



In [22]:
soup2 = BeautifulSoup(r2.text)

In [36]:
prod = soup2.select("a.product_link__TrAac")
prod

[<a class="product_link__TrAac linkAnchor" data-i="84630135883" data-ms="3783489" data-nclick="N=a:lst*N.title,i:84630135883,r:1" href="https://cr.shopping.naver.com/adcr.nhn?x=jr%2BU5H6H6vv5ntkhYqvAd%2F%2F%2F%2Fw%3D%3DspKIiwTFwzO3gVeQZbkVPCWxQjeghX5F%2Fiux6DZx0jXcn9Bj2q1399irUFRGv2IWFGwzeheOWE8iqzAwbhKKEEpbHI%2FiYCuW7J9UTYSEHABK0QvxxfeTlOD2PCsxtOetK0cwf5NbDFhhzcW346a1Onea0O2TX7GIDZW3de8vjU8zj40nG2s1j5%2BXnDKbCCKfvpaooPO4IVkhvkBX4b8jyhn%2F7jUp9kBtr7%2Fw8Cj776sc%2Fa18qhDQ1A%2FKJp3fgBDor391W%2FC1w5SVs2sYtTdFSeishjQtcnSRKFJJMTk%2FeBWd371GeF5VEKjKvA8iDvXp0JbUxvM5bqRHpmZZeOwNsbI8N21%2Bzm9BCu%2FO%2Faki1AAZaNCqbSdtrisugGATxJq5fvLml3AYtnqXhCOPUlkJn0ogGJl9LFgR9VwweDUahaHWDRBUH1JrbmBpWJQoCtnzJemX52VRedW3ArFXAc2hhlpjDNMzqHP5G%2FCrirGdQ9X9qDp0bR%2FvCS5vgyL8H7%2BVbh8hIXBLwcwyYyEedlflBx7LcgNtY4DxTYy0rbHtC8yzFwIwxwYKNSPzo%2BfiQM1eH11SkXvPxCFL9O%2FobcETkVA1QmAmnoJRdq4K9btjkCM0%3D&amp;nvMid=84630135883&amp;catId=50002254" rel="noopener" target="_blank" title="코카콜라 제로콜라 190mL 30개 미니 캔 음료">코카콜라 제로콜라 190m

In [37]:
li2 = []
for i in prod:
    li2.append(i.text)

In [38]:
li2

['코카콜라 제로콜라 190mL 30개 미니 캔 음료']

In [39]:
from selenium import webdriver
from selenium.webdriver.common.by import By

In [40]:
url = input("URL 입력 : ")

driver = webdriver.Chrome()

driver.get(url)

In [45]:
prod2 = driver.find_elements(by = By.CSS_SELECTOR, value = 'div > a.product_link__TrAac')

In [46]:
li3 = []
for i in prod2:
    li3.append(i.text)

In [47]:
li3

['코카콜라 제로콜라 190mL 30개 미니 캔 음료',
 '코카콜라 제로 355ml x 24캔 제로콜라 뚱캔 본사발주 최신제조 안전배송',
 '도매 음료수 미니캔 코카콜라 칠성 사이다 펩시 190ml 각10캔 30캔 캔음료 업소용',
 '코카콜라 190ml 30개 미니 캔 음료',
 '코카콜라 코크제로 355ml x 24입 뚱캔 한박스',
 '코카콜라 제로 190ml 245ml 355ml 500ml 1.25L 업소용 각2개씩 미니캔 도매',
 '펩시제로 라임 355 ml x 24캔',
 '상일 노브랜드 콜라제로 355ml',
 '롯데칠성음료 펩시제로슈거 제로 슈거 라임 1.25L',
 '코카콜라 콜라 190ml',
 '뚱캔 업소용 음료수 각4개씩 24캔 코카콜라 펩시제로 칠성사이다 스프라이트 355ml',
 '코카콜라300ml8입+크리스마스 오너먼트',
 '롯데칠성음료 펩시제로슈거 라임향 355ml',
 '코카콜라 콜라 500ml',
 '코카콜라 제로 무라벨 370ml',
 '코카콜라 콜라 1.25L',
 '코카콜라 코카콜라 업소용 500ml x 24PET',
 '펩시제로 라임 뚱캔 355ml 24캔',
 '코카콜라 제로 355ml',
 '코카콜라 제로콜라 300ml 미니 페트 탄산음료 24개',
 '코카콜라 콜라 300ml',
 '코카콜라 제로콜라 탄산음료 190ml 4캔 355ml 12캔 500ml 6개 총22개',
 '펩시콜라 제로 슈거라임 210ml 30개 탄산음료 제로콜라 음료수',
 '코카콜라 콜라 245ml',
 '코카콜라 제로 1.5L',
 '롯데칠성음료 펩시 펩시콜라 245ml',
 '홈플러스시그니처 제로콜라 1.5L',
 '크리스마스 오너먼트 한정판 정상가24500 본사직영 코카콜라 제로 355ml 24CAN + 오너먼트',
 '코카콜라 제로 190ml',
 '코카콜라 355mlX24캔 음료수',
 '코카콜라 콜라 250ml',
 '롯데칠성음료 펩시콜라 500ml',
 '펩시제로 콜라 라임 500ml 20페트 업소용',
 '코카콜라 1.5L