# Simple Web Page
## #01. 준비과정
### [1] 패키지 참조
bs4 패키지의 설치가 필요함

In [1]:
import requests
from bs4 import BeautifulSoup

### [2] 접속할 데이터의 URL

In [2]:
url = "https://data.hossam.kr/py/sample.html"

## #03. 데이터 요청하기
### [1] 세션 생성

In [6]:
session = requests.Session()

session.headers.update({
    "Referer": "",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
})

### [2] 데이터 가져오기

웹 페이지를 구성하는 HTML 소스코드를 가져온다.

In [9]:
try:
    r = session.get(url)
    if r.status_code != 200:
        msg = "[%d Error] %s 에러가 발생함" % (r.status_code, r.reason)
        raise Exception(msg)
except Exception as e:
    print("접속에 실패했습니다.")
    print(e)

r.encoding = "utf-8"
print(r.text)

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
    <style>
        /* HTML 태그 방식 */
        h1 { color: #f0f; }
        h2 { color: #06f; }

        /** Class 방식 */
        .myclass { color: #f00; }

        /** id 방식 */
        #myid { color: #f60; }

        /** 자식 선택자  */
        .syllabus > li > ol > li {
            text-decoration: underline;
        }

        /** 자손 선택자 */
        .syllabus ol {
            font-weight: bold;
        }

        .part1 {
            background-color: #eeeeee;
        }

        .part2 {
            background-color: #d5d5d5;
        }

        /** 특정 대상을 구체적으로 명시  */
        div.sub.part1 {
            border: 1px dotted #000;
        }

        div.sub.part2#hello {
            border: 1px solid #555;
        }

        /** 특정 속성을 갖고 있는 요소  */
        a[href] {
            font-size: 20px;
        }

        /** 특정 속성 값에 대한

## #04. 데이터 활용
### [1] beautifulsoup 객체 생성

In [10]:
soup = BeautifulSoup(r.text)
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Document</title>
<style>
        /* HTML 태그 방식 */
        h1 { color: #f0f; }
        h2 { color: #06f; }

        /** Class 방식 */
        .myclass { color: #f00; }

        /** id 방식 */
        #myid { color: #f60; }

        /** 자식 선택자  */
        .syllabus > li > ol > li {
            text-decoration: underline;
        }

        /** 자손 선택자 */
        .syllabus ol {
            font-weight: bold;
        }

        .part1 {
            background-color: #eeeeee;
        }

        .part2 {
            background-color: #d5d5d5;
        }

        /** 특정 대상을 구체적으로 명시  */
        div.sub.part1 {
            border: 1px dotted #000;
        }

        div.sub.part2#hello {
            border: 1px solid #555;
        }

        /** 특정 속성을 갖고 있는 요소  */
        a[href] {
            font-size: 20px;
        }

        /** 특정 속성 값에 대한 적용  */
     

### [2] soup 객체로 부터 원하는 부분 추출하기

soup 객체의 select() 메서드에 CSS 선택자를 파라미터로 전달하여 원하는 부분을 추출한다. 

리턴 결과는 항상 리스트 형식.

#### (1) HTML 태그에 의한 접근

In [12]:
myselect = soup.select("h1")
print(type(myselect))
myselect

<class 'bs4.element.ResultSet'>


[<h1>Hello World</h1>]

리턴타입이 항상 리스트이므로 리스트의 원소에 접근

In [13]:
mytag = myselect[0]
print(type(mytag))
mytag

<class 'bs4.element.Tag'>


<h1>Hello World</h1>

추출한 태그에서 내용만 추출
외부에서 추출한 내용은 앞 뒤 여백 제거 필수

In [14]:
mytext = mytag.text.strip()
mytext

'Hello World'

#### (2) Class에 의한 추출
추출 결과 확인
class는 복수 요소에 지정할 수 있기 때문에 리턴되는 리스트의 원소가 하나 이상일 수 있다.

In [15]:
myselect = soup.select(".myclass")
myselect

[<li class="myclass">연산자</li>,
 <li class="myclass">데이터 전처리</li>,
 <ol class="myclass">
 <li>기초통계</li>
 <li>데이터 시각화</li>
 </ol>]

복수 요소이므로 반복 처리

In [16]:
for i, v in enumerate(myselect):
    # 추출한 요소가 하위 태그를 포함하는 경우 그 안의 텍스트만 일괄 추출
    print("%d번째 요소 : %s" % (i, v.text.strip()))

0번째 요소 : 연산자
1번째 요소 : 데이터 전처리
2번째 요소 : 기초통계
데이터 시각화


하위 요소 추출하기
select() 메서드로 추출한 요소를 활용하여 그 하위요소를 추가적으로 추출할 수 있다.

In [17]:
myli = myselect[2].select("li")
myli

[<li>기초통계</li>, <li>데이터 시각화</li>]

In [18]:
for i in myli:
    print(i.text.strip())

기초통계
데이터 시각화


#### (4) 여러 요소 동시 사용

In [19]:
soup.select("#myid, .myclass")

[<h2 id="myid">Python</h2>,
 <li class="myclass">연산자</li>,
 <li class="myclass">데이터 전처리</li>,
 <ol class="myclass">
 <li>기초통계</li>
 <li>데이터 시각화</li>
 </ol>]

#### (5) 자식 선택자

In [24]:
soup.select(".syllabus > .myclass")

[<li class="myclass">연산자</li>]

#### (6) 자손 선택자

In [23]:
soup.select(".part1 .myclass")

[<li class="myclass">연산자</li>]

#### (7) 태그의 속성값 추출

In [25]:
myselect = soup.select("a[href]")
myselect

[<a href="#">link1</a>, <a href="https://www.naver.com">link2</a>]

In [27]:
# 속성값의 각 태그요소의 attrs라는 프로퍼티로 접근 가능 --> dict 형태
for i, v in enumerate(myselect):
    print("---[%d]----" % i)
    print(v.attrs)

    # 딕셔너리에 대한 in 연산자는 key의 존재 여부를 판별
    if "href" in v.attrs:
        print("%d번째의 href속성값: %s" % (i, v.attrs["href"]))

---[0]----
{'href': '#'}
0번째의 href속성값: #
---[1]----
{'href': 'https://www.naver.com'}
1번째의 href속성값: https://www.naver.com
