Simple Cralwer 실습
----------

수집할 데이터 URL
https://data.hossam.kr/sample.html

css 선택자를 넣어서 크롤링을 진행(즉, css를 이해하지 못 하면 크롤링은 불가)

In [41]:
# 패키지 준비
# ! pip install --upgrade beautifulsoup4

# 구현 코드

In [42]:
import requests
from bs4 import BeautifulSoup

In [43]:
# 브라우저 버전정보
userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"

In [44]:
# 접속객체 생성
session = requests.Session()

# 접속 객체에 부가정보(header) 삽입
session.headers.update({
    # 직전에 머물렀던 페이지의 URL
    "Referer" : "",
    # 브라우저 및 OS 버전 정보 : 이걸 통해 웹 페이지 크롤링이 가능
    "User-Agent" : userAgent
    })

In [45]:
# 수집할 데이터가 있는 웹 페이지의 주소를 할당
url = "https://data.hossam.kr/sample.html"

In [46]:
# 생성한 접속 객체를 활용해 API에 접속
r = session.get(url)

# 접속 실패 시 에러 코드와 에러 메시지를 출력
if r.status_code != 200:
    msg = "[%d Error] %s 에러 발생" %(r.status_code, r.reason)
    raise Exception(msg)

In [47]:
# 인코딩 형식을 지정해 beautifulsoup 객체 생성
r.encoding='utf-8'
# print(r.text)로 정보를 추출 하는지 확인
# print(r.text)

In [48]:
soup=BeautifulSoup(r.text)
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Document</title>
<style>
        /* HTML 태그 방식 */
        h1 { color: #f0f; }
        h2 { color: #06f; }

        /** Class 방식 */
        .myclass { color: #f00; }

        /** id 방식 */
        #myid { color: #f60; }

        /** 자식 선택자  */
        .syllabus > li > ol > li {
            text-decoration: underline;
        }

        /** 자손 선택자 */
        .syllabus ol {
            font-weight: bold;
        }

        .part1 {
            background-color: #eeeeee;
        }

        .part2 {
            background-color: #d5d5d5;
        }

        /** 특정 대상을 구체적으로 명시  */
        div.sub.part1 {
            border: 1px dotted #000;
        }

        div.sub.part2#hello {
            border: 1px solid #555;
        }

        /** 특정 속성을 갖고 있는 요소  */
        a[href] {
            font-size: 20px;
        }

        /** 특정 속성 값에 대한 적용  */
     

# soup 객체로부터 원하는 부분 추출하기

1) HTML 태그에 의한 추출

In [49]:
# h1 태그 데이터 추출
test1 = soup.select("h1")
test1

[<h1>Hello World</h1>]

- soup 객체의 select() 매서드의 return 값은 항상 list 타입으로 인덱스 번호를 통한 접근이 가능

In [50]:
# 추출한 h1 태그 데이터의 list 0번째 index 정보의 내용만 추출
h1 = test1[0]
h1

<h1>Hello World</h1>

- 추출한 정보의 내용을 추출할 경우 앞/뒤 여백 제거는 필수(strip)

In [51]:
# 추출한 h1 태그의 0번째 index 데이터에서 공백을 없애고 내용만 추출
result1 = h1.text.strip()
result1

'Hello World'

2) class에 의한 추출

In [52]:
# .myclass 관련 데이터를 추출(list 형태)
test2 = soup.select(".myclass")
test2

[<li class="myclass">연산자</li>,
 <li class="myclass">데이터 전처리</li>,
 <ol class="myclass">
 <li>기초통계</li>
 <li>데이터 시각화</li>
 </ol>]

- 대량의 데이터 추출 시 인덱스 번호를 통한 접근 후 반복분을 사용해 데이터를 추출 가능

In [53]:
for i, v in enumerate(test2):
    # 추출한 요소가 하위 태그를 포함하는 경우 그 안의 텍스트만 일괄 추출
    print("%d번째 요소 : %s" % (i, v.text.strip()))

0번째 요소 : 연산자
1번째 요소 : 데이터 전처리
2번째 요소 : 기초통계
데이터 시각화


- 하위 요소 추출

select()  메서드로 추출한 요소를 활용하여 그 하위요소를 추가적으로 추출가능

In [54]:
# test2의 2번 index의 li 요소의 데이터만 추출
li = test2[2].select("li")
li
# 아래의 코드에서 li 요소만을 추출한다는 의미

[<li>기초통계</li>, <li>데이터 시각화</li>]

In [55]:
test2 = soup.select(".myclass")
test2[2]

<ol class="myclass">
<li>기초통계</li>
<li>데이터 시각화</li>
</ol>

In [56]:
# 반복분을 사용해 test2[2]의 li 요소의 text 데이터 전체를 추출
# 내용 추출 시 strip을 사용한 여백 제거 필수
for i in li:
    print(i.text.strip())

기초통계
데이터 시각화


3) id에 의한 추출
----------
- id 값은 해당 웹페이지 안에 단 하나만 존재하기 때문에 반복문을 적용할 필요 없음

In [57]:
# id = myid 데이터 추출
test3 = soup.select("#myid")
test3

[<h2 id="myid">Python</h2>]

In [58]:
# test3 즉 id = myid 데이터의 0번째 index의 text를 여백을 없애고 추출
print(test3[0].text.strip())

Python
