# 01. HTML 데이터 추출(1)

In [2]:
# 웹 스크래핑 vs 웹 크롤링

# 스크래핑
    # 한 페이지, 원하는 데이터 추출
    # 특정 페이지 내용을 구조화된 데이터 (딕셔너리)로 변환
    # 입력데이터: HTML(소스코드)

# 크롤링
    # 검색엔진
    # 여러 페이지 자동으로 탐색
    # requests 구문 이용

# 저작권 관련해서 웹주소 뒤에 '/robots.txt' 붙여서 검색하기

# 통신량 = 트레픽

# HTML: 웹페이지 소스코드 구성요소
    # 웹페이지 = HTML + CSS + JavaScript

### 라이브러리 참조하기

In [2]:
# 웹 데이터 요청을 위한 requests 라이브러리랑 BeautifulSoup 클래스를 가져온다
import requests
from bs4 import BeautifulSoup

### 웹 페이지의 모든 소스코드 가져오기

In [4]:
# 소스코드 자체의 수집 방법은 RESTful API 연동과 동일함

# 세션 객체 생성
with requests.Session() as session:
    session.headers.update({
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
        })
    
    url = "https://data.hossam.kr/py/sample.html"   # 요청할 데이터의 url 예시
    r = session.get(url)                # 요청 결과 받아오기 -> HTTP GET 요청

    # HTTP 상태값이 200이 아니면 강제로 에러를 발생시켜서 코드의 진행을 중단시킴
    if r.status_code != 200:
        msg = "[%d Error] %s 에러가 발생함" % (r.status_code, r.reason)
        raise Exception(msg)
    
    print(r)

<Response [200]>


### 수신 결과 확인

In [5]:
# 문자열 형식으로 수집됨을 알 수 있다.

# 수신된 데이터의 인코딩 설정 (한글 깨지면 euc-kr로 ㄱㄱ)
r.encoding = 'utf-8'

# 수신된 결과 확인 -> 웹에서 가져온 모든 데이터는 문자열 형식임!
print(type(r.text))
r.text

<class 'str'>


'<!DOCTYPE html><html lang="ko"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>Document</title><style>h1{ color: #f0f;} h2{ color: #06f;} .myclass{ color: #f00;} #myid{ color: #f60;} .syllabus >li >ol >li{ text-decoration: underline;} .syllabus ol{ font-weight: bold;} .part1{ background-color: #eeeeee;} .part2{ background-color: #d5d5d5;} div.sub.part1{ border: 1px dotted #000;} div.sub.part2#hello{ border: 1px solid #555;} a[href]{ font-size: 20px;} a[href=\'#\']{ color: green;} </style></head><body><h1>Hello World</h1><a>link0</a><a href="#">link1</a><a href="https://www.naver.com">link2</a><h2 id="myid">Python</h2><div class="sub part1"><ul class="syllabus"><li>변수와 데이터 타입</li><li class="myclass">연산자</li><li>연속성 자료형 <ol><li>리스트(list)</li><li>딕셔너리(dict)</li><li>집합(set)</li></ol></li><li>프로그램 흐름제어</li><li>함수</li></ul></div><h2>Data Analysis</h2><div class="sub part2" id="hello"><ul><li>데이터 수집</li><li class="myclass">데이터 전처리</li>

# 02. HTML 데이터 추출 (2)

### HTML의 이해

In [None]:
# HTML(Hyper Text(링크) Markup(마크업, TAG) Language)
    # TAG: 중요한 내용을 형관펜으로 강조하는 것과 같음
        # 태그단위: 
            # 시작태그: <구글>, 끝태그: </구글>
                # 말머리: 구글
        # <구글> https://google.com </구글>
            # 강조할 내용: https://google.com

    # CSS(Cascading Style Sheet, 종속형 시트)
        #: 마크업 언어가 실제로 표시되는 방법을 기술하는 스타일의 언어
        # 주로 HTML에 쓰임
        # 페이지 레이아웃과 스타일 정의할 때 자유도가 높음

    # 속성 선택자: for 이미지, 링크

    # CSS 선택자 쓸 때 반점은 or를 나타냄! (다중선택)

    # 자손선택자: 부모 안에 위치는 상관 없고 포함 되 있음을 의미!

#------------------------------------------------
# 스크래핑 추출 결과에서 추출이 아예 없거나 너무 과다로 결과가 반환될 때:
    # 타겟 위치를 기준으로 부모 요소로 거슬러 올라가면서
        # 선택자의 표현 구체화 시키기
            # 2~3회 이상 코드를 테스트 하면서 원하는 범위를 찾는 것이 중요!!!

#------------------------------------------------
# Python으로 데이터 수집 하는 방법:
    # 1. 직접조사 (ex. 실험)
    # 2. 엑셀, CSV
    # 3. SQL                
    # 4. OpenAPI
    # 5. Web Page (Flask)
    # 6. Web Site (Crolling)
# 방법 1~6 => 데이터 수집 => DataFrame => 학습(Machine Learning) or 통계

#------------------------------------------------

### 응답 결과에 대한 BeautifulSoup 객체 생성 

In [6]:
#---------------------------------------------
#라이브러리 참조하기 (이미 위 실습에서 가져왔으니 주석 처리 하는거임)
# import requests
# from bs4 import BeatifulSoup
#---------------------------------------------
# HTML 소스코드 문자열을 생성자 파라미터로 전달한다
soup = BeautifulSoup(r.text)    # r.text는 앞 단원 실습 마지막에 생성한거임
print(type(soup))
soup

<class 'bs4.BeautifulSoup'>


<!DOCTYPE html>
<html lang="ko"><head><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1.0" name="viewport"/><title>Document</title><style>h1{ color: #f0f;} h2{ color: #06f;} .myclass{ color: #f00;} #myid{ color: #f60;} .syllabus >li >ol >li{ text-decoration: underline;} .syllabus ol{ font-weight: bold;} .part1{ background-color: #eeeeee;} .part2{ background-color: #d5d5d5;} div.sub.part1{ border: 1px dotted #000;} div.sub.part2#hello{ border: 1px solid #555;} a[href]{ font-size: 20px;} a[href='#']{ color: green;} </style></head><body><h1>Hello World</h1><a>link0</a><a href="#">link1</a><a href="https://www.naver.com">link2</a><h2 id="myid">Python</h2><div class="sub part1"><ul class="syllabus"><li>변수와 데이터 타입</li><li class="myclass">연산자</li><li>연속성 자료형 <ol><li>리스트(list)</li><li>딕셔너리(dict)</li><li>집합(set)</li></ol></li><li>프로그램 흐름제어</li><li>함수</li></ul></div><h2>Data Analysis</h2><div class="sub part2" id="hello"><ul><li>데이터 수집</li><li class="myclass">데이터 전처리</li>

### 크롬 개발자 도구를 사용한 TAG 선택자 확인

In [34]:
# 데이터 추출할 위치의 소스코드 형태 확인하기
    # F12키 -> 좌측상단 줄선네모화살표 -> 소스코드 확인창 밖의 글씨에 curser

### HTML 태그에 의한 추출(1)

In [7]:
# <h1> 태그를 갖는 요소레 파이썬으로 접근하는 방법
    # select() 메서드의 리턴타입은 항상 리스트임!!!
myselect = soup.select("h1")
print(type(myselect))
myselect

<class 'bs4.element.ResultSet'>


[<h1>Hello World</h1>]

### HTML 태그에 의한 추출(2)

In [8]:
# .select() => 리턴 타입: 항상 리스트!
    # 리스트의 원소에 접근해서 HTML 태그 객체 추출하기!
mytag = myselect[0]
print(type(mytag))
mytag

<class 'bs4.element.Tag'>


<h1>Hello World</h1>

In [None]:
# 태그+텍스트에서 태그 떼고 텍스트만 추출
mytext = mytag.text.strip()
mytext

'Hello World'

### class에 의한 데이터 추출 (1, 2)

In [None]:
# class 속성은 
    # 복수 요소를 의미할 수 있다
    # 하위 HTML 태그를 포함하는 경우도 있다

### class에 의한 데이터 추출 (3)

In [10]:
# 복수 요소에게 적용되는 속성
    # class 속성은 비슷한 디자인 특성을 갖는 요소에게 공통적으로 부여될 수 있음
        # -> 복수 요소를 추출할 떄 쓰임
    # 추출된 결과는 반복문을 통해서 처리해야됨
myselect = soup.select(".myclass")
myselect

[<li class="myclass">연산자</li>,
 <li class="myclass">데이터 전처리</li>,
 <ol class="myclass"><li>기초통계</li><li>데이터 시각화</li></ol>]

### class에 의한 데이터 추출 (4)

In [11]:
# 복수 요소 -> 반복문을 통해 처리하자
    # 외부에서 가져온 데이터니까 strip()으로 앞뒤 공백 제거도 필요
for i, v in enumerate(myselect):
    # 추출한 요소가 하위 태그를 포함하는 경우, 그 안의 텍스트만 일괄 추출
    print("%d 번째 요소: %s" % (i, v.text.strip()))

0 번째 요소: 연산자
1 번째 요소: 데이터 전처리
2 번째 요소: 기초통계데이터 시각화


### class에 의한 데이터 추출 (5)

In [12]:
# 특정 HTML 태그 객체의 하위 요소 추출하기
    # select() 메서드로 추출한 요소를 활용해서 그 하위요소를 추가적으로 추출할 수 있다.
myli = myselect[2].select("li")
myli

[<li>기초통계</li>, <li>데이터 시각화</li>]

In [13]:
for i in myli:
    print(i.text.strip())

기초통계
데이터 시각화


### id에 의한 데이터 추출 

In [15]:
# id 속성은 페이지 내에서 고유요소임을 의미!
    # 정상적인 경우라면 id값은 해당 웹페이지 안에 단 하나만 존재!
        # 반복문 필요없음
myselect = soup.select("#myid")
myselect

[<h2 id="myid">Python</h2>]

In [16]:
print(myselect[0].text.strip())

Python


### 여러 요소에 동시 접근하기

In [17]:
# 다양한 선택자를 콤마(,)로 구문해서 지정함
items = soup.select("#myid, .myclass")
items

[<h2 id="myid">Python</h2>,
 <li class="myclass">연산자</li>,
 <li class="myclass">데이터 전처리</li>,
 <ol class="myclass"><li>기초통계</li><li>데이터 시각화</li></ol>]

In [18]:
for i in items:
    print(i.text)

Python
연산자
데이터 전처리
기초통계데이터 시각화


### 복합 선택자

In [22]:
# 자식 선택자
soup.select(".syllabus > .myclass")
# soup.select(".syllabus>.myclass") 도 가능

[<li class="myclass">연산자</li>]

In [23]:
# 자손 선택자
soup.select(".part1  .myclass")

[<li class="myclass">연산자</li>]

### 속성 선택자 (1)

In [24]:
# href 속성을 갖는 요소 추출하기
myselect = soup.select("a[href]")
myselect

[<a href="#">link1</a>, <a href="https://www.naver.com">link2</a>]

### 속성 선택자 (2)

In [25]:
# href 속성에 적용되어 있는 값 추출하기

# 속성값은 각 태그요소의 attrs 프로퍼티로 접근 가능
    # .attrs: 반복적인 클래스 메소드를 자동으로 생성해줌 -> 코드 단순화, 중복 감소
    # -> 딕셔너리 형태임!
for i, v in enumerate(myselect):
    print("----[%d]----" % i)
    print(v.attrs)

    # 딕셔너리에 대한 in 연산자는 key의 존재 여부를 판별해줌!
    if "href" in v.attrs:
        print("%d번째의 href속성값: %s" % (i, v.attrs["href"]))

----[0]----
{'href': '#'}
0번째의 href속성값: #
----[1]----
{'href': 'https://www.naver.com'}
1번째의 href속성값: https://www.naver.com


# 03. 연구과제

In [26]:
import requests
from bs4 import BeautifulSoup

with requests.Session() as session:
    session.headers.update({
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
        })
    
    url = "https://data.hossam.kr/py/myfood.html"   # 요청할 데이터의 url 예시
    r = session.get(url)                # 요청 결과 받아오기 -> HTTP GET 요청

    # HTTP 상태값이 200이 아니면 강제로 에러를 발생시켜서 코드의 진행을 중단시킴
    if r.status_code != 200:
        msg = "[%d Error] %s 에러가 발생함" % (r.status_code, r.reason)
        raise Exception(msg)
    
    print(r)

<Response [200]>


In [27]:
r.encoding = "utf-8"

print(type(r.text))
r.text

<class 'str'>


'<!DOCTYPE html><html lang="ko" translate="no"><head><meta charset="UTF-8"><meta name="google" content="notranslate" /><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>FoodBlog</title><link rel="stylesheet" href="https://fonts.googleapis.com/css2?family=Noto+Sans+KR:wght@100;300;400;500;700;900&display=swap" /><link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.6.0/css/all.min.css" /><link rel="stylesheet" href="https://preview.hossam.kr/html/myfood/assets/css/reset.css" /><link rel="stylesheet" href="https://preview.hossam.kr/html/myfood/assets/css/common.css" /><link rel="stylesheet" href="https://preview.hossam.kr/html/myfood/assets/css/index.css" /></head><body><div class="container"><header class="header"><div class="content-container"><a href="#" class="icon-button left"><i class="fa-solid fa-bars"></i></a><h1 class="logo">My Food</h1><a href="#" class="icon-button right"><i class="fa-solid fa-envelope"></i></a></div></he

In [28]:
soup = BeautifulSoup(r.text)
soup

<!DOCTYPE html>
<html lang="ko" translate="no"><head><meta charset="utf-8"/><meta content="notranslate" name="google"><meta content="width=device-width, initial-scale=1.0" name="viewport"/><title>FoodBlog</title><link href="https://fonts.googleapis.com/css2?family=Noto+Sans+KR:wght@100;300;400;500;700;900&amp;display=swap" rel="stylesheet"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.6.0/css/all.min.css" rel="stylesheet"/><link href="https://preview.hossam.kr/html/myfood/assets/css/reset.css" rel="stylesheet"/><link href="https://preview.hossam.kr/html/myfood/assets/css/common.css" rel="stylesheet"/><link href="https://preview.hossam.kr/html/myfood/assets/css/index.css" rel="stylesheet"/></meta></head><body><div class="container"><header class="header"><div class="content-container"><a class="icon-button left" href="#"><i class="fa-solid fa-bars"></i></a><h1 class="logo">My Food</h1><a class="icon-button right" href="#"><i class="fa-solid fa-envelope"></i></a></di

In [None]:
# 메뉴 설명 
# <body> <div class="main"> <li class="food-item"> <div class="food-content"> <p>
# ( , , ,>)

# 메뉴명 
# <body> <div class="main"> <li class="food-item"> <div class="food-content"> <h2>
# ( , , ,>)

# 메뉴 이미지 
# <body> <div class="main"> <li class="food-item"> <div class="image-wrapper">
# ( , , )

In [43]:
myselect_expl = soup.select("body .main .food-item .food-content >p")

myselect_name = soup.select("body .main .food-item .food-content >h2")

myselect_img = soup.select("body .main .food-item .img-wrapper")

In [36]:
myselect_expl

[<p>Just some random text, lorem ipsum text praesent tincidunt ipsum lipsum</p>,
 <p>Once again, some random text to lorem lorem lorem lorem ipsum text praesent tincidunt ipsum lipsum.</p>,
 <p>Lorem ipsum text praesent tincidunt ipsum lipsum.</p>,
 <p>Lorem ipsum text praesent tincidunt ipsum lipsum.</p>,
 <p>Lorem ipsum text praesent tincidunt ipsum lipsum.</p>,
 <p>Once again, some random text to lorem lorem lorem lorem ipsum text praesent tincidunt ipsum lipsum.</p>,
 <p>Just some random text, lorem ipsum text praesent tincidunt ipsum lipsum.</p>,
 <p>Lorem lorem lorem lorem ipsum text praesent tincidunt ipsum lipsum.</p>]

In [41]:
for i in myselect_expl:
    print(i.text)

Just some random text, lorem ipsum text praesent tincidunt ipsum lipsum
Once again, some random text to lorem lorem lorem lorem ipsum text praesent tincidunt ipsum lipsum.
Lorem ipsum text praesent tincidunt ipsum lipsum.
Lorem ipsum text praesent tincidunt ipsum lipsum.
Lorem ipsum text praesent tincidunt ipsum lipsum.
Once again, some random text to lorem lorem lorem lorem ipsum text praesent tincidunt ipsum lipsum.
Just some random text, lorem ipsum text praesent tincidunt ipsum lipsum.
Lorem lorem lorem lorem ipsum text praesent tincidunt ipsum lipsum.


In [38]:
myselect_name

[<h2>The Perfect Sandwich, A Real NYC Classic</h2>,
 <h2>Let Me Tell You About This Steak</h2>,
 <h2>Cherries, interrupted</h2>,
 <h2>Once Again, Robust Wine and Vegetable Pasta</h2>,
 <h2>All I Need Is a Popsicle</h2>,
 <h2>Salmon For Your Skin</h2>,
 <h2>The Perfect Sandwich, A Real Classic</h2>,
 <h2>Le French</h2>]

In [42]:
for i in myselect_name:
    print(i.text)

The Perfect Sandwich, A Real NYC Classic
Let Me Tell You About This Steak
Cherries, interrupted
Once Again, Robust Wine and Vegetable Pasta
All I Need Is a Popsicle
Salmon For Your Skin
The Perfect Sandwich, A Real Classic
Le French


In [44]:
myselect_img

[<div class="img-wrapper"><img src="https://preview.hossam.kr/html/myfood/assets/img/sandwich.jpg"/></div>,
 <div class="img-wrapper"><img src="https://preview.hossam.kr/html/myfood/assets/img/steak.jpg"/></div>,
 <div class="img-wrapper"><img src="https://preview.hossam.kr/html/myfood/assets/img/cherries.jpg"/></div>,
 <div class="img-wrapper"><img src="https://preview.hossam.kr/html/myfood/assets/img/wine.jpg"/></div>,
 <div class="img-wrapper"><img src="https://preview.hossam.kr/html/myfood/assets/img/popsicle.jpg"/></div>,
 <div class="img-wrapper"><img src="https://preview.hossam.kr/html/myfood/assets/img/salmon.jpg"/></div>,
 <div class="img-wrapper"><img src="https://preview.hossam.kr/html/myfood/assets/img/sandwich.jpg"/></div>,
 <div class="img-wrapper"><img src="https://preview.hossam.kr/html/myfood/assets/img/croissant.jpg"/></div>]

In [None]:
#for i in myselect_img:
#    print(i.text)











In [None]:
def download(url, target):
    session.headers.update({"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"})

    try:
        r = session.get(url, stream=True)
        r.encoding = "utf-8"

        with open(target, "wb") as f:
            f.write(r.raw.read())
            print(target, "가 저장 되었습니다.")

    except Exception as e:
        print(target, "저장실패", e)

In [None]:
import os
import datetime as dt
from os import path
from pandas import DataFrame

dirname = dt.datetime.now().strftime("%Y%m%g-%H%M%S")
os.mkdir(dirname)

for i in myselect_img:
    src = myselect_img.attrs['src']
    download(v['thumbnail'], file_path)









