## **웹 크롤링 개념 다지기**

## **2. BeautifulSoup 기본 개념**

*   BeautifulSoup 패키지 추가
*   패키지가 없는 경우, 설치 명령어 : pip install beautifulsoup4

In [1]:
# BeautifulSoup 불러오기
from bs4 import BeautifulSoup

## **3. BeautifulSoup HTML 코드 작성**
- html이라는 변수에 간단한 html 코드 저장
- html 코드는 """ 사이에 입력


In [2]:
# HTML 코드 작성
html =  """
<html>
	<body>
	<h1 id = 'title'>Selena 파이썬 라이브러리 활용!</h1>
	<p id = 'body'>오늘의 주제는 웹 데이터 수집</p>
	<p class = 'scraping'>원하는 데이터를 직접 수집해보자</p>
	<p class = 'scraping'>삼성전자 일별 시세 불러오기</p>
	</body>
<html>
"""

## **4. BeautifulSoup HTML 파싱**
- html을 파이썬에서 읽을 수 있게 파싱(파이썬 객체로 변환)
- html이라는 변수에 저장한 html 소스코드를 .parser를 붙여 변환

In [3]:
# BeautifulSoup 함수를 이용하여 soup 객체 생성
# html이라는 변수에 저장한 html 소스코드를 .parser를 붙여 변환
soup = BeautifulSoup(html, 'html.parser')

## **5. BeautifulSoup 데이터를 텍스트로 반환**

### **5-1. soup**
- soup : soup의 데이터를 모두 가져와서 텍스트로 반환
- soup.contents : soup의 데이터를 모두 가져와서 리스트로 반환

In [4]:
# soup의 데이터를 모두 가져와서 텍스트로 반환
for text in soup:
  print(text)



<html>
<body>
<h1 id="title">Selena 파이썬 라이브러리 활용!</h1>
<p id="body">오늘의 주제는 웹 데이터 수집</p>
<p class="scraping">원하는 데이터를 직접 수집해보자</p>
<p class="scraping">삼성전자 일별 시세 불러오기</p>
</body>
<html>
</html></html>


### **5-2. soup.stripped_strings**
- soup.stripped_strings : 공백도 함께 제거하여 텍스트로 반환

In [5]:
# soup의 데이터를 모두 가져와서
# 공백도 함께 제거하여 텍스트로 반환
for stripped_text in soup.stripped_strings:
  print(stripped_text)

Selena 파이썬 라이브러리 활용!
오늘의 주제는 웹 데이터 수집
원하는 데이터를 직접 수집해보자
삼성전자 일별 시세 불러오기


## **6. BeautifulSoup Find 함수**

 ### **6-1. find()**
- find 함수는 id, class, element 등을 검색 가능
- find : 조건에 해당하는 첫 번째 정보만 검색
> - 클래스 이름을 알 경우, class_ 형태로 사용

In [6]:
# id 값이 'title'인 조건에 해당하는 첫 번째 정보만 검색
title = soup.find(id='title')
print(title)

<h1 id="title">Selena 파이썬 라이브러리 활용!</h1>


In [7]:
# class 값이 'scraping'인 조건에 해당하는 첫 번째 정보만 검색
# 클래스 이름을 알 경우, class_ 형태로 사용
scraping = soup.find(class_='scraping')
print(scraping)

<p class="scraping">원하는 데이터를 직접 수집해보자</p>


### **6-2. find_all()**
 - find_all : 조건에 해당하는 모든 정보 검색

In [8]:
# class 값이 'scraping'인 조건에 해당하는 모든 정보 검색
scraping_all = soup.find_all(class_='scraping')
print(scraping_all)

[<p class="scraping">원하는 데이터를 직접 수집해보자</p>, <p class="scraping">삼성전자 일별 시세 불러오기</p>]


### **6-3. string**
- string : 태그 내부의 텍스트만 출력



In [9]:
# 태그 내부의 텍스트만 출력
scraping.string

'원하는 데이터를 직접 수집해보자'

## **7. BeautifulSoup 웹 크롤링 3단계 과정**
- Request : 웹 페이지의 URL 이용해서 HTML 문서를 요청
> - 첫 번째 단계인 Request를 위해 import urllib.request 불러오기
- Response : 요청한 HTML 문서를 회신
- Parsing : 태그 기반으로 파싱(일련의 문자열을 의미 있는 단위로 분해)


<br/>
<br/>
<br/>
<br/>

---


# [참고 : 자율]
다음은 BeautifulSoup 모듈을 사용하여 웹크롤링을 동작시킨 후, DataFrame 을 얻는 과정을 코드로 구현한 것입니다. 이후 내용은 자율적으로 동작시켜보고  최종적으로  웹크롤링한 결과물을 확인해보세요!

<br/>
<br/>
<br/>
<br/>

## **8. BeautifulSoup F12(개발자 도구) URL 찾기**
- 1) 네이버 금융 홈페이지 접속 : https://finance.naver.com/
- 2) 삼성전자(code : 005930) 검색
- 3) 시세 메뉴 클릭 후 URL 확인 : https://finance.naver.com/item/sise.naver?code=005930
- 4) 키보드 F12(개발자 도구) 클릭 > 메뉴 Elements 클릭 > 키보드 Ctrl과 F (검색 단축기) 클릭 > '일별 시세' 검색 > scr 값 복사  


## **9. BeautifulSoup 첫 번째 단계. Request**

In [10]:
# 웹 페이지의 URL을 이용해서 HTML 문서를 요청하기 위해 필요한 라이브러리
import requests

### **9-1. URL 저장**
- stock_url이라는 변수에 네이버 금융 사이트의 삼성전자 시세 정보가 담긴 URL 저장

In [11]:
# stock_url이라는 변수에 URL 저장
stock_url = 'https://finance.naver.com//item/sise_day.naver?code=005930'

### **9-2. User-agent 설정**
- user-agent 확인 사이트 : http://www.useragentstring.com/
- user-agent란, 웹 크롤링을 진행하면 종종 페이지에서 아무것도 받아오지 못하는 경우 발생! 이유는 대부분 서버에서 봇을 차단하기 때문
- 그래서 user-agent를 headers에 저장하면 오류를 해결할 수 있음


In [12]:
# header에 user-agent 값 저장
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}

### **9-3. requests.get()**
- 웹 페이지의 URL 이용해서 HTML 문서를 요청
- requests.get(stock_url, headers = headers)
> - URL 값을 파라미터 값으로 입력
> - 해당 사이트는 반드시 헤더 정보를 요구하기 때문에 파라미터 값으로 헤더 입력

In [13]:
# request.get 함수를 통해 URL를 이용하여 HTML 문서를 요청
requests.get(stock_url, headers = headers)

<Response [200]>

## **10. BeautifulSoup 두 번째 단계. Response**
- 요청한 HTML 문서를 회신
- response = requests.get(stock_url, headers = headers)
> - 서버에서 요청을 받아 처리한 후, 요청자에게 응답 줌
> - HTML 코드 형태

In [14]:
# response 변수에 요청한 HTML 문서를 회신하여 저장
response = requests.get(stock_url, headers = headers)

## **11. BeautifulSoup 세 번째 단계. Parsing**
- 태그 기반으로 파싱(일련의 문자열을 의미 있는 단위로 분해)
- soup = BeautifulSoup(response.text, 'html.parser')
> - html을 파이썬에서 읽을 수 있게 파싱(파이썬 객체로 변환)
> - Response.text에 저장한 html 소스코드를 .parser를 붙여 변환
> - parser는 파이썬의 내장 메소드


In [15]:
# soup 변수에 BeautifulSoup의 객체 생성
# HTML 코드를 파이썬에서 읽을 수 있도록 파싱
soup = BeautifulSoup(response.text, 'html.parser')

## **12. BeautifulSoup 반복문으로 일별 종가 구현**
- 1) 200일 일별 종가 정보는 1 Page 당 10일의 일별 종가 정보 담겨있어서 20 Page 필요
- 2) 일별 종가 담긴 URL과 Header 정보로 requests.get 함수 구현
- 3) 요청한 HTML 문서를 회신하여 response 변수에 저장
- 4) BeautifulSoup함수로 HTML을 읽을 수 있도록 파싱하여 soup 변수에 저장
- 5) Page 개수만큼 20번 반복
> - "tr" 태그 조건에 해당하는 모든 정보를 검색하여 parsing_list 변수에 저장
- 6) 1 Page 당 10일의 일별 종가 정보 담겨있어서 10번 반복
> - "td" 태그의 align가 "center"인 값들 중 0번째 조건에 해당하는 정보 검색하여 출력
> - "td" 태그의 class가 "num"인 값들 중 0번째 조건에 해당하는 정보 검색하여 출력

**태그 정보는 F12(개발자 도구) 클릭하여 찾기**

In [16]:
# 200일 동안의 일별 종가 정보 가져오는 반복문(1페이지 당 10일 정보 담겨있음)
for page in range(1, 21):
  print (str(page))

  # url + page 번호 합치기
  stock_url = 'http://finance.naver.com/item/sise_day.nhn?code=005930' +'&page='+ str(page)

  # header 정보
  headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}

  # request : 웹 페이지의 URL, header 이용해서 HTML 문서 요청
  # response : 요청한 HTML 문서 회신
  response = requests.get(stock_url, headers = headers)

  # parsing : HTML을 읽을 수 있도록 파싱
  # soup 변수에 BeautifulSoup의 객체 생성
  soup = BeautifulSoup(response.text, 'html.parser')

  # "tr" 태그 조건에 해당하는 모든 정보 검색
  parsing_list = soup.find_all("tr")

  # None 값은 걸러주기 위한 변수 생성
  isCheckNone = None

  # 페이지당 일별 종가 출력하기 위한 반복문 <들여쓰기 주의>
  for i in range(1, len(parsing_list)):
    # None 값은 걸러주기 위한 조건문 <들여쓰기 주의>
    # .span()는 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 돌려주는 함수
    if(parsing_list[i].span != isCheckNone):
      # parsing_list[i] : i번째 parsing_list, i 번째 "tr" 태그 값
      # .find_all("td", align="center")[0].text : "td" 태그의 align가 "center"인 값들 중 0번째 값
      # .find_all("td", class_="num")[0].text : "td" 태그의 class가 "num"인 값들 중 0번째 값
      print(parsing_list[i].find_all("td", align="center")[0].text,
            parsing_list[i].find_all("td", class_="num")[0].text)

1
2025.04.04 56,100
2025.04.03 57,600
2025.04.02 58,800
2025.04.01 58,800
2025.03.31 57,800
2025.03.28 60,200
2025.03.27 61,800
2025.03.26 61,400
2025.03.25 59,800
2025.03.24 60,500
2
2025.03.21 61,700
2025.03.20 60,200
2025.03.19 58,500
2025.03.18 57,600
2025.03.17 57,600
2025.03.14 54,700
2025.03.13 54,700
2025.03.12 54,900
2025.03.11 53,600
2025.03.10 53,700
3
2025.03.07 53,700
2025.03.06 54,300
2025.03.05 54,000
2025.03.04 54,500
2025.02.28 54,500
2025.02.27 56,300
2025.02.26 56,600
2025.02.25 57,200
2025.02.24 57,300
2025.02.21 58,200
4
2025.02.20 58,400
2025.02.19 58,700
2025.02.18 56,900
2025.02.17 56,000
2025.02.14 56,000
2025.02.13 55,800
2025.02.12 55,800
2025.02.11 55,700
2025.02.10 55,600
2025.02.07 53,700
5
2025.02.06 54,000
2025.02.05 52,900
2025.02.04 52,700
2025.02.03 51,000
2025.01.31 52,400
2025.01.24 53,700
2025.01.23 53,700
2025.01.22 54,300
2025.01.21 53,500
2025.01.20 53,400
6
2025.01.17 53,700
2025.01.16 54,300
2025.01.15 53,700
2025.01.14 53,900
2025.01.13 54,10

## **13. Pandas 일별 시세 테이블 구현**
- 1) Pandas 라이브러리와 Requests 라이브러리 이용
- 2) 200일 일별 종가 정보는 1 Page 당 10일의 일별 종가 정보 담겨있어서 20 Page 필요
- 3) 일별 종가 담긴 URL과 Header 정보로 requests.get 함수 구현
- 4) pandas.read_html 함수를 통해 HTML 불러와서 파싱
- 5) append 함수를 이용하여 dataframe 끝에 추가하고 싶은 요소를 추가하여 dataframe 리턴
- 6) dropna 함수를 통해 결측 값 제거


In [None]:
# 네이버 금융 일별 시세 테이블 불러오기
# pandas 라이브러리와 requests 라이브러리 이용
# code = 회사 코드, page = 일별 시세 테이블의 페이지 수 (200 행의 데이터 불러오려면 20 페이지 입력)
import pandas as pd
from io import StringIO

df = pd.DataFrame()

for page in range(1,21):
    stock_url = 'http://finance.naver.com/item/sise_day.nhn?code=005930' +'&page='+ str(page)

    # header 정보
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}

    # request : 웹 페이지의 URL, header 이용해서 HTML 문서 요청
    # response : 요청한 HTML 문서 회신
    response = requests.get(stock_url, headers = headers)

    # response.text로 응답을 주면 HTML 코드이기 때문에 read_html로 불러오기
    # append() : dataframe 끝에 추가하고 싶은 요소를 추가하여 새로운 dataframe을 리턴
    df1 = pd.read_html(StringIO(response.text), header=0)[0]
    df = pd.concat([df, df1], ignore_index=True)

# 결측 값 있는 행 제거
df = df.dropna()
df

ImportError: Missing optional dependency 'lxml'.  Use pip or conda to install lxml.