# **0. 필요한 라이브러리 불러오기**

In [1]:
import urllib.request as req  # 웹페이지에 데이터 요청
from bs4 import BeautifulSoup  # HTML, XML 등의 문서 파싱, 데이터 추출

# Google Colab에서 Google 드라이브를 연동하기 위한 drive 모듈
#from google.colab import drive
#drive.mount('/content/drive')  # 드라이브 연결(mount)

# **1. BeautifulSoup을 이용한 스크래핑(로컬 파일)**

- 'with open()'을 사용하여 로컬(local) HTML 파일을 읽음(여기서 로컬은 Google Drive를 의미)

- BeautifulSoup을 사용하여 HTML 파일을 파싱하고 원하는 정보를 추출

In [2]:
# 파일을 읽기 모드('r')로 열고,
# '/content/drive/MyDrive/Colab Notebooks/TDA/data/tda.html' 경로의 파일 열기
with open('data/tda.html', 'r',encoding='UTF8') as f:
    html_doc = f.read()  # 파일의 내용을 html_doc에 저장

print(html_doc)

<html>
    <head>
        <title>텍스트 데이터 분석</title>
    </head>
    <body>
        <div> 
            <p>텍스트 데이터 분석 홈페이지입니다.</p> 
        </div>
        <div> 
            <p><a href='https://www.cuk.edu/'>고려사이버대학교 홈페이지로 이동합니다.</a></p> 
        </div>
    </body>
</html>


In [3]:
# html_doc을 "html.parser"로 파싱
soup = BeautifulSoup(html_doc, 'html.parser')

# 포맷팅된 형태로 파싱된 웹페이지 소스코드 출력
print(soup.prettify())

<html>
 <head>
  <title>
   텍스트 데이터 분석
  </title>
 </head>
 <body>
  <div>
   <p>
    텍스트 데이터 분석 홈페이지입니다.
   </p>
  </div>
  <div>
   <p>
    <a href="https://www.cuk.edu/">
     고려사이버대학교 홈페이지로 이동합니다.
    </a>
   </p>
  </div>
 </body>
</html>


In [4]:
# <p> 태그를 찾아서 반환
soup.find('p')

<p>텍스트 데이터 분석 홈페이지입니다.</p>

In [5]:
# <p> 태그의 문자열 반환
soup.find('p').string

'텍스트 데이터 분석 홈페이지입니다.'

In [6]:
# href 속성이 'https://www.cuk.edu/'인 요소를 찾아서 반환
soup.find(attrs={'href': 'https://www.cuk.edu/'})

<a href="https://www.cuk.edu/">고려사이버대학교 홈페이지로 이동합니다.</a>

In [14]:
# 모든 <p> 태그 요소들을 리스트로 반환
soup.find_all('p')

[<p>텍스트 데이터 분석 홈페이지입니다.</p>,
 <p><a href="https://www.cuk.edu/">고려사이버대학교 홈페이지로 이동합니다.</a></p>]

# **2. BeautifulSoup을 이용한 스크래핑(인터넷 웹페이지)**

- FnGuide 웹페이지(https://comp.fnguide.com) 에 URL을 이용하여 접속
- 웹페이지 소스코드를 BeautifulSoup으로 파싱하고 필요한 정보를 추출

In [7]:
# 크롤링할 웹페이지의 URL
url = 'https://comp.fnguide.com/SVO2/ASP/SVD_main.asp?pGB=1&gicode=A005930&cID=&MenuYn=Y&ReportGB=&NewMenuID=11&stkGb=&strResearchYN='

# URL로 웹페이지에 접속
res = req.urlopen(url)

# 웹페이지 소스코드를 "html.parser"로 파싱
soup = BeautifulSoup(res, "html.parser")

# id 속성이 'bizSummaryDate'인 요소를 찾아서 변수에 저장
bizSummaryDate = soup.find(attrs={'id': 'bizSummaryDate'})

# id 속성이 'bizSummaryHeader'인 요소를 찾아서 변수에 저장
bizSummaryHeader = soup.find(attrs={'id': 'bizSummaryHeader'})

# id 속성이 'bizSummaryContent'인 요소를 찾고
# 모든 <li> 태그 요소들을 리스트로 가져와서 변수에 저장
bizSummaryContent = soup.find(attrs={'id': 'bizSummaryContent'}).find_all("li")

In [8]:
bizSummaryDate.string

'[2023/06/20]'

In [9]:
bizSummaryHeader.string.replace(u'\xa0', u' ')  # '\xa0'을 공백으로 치환

'반도체 부진으로 영업이익 급감'

In [10]:
bizSummaryContent[1].string.replace(u'\xa0', u' ')

'1분기 반도체와 디스플레이의 부진을 스마트폰이 메우며 영업적자를 면함. 반도체 부문은 D램과 낸드 모두 수요 부진으로 가격이 하락해 대규모 영업적자를 기록함. 하이엔드 제품인 갤럭시 S23울트라의 높은 판매 비중과 대용량 스토리지 중심 판매 전략으로 DX부문에서 대부분의 영업이익을 거둠. 가격이 낮고 재고가 충분한 DDR4 제품의 생산을 줄이고, 고사양 제품들인 DDR5와 LPDDR5로 생산 포트폴리오를 확대할 계획임.'