### 웹데이터 요청 및 파싱 패키지
1.웹 데이터 요청 패키지
- https://docs.python.org/3/library/urllib.request.html
- 실행코드 : !urlopen?

- https://requests.readthedocs.io/en/latest/
- 실행코드 :!requests?

2.파싱 패키지
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 실행코드 : !BeautifulSoup?

# **1. 정적 수집**

In [1]:
# 패키지 설치하기 ( 설치되어 있지 않은 경우에 )
!pip install -q bs4

  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for bs4 (setup.py) ... [?25l[?25hdone


In [1]:
# # 패키지 가져오기
import requests
from bs4 import BeautifulSoup

In [5]:
# 1단계 : requests 라이브러리 활용하여 html 페이지 요청하고 res 객체에 html 데이터 저장
response = requests.get("https://www.naver.com/")
print(response)

<Response [200]>


In [6]:
dir(response)

['__attrs__',
 '__bool__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__nonzero__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_content',
 '_content_consumed',
 '_next',
 'apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

In [9]:
# 2단계 : 가져온 html 문서 전체를 BeautifulSoup 패키지를 이용하여 파싱(parsing)함
soup = BeautifulSoup(response.text,'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html class="fzoom" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="origin" name="Referrer"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=1190" name="viewport"/>
  <title>
   NAVER
  </title>
  <meta content="NAVER" name="apple-mobile-web-app-title">
   <meta content="index,nofollow" name="robots">
    <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description">
     <meta content="네이버" property="og:title"/>
     <meta content="https://www.naver.com/" property="og:url"/>
     <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/>
     <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description">
      <meta content="summary" name="twitter:card"/>
      <meta content="" name="twitter:title"/>
      <meta content="https://www.naver.com/" name="twitter:url"/>
      <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_

In [10]:
# 3단계 : 필요한 데이터 검색
title = soup.find('title')
print(title)


<title>NAVER</title>


In [12]:
# 4단계: 필요한 데이터 추출하여 출력
print(title.get_text())

NAVER


## 오늘의 증권뉴스 데이터 수집

In [14]:
# 1.패키지 가져오기
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [15]:
# 2. URL을 열어 BeautifulSoup로 내용 가져오기

# 네이버 증권 사이트
url = 'https://finance.naver.com/'

# response = urlopen('URL 주소 입력')
response = urlopen(url)

soup = BeautifulSoup(response, 'html.parser') #html.parser, lxml, lxml-xml, html5lib
print(soup.prettify())

<html lang="ko">
 <head>
  <title>
   네이버페이 증권
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="text/javascript" http-equiv="Content-Script-Type"/>
  <meta content="text/css" http-equiv="Content-Style-Type"/>
  <meta content="네이버페이 증권" name="apple-mobile-web-app-title">
   <meta content="네이버페이 증권" property="og:title">
    <meta content="https://ssl.pstatic.net/static/m/stock/im/2016/08/og_stock-200.png" property="og:image"/>
    <meta content="https://finance.naver.com" property="og:url"/>
    <meta content="국내 해외 증시 지수, 시장지표, 뉴스, 증권사 리서치 등 제공" property="og:description"/>
    <meta content="article" property="og:type"/>
    <meta content="" property="og:article:thumbnailUrl"/>
    <meta content="네이버페이 증권" property="og:article:author"/>
    <meta content="http://FINANCE.NAVER.COM" property="og:article:author:url"/>
    <link href="https://ssl.pstatic.net/imgstock/static.pc/20241007172808/css/finance_header.css" rel="stylesheet" type="tex

In [16]:
# 3-1. 원하는 뉴스 첫번째 내용 찾아 출력하기

# 'section_strategy' 클래스를 가진 요소 찾기
section_strategy = soup.find('div', class_='section_strategy')
print(section_strategy)
# 'section_strategy' 클래스 내에 a tag를 가진 요소 찾기 
a_tag = section_strategy.find_next('a') 
data = a_tag.get_text(strip=True)
print(data)

<div class="section_strategy">
<h2 class="h_strategy"><span>주요뉴스</span></h2>
<ul>
<li>
<span><a href="/news/news_read.naver?mode=mainnews&amp;office_id=015&amp;article_id=0005046882" onclick="clickcr(this, 'tdn.list', '015_0005046882', '0', event);">미국은 'AI'·한국은 '방산·금융·바이오' ETF가 수익률 최고</a></span>
</li>
<li>
<span><a href="/news/news_read.naver?mode=mainnews&amp;office_id=648&amp;article_id=0000029905" onclick="clickcr(this, 'tdn.list', '648_0000029905', '1', event);">고려아연 자사주 공개매수 D-2, 주도권 뒤집힐까</a></span>
</li>
<li>
<span><a href="/news/news_read.naver?mode=mainnews&amp;office_id=029&amp;article_id=0002910006" onclick="clickcr(this, 'tdn.list', '029_0002910006', '2', event);">금리 인하에 중국 증시 `재반등`…추가 부양책 나올까</a></span>
</li>
<li>
<span><a href="/news/news_read.naver?mode=mainnews&amp;office_id=009&amp;article_id=0005382586" onclick="clickcr(this, 'tdn.list', '009_0005382586', '3', event);">“믿을 건 이것뿐”…불안한 3분기 실적시즌 돌입, 대응 전략은</a></span>
</li>
<li>
<span><a href="/news/news_read.naver?mode=m

In [17]:
# 3-2. 원하는 뉴스 목록 모두 찾아 출력하기

# 'section_strategy' 클래스를 가진 요소 찾기
section_strategy = soup.find('div', class_='section_strategy')

# h2 태그 하위의 모든 'a' 태그를 찾습니다.
a_tags = section_strategy.find_all('a')
print(a_tags)
# 각 'a' 태그의 텍스트를 출력합니다.
text =[]
for a_tag in a_tags:
    print(a_tag.get_text(strip=True))
    text.append(a_tag.get_text(strip=True))

[<a href="/news/news_read.naver?mode=mainnews&amp;office_id=015&amp;article_id=0005046882" onclick="clickcr(this, 'tdn.list', '015_0005046882', '0', event);">미국은 'AI'·한국은 '방산·금융·바이오' ETF가 수익률 최고</a>, <a href="/news/news_read.naver?mode=mainnews&amp;office_id=648&amp;article_id=0000029905" onclick="clickcr(this, 'tdn.list', '648_0000029905', '1', event);">고려아연 자사주 공개매수 D-2, 주도권 뒤집힐까</a>, <a href="/news/news_read.naver?mode=mainnews&amp;office_id=029&amp;article_id=0002910006" onclick="clickcr(this, 'tdn.list', '029_0002910006', '2', event);">금리 인하에 중국 증시 `재반등`…추가 부양책 나올까</a>, <a href="/news/news_read.naver?mode=mainnews&amp;office_id=009&amp;article_id=0005382586" onclick="clickcr(this, 'tdn.list', '009_0005382586', '3', event);">“믿을 건 이것뿐”…불안한 3분기 실적시즌 돌입, 대응 전략은</a>, <a href="/news/news_read.naver?mode=mainnews&amp;office_id=016&amp;article_id=0002376756" onclick="clickcr(this, 'tdn.list', '016_0002376756', '4', event);">하나證 “은행주, 밸류업 이벤트 끝물…단기 조정 가능성” [투자360]</a>, <a href="/news/news

In [None]:
# 4. 저장할 파일 생성 stock_news.txt 파일 생성
with open("stock_news.txt", 'w') as f:
    f.write("오늘의 증시 뉴스 데이터\n")
    f.writelines(text)

In [None]:
%ls

## 주식 데이터 수집

In [None]:
# 삼성전자 코드
code = '005930'

response = urlopen("https://finance.naver.com/item/main.naver?code=" + code)
soup = BeautifulSoup(response, "lxml", from_encoding='utf-8')

no_today = soup.find('p', {"class":"no_today"}) # soup.find('div', class_='section_strategy')
#print(no_today)

blind = no_today.find('span', {"class":"blind"})
#print(blind)
live_cost = blind.text

print(live_cost)

59,100


### **연습문제**
* 원하는 웹 페이지에 접속하여 게시물 목록 n개를 가져와 'news_list.txt'에 저장하세요
* 예: url - https://entertain.naver.com/movie

In [None]:
# 1. 패키지 가져오고 URL을 요청한다.
# Code here
import requests
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://entertain.naver.com/movie'
#response = urlopen(url)
response = ...    # ... 코드 입력

# 2. BeautifulSoup()을 사용하여 html을 parser 한 결과를 soup 에 저장합니다.
# Code here
soup = ...    # ... 코드 입력



In [None]:
# 3-1. 저장한 내용에서 영화뉴스 10개 제목을 가져와 출력합니다.
# Code here




1 [Y터뷰] '오드리' 김정난 "박지훈, 배우의 길 가길 참 잘했다…눈빛 좋은 배우"
2 웹찢남 된 마동석 ‘거룩한 밤’ 웹툰 매주 토요일 공개
3 광주시, 한강 소설 원작 영화 '채식주의자'·'흉터' 특별상영
4 암에 걸린 친구와 함께 준비하는 존엄사
5 마동석 '거룩한 밤', 왜 악마 사냥 시작했나…프리퀄 웹툰 공개
6 '에로티시즘의 대가' 김대우 감독, '히든페이스'로 10년 만에 컴백
7 극장에서 사라진 4천 원, 탈세의혹으로 번지나
8 ‘대도시의 사랑법’, 해외 45개국 판매→영화제 릴레이 초청 ‘쾌거’
9 마동석, 만화로 나온다…'거룩한 밤', 프리퀄 웹툰으로 먼저 공개
10 [SC인터뷰] "21년차, 연기 대하는 방식 달라져"…심은경, 日아카데미 수상→'더 킬러스'로 연 2막(종합)


In [None]:
# 3-2. 저장한 내용에서 영화뉴스 10개 제목과 그 요약내용을 가져옵니다.
# Code here

# 'tit_area' 클래스를 가진 <div> 태그를 모두 찾습니다.
tit_areas = ...    # ... 코드 입력

all_data = ""

# 처음 10개의 타이틀과 요약 내용을 출력
...    # ... 코드 입력








In [None]:
# 4. 결과를 "news_list.txt"에 저장하세요. - 저장된 내용을 화면에 출력합니다.
# Code here 






