BeautifulSoup 모듈
- 홈페이지 내 데이터를 쉽게 추출할 수 있게 해주는 파이썬 외부 라이브러리
- 웹 문서 내 수많은 HTML 태그들을 parser를 활용해 사용하기 편한 파이썬 객체로 만들어 제공
- 웹 문서 구조를 알고 있다면 편하게 데이터를 뽑아 활용할 수 있음

기존방식과의 차이점
- 정규 표현식, 문자열 함수 등을 활용하여 홈페이지 텍스트 내 패턴을 분석하여 하나씩 원하는 데이터를 찾아가는 형식
- BS는 HTML 문서를 태그를 기반으로 구조화하여 태그로 원하는 데이터를 찾아가는 형식


#html.parser vs lxml

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=hoon299&logNo=221970390146

### cf 사이트
- https://mimah.tistory.com/entry/Python-BeautifulSoup%EB%A1%9C-%EC%A0%95%EC%A0%81-%EC%9B%B9-%EC%82%AC%EC%9D%B4%ED%8A%B8-%ED%8C%8C%EC%8B%B1%ED%95%98%EA%B8%B0
- https://jennana.tistory.com/160
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/#differences-between-parsers
- https://eunjin3786.tistory.com/146
- https://easytoread.tistory.com/entry/BeautifulSoup-%ED%98%95%EC%A0%9C-%EC%9A%94%EC%86%8C-%EC%84%A0%ED%83%9D-nextsibling
- https://goodthings4me.tistory.com/190

In [1]:
pip install beautifulsoup4

Note: you may need to restart the kernel to use updated packages.


In [2]:
html_doc = """
<html lang="en">
<head><title>crawl</title></head>
<body>
<p class="a" align="center"> text1</p>
<p class="b" align="center"> text2</p>
<p class="c" align="center"> text3</p>
<div><img src="/source" width="300" height="200"></div>
</body>
</html>
"""

from bs4 import BeautifulSoup

#html_doc 데이터를 html.parser로 파싱한 뒤 BeautifulSoup 객체를 생성해서 soup 변수에 넣음 
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify()) # html 구조를 파악하기 쉽게 바꿔줍니다. 혹은 파싱 처리 후 트리형태로 반환해주는 함수 
#prettify 하고 print까지 해줘야 칸 맞춰서 이쁘게 나옴 


<html lang="en">
 <head>
  <title>
   crawl
  </title>
 </head>
 <body>
  <p align="center" class="a">
   text1
  </p>
  <p align="center" class="b">
   text2
  </p>
  <p align="center" class="c">
   text3
  </p>
  <div>
   <img height="200" src="/source" width="300"/>
  </div>
 </body>
</html>



### string vs text 
```
https://www.inflearn.com/questions/3945  --> 참고 ! 
https://stackoverflow.com/questions/25327693/difference-between-string-and-text-beautifulsoup --> 참고 
string은 밑에 get_text()랑 비교할 때도 이 내용이 이어져감 
```
```
빨리 기억할 것은 
태그 내에서 단일 문자열을 가져오기 위한 편의 속성입니다 .
자식이 없거나 자식이 둘 이상인 경우 반환 값은 다음과 같습니다 -> None
```

In [3]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser') #parser는 여러가지인데 html.parser를 가장 많이 쓴뎁
h1 = soup.html.body.h1.text #이렇게 끝에 text 해도됨 ! 

print(h1)

스크레이핑이란?


#### next_sibling - 다음 형제 요소(트리 구조에서 동일 레벨 상의 요소) 선택 가능
주의) 태그와 태그사이의 개행이나 콤마 등도 요소로 취급함 

In [4]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser') #parser는 여러가지인데 html.parser를 가장 많이 쓴뎁
h1 = soup.html.body.h1
p1 = soup.html.body.p
# p2 = p1.next_sibling
p2 = p1.next_sibling.next_sibling #p1 다음에 공백이 하나 있는거라 2번 해주기!

print(h1.string)
print(p1.string)
print(p2.string)

스크레이핑이란?
웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


#### find(), findalll()
find() : HTML의 해당 태그에 대한 첫 번째 정보를 가져옴
- find(속성='값') : HTML 해당 속성과 일치하는 값에 대한 첫 번째 정보를 가져옴

find_all() : 
- HTML의 해당 태그에 대한 모든 정보를 리스트 형식으로 가져옴. limit 옵션으로 개수 지정 가능
- CSS 속성으로 필터링(class_로 클래스를 직접 사용 혹은 attrs에서 속성 = 값으로 필터링)
- find_all : 해당 조건에 만족하는 모든 태그를 가지고 온다.ex> find_all('태그명',{'속성명':'값', ... })



In [5]:
from bs4 import BeautifulSoup

html = """
<html><body>
  <h1 id ='title'>스크레이핑이란?</h1>
  <p id ='body'>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
title = soup.find(id='title')
body = soup.find(id='body')

print(title.string)
print(body.string)
print(title.text)
print(body.text)
print(body.get_text())
#string 태그 하위에 문자열을 객체화 합니다. 문자열이 없으면 None 을 반환합니다. 즉, 하위태그에 텍스트까지 문자열로 파싱할 경우 . text를 사용하는 것이 좋습니다.

스크레이핑이란?
웹 페이지를 분석하는 것
스크레이핑이란?
웹 페이지를 분석하는 것
웹 페이지를 분석하는 것


In [6]:
# texts = soup.findAll('p')
texts = soup.find_all('p') #뷰티풀숩에서 위에 findAll 이랑 find_all이랑 같음 
for t in texts:
    print(t.text)

웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


In [7]:
#urlopen()과 BeautifulSoup의 조합 
import warnings
warnings.filterwarnings('ignore')

from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp" #XML 형식의 데이터 
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
title = soup.find('title').string
#wf weather focasting의 약자로 날씨 알려주는 태그래 
wf = soup.find('wf').string
print(title, '\n')
print(wf)
#나는 이걸 보자마자 둘다 string으로 뽑았으니까 title, wf 각각 첫번째 태그 안에는 단일 문자열이구나 None이 안나왔으니까 


기상청 육상 중기예보 

○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠고, 31일(일)~ 8월 2일(화)에는 제주도에 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 24~26도, 낮 기온은 29~34도로 어제(26일, 아침최저기온 22~24도, 낮최고기온 28~35도)와 비슷하겠습니다.<br />○ (주말전망) 30일(토)은 가끔 구름많고 전라권에는 오후에 소나기가 오는 곳이 있겠고, 31일(일)은 가끔 구름많겠으나, 제주도에는 흐리고 비가 오겠습니다.<br />              아침 기온은 24~26도, 낮 기온은 29~34도가 되겠습니다.<br /><br />* 이번 예보기간에는 북태평양고기압의 확장 정도와 제10호 열대저압부(TD)의 이동경로에 따라 강수의 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


In [8]:
# 위의 결과를 태그를 제거해서 깔끔하게 뽑아보자 
#requests과 BeautifulSoup의 조합 
import requests 
import re

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
data = requests.get(url).text
soup = BeautifulSoup(data, 'html.parser')
wf = soup.find('wf').string
#여기 위까지는 위의 코드블럭이랑 똑같은 과정인겨 
wf = re.sub('[^0-9가-힣]', ' ', wf) #한글이랑 숫자가 아닌애들은 공백 ! 
wf

#re.sub(pattern, repl, string)
# string에서 패턴과 매치하는 텍스트를 repl로 치환한다. 

'   강수  30일 토 은 전라권에 소나기가 오는 곳이 있겠고  31일 일   8월 2일 화 에는 제주도에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 24 26도  낮 기온은 29 34도로 어제 26일  아침최저기온 22 24도  낮최고기온 28 35도 와 비슷하겠습니다          주말전망  30일 토 은 가끔 구름많고 전라권에는 오후에 소나기가 오는 곳이 있겠고  31일 일 은 가끔 구름많겠으나  제주도에는 흐리고 비가 오겠습니다                     아침 기온은 24 26도  낮 기온은 29 34도가 되겠습니다               이번 예보기간에는 북태평양고기압의 확장 정도와 제10호 열대저압부    의 이동경로에 따라 강수의 변동성이 크겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다 '

####  과제0722_2
- wf를 다시 정렬하여 불필요한 부분을 제거해서 아래와 같은 형식으로 출력하세요.(글자 선으로 그어진거 무시)

(강수) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다. 27일(수)은 수도권과 강원영서에 비가 오겠습니다.(기온) 이번 예보기간 아침 기온은 22~26도로 어제(19일, 아침최저기온 20~24도)보다 조금 높겠고, 낮 기온은 28~34도로 어제(낮최고기온 27~34도)와 비슷하겠습니다.(주말전망) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다.


In [9]:
import warnings
warnings.filterwarnings('ignore')

from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp" 
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
text = soup.find('wf').string
text = re.sub('[^,.~(0-9가-힣)]+', ' ', text) 
text

' (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠고, 31일(일)~ 8월 2일(화)에는 제주도에 비가 오겠습니다. (기온) 이번 예보기간 아침 기온은 24~26도, 낮 기온은 29~34도로 어제(26일, 아침최저기온 22~24도, 낮최고기온 28~35도)와 비슷하겠습니다. (주말전망) 30일(토)은 가끔 구름많고 전라권에는 오후에 소나기가 오는 곳이 있겠고, 31일(일)은 가끔 구름많겠으나, 제주도에는 흐리고 비가 오겠습니다. 아침 기온은 24~26도, 낮 기온은 29~34도가 되겠습니다. 이번 예보기간에는 북태평양고기압의 확장 정도와 제10호 열대저압부( )의 이동경로에 따라 강수의 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.'

### 다시 수업

In [10]:
texts = soup.find_all('wf')
for t in texts:
    t = t.text
    t = re.sub('[^0-9가-힣]', ' ', t)
    print(t, '\n')

   강수  30일 토 은 전라권에 소나기가 오는 곳이 있겠고  31일 일   8월 2일 화 에는 제주도에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 24 26도  낮 기온은 29 34도로 어제 26일  아침최저기온 22 24도  낮최고기온 28 35도 와 비슷하겠습니다          주말전망  30일 토 은 가끔 구름많고 전라권에는 오후에 소나기가 오는 곳이 있겠고  31일 일 은 가끔 구름많겠으나  제주도에는 흐리고 비가 오겠습니다                     아침 기온은 24 26도  낮 기온은 29 34도가 되겠습니다               이번 예보기간에는 북태평양고기압의 확장 정도와 제10호 열대저압부    의 이동경로에 따라 강수의 변동성이 크겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다  

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 


In [4]:
#findall로 태그에 속성까지 지정해서 파싱하기
req = requests.get('http://naver.com')
html = req.text
# print(html)

soup = BeautifulSoup(html, 'html.parser')
# result = soup.find_all('span', class_='blind')[0] #태그와 클래스까지 주고 찾기
# result = soup.find_all('span', class_='fix') #_를 써주는 이유는 class가 예약어라 그래
result = soup.find_all('span', attrs= {'class':'fix'}) #딕셔너리 타입으로 속성 줄 수있음 #여기는 class를 ''로 묶어주니까 언더바 안 써도 됨.
# result = soup.find_all('span')
result

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [6]:
import re
import requests 
from bs4 import BeautifulSoup


req = requests.get('https://naver.com')
soup = BeautifulSoup(html, 'html.parser')
soup
print(soup.find_all(string = '네이버')) #문자열이 '네이버'인 것 찾는거임
print(soup.find_all(string=re.compile('네이버'))) #문자열이 들어간 패턴 객체를 string에 반환 

['네이버']
['네이버', '네이버를 시작페이지로', '쥬니어네이버', '언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있습니다.', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '크보연구소_네이버스포츠', '크보연구소_네이버스포츠', '크보연구소_네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버 멤버십으로 MLB 주요 경기 프리패스!', '네이버스포츠', '크보연구소_네이버스포츠', '크보연구소_네이버스포츠', '크보연구소_네이버스포츠', '크보연구소_네이버스포츠', '네이버 개발자 센터', '네이버 D2', '네이버 D2SF', '네이버 랩스', '네이버 정책 및 약관', '네이버 정책']


select_one(), select()
- CSS 선택자를 활용하여 원하는 정보를 가져옴(태그를 검색하는 find, find_all과 비슷함)
- class는 .
- id는 #로 표시

- select_one()은 select된 첫 번째 element를 한 개 리턴
-select()는 select된 모든 element들의 list를 리턴한다.
만약 한 개도 select 되지 않았다면 비어있는 list를 리턴한다.
이와 다르게 select_one()은 select 된 게 없다면 None을 리턴한다.
-select()는 list로 받아오기 때문에 index 값을 사용해 값에 접근할 수 있다.



In [13]:
import urllib.request as req
url = "https://finance.naver.com/marketindex/" #네이버 환율 사이트임 

res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
price = soup.select_one('div.head_info > span.value').string

# 얘는 네이버> 시장지표에서 어떤 숫자 f12로 클릭하고
#오른쪽버튼 하고 copy selector했음
price = soup.select_one('#exchangeList > li.on > a.head.usd > div > span.value').string
print('usd/krw = ', price)



usd/krw =  1,309.10


In [14]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""


In [15]:
!pip install lxml



In [16]:
from bs4 import BeautifulSoup

bs = BeautifulSoup(html_doc, 'html.parser') #파싱하는 방법 중 html_parser도 많이 쓰지만 lxml 도 많이 쓴다 

print(bs.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [17]:
bs.title

<title>The Dormouse's story</title>

In [18]:
bs.title.name #태그명 뽑기 

'title'

In [19]:
bs.title.parent.name

'head'

In [20]:
bs.p

<p class="title"><b>The Dormouse's story</b></p>

In [21]:
bs.a #이렇게하면 처음 거만나와

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [22]:
bs.find_all('a') #이렇게하면 다 나오지 

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [23]:
bs.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [24]:
#클래스 뽑는 방법
bs.a['class']

['sister']

In [25]:
for link in bs.find_all('a'):
    print(link.get('href')) #속성 'href'의 값 얻기 

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [26]:
bs.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

In [27]:
bs.find_all('p') #a태그는 p태그 안에 있어서 나온거지 

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

- 뷰티풀숩 쓰려면 string이랑 get_text()이랑 구분해서 써야돼
#### string vs. get_text()
- get_text()를 이용하면 한방에 현재 HTML 문서의 모든 텍스트를 추출할 수 있습니다. 조금 더 정확히 표현하면 get_text() 메서드는 현재 태그를 포함하여 모든 하위 태그를 제거하고 유니코드 텍스트만 들어있는 문자열을 반환
- string의 경우 문자열이 없으면 None을 출력하지만, get_text()의 경우 유니코드 형식으로 텍스트까지 문자열로 반환하기 때문에  아무 정보도 출력되지 않는다.
- string 속성은 태그(tag) 내 문자열을 반환. get_text()를 사용하더라도 정확하게 문자열을 추출하기 위해서는 항상 마지막 태그에 메서드를 사용


In [28]:
bs = BeautifulSoup(html_doc, 'html.parser')
bs

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [29]:
print(bs.string) #얘는 태그내 문자열을 반환해서 --> 단일 문자열만을 뽑는게 더 맞는표현 

None


In [30]:
print(bs.get_text())

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [31]:
print(bs.find('div').string)

None


In [32]:
print(bs.find('div').get_text()) #None조차도 출력 안함




In [33]:
print(bs.find('body').string)

None


In [34]:
print(bs.find('body').get_text())



The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [35]:
bs.find('body').get_text() #print 안 하면 개행까지 다 나옴 

"\n\nThe Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n...\n"

In [36]:
bs.a.string

'Elsie'

In [37]:
li = bs.find_all('p')
li

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [38]:
li = bs.find_all('p')
for i in li:
    print(i.string) #두번째 p는 또 텍스트가 여러개여서 None이 나올거임 , 마지막은 단일문자열 ...이라 나옴 

The Dormouse's story
None
...


In [39]:
for i in li:
    print(i.get_text()) #string에서 None인 부분이 다 나옴

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...


### urllib + bs
(웹에서 데이터 가져오는 크롤링 + 우리가 원하는 데이터 긁어오기 스크래핑)

In [40]:
pip install lxml

Note: you may need to restart the kernel to use updated packages.


In [80]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
    
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml') #이번에는 lxml얘로 파싱

text = bs.find('p')
text = text.get_text()
text

TypeError: urlopen() got an unexpected keyword argument 'headers'

In [42]:
bs.find('div').find('a').string

AttributeError: 'NoneType' object has no attribute 'string'

In [43]:
items = bs.find('div').find_all('a')
items #a링크가 엄청 나옴 -> get_text쓰기
#find_all()을 쓰면 get_text를 못쓴다고 for문 쓰래

[]

In [None]:
for item in items:
    print(item.get_text())
    

#### 과제(0725_1)
상기 출력물을 불필요한 공백없이 정렬하여 출력하세요.

In [None]:
for item in items:
    text = item.get_text()
    text = re.sub('[^\S]+','', text)
    text = re.sub('\s{2,}', '',text)
    print(text)
    

In [None]:
#div 태그에서 header 인것만 뽑기 
items = bs.find('div', id='header').find_all('a') #이 애들만 찾아줌 
for item in items:
    print(item.get_text())


In [None]:
texts = bs.find_all('p')
texts

In [None]:
texts = bs.find_all('p')
for t in texts:
    print(t.string)
#     print(t.get_text())

In [44]:
import urllib.request as rq
import re
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
bs
#
#한글만 뽑아보자 -> 정규 표현식 
bs = bs.text
# bs
p = re.sub('[^가-힣]',' ',bs)
p = re.sub('\s{2,}',' ',p)
p



' 네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 수 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 속보 정부 학원 원격수업 전환 단체활동 자제 권고 대전일보 정부 공직사회 휴가 복귀시 신속항원검사 가족돌봄휴가자 최대 만원 지원 중앙일보 위메이드 분기 영업손실 억원 적자전환 데일리안 확진 일만에 만명 돌파 학원 원격수업 전환 서울경제 정부 오늘 신규 확진자수 일만에 만명 넘어 디지털타임스 내용작성전 정부 오늘 신규 확진자수 일 만에 만 명 넘어 내용작성전 학원 원격수업 전환 단체활동 자제 적극 권고 한국경제 내용작성전 속보 닫기 대구 월 일 구독 동영상 재생시간 장마 끝 폭염 지속 탈진 열사병 온열질환 주의해야 장마가 끝나고 연일 폭염이 이어지면서 온열질환자가 크게 늘고 있습니다 고열에 실신하거나 탈진해서 병원을 찾는 경우가 많은데요 자칫 생명을 위협할 수도 있는 만큼 세심한 건강관리가 필요합니다 손은민 기자입니다 매일경제 월 일 구독 쓰레기 더미에 현금 억원이 아르헨 쓰레기장서 보물 찾기 소동 아르헨티나의 한 쓰레기처리장에 묻힌 달러 지폐 를 찾기 위해 전국에서 사람들이 몰려드는 소동이 발생했다 일 현지시간 현지 언론 등에 따르면 아르헨티나 중부 산타페주 라스파레하스에 있는 한 쓰레기장에서 최근 중앙일보 월 일 구독 아이스홍차 원샷뒤 피 리터 토했다 건강했던 남성 무슨일 최근 중국에서도 폭염이 기승을 부리고 있는 가운데 차가운 음료를 급하게 마신 남성이 다량의 피를 토하는 일이 발생했다 일 차이나 프레스 등 현지 언론 보도에 따르면 지난 일 오후 시쯤 하얼빈에 위치한 한 전주 월 일 구독 동영상 재생시간 무면허 뺑소니에 운전자 바꿔치기 파장 커지는 전직서장 조사 뺑소니 사고를 낸 뒤 운전자 바꿔치기 의혹을 받는 전직 경찰서장이 검찰에 넘겨진 가운데 관련 조사가 확대되고 있습니다 전북경찰청은 도주치상과 무면

In [45]:
#위에랑 같은 방법
import urllib.request as rq
import re

url= 'https://news.naver.com'
html = rq.urlopen(url)
bs= BeautifulSoup(html,'lxml')
# text = str(bs) -> 얘랑 밑에 get_text()랑 결과가 달라 str은 안에 있는 걸 전부 str로 바꾸는거고 get_text()는 태그에 있는 text를 뽑아주는거니까 다르다.
bs = bs.get_text()

result = re.findall('[가-힣]+', bs)
result = ' '.join(result)
result


'네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 수 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 속보 정부 학원 원격수업 전환 단체활동 자제 권고 대전일보 정부 공직사회 휴가 복귀시 신속항원검사 가족돌봄휴가자 최대 만원 지원 중앙일보 위메이드 분기 영업손실 억원 적자전환 데일리안 확진 일만에 만명 돌파 학원 원격수업 전환 서울경제 정부 오늘 신규 확진자수 일만에 만명 넘어 디지털타임스 내용작성전 정부 오늘 신규 확진자수 일 만에 만 명 넘어 내용작성전 학원 원격수업 전환 단체활동 자제 적극 권고 한국경제 내용작성전 속보 닫기 월 일 구독 동영상 재생시간 금리인상에도 집값 고공행진 월 전년대비 상승 미국의 집값 상승세가 좀처럼 꺾이지 않고 있습니다 금리인상에도 주택 가격이 오르면서 거래도 크게 줄고 있는데요 김정연 기자 연결해 자세한 상황 알아보겠습니다 미국 주택 가격이 고공행진을 이어가고 있다고요 미국 아시아경제 월 일 구독 르포 다음은 나겠구나 싶죠 늘어가는 셀프계산대 캐셔들 불안 최근에 일반계산대는 줄이고 셀프계산대를 몇 개 더 늘리더라고요 다음은 나겠구나 싶죠 일 오전 서울 한 대형마트에서 만난 캐셔 계산원 씨는 한숨을 쉬었다 최근 근무지에서 셀프계산대 운영이 늘어난 만큼 일다 월 일 구독 엄마 의 우울증과 모성 이데올로기 산후우울증에 관심을 처음 가진 건 여 년 전이다 지금보다 산후우울증이라는 말이 덜 흔하게 사용되었지만 출산 후에 시작된 정신적 고통을 호소하는 여성들은 많았다 그 고통의 이야기들은 죄책감이라는 결론으로 수렴 신동아 월 일 구독 자치가 진보 라던 민형배의 이해 못할 순교자 정치 민주당 복당 애쓰지 말라 무소속이 축복이다 괴물 돼가는 운동권 선배님들 탈당했는데 민주당 광주시장 선대위원장 당권주자들은 선 긋기 처럼회는 옹호 구청장 민형배 가 쓴 세 권의 멋진 책 광주방송 월 일 구독 동

In [46]:
#p태그인것만 골라보자
import urllib.request as rq
import re

url= 'https://news.naver.com'
html = rq.urlopen(url)
bs= BeautifulSoup(html,'lxml')

texts = bs.find_all('p')

for t in texts:
#     print(t.string, '\n')
    print(t.get_text(), '\n') 

As the days are getting long in summer and the weather is getting hotter outside, Nicole, a former bandmate of the now-d 

러시아가 2024년 이후 국제우주정거장(ISS) 프로젝트에서 완전히 탈퇴한 후 자체 우주정거장 구축을 시작할 계획이라고 밝혔다. 26일(현지시간) 에 따르면 유리 보리소프 러시아 연방우주공사(로스코스모스) 신임 사장 

국내외 증시가 날개 없는 추락을 거듭하는 가운데 이를 기초자산으로 삼는 주가연계증권(ELS)을 향한 투자자들의 관심이 싸늘하게 식고 있다. 높은 수익률을 담보하고 있음에도 청약 신청 물량이 모집하기로 한 금액에 한참 

안철수 국민의힘 의원은 26일 "과학방역은 방역정책의 결정권을 관료나 정치인이 정무적인 판단에 의해 최종결정하는 것이 아니라, 전문가가 과학적인 근거를 가지고 결정하는 것을 의미한다”고 말했다. 안 의원은 이날 서울 

SK그룹이 미국에서의 반도체와 소형 원자로 사업 등에 새로 29조 원을 투자하기로 하는 등 대미 투자 규모를 38조 원으로 늘렸습니다. 미국을 방문 중인 최태원 SK그룹 회장은 한국시간으로 오늘(27일) 새벽 조 바 

최태원 SK그룹 회장이 그룹의 미래를 책임질 반도체·그린에너지·바이오 사업에서 220억 달러(29조원)에 달하는 대규모 투자를 진행한다. 최근 발표한 전기차 배터리 분야 70억 달러까지 감안하면 대미 투자 규모는 약 

대통령실 선정 ‘국민제안’ 포함 공정위도 “새벽배송 규제 개선 대형마트만 금지는 차별 소지” 소상공인 등 보호 취지 목소리 민주당 추가확대 움직임 ‘이목’ 기업 이익 아닌 농업 고려 필요 올해로 꼭 10년 된 대형마 

민주당 복당 애쓰지 말라, 무소속이 축복이다 ● “괴물 돼가는 586 운동권 선배님들” ● 탈당했는데 민주당 광주시장 선대위원장? ● 당권주자들은 선 긋기, 처럼회는 옹호 ● ‘구청장 민형배’가 쓴 세 권의 멋진 책 

코로나19 신규 확진자가 약 

### requests + bs

In [47]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.naver.com'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')
text = bs.find('p').get_text()
text

'윤석열 대통령이 권성동 국민의힘 원내대표에 보낸 텔레그램 메시지에서 이준석 대표를 ‘내부 총질이나 하던 당대표’로 표현한 사실이 드러나 파문이 일자 당내 2030 전현직 대변인들이 “윤석열 대통령을 믿었다” “추억이'

#### 과제0725_2
기상청 육상 정보에서 강원도의 지역번호는 105이다. 강원도의 날씨 예보를 불필요한 공백을 제거한 후  출력하세요.

In [48]:
import urllib.request as req
from bs4 import BeautifulSoup
import re 

url = 'https://www.weather.go.kr/plus/land/forecast/summary.jsp?stnId=105&x=39&y=6'
URL = req.urlopen(url)
bs = BeautifulSoup(URL, 'html.parser')
text = bs.find('table', attrs= {'class':'table_announcementtime'}).get_text()
text = re.sub('[^,.~℃(0-9가-힣a-zA-Z)]+', ' ', text) 
text
#- , +기호, 숫자, 한글 등 필요한 정보들 잘 추출해서 하셈 

' 오늘 ~ 모레 날씨 요약 오늘( 07월 27일) ~ 모레( 07월 29일) (종합) 무더위 유의, 오늘과 모레 오후 강원영서 소나기 곳, 돌풍과 천둥.번개 유의 (오늘) 대체로 흐림, 강원영서 오후(15~18시) 소나기 곳 (내일) 대체로 흐림 (모레) 오전 대체로 흐림, 오후 구름많음, 강원영서 오후(12~18시) 소나기 곳 소나기에 의한 예상 강수량 (27일)강원영서 5~20mm 평년, 어제, 오늘, 내일, 모레 기온 최저 최고, 파고 정보 예보요소 평년(오늘) 어제(26일) 오늘(27일) 내일(28일) 모레(29일) 기온(℃) 최저 18.0 ~ 23.0 16.3 ~ 22.3 18 ~ 23 19 ~ 24 최고 24.1 ~ 30.7 25.1 ~ 34.4 25 ~ 33 24 ~ 33 28 ~ 33 파고(m) 강원북부앞바다 0.5~1.0 0.5~1.0 0.5~1.0 강원중부앞바다 0.5~1.0 0.5~1.0 0.5~1.0 강원남부앞바다 0.5~1.0 0.5~1.0 0.5~1.0 '

#### 과제0725_3
"http://www.naver.com" 사이트에서 span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력하세요.


In [10]:
import urllib.request as req
from bs4 import BeautifulSoup
import re 

url = "http://www.naver.com" 
URL = req.urlopen(url)
bs = BeautifulSoup(URL, 'html.parser')
texts = bs.find_all('span')

for t in texts:
    
    print(t, end=' ')

<span>뉴스스탠드 바로가기</span> <span>주제별캐스트 바로가기</span> <span>타임스퀘어 바로가기</span> <span>쇼핑캐스트 바로가기</span> <span>로그인 바로가기</span> <span class="_1syGnXOL _3VkgqBXB" data-clk="dropbanner1b" style="padding-right: 20px; font-size: 17px; color: black"><span>매일 쓰는 브라우저 보안이 걱정된다면, </span><strong>안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요.</strong></span> <span>매일 쓰는 브라우저 보안이 걱정된다면, </span> <span style="background-color: #0436c7">다운로드</span> <span class="blind">네이버</span> <span class="blind">쥬니어네이버</span> <span class="blind">해피빈</span> <span class="blind">검색</span> <span class="ico_search_submit"></span> <span class="blind">한글 입력기</span> <span class="ico_keyboard"></span> <span class="blind">자동완성 레이어</span> <span class="ico_arr"></span> <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span> <span class="common_ico_kwd"><i class="imsc ico_search"></i></span> <span>@txt@</span> <span class="etc">
<em class="date">@date@.</em>
<!-- [AU] _del 클래스를 추가해주세요. -->
<a aria

In [11]:

url = "http://www.naver.com" 
URL = req.urlopen(url)
bs = BeautifulSoup(URL, 'html.parser')
texts = bs.find_all('span')

for t in texts:
    text = t.get_text()
    text = re.sub('[^가-힣]+', ' ', text)
    

    print(text, end=' ')

뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요  매일 쓰는 브라우저 보안이 걱정된다면  다운로드 네이버 쥬니어네이버 해피빈 검색  한글 입력기  자동완성 레이어        삭제  설정이 초기화 된다면 도움말을 확인해주세요  설정이 초기화 된다면 도움말을 확인해주세요   도움말  도움말  자동저장 끄기   자동저장 끄기    회차 당첨번호  추첨 지급기한 년  추첨  지급기한 년                원   원                      바로가기  바로가기     추가      추가        추가    자세히보기    도움말 신고  도움말 신고  자동완성 끄기   자동완성 끄기  쇼핑 쇼핑      이태원동 이태원동     리스트형 썸네일형 설정 이전 다음 닫기 닫기 이전 다음                         닫기 닫기 이전 다음 다음 닫기 닫기 이전 다음 닫기 닫기 주제별로 분류된 다양한 글 모음  개의 글 이전 다음   어제  데이트저스트  데이트저스트   시간 전  한국경제  한국경제   주일 전  땅집고  땅집고  어제  투벤저스  투벤저스   시간 전  어피티   어피티   재생 재생시간 재생시간  주일 전  한국경제 신속한 경제 증권 채널  한국경제 신속한 경제 증권 채널   재생 재생시간 재생시간  주일 전  한국경제 신속한 경제 증권 채널  한국경제 신속한 경제 증권 채널   재생 재생시간 재생시간  개월 전  머니투데이 경기본부  머니투데이 경기본부   일 전  트래블노트  트래블노트  어제  국민일보  국민일보   시간 전  북극성주  북극성주  어제  아시아경제  아시아경제   시간 전  뉴스  뉴스    재생 재생시간 재생시간  주일 전  서울경제 어썸머니  서울경제 어썸머니   재생 재생시간 재생시간  주일 전  매일경제 영상  매일경제 영상   재생 재생시간 재생시간 

In [49]:

url = "http://www.naver.com" 
URL = req.urlopen(url)
bs = BeautifulSoup(URL, 'html.parser')
texts = bs.find_all('span')

for t in texts:
    text = t.get_text()
    text = re.sub('[^가-힣]+', ' ', text)
    text = re.sub('\s{2,}', '', text)
#     li.append(text)
# print(li)
    print(text, end=' ')

뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요  매일 쓰는 브라우저 보안이 걱정된다면  다운로드 네이버 쥬니어네이버 해피빈 검색  한글 입력기  자동완성 레이어        삭제  설정이 초기화 된다면 도움말을 확인해주세요  설정이 초기화 된다면 도움말을 확인해주세요   도움말  도움말  자동저장 끄기   자동저장 끄기    회차 당첨번호  추첨 지급기한 년  추첨  지급기한 년                원   원                      바로가기  바로가기     추가      추가        추가    자세히보기    도움말 신고  도움말 신고  자동완성 끄기   자동완성 끄기  쇼핑 쇼핑      이태원동 이태원동     리스트형 썸네일형 설정 이전 다음 닫기 닫기 이전 다음                         닫기 닫기 이전 다음 다음 닫기 닫기 이전 다음 닫기 닫기 주제별로 분류된 다양한 글 모음  개의 글 이전 다음    개월 전  한경  한경    개월 전  문학수첩  문학수첩   개월 전  알에이치코리아  알에이치코리아   개월 전  동양북스  동양북스   개월 전  문예춘추사  문예춘추사 집계기간  제공 인터넷 교보문고 이전 다음   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   위 위   개월 전  한겨레출판  한겨레출판   개월 전  청림출판  청림출판   주일 전  컬처블룸  컬처블룸   개월 전  북라이프  북라이프   개월 전  프네우마  프네우마   이전 다음 언론사 헤드라인 보기 코로나바이러스감염증 현황 하락  하락 상승  상승 하락  하락         라이트 모드로 보기 

In [50]:
#이 풀이가 가장 이상적인 거 같음 

import urllib.request as req
url = "http://www.naver.com" 
URL = req.urlopen(url)
bs = BeautifulSoup(URL, 'html.parser')
texts = bs.find_all('span')
texts

li = []
for t in texts:
    text = t.get_text()
    text = re.sub('[^가-힣]+',' ', text)

    li.append(text)

li = ' '.join(li)
result = re.sub('\s{2,}', ' ', li)
result

'뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드 네이버 쥬니어네이버 해피빈 검색 한글 입력기 자동완성 레이어 삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요 도움말 도움말 자동저장 끄기 자동저장 끄기 회차 당첨번호 추첨 지급기한 년 추첨 지급기한 년 원 원 바로가기 바로가기 추가 추가 추가 자세히보기 도움말 신고 도움말 신고 자동완성 끄기 자동완성 끄기 쇼핑 쇼핑 이태원동 이태원동 리스트형 썸네일형 설정 이전 다음 닫기 닫기 이전 다음 닫기 닫기 이전 다음 다음 닫기 닫기 이전 다음 닫기 닫기 주제별로 분류된 다양한 글 모음 개의 글 이전 다음 개월 전 한경 한경 개월 전 문학수첩 문학수첩 개월 전 알에이치코리아 알에이치코리아 개월 전 동양북스 동양북스 개월 전 문예춘추사 문예춘추사 집계기간 제공 인터넷 교보문고 이전 다음 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 개월 전 한겨레출판 한겨레출판 개월 전 청림출판 청림출판 주일 전 컬처블룸 컬처블룸 개월 전 북라이프 북라이프 개월 전 프네우마 프네우마 이전 다음 언론사 헤드라인 보기 코로나바이러스감염증 현황 하락 하락 상승 상승 하락 하락 라이트 모드로 보기'

#### 0725_4 "http://www.naver.com" 사이트에서 span 태그에 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 출력하세요.


In [53]:
url = "http://www.naver.com" 
URL = req.urlopen(url)
bs = BeautifulSoup(URL, 'html.parser')
texts = bs.find_all('span')

for t in texts:
    text = t.get_text()
    text = re.sub('[^0-9가-힣]+', ' ', text)
    text = re.sub('\s{2,}', '', text)
    print(text, end='')

뉴스스탠드 바로가기주제별캐스트 바로가기타임스퀘어 바로가기쇼핑캐스트 바로가기로그인 바로가기매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드네이버쥬니어네이버해피빈검색한글 입력기자동완성 레이어   삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요  도움말 도움말 자동저장 끄기  자동저장 끄기  5 회차 당첨번호 추첨 13 지급기한 1년 추첨 13 지급기한 1년 6 7 8 9 10 11 12  6 7 8 9 10 11 12  14    8 9  8 9  6 원  6 원  7  7  7 8  7 8  7   5  5  바로가기 바로가기  추가   추가    추가  자세히보기  도움말 신고 도움말신고 자동완성 끄기  자동완성 끄기 쇼핑쇼핑 26 0 32 0 이태원동이태원동리스트형썸네일형설정이전다음닫기닫기이전다음닫기닫기이전다음다음닫기닫기이전다음닫기닫기주제별로 분류된 다양한 글 모음676 개의 글이전다음1개월 전 한경 한경 1개월 전 문학수첩 문학수첩1개월 전 알에이치코리아 알에이치코리아1개월 전 동양북스 동양북스1개월 전 문예춘추사 문예춘추사집계기간 2022 07 18 2022 07 24제공인터넷 교보문고이전다음1위위2위위3위위4위위5위위6위위7위위8위위9위위10위위11위위12위위13위위14위위15위위16위위17위위18위위19위위20위위1개월 전 한겨레출판 한겨레출판1개월 전 청림출판 청림출판3주일 전 컬처블룸 컬처블룸1개월 전 북라이프 북라이프1개월 전 프네우마 프네우마 이전다음언론사 헤드라인 보기코로나바이러스감염증 19 현황하락4 63 0 19 하락상승2 93 0 37 상승하락2 30 0 18 하락  라이트 모드로 보기

#### 0725_5 "http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 한줄에 출력하세요.


In [54]:
import urllib.request as req

url = "http://www.naver.com" 
URL = req.urlopen(url)
bs = BeautifulSoup(URL, 'html.parser')
texts = bs.find_all('a', id = True) #id=True
texts
for t in texts:
    
    text = t.get_text()
    text = re.sub('[^\w]+', ' ', text)
    text = re.sub('\s{2,}', '', text)
    print(text, end=' ')

다운로드 네이버를 시작페이지로 한글 입력기 자동완성 레이어 관심주제 설정 TOP 

In [55]:
#다른 풀이
from bs4 import BeautifulSoup
import requests as rq

url = 'https://www.naver.com'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')

texts = bs.select('a[id]')
# print(texts)

li = []
for t in texts:
    li.append(t.get_text())


p = re.sub('[^\w+\d+]',' ', str(li))
p = re.sub('\s+',' ', p)
print(p)


 다운로드 네이버를 시작페이지로 한글 입력기 자동완성 레이어 관심주제 설정 TOP 


#### 0725_6

url = 'https://news.naver.com/' 사이트 p태크에서 class가 cjs_ht인 데이터를 한글만을 불필요한 공백을 제거한 후  출력하세요.


In [20]:
import urllib.request as req

url = 'https://news.naver.com/'

URL = req.urlopen(url)
bs = BeautifulSoup(URL, 'html.parser')
texts = bs.find_all('p', attrs={'class':'cjs_ht'})
texts
    

texts = re.sub('[^가-힣]+', ' ', str(texts)) #차피 문자열 하나라 for문 안 돌리는 것
texts = re.sub('\s+', " ", texts)
texts = texts[:]
texts #내 정답은 양 끝 공백을 고려하지않았어 

' 방송 모아보기 클릭 시 해당 방송사 뉴스를 볼 수 있으며 표시가 된 경우 생중계로 시청 가능합니다 '

In [17]:
#이게 옳은 풀이
from bs4 import BeautifulSoup as bsoup
import re
import requests
url = 'https://news.naver.com/'
req = requests.get(url)
html = req.text

soup = bsoup(html, 'html.parser')
result = soup.find_all('p', attrs={'class':"cjs_ht"}) # p class = "cjs_ht" 찾기
result

q = re.sub('[^가-힣]', ' ', str(result))  # 다시 문자화시켜서 re.sub
words = re.sub('\s+', " ", q)
words = words[1:-1]# 처음 시작과 끝 공백을 없애는 역할 (시작위치, 종류위치 생각해봐)
words


'방송 모아보기 클릭 시 해당 방송사 뉴스를 볼 수 있으며 표시가 된 경우 생중계로 시청 가능합니다'

In [58]:
from bs4 import BeautifulSoup
import urllib.request as rq

url = 'https://naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

# print(bs.find('p')) 
print(bs.find_all('p', limit = 1), '\n') #limit 옵션으로 개수지정가능
print(bs.find_all('p', limit = 2), '\n')
print(bs.find_all('p', limit = 3))

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>] 

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>, <p class="dsc">ON/OFF 설정은<br/>해당기기(브라우저)에 저장됩니다.</p>] 

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>, <p class="dsc">ON/OFF 설정은<br/>해당기기(브라우저)에 저장됩니다.</p>, <p class="dsc"><em class="txt">동일한 시간대/연령/남녀별</em> 사용자 그룹의<br/>관심사에 맞춰 자동완성을 제공합니다.</p>]


In [59]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.daum.net/politics/'
html = rq.get(url)
html = html.text
bs = BeautifulSoup(html, 'lxml')
title = bs.find('h2', id = 'mainContent').text
title


'정치'

In [60]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.daum.net/politics/'
html = rq.get(url)
html = html.text
bs = BeautifulSoup(html, 'lxml')
title = bs.select_one('#gnbContent > div > ul > li.on > a > span').text
title

#'홈'이 나오니까 난 '정치'를 보고싶은데 copy selector로 가져오자 
#gnbContent > div > ul > li.on > a > span
#select_one 으로 뽑기 


'정치'

In [28]:
# https://yensr.tistory.com/14  -> 여기서는 내 방법대로 alt로 뽑던데 .. 

from bs4 import BeautifulSoup
import requests as rq

url = 'https://movie.naver.com/'
html = rq.get(url)
html = html.text 
bs = BeautifulSoup(html, 'lxml') 
bs 
title = bs.select_one('#flick0 > li.item1 > div.obj_off.tab4 > a > img')['alt']
title

TypeError: 'NoneType' object is not subscriptable

In [62]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
html = rq.get(url)
html = html.text 
bs = BeautifulSoup(html)

title = bs.select_one('#old_content > table > tbody > tr:nth-child(2) > td.title > div > a').text
print(title)

외계+인 1부


In [63]:
# Q. 네이버 영화 랭킹 가져와서 첫번째 영화제목을 출력하세요
from bs4 import BeautifulSoup
import requests as rq

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
html = rq.get(url)
html = html.text

bs = BeautifulSoup(html,'lxml')
title = bs.find_all('div',class_='tit3')
# for t in title:
#     print(t.text)
print(title[0].text)



외계+인 1부



#### 과제0726_1
네이버 영화 랭킹 가져와서 조회순 전체 영화제목을 출력하세요 출력방식 ex(1위: 외계인+ 1부)

In [64]:
import urllib.request as req
from bs4 import BeautifulSoup

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
res = req.urlopen(url)
bs = BeautifulSoup(res, 'html.parser')
text = bs.select('#old_content > table > tbody > tr > td> div > a')


for i, m in enumerate(text):
    print(f'{i + 1}위: {m.text}') #근데 보이는 순서대로 안나온다고 하셨는데 왜 보이는 순서대로 나오지 

1위: 외계+인 1부
2위: 탑건: 매버릭
3위: 한산: 용의 출현
4위: 헤어질 결심
5위: 범죄도시2
6위: 그레이 맨
7위: 토르: 러브 앤 썬더
8위: 미니언즈2
9위: 마녀(魔女) Part2. The Other One
10위: 비상선언
11위: 더 킬러: 죽어도 되는 아이
12위: 명탐정 코난: 할로윈의 신부
13위: 엘비스
14위: 뒤틀린 집
15위: 헌트
16위: 썸머 필름을 타고!
17위: 아이를 위한 아이
18위: 멘
19위: 브로커
20위: 놉
21위: 쥬라기 월드: 도미니언
22위: 뽀로로 극장판 드래곤캐슬 대모험
23위: 메모리
24위: 닥터 스트레인지: 대혼돈의 멀티버스
25위: 임파서블 러브
26위: 범죄도시
27위: 핸썸
28위: 오싹한 동거
29위: 스파이형 모델
30위: 굿 럭 투 유, 리오 그랜드
31위: 극장판 주술회전 0
32위: 로스트 도터
33위: 섹스 앤 퓨리
34위: 탑건
35위: 군다
36위: 명량
37위: 버즈 라이트이어
38위: 큐어
39위: 니얼굴
40위: VR 파이터
41위: 리미트
42위: 특송
43위: 불릿 트레인
44위: 마녀
45위: 귀멸의 칼날: 아사쿠사 편
46위: 보스 베이비 2
47위: 감동주의보
48위: DC 리그 오브 슈퍼-펫
49위: 클라우스
50위: 극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021


In [65]:
# http://example.com/aaa 이렇게만 출력할 것
import re

html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""

bs = BeautifulSoup(html, 'html.parser')
li = bs.find_all(href = re.compile('^https://')) #여기서 ^는 시작의 의미

for e in li:
    print(e.attrs['href']) #맨끝에가 안나온 이유는 맨끝에 주소는 http임 그냥 

https://example.com/fuga
https://example.com/foo


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용


In [66]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1/'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
#select 하려면 선택자 뒤에 붙은 긴 것들을 지워야함 
lines = bs.select('body > div > main > section > div > div > ul > li > strong > a')

In [67]:
body = '\n'.join([line.text for line in lines])
print(body) #순서는 홈페이지에 보이는대로 안 나옴 

[시선집중] 김용태 "이준석, 피땀 갈아 대선 도왔는데.. 싫어했다는 소문 방증"
의원 40여명 집결 김기현의 새미래.."文정부, 말로만 인권"
최재형 "대선·지선 승리는 文정부 덕분..당 혁신해야 총선 승리"[만났습니다①]
[뉴스라이더] 尹 "내부 총질이나 하던 당 대표" 파장..이준석은 '침묵'
"감사원은 항상 외풍 있어..스스로 중립 지키는 게 중요"[만났습니다②]
최형두 "尹-권성동 문자? 억측 말라..이준석과는 원팀" [한판승부]
"윤핵관 끊임없는 소란 야기" 국민의힘 당원 게시판 부글부글
박용진 "내부총질 문자 尹, 이준석 떠도니 이제 속편한가?" [한판승부]
'내부총질 대표' 尹 메시지 일파만파..與 당권경쟁 부추길까
'거침없는' 한동훈, 실명 브리핑.."前 정부 때 '흘리기' 없었나"


In [68]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1/'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
line = bs.select_one('body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li:nth-child(1) > strong > a')
line.text

'[시선집중] 김용태 "이준석, 피땀 갈아 대선 도왔는데.. 싫어했다는 소문 방증"'

In [69]:
# 기사 본문 가져오기
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.v.daum.net/v/20220726165351116'
r = rq.get(url)
html = r.text
soup = BeautifulSoup(html, 'lxml')
lines = soup.select('#harmonyContainer > section')  #harmonyContainer > section
article = [line.text for line in lines]
article = ' '.join(article)

print(re.sub('\n{2,}','\n',article))


            교무실 ※ 기사와 직접 관계가 없습니다. [연합뉴스TV 화면 캡처]
           
(광주=연합뉴스) 박철홍 정회성 기자 = 모두가 잠든 늦은 밤, 검은 그림자 2명이 광주 대동고등학교에 나타났다.
4층까지 계단을 걸어 올라간 그림자들은 건물 외벽 난간을 위태롭게 타고 가며 건물 4층 교무실로 향해 다가갔다.
잠겨 있지 않은 교무실 외벽 창문에 다다르자 그들은 몸을 들이밀어 조용하고 신속하게 내부로 침입했다. 
이윽고 어둠 속에서 교무실 내 교사들의 노트북이 환한 불빛을 내고 하나씩 켜졌다. 
검은 그림자는 컴퓨터에 USB 저장장치를 꽂았고, 실행 버튼을 누르자 정체를 알 수 없는 프로그램이 교사들의 컴퓨터에 차례대로 심어지고, 곧바로 흔적을 감췄다.
다른 한 명은 교무실 입구에 서서 누가 오는지 망을 봤다. 
2명의 그림자는 사나흘 뒤 다시 교무실에 등장했다. 
이들은 이번에도 교사들의 노트북을 차례로 켜고 USB를 꽂았다. 
그러나 이번에는 프로그램이 설치되는 대신, 컴퓨터 안에 저장된 무수히 많은 화면 갈무리(캡처) 파일이 USB 안으로 옮겨졌다. 
광주 대동고등학교에서 지난 11~13일 치러진 2학년 1학기 기말고사에서 답안 유출 의혹이 제기돼 경찰이 수사를 진행하고 있다.
A군이 지구과학, 한국사, 수학 Ⅱ, 생명과학 등 4과목에서 만점을 받았다가, 이후 답안이 정정되면서 지구과학과 수학Ⅱ 각 100점, 한국사 93점, 생명과학 86점을 받았다.
A군은 기말고사 당시 4과목 시험지 모퉁이에 작은 글씨로 답을 적고, 시험시간 끝날 때마다 답안을 적은 부분을 찢어 쓰레기통에 버렸다.
같은 반 친구들은 A군의 이 같은 행동을 목격하고, 그가 버린 종이를 쓰레기통을 뒤져 다시 이어 붙였다.
이어 붙은 종이에는 정답과 일치한 답안이 선명하게 적혀있었다.
동급생들은 이 같은 사실을 부모에게 알렸고, 일부 학부모가 이를 광주시 교육청에 신고하면서 답안 유출 의혹이 수면 위로 드러나게 됐다.
            '비뚤어진 성적 욕심' 

In [70]:
#다른 방법 
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.v.daum.net/v/20220726165351116'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')
lines = bs.select_one('#harmonyContainer > section').text
line = re.sub('\n', ' ', lines)
line = re.sub('\s+', ' ', line)
print(line)


 교무실 ※ 기사와 직접 관계가 없습니다. [연합뉴스TV 화면 캡처] (광주=연합뉴스) 박철홍 정회성 기자 = 모두가 잠든 늦은 밤, 검은 그림자 2명이 광주 대동고등학교에 나타났다. 4층까지 계단을 걸어 올라간 그림자들은 건물 외벽 난간을 위태롭게 타고 가며 건물 4층 교무실로 향해 다가갔다. 잠겨 있지 않은 교무실 외벽 창문에 다다르자 그들은 몸을 들이밀어 조용하고 신속하게 내부로 침입했다. 이윽고 어둠 속에서 교무실 내 교사들의 노트북이 환한 불빛을 내고 하나씩 켜졌다. 검은 그림자는 컴퓨터에 USB 저장장치를 꽂았고, 실행 버튼을 누르자 정체를 알 수 없는 프로그램이 교사들의 컴퓨터에 차례대로 심어지고, 곧바로 흔적을 감췄다. 다른 한 명은 교무실 입구에 서서 누가 오는지 망을 봤다. 2명의 그림자는 사나흘 뒤 다시 교무실에 등장했다. 이들은 이번에도 교사들의 노트북을 차례로 켜고 USB를 꽂았다. 그러나 이번에는 프로그램이 설치되는 대신, 컴퓨터 안에 저장된 무수히 많은 화면 갈무리(캡처) 파일이 USB 안으로 옮겨졌다. 광주 대동고등학교에서 지난 11~13일 치러진 2학년 1학기 기말고사에서 답안 유출 의혹이 제기돼 경찰이 수사를 진행하고 있다. A군이 지구과학, 한국사, 수학 Ⅱ, 생명과학 등 4과목에서 만점을 받았다가, 이후 답안이 정정되면서 지구과학과 수학Ⅱ 각 100점, 한국사 93점, 생명과학 86점을 받았다. A군은 기말고사 당시 4과목 시험지 모퉁이에 작은 글씨로 답을 적고, 시험시간 끝날 때마다 답안을 적은 부분을 찢어 쓰레기통에 버렸다. 같은 반 친구들은 A군의 이 같은 행동을 목격하고, 그가 버린 종이를 쓰레기통을 뒤져 다시 이어 붙였다. 이어 붙은 종이에는 정답과 일치한 답안이 선명하게 적혀있었다. 동급생들은 이 같은 사실을 부모에게 알렸고, 일부 학부모가 이를 광주시 교육청에 신고하면서 답안 유출 의혹이 수면 위로 드러나게 됐다. '비뚤어진 성적 욕심' 악성코드 심어 시험문제 빼낸 고교생들(CG) ※ 기사와 직접 관계가 없습니다

#### 크롤링) 접속 차단되었을때 User-Agent지정(header)
--> 서버가 접근자를 봇으로 인지하고 정보를 주지 않고 차단할 경우, header에 자신의 정보를 직접 전송한다.(https://www.whatismybrowser.com/detect/what-is-my-user-agent/)
- 참고 자료 :https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=kiddwannabe&logNo=221185808375


In [71]:
from bs4 import BeautifulSoup
import requests
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102' 
req = requests.get(url)
bs = BeautifulSoup(req.content, 'html.parser')
print(bs)

# ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))
# 이런 오류가 뜬다고 ! 


ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))

#### text vs content
cf) https://blog.ch4n3.kr/515

In [21]:
#이미지 등의 미디어 파일을 다른 서버로부터 받고 싶을 때는 r.content를 사용해야 한다


from bs4 import BeautifulSoup
import requests

# headers 입력
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102'
req = requests.get(url, headers=headers) #header 설정
bs = BeautifulSoup(req.content, 'html.parser')
print(bs) 

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))

In [72]:
target = bs.select_one('#main_content > div > div._persist > div:nth-child(1) > div:nth-child(1) > div.cluster_body > ul > li:nth-child(1) > div.cluster_text > a')
print(target.text,'\n')
print(target,'\n')
print(target['class'],'\n')
print(target['href'])


AttributeError: 'NoneType' object has no attribute 'text'

In [23]:
target = bs.select('#main_content > div > div > div > div > div > ul > li > div > a') 
for element in target:
    print(element.text)
    print(element['href'])
    
 

In [22]:
#이미지 추출
import requests as rq

url = 'https://n.news.naver.com/mnews/article/629/0000162958?sid=102'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
req = requests.get(url,headers=headers)
bs = BeautifulSoup(req.content, 'html.parser') #content로 가져와 



target = bs.select_one('#img1') #id가 img1임 
print(target)
print('-'*100)
print(target['data-src'])

<img class="_LAZY_LOADING" data-src="https://imgnews.pstatic.net/image/629/2022/07/26/202229941658735740_20220726060102195.jpg?type=w647" id="img1">
</img>
----------------------------------------------------------------------------------------------------
https://imgnews.pstatic.net/image/629/2022/07/26/202229941658735740_20220726060102195.jpg?type=w647


In [75]:
# Q. url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100' 사이트에서 뉴스기사를 출력하세요.
# - 용도는 주요 키워드 분석을 위한 데이터 셋 만들기
# - 워드클라우드를 하기전단계 키워드를 뽑아서 데이터 셋 만들기 ! 

from konlpy.tag import Okt
from collections import Counter
from bs4 import BeautifulSoup
import requests

url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
rqs = requests.get(url,headers=headers).text
bs = BeautifulSoup(rqs,'lxml')
bs = bs.find_all('div',class_='cluster')
result = []
for i in bs:
    result.append(i.get_text())
bs = re.sub('[^가-힣]+',' ',str(result))

okok = Okt()
okok2 = okok.pos(bs)
okre = []
for i, j in okok2:
    if (j =='Noun')& (len(i)> 1 ):
        okre.append(i)

okreid = dict(Counter(okre).most_common())
okreid = sorted(okreid.items(), key=lambda x:x[1], reverse=True)
okreid



NameError: name 'headers' is not defined

#### 0726_2 과제
네이버 카테고리별 기사를 아래 카테고리 정의를 기준으로 크롤링한 후 불필요한 공백을 제거하고 한글만으로 된 데이터 프레임을 출력하세요.
- 카테고리 정의
    - 100 정치
        - (청와대[264] + 국회/정당[265] + 북한[268] + 국방/외교[267])

    - 101 경제
        - (금융[259] + 증권[258] + 산업/재계[261] + 글로벌 경제[262] + 부동산[260])

    - 103 생활/문화
        - (건강정보[241] + 여행/레저[237] + 공연/전시[242] + 날씨[248] + 생활문화 일반[245])

    - 105 IT/과학
        - (통신/뉴미디어[227] + IT 일반[230] + 컴퓨터[283] + 과학 일반[228])
        
- 1. 카테고리별 1000개, 총 4천개로 구성된 데이터프레임 생성
--> 이렇게 카테고리별로 1000개씩 뽑아야 각 주제별로 균등하게 동등한 수준에서 키워드를 뽑을 수 있는거지, 의도적으로 어떤 카테고리에 치우쳐서 뽑히지않고
2. 키워드 분석할 수 있게 말뭉치로 바꿔야함(키워드 분석할수있는 dataset으로 만들어주기)
- 데이터 프레임은 행별로 쭉 되어있으니까 다 합쳐줘야지 말뭉치로 바꿔줘야지 

3. 자주 나오지만 별 의미없는 애들은 불용어 처리를 해주는게 좋다 ex) 기자, ~신문 뭐이런거


#웹구조 파악 : sid1 = 100, sid2 = 264, page = 이 3개를 해야겠구나 
```
#정치(sid1)
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100
#경제(sid1)
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101   
#정치에서 국회/정당(sid2)
https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid1=100&sid2=265
#정치에서 국회/정당은 페이지수가 27까지 있네
https://news.naver.com/main/list.naver?mode=LS2D&sid2=265&sid1=100&mid=shm&date=20220726&page=27
```

In [None]:
#sid1은 고정시키고 sid2를 변수로 만들자 
url = 'https://news.naver.com/main/list.naver?mode=LS2D&sid2='+str(cat)+'&sid1=100&mid=shm&date=20220726&page='+str(i + 1)    

In [76]:
import pandas as pd
news_df = pd.DataFrame(columns = ['news', 'category'])
news_df

Unnamed: 0,news,category


#### 1. 정치 dataframe

In [79]:
from bs4 import BeautifulSoup
import requests


#main_content > div > ul > li > dl > dt > a
cats = [264, 265, 268, 267]

ind = 0 #행번호

for cat in cats:
    for i in range(15): #range안에는 페이지수, 넉넉하게 넣기 #여기는 15페이지까지 가겠네  
        url = 'https://news.naver.com/main/list.naver?mode=LS2D&sid2='+str(cat)+'&sid1=100&mid=shm&date=20220726&page='+str(i + 1)
        headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
        news = requests.get(url, headers = headers)
        bs = BeautifulSoup(news.text, 'html.parser')
        links = bs.select('#main_content > div > ul > li > dl > dt > a')
        
        newslinks = []
        for j, a in enumerate(links):
            newslink = a.get('href') #속성 'href'의 값 얻기 
            newslinks.append(newslink)
            newlinks = list(set(newslinks)) #중복 기사 제거
            
        for link in newlinks:
            res2 = requests.get(link, headers = headers).text
            bs2 = BeautifulSoup(res2, 'html.parser')
            news = bs2.find('div', id='dic_area').text
        
            news = re.sub('\n', '', news) #개행 공백으로
            news = re.sub('\t', '', news) #tab 공백으로
            news_df.loc[ind] = [news, cat]
            ind += 1
news_df = news_df[:1000]
news_df

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))

#### 2. 경제 데이터 프레임

In [None]:
cats = [259, 258, 261, 262, 260]

ind = 1000 #행번호

for cat in cats:
    for i in range(15): #range안에는 페이지수, 넉넉하게 넣기 #여기는 15페이지까지 가겠네  
        url = 'https://news.naver.com/main/list.naver?mode=LS2D&sid2='+str(cat)+'&sid1=101&mid=shm&date=20220726&page='+str(i + 1)
        headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
        news = requests.get(url, headers = headers)
        bs = BeautifulSoup(news.text, 'html.parser')
        links = bs.select('#main_content > div > ul > li > dl > dt > a')
        
        newslinks = []
        for j, a in enumerate(links):
            newslink = a.get('href') #속성 'href'의 값 얻기 
            newslinks.append(newslink)
            newlinks = list(set(newslinks)) #중복 기사 제거
            
        for link in newlinks:
            res2 = requests.get(link, headers = headers).text
            bs2 = BeautifulSoup(res2, 'html.parser')
            news = bs2.find('div', id='dic_area').text
        
            news = re.sub('\n', '', news) #개행 공백으로
            news = re.sub('\t', '', news) #tab 공백으로
            news_df.loc[ind] = [news, cat]
            ind += 1
news_df = news_df[:2000]
news_df

#### 3. 생활/문화 데이터 프레임

In [None]:
#왜 오류 뜨는지 여쭙기 오류 처리 그냥 하라해서 해줌 
from bs4 import BeautifulSoup
import requests

#1000개 안 되길래 카테고리 다 넣어줌 
cats = [241,239,240,237,238,376,242,243,244,248,245]

ind = 2000 #행번호

for cat in cats:
    for i in range(15): #range안에는 페이지수, 넉넉하게 넣기 #여기는 15페이지까지 가겠네  
        url = 'https://news.naver.com/main/list.naver?mode=LS2D&sid2='+str(cat)+'&sid1=103&mid=shm&date=20220726&page='+str(i + 1)
        headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
        news = requests.get(url, headers = headers)
        bs = BeautifulSoup(news.text, 'html.parser')
        links = bs.select('#main_content > div > ul > li > dl > dt > a')
        
        newslinks = []
        for j, a in enumerate(links):
            newslink = a.get('href') #속성 'href'의 값 얻기 
            newslinks.append(newslink)
            newlinks = list(set(newslinks)) #중복 기사 제거
            
        for link in newlinks:
            res2 = requests.get(link, headers = headers).text
            bs2 = BeautifulSoup(res2, 'html.parser')
            
            try:
                news = bs2.find('div', id='dic_area').text
            except Exception as e:
                continue
            news = re.sub('\n', '', news) #개행 공백으로
            news = re.sub('\t', '', news) #tab 공백으로
            news_df.loc[ind] = [news, cat]
            ind += 1
news_df = news_df[:3000]
news_df

#### 4. IT/과학 데이터 프레임

In [None]:
cats = [227, 230, 283, 228, 731, 226] #부족해서 채움 

ind = 3000 #행번호

for cat in cats:
    for i in range(15): #range안에는 페이지수, 넉넉하게 넣기 #여기는 15페이지까지 가겠네  
        url = 'https://news.naver.com/main/list.naver?mode=LS2D&sid2='+str(cat)+'&sid1=105&mid=shm&date=20220726&page='+str(i + 1)
        headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
        news = requests.get(url, headers = headers)
        bs = BeautifulSoup(news.text, 'html.parser')
        links = bs.select('#main_content > div > ul > li > dl > dt > a')
        
        newslinks = []
        for j, a in enumerate(links):
            newslink = a.get('href') #속성 'href'의 값 얻기 
            newslinks.append(newslink)
            newlinks = list(set(newslinks)) #중복 기사 제거
            
        for link in newlinks:
            res2 = requests.get(link, headers = headers).text
            bs2 = BeautifulSoup(res2, 'html.parser')
            try:
                news = bs2.find('div', id='dic_area').text
            except Exception as e:
                continue
            news = re.sub('\n', '', news) #개행 공백으로
            news = re.sub('\t', '', news) #tab 공백으로
            news_df.loc[ind] = [news, cat]
            ind += 1
news_df = news_df[:4000]
news_df

In [None]:
target = news_df['news'].values #배열
title_list = target.tolist() #리스트로 변환
text = ' '.join(title_list) #공백하나를 기준으로 각 요소들을 하나의 텍스트로 합치기
text

In [None]:
#영어랑 의미있는 숫자도 포함해보삼 ㅋㅋ 한글 영어 숫자니까 /d인 거 같기도 
#근데 단독으로 숫자는 의미가 없으니 글자랑 이어진.. ? 

#예술 카테고리는 형용사도 무시할 수 없다고하심 

import re 

text = re.sub('[^가-힣]+', ' ', text)

#형태소 분석을 해주는 패키지 konlpy
#Okt(Open Korean Text)는 트위터에서 만든 오픈소스 한국어 처리기

from konlpy.tag import Okt 

okt = Okt()
morph = okt.pos(text) #pos > 텍스트에서 단어와 품사를 뽑아줌 
noun_list = []

for word, tag in morph: #tag = Noun은 명사라는 것
    if (tag == 'Noun') & (len(word) > 1): #하나인거는 거의 조사여서 의미없으니까 2개이상부터
        noun_list.append(word)
#     print(morph)
print(noun_list)

In [None]:
from collections import Counter 
from matplotlib import rc
import matplotlib.pyplot as plt
import seaborn as sns

rc('font', family = 'Malgun Gothic') #한글 폰트 설정
plt.rcParams['axes.unicode_minus'] #마이너스 부호 출력 설정

count = Counter(noun_list) #두글자 이상이면서 명사인걸 count에 담음 
data = dict(count.most_common()) #많이 나오는걸 dict로 해서 data에 넣었고 

In [78]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt #생성한 워드클라우드 데이터를 시각화하여 그리기 위해 
wordcloud = WordCloud(font_path='../visualization/dataset/malgun.ttf', background_color='white', colormap='flare', width=2000, height=1500).generate_from_frequencies(data) 
# generate_from_frequencies 미리 정의된 단어의 빈도수 dict를 이용하여 워드 클라우드를 그림
plt.imshow(wordcloud) #이미지 표시
plt.axis('off') #축 지우기

ValueError: 'flare' is not a valid value for name; supported values are 'Accent', 'Accent_r', 'Blues', 'Blues_r', 'BrBG', 'BrBG_r', 'BuGn', 'BuGn_r', 'BuPu', 'BuPu_r', 'CMRmap', 'CMRmap_r', 'Dark2', 'Dark2_r', 'GnBu', 'GnBu_r', 'Greens', 'Greens_r', 'Greys', 'Greys_r', 'OrRd', 'OrRd_r', 'Oranges', 'Oranges_r', 'PRGn', 'PRGn_r', 'Paired', 'Paired_r', 'Pastel1', 'Pastel1_r', 'Pastel2', 'Pastel2_r', 'PiYG', 'PiYG_r', 'PuBu', 'PuBuGn', 'PuBuGn_r', 'PuBu_r', 'PuOr', 'PuOr_r', 'PuRd', 'PuRd_r', 'Purples', 'Purples_r', 'RdBu', 'RdBu_r', 'RdGy', 'RdGy_r', 'RdPu', 'RdPu_r', 'RdYlBu', 'RdYlBu_r', 'RdYlGn', 'RdYlGn_r', 'Reds', 'Reds_r', 'Set1', 'Set1_r', 'Set2', 'Set2_r', 'Set3', 'Set3_r', 'Spectral', 'Spectral_r', 'Wistia', 'Wistia_r', 'YlGn', 'YlGnBu', 'YlGnBu_r', 'YlGn_r', 'YlOrBr', 'YlOrBr_r', 'YlOrRd', 'YlOrRd_r', 'afmhot', 'afmhot_r', 'autumn', 'autumn_r', 'binary', 'binary_r', 'bone', 'bone_r', 'brg', 'brg_r', 'bwr', 'bwr_r', 'cividis', 'cividis_r', 'cool', 'cool_r', 'coolwarm', 'coolwarm_r', 'copper', 'copper_r', 'cubehelix', 'cubehelix_r', 'flag', 'flag_r', 'gist_earth', 'gist_earth_r', 'gist_gray', 'gist_gray_r', 'gist_heat', 'gist_heat_r', 'gist_ncar', 'gist_ncar_r', 'gist_rainbow', 'gist_rainbow_r', 'gist_stern', 'gist_stern_r', 'gist_yarg', 'gist_yarg_r', 'gnuplot', 'gnuplot2', 'gnuplot2_r', 'gnuplot_r', 'gray', 'gray_r', 'hot', 'hot_r', 'hsv', 'hsv_r', 'inferno', 'inferno_r', 'jet', 'jet_r', 'magma', 'magma_r', 'nipy_spectral', 'nipy_spectral_r', 'ocean', 'ocean_r', 'pink', 'pink_r', 'plasma', 'plasma_r', 'prism', 'prism_r', 'rainbow', 'rainbow_r', 'seismic', 'seismic_r', 'spring', 'spring_r', 'summer', 'summer_r', 'tab10', 'tab10_r', 'tab20', 'tab20_r', 'tab20b', 'tab20b_r', 'tab20c', 'tab20c_r', 'terrain', 'terrain_r', 'turbo', 'turbo_r', 'twilight', 'twilight_r', 'twilight_shifted', 'twilight_shifted_r', 'viridis', 'viridis_r', 'winter', 'winter_r'

In [81]:
# 메모 
# 상윤님 이번거 과제에서 stopwords 있음 -> 케이스에 맞게 쓰는거래
#stopwords 모꼬 

#빈도수는 막대로 하라고 하심 

#서연님 로그파일 만드셨음 

#전처리 과정도 해보고 #이번주까지 해서 이거 과제 폴더에 집어 넣으라고 하심 
#불용어도 생각해서 리스트로 해서 제거하고 하삼

### 0727수업 시작

In [31]:
html="""
<head>
    <title>crawler</title>
</head>
<body>
    <p class="a" align="center"> text1</p>
    <p class="b" align="center"> text2</p>
    <p class="c" align="center"> text3</p>
    <div>
        <img src="/source" width="300" height="200">
    </div>
</body>
</html>
"""


#### 자식, 부모, 형제
- 자식(children)은 항상 부모(parent)의 딱 한 단계 하위의 태그를 말하는 반면(부모 바로 밑), 후손(descendant)은 부모보다 아래기만 하면 어떤 레벨에 존재해도 상관 없습니다.

In [32]:
#children -> 자식 

from bs4 import BeautifulSoup

bs = BeautifulSoup(html, 'html.parser')
contents = bs.find('body')
contents.children #객체로 나옴  -> for문을 써야함

for child in contents.children:
    print(child)  #img는 자식은 아니지 자손이지, 근데 div가 자식이라 같이나온 것 



<p align="center" class="a"> text1</p>


<p align="center" class="b"> text2</p>


<p align="center" class="c"> text3</p>


<div>
<img height="200" src="/source" width="300"/>
</div>




In [33]:
#descendants -> 자손 

# body의 자손은 p, div, img
for d in contents.descendants:
    print(d) #자손이 별도로 또 나옴 



<p align="center" class="a"> text1</p>
 text1


<p align="center" class="b"> text2</p>
 text2


<p align="center" class="c"> text3</p>
 text3


<div>
<img height="200" src="/source" width="300"/>
</div>


<img height="200" src="/source" width="300"/>






In [34]:
#부모 (parent, parents)

img_tag = contents.find('img')
print(img_tag, '\n')
print(img_tag.parent, '\n') #바로 윗단계 부모 

#윗 단계 부모들 싹 다 ~! 
print(list(img_tag.parents)) #div(img 감싸는), div, html

<img height="200" src="/source" width="300"/> 

<div>
<img height="200" src="/source" width="300"/>
</div> 

[<div>
<img height="200" src="/source" width="300"/>
</div>, <body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>, 
<head>
<title>crawler</title>
</head>
<body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>

]


In [92]:
contents

<body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>

In [91]:
#태그 객체  -> .을 통해 접근하기
contents.div.img

<img height="200" src="/source" width="300"/>

In [94]:
p_tag = bs.find('p', class_ = 'b')
p_tag

<p align="center" class="b"> text2</p>

In [97]:
#find_previous_sibling(): 바로 이전 형제 노드를 검색
#find_previous_siblings() : 이전에 모든 형제 노드를 검색 
p_tag = bs.find('p', class_ = 'c')
print(p_tag.find_previous_sibling(), '\n')

print(p_tag.find_previous_siblings())

<p align="center" class="b"> text2</p> 

[<p align="center" class="b"> text2</p>, <p align="center" class="a"> text1</p>]


In [None]:
#find_next_sibling(): 바로 다음 형제 노드를 검색
#find_next_siblings() : 다음에 모든 형제 노드를 검색 

In [35]:
import urllib
from bs4 import BeautifulSoup

response = urllib.request.urlopen('http://naver.com')
byte_data = response.read()
html = byte_data.decode('utf-8')
bs = BeautifulSoup(html, 'html.parser')
print(bs.find_all('a', {'class': 'link_newsstand'}))

[<a class="link_newsstand" data-clk="title" href="http://newsstand.naver.com/" target="_blank">뉴스스탠드</a>]


In [36]:
nlists = bs.find_all('a', {'class': ['link_newsstand', 'btn_sort','btn_sort.sort_on'] }) #'class' key의 값 여러개일때 리스트 혹은 딕셔너리로 감싸주기
for n in nlists:
    print(n.get_text())

뉴스스탠드
구독한 언론사
전체언론사


In [103]:
hlists = bs.findAll({'h1', 'h2', 'h3', 'h4', 'h5', 'h6'}, limit = 5)

for h in hlists:
    print(h)
    print(h.get_text(), '\n')

<h1 class="logo_default">
<a class="logo_naver" data-clk="top.logo" href="/"><span class="blind">네이버</span></a>
</h1>

네이버
 

<h2 class="blind">뉴스스탠드</h2>
뉴스스탠드 

<h2 class="blind">주제별 캐스트</h2>
주제별 캐스트 

<h2 class="blind">Sign in</h2>
Sign in 

<h2 class="blind">타임스퀘어</h2>
타임스퀘어 



#### 과제0727_1 
코스피 지수, 등락폭 및 등락율을 출력하세요.

In [None]:
#sol) 
import requests
from bs4 import BeautifulSoup

# 네이버 금융 국내증시 메인 사이트 주소
url = 'https://finance.naver.com/sise/sise_index.naver?code=KOSPI'


In [108]:
from bs4 import BeautifulSoup

fp = open('books.html', encoding='utf-8')
bs = BeautifulSoup(fp, 'html.parser')
print(bs, '\n')
sel = lambda q: print(bs.select_one(q).string)
sel('#nu')  

<ul id="bible">
<li id="ge">Genesis</li>
<li id="ex">Exodus</li>
<li id="le">Leviticus</li>
<li id="nu">Numbers</li>
<li id="de">Deuteronomy</li>
</ul> 

Numbers


In [113]:
#9개의 Numbers를 출력하세요.
sel('#nu')
sel('li#nu')
sel('#bible > #nu')
sel('#bible #nu')
sel('ul li#nu')
sel('ul > li#nu')
sel('ul #nu')
sel('ul > #nu')
sel('li:nth-child(4) ')
sel('ul li:nth-child(4)')


Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers


#### 과제0727_2
네이버 뉴스 검색 사이트에서 검색 키워드와 총 필요한 뉴스기사 수를 입력하면 데이터 프레임 형태(컬럼은 title, url)로출력해 주는 크롤링 프로그램을 수행하세요.
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=
