In [6]:
from bs4 import BeautifulSoup

html = '''
<html><body>
<h1>스크래핑</h1>
<p>웹 페이지 분석</p>
<p>원하는 부분 추출</p>
</body></html>
'''

soup=BeautifulSoup(html,'html.parser') # BeautifulSoup 객체 생성
                                       # BeautifulSoup(분석 문서, 분석기 종류)
soup


<html><body>
<h1>스크래핑</h1>
<p>웹 페이지 분석</p>
<p>원하는 부분 추출</p>
</body></html>

In [7]:
# 원하는 태그 명으로 묶인 부분 추출
soup.body # .태그명

<body>
<h1>스크래핑</h1>
<p>웹 페이지 분석</p>
<p>원하는 부분 추출</p>
</body>

In [8]:
soup.body.p #가장 처음으로 만나는 p태그만 출력

<p>웹 페이지 분석</p>

In [15]:
# 형제 태그(동등한 위치에 있는 동일한 태그) 출력 방법
p1=soup.body.p
print(p1.next_sibling) # 한 번 쓰면 처음 태그 바로 뒤의 \n 출력
print(p1.next_sibling.next_sibling)



<p>원하는 부분 추출</p>


In [16]:
p1.string # 태그 없이 원하는 태그 내 문자열 출력

'웹 페이지 분석'

In [20]:
# find 함수 : 객체 명이 너무 길어지는 경우, id 이용해 직접 접근
#             id 없어도 가능
html = '''
<html><body>
<h1 id='title'>스크래핑</h1>
<p id='body'>웹 페이지 분석</p>
<p>원하는 부분 추출</p>
</body></html>
'''

soup=BeautifulSoup(html,'html.parser')
print(soup.find(id='title').string)
print(soup.find(id='body').string)

스크래핑
웹 페이지 분석


In [23]:
# find_all() : 여러개의 태그를 한 번에 추출
html='''
<html><body>
<ul>
<li><a href="http://www.naver.com">naver</a></li>
<li><a href="http://www.daum.net">daum</a></li> 
</ul>
</body></html>
'''
# ul/ol 태그 : 순서가 없는/있는 리스트
# a 태그 : 태그로 묶인 내용을 클릭하면 해당 태그의 웹페이지로 연결
# href : 속성

In [31]:
soup=BeautifulSoup(html,'html.parser')
links=soup.find_all('a')

for a in links:
    # if 'href' in a.attrs: : 원하는 속성 값이 있는지 확인코자 할 때
    href=a.attrs['href'] # .attrs : 원하는 속성값 추출
    text=a.string
    print(text,'->',href)

naver -> http://www.naver.com
daum -> http://www.daum.net


In [32]:
soup


<html><body>
<ul>
<li><a href="http://www.naver.com">naver</a></li>
<li><a href="http://www.daum.net">daum</a></li>
</ul>
</body></html>

In [41]:
# 기상예보 데이터에서 특정 내용 추출
import urllib.request as req

url='http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp'
res=req.urlopen(url)
soup=BeautifulSoup(res, 'html.parser') # url 내용을 읽어오기 위해서는 BS 객체로 
                                       # 만들어줘야 함
title=soup.find('title').string
wf=soup.find('wf').string
print(title)
print(wf)

기상청 육상 중기예보
기압골의 영향으로 6일부터 8일 사이에 전국에 비 또는 눈이 오겠고, 제주도는 10~11일에도 비가 오겠습니다. <br />한편, 동풍의 영향으로 9일은 강원영동에 비 또는 눈이 오겠습니다. 그 밖의 날은 고기압의 가장자리에 들어 가끔 구름많겠습니다.<br />기온은 평년(최저기온: -12~0℃, 최고기온: 0~8℃)보다 높겠습니다.<br />강수량은 평년(0~3mm)보다 많겠습니다.


In [60]:
# css 선택자 사용하기
# soup.select_one(선택자) : 선택자로 지정된 요소 하나를 추출
# soup.select_one(선택자) : 선택자로 지정된 요소 여러 개를추출
html='''
<html><body>
<div id="myid">
<ul class='day'>
<h1>2020년</h1>
<li>월요일</li>
<li>화요일</li>
<li>수요일</li>
</ul>
</div>
</body></html>
'''

soup=BeautifulSoup(html,'html.parser')
soup.select_one('div#myid h1').string # find와 문법이 다르다는 점에 주의
                                      # 동일한 태그가 없으면 h1만 써도 됨

'2020년'

In [65]:
soup.select_one('div#myid ul.day') # 아이디는 #뒤에, 클래스는 .뒤에 써줌

<ul class="day">
<h1>2020년</h1>
<li>월요일</li>
<li>화요일</li>
<li>수요일</li>
</ul>

In [155]:
url='https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC'
res=req.urlopen(url)
soup=BeautifulSoup(res,'html.parser')

addr='#mw-content-text > div > ul > li ul li' # '>' : 한 ul 내 li / ' ' : 모든 ul 내 li
arti=soup.select(addr)
for a in arti:
    print(a.string)

서시
자화상
소년
눈 오는 지도
돌아와 보는 밤
병원
새로운 길
간판 없는 거리
태초의 아침
또 태초의 아침
새벽이 올 때까지
무서운 시간
십자가
바람이 불어
슬픈 족속
눈감고 간다
또 다른 고향
길
별 헤는 밤


In [165]:
# 다양한 추출 방법
html='''
<ul id='language'>
    <li id='bas'>Basic</li>
    <li id='cpp'>C++</li>
    <li id='ja'>Java</li>
    <li id='py'>Python</li>
    <li id='sp'>Spark</li>
</ul>
'''
sel=BeautifulSoup(html,'html.parser')

sel.select_one('#py').string

'Python'

In [181]:
myFunc=lambda arg:print(sel.select_one(arg).string)
myFunc('#py')
myFunc('li#py')
myFunc('ul li#py')
myFunc('#language #py')
myFunc('ul#language li#py')
myFunc('li[id=py]')
myFunc('li:nth-of-type(4)') # 브라우저별로 안되는 경우가 있어서 비추

Python
Python
Python
Python
Python
Python
Python


In [184]:
sel.select('li')[3].string

'Python'

In [187]:
sel.find_all('li')[3].string

'Python'

In [223]:
fp=open('fru-veg.html',encoding='utf-8')
soup=BeautifulSoup(fp,'html.parser')

# select 활용
print(soup.select_one('#ve li:nth-of-type(4)').string)
print(soup.select('ul li[data-lo=us]')[3].string)
print(soup.select('ul li.black')[0].string)

# find 활용
cond={'data-lo':'us','class':'black'} # 조건을 딕셔너리로 만들어 적용 가능
print(soup.find('li',cond).string)
print(soup.find(id='ve').find('li',cond).string)

아보카도
아보카도
아보카도
아보카도
아보카도


In [227]:
# 정규식 표현과 함께 사용
import re

html='''
<li><a href='test.html'>test</li>
<li><a href='https://test.html'>test2</li>
<li><a href='https://test.html'>test3</li>
<li><a href='http://test.html'>test4</li>
'''

soup=BeautifulSoup(html,'html.parser')
soup.find_all(href=re.compile("https://"))

[<a href="https://test.html">test2</a>, <a href="https://test.html">test3</a>]

In [233]:
# 1. 다음의 조건을 만족하는 Point라는 클래스를 작성하세요.
# Point 클래스는 생성자(__init__)를 통해 (x, y) 좌표를 입력받는다.
# setx(x), sety(y) 메서드를 통해 x 좌표와 y 좌표를 따로 입력받을 수도 있다.
# get() 메서드를 호출하면 튜플로 구성된 (x, y) 좌표를 반환한다.
# move(dx, dy) 메서드는 현재 좌표를 dx, dy만큼 이동시킨다.

class Point:
    def __init__(self):
        self.x=0
        self.y=0
    def setx(self, a):
        self.x=a
    def sety(self, b):
        self.y=b
    def move(self, dx, dy):
        self.x+=dx
        self.y+=dy
    def get(self):
        return self.x, self.y

In [235]:
# 2. Point 클래스에 대한 인스턴스를 생성한 후 4개의 메서드를 사용하는 코드를 작성

posi=Point()
posi.setx(3)
posi.sety(-5)
posi.move(2,3)
posi.get()

(5, -2)

In [239]:
# 3. 1부터 10까지의 숫자를 각 라인 단위로 파일에 출력하는 프로그램을 작성
# 생성되는 파일의 이름은 number.txt

with open('number.txt','w') as f1:
    for i in range(1,11):
        f1.write(str(i)+'\n')

In [247]:
# 4. 경로를 입력받은 후 해당 경로에 있는 디렉터리와 파일 목록을 flist.txt라는
# 파일로 출력하는 함수를 작성

import glob

path=input()
with open('flist.txt','w') as f2:
    files=glob.glob(path+'\*')
    for i in files:
        f2.write(i+'\n')

C:/Users\student\Desktop\TIL_new\Python 기초


In [373]:
# 5. 윤동주 시인 방송 출연 년월일 추출(화요일 수업내용 중)

# 미완성 코드 : 1박 2일에서 2일도 같이 출력되어버림
# from urllib import request as req
# from bs4 import BeautifulSoup

# url='https://ko.wikipedia.org/wiki/%EC%9C%A4%EB%8F%99%EC%A3%BC#%EB%B0%A9%EC%86%A1'
# temp=req.urlopen(url)
# soup=BeautifulSoup(temp,'html.parser')
# selector='#mw-content-text > div > ul:nth-child(71) li'
# whole=soup.select(selector)

# res=[]
# for i in whole:
#     j=str(i)
#     pat1=re.search('\d+년',j).group()
#     pat2=re.search('\d+월',j).group()
#     pat3=re.search('\d+일',j).group()
#     res.append(str(pat1)+' '+str(pat2)+' '+str(pat3))
# res

In [372]:
# 5. 윤동주 시인 방송 출연 년월일 추출(화요일 수업내용 중)

from urllib import request as req
from bs4 import BeautifulSoup

url='https://ko.wikipedia.org/wiki/%EC%9C%A4%EB%8F%99%EC%A3%BC#%EB%B0%A9%EC%86%A1'
temp=req.urlopen(url)
soup=BeautifulSoup(temp,'html.parser')
selector='#mw-content-text > div > ul:nth-child(71) > li'
whole=soup.select(selector)

text=[]
for i in whole:
    text.append(i.get_text()) # 텍스트 정보만 text에 출력

res=[]
for j in text:
    pat=re.search('\d+년 \d+월 \d+일',j)
    if pat!=None:
        res.append(str(pat.group()))
res    

['1984년 12월 22일',
 '1988년 3월 1일',
 '1995년 3월 11일',
 '2006년 7월 31일',
 '2009년 8월 15일',
 '2011년 11월 4일',
 '2016년 3월 6일']

In [344]:
# 6. 영문, 숫자 포함하여 특수문자 모두 제거(오늘 수업내용 중)

url='http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp'
res=req.urlopen(url)
soup=BeautifulSoup(res, 'html.parser')
text=soup.select(selector)

#wf태그값 추출
wf_tag=soup.find('wf').string
print(wf_tag)

pat=re.compile('[가-힣\s]+')
res=pat.findall(str(wf_tag))
only_ko=''
for i in res:
    only_ko+=i
only_ko

기압골의 영향으로 6일부터 8일 사이에 전국에 비 또는 눈이 오겠고, 제주도는 10~11일에도 비가 오겠습니다. <br />한편, 동풍의 영향으로 9일은 강원영동에 비 또는 눈이 오겠습니다. 그 밖의 날은 고기압의 가장자리에 들어 가끔 구름많겠습니다.<br />기온은 평년(최저기온: -12~0℃, 최고기온: 0~8℃)보다 높겠습니다.<br />강수량은 평년(0~3mm)보다 많겠습니다.


'기압골의 영향으로 일부터 일 사이에 전국에 비 또는 눈이 오겠고 제주도는 일에도 비가 오겠습니다  한편 동풍의 영향으로 일은 강원영동에 비 또는 눈이 오겠습니다 그 밖의 날은 고기압의 가장자리에 들어 가끔 구름많겠습니다 기온은 평년최저기온  최고기온 보다 높겠습니다 강수량은 평년보다 많겠습니다'