# BeautifulSoup

In [2]:
from bs4 import BeautifulSoup

In [5]:
html = '''
<html>
<body>
<h1>스크래핑</h1>
<p>웹 페이지 분석</p>
<p>원하는 부분 추출</p>
</body>
</html>
'''

# html 문서 분석
soup = BeautifulSoup(html,'html.parser')  # (문서, '분석기 종류')

In [25]:
h1 = soup.body.h1
p1 = soup.body.p  # 가장 처음으로 만나는 p태그만 참조
p2 = p1.next_sibling.next_sibling  # p1 -> 엔터문자 -> 다음 형제태그

In [29]:
print(h1)  # 태그까지 같이 출력
print(h1.string)  # 태그 안의 문자열만 출력

<h1>스크래핑</h1>
스크래핑


# find() : 아이디를 이용하여 직접 접근

In [32]:
html = '''
<html>
<body>
<h1 id='title'>스크래핑</h1>
<p id='body'>웹 페이지 분석</p>
<p>원하는 부분 추출</p>
</body>
</html>
'''

# html 문서 분석
soup = BeautifulSoup(html,'html.parser')  # (문서, '분석기 종류')

In [37]:
title = soup.find(id ='title')
body = soup.find(id ='body')
print('title = ',title.string)
print('body = ',body.string)

title =  스크래핑
body =  웹 페이지 분석


# findall() 여러개의 태그를 한 번에 추출

In [38]:
html = '''
<html>
<body>
<ul>
<li><a href = 'http://www.naver.com'>naver</a></li>
<li><a href = 'http://www.daum.net'>daum</a></li>
</ul>
</body>
</html>
'''

# html 문서 분석
soup = BeautifulSoup(html,'html.parser')  # (문서, '분석기 종류')

In [49]:
links = soup.find_all('a')

for a in links:
#     if 'href' in a.attrs:
    href = a.attrs['href']
    text = a.string
    print(text, '->', href)
#     print(href)

naver -> http://www.naver.com
daum -> http://www.daum.net


# 기상예보에서 특정 내용 추출

In [52]:
import urllib.request as req

In [69]:
url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp'
res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')

title = soup.find('title').string
wf = soup.find('wf').string
wf
# 영문, 숫자, 특수문자 모두 제거(한글 제외)



'기압골의 영향으로 6일부터 8일 사이에 전국에 비 또는 눈이 오겠고, 제주도는 10~11일에도 비가 오겠습니다. <br />한편, 동풍의 영향으로 9일은 강원영동에 비 또는 눈이 오겠습니다. 그 밖의 날은 고기압의 가장자리에 들어 가끔 구름많겠습니다.<br />기온은 평년(최저기온: -12~0℃, 최고기온: 0~8℃)보다 높겠습니다.<br />강수량은 평년(0~3mm)보다 많겠습니다.'

# css 선택자 사용하기
선택자 : 개발자도구 -> 객체선택 -> copy selector
soup.select_one(선택자) : 선택자로 지정된 요소 하나를 추출
soup.select(선택자) : 선택자로 지정된 요소 여러개를 추출

In [114]:
html='''
<html>
    <body>
        <div id='myid'>
            <h1>2020년</h1>
            <ul class='day'>
                <li>월요일</li>
                <li>화요일</li>
                <li>수요일</li>
            </ul>
        </div>
        <div id='myid2'>
            <h1>2021년</h1>
            <ul class='day'>
                <li>목요일</li>
                <li>금요일</li>
                <li>토요일</li>
            </ul>
        </div>
    </body>
</html>
'''

soup = BeautifulSoup(html,'html.parser')
print(soup.select_one('h1'))  # h1 태그가 하나일 경우에는 문제없이 출력
print('')

# id를 지정해 줄 때는 #
print(soup.select_one('div#myid2 > h1').string)
# print(soup.select_one('div#myid2 h1'))

# class를 지정해 줄 때는 .
myList = soup.select('div#myid > ul.day > li')
myList2 = soup.select('div#myid2 > ul.day > li')
for i in myList:
    print(i.string)
print('')   
for i in myList2:
    print(i.string)

<h1>2020년</h1>

2021년
월요일
화요일
수요일

목요일
금요일
토요일


In [None]:
#quote-header-info > div.My\(6px\).Pos\(r\).smartphone_Mt\(6px\) > div > div > span.Trsdu\(0\.3s\).Fw\(b\).Fz\(36px\).Mb\(-4px\).D\(ib\)

In [161]:
import urllib.request as req
from bs4 import BeautifulSoup

url = 'https://finance.yahoo.com/quote/005930.KS?p=005930.KS&.tsrc=fin-srch'

res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')
samsung = soup.select_one('#quote-header-info > div > div > div > span') 
print(samsung.string)

KSE - KSE Delayed Price. Currency in KRW


In [155]:
soup = soup.select('#quote-header-info > div')[2]

In [158]:
soup.select_one('div > span').string

'55,400.00'

In [200]:
import urllib.request as req
from bs4 import BeautifulSoup

url = 'https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC'

res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')

res2 = soup.select('#mw-content-text > div > ul:nth-child(6) > li')
resList=[]

for i in res2:
    resList=i.get_text().split('\n')
resList

['하늘과 바람과 별과 시 (증보판)',
 '서시',
 '자화상',
 '소년',
 '눈 오는 지도',
 '돌아와 보는 밤',
 '병원',
 '새로운 길',
 '간판 없는 거리',
 '태초의 아침',
 '또 태초의 아침',
 '새벽이 올 때까지',
 '무서운 시간',
 '십자가',
 '바람이 불어',
 '슬픈 족속',
 '눈감고 간다',
 '또 다른 고향',
 '길',
 '별 헤는 밤']

In [192]:
import urllib.request as req
from bs4 import BeautifulSoup

url = 'https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC'

res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')

res2 = soup.select('#mw-content-text > div > ul:nth-child(6) > li a')
resList=[]

for i in res2:
    resList.append(i.string)
resList

['하늘과 바람과 별과 시',
 '증보판',
 '서시',
 '자화상',
 '소년',
 '눈 오는 지도',
 '돌아와 보는 밤',
 '병원',
 '새로운 길',
 '간판 없는 거리',
 '태초의 아침',
 '또 태초의 아침',
 '새벽이 올 때까지',
 '무서운 시간',
 '십자가',
 '바람이 불어',
 '슬픈 족속',
 '눈감고 간다',
 '또 다른 고향',
 '길',
 '별 헤는 밤']

In [196]:
import urllib.request as req
from bs4 import BeautifulSoup

url = 'https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC'

res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')

res2 = soup.select('#mw-content-text > div > ul:nth-child(6) > li > ul')
resList=[]

for i in res2:
    resList=i.get_text().split('\n')
resList

['서시',
 '자화상',
 '소년',
 '눈 오는 지도',
 '돌아와 보는 밤',
 '병원',
 '새로운 길',
 '간판 없는 거리',
 '태초의 아침',
 '또 태초의 아침',
 '새벽이 올 때까지',
 '무서운 시간',
 '십자가',
 '바람이 불어',
 '슬픈 족속',
 '눈감고 간다',
 '또 다른 고향',
 '길',
 '별 헤는 밤']

In [215]:
res = soup.select('#mw-content-text > div > ul > li > ul a')
resList=[]
for i in res:
    resList.append(i.string)
resList

['서시',
 '자화상',
 '소년',
 '눈 오는 지도',
 '돌아와 보는 밤',
 '병원',
 '새로운 길',
 '간판 없는 거리',
 '태초의 아침',
 '또 태초의 아침',
 '새벽이 올 때까지',
 '무서운 시간',
 '십자가',
 '바람이 불어',
 '슬픈 족속',
 '눈감고 간다',
 '또 다른 고향',
 '길',
 '별 헤는 밤']

# css 다양한 추출 방법

In [234]:
html = '''
<ul id='language'>
    <li id='bas'>Basic</li>
    <li id='cpp'>c++</li>
    <li id='ja'>Java</li>
    <li id='py'>Python</li>
    <li id='sp'>Spark</li>
</ul>
'''

In [258]:
sel = BeautifulSoup(html,'html.parser')

print(sel.select_one('#py').string)
myFunc = lambda arg:print(sel.select_one(arg).string)
myFunc('#py')
myFunc('li#py')
myFunc('ul > li#py')
myFunc('#language #py')  # id로 접근
myFunc('#language > #py')
myFunc('ul#language > li#py')
myFunc('ul#language li#py')
myFunc('li[id = "py"]')
myFunc('li:nth-of-type(4)')
print(sel.select('li')[3].string)
print(sel.find_all('li')[3].string)

Python
Python
Python
Python
Python
Python
Python
Python
Python
Python
Python
Python


In [281]:
with open('fru-veg.html','r',encoding='utf-8') as f:
    soup = BeautifulSoup(f,'html.parser')
    
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Title</title>
</head>
<body>
<div id="main-goods" role="page">
<h1>과일과 야채</h1>
<ul id="fr">
<li class="red green" data-lo="ko">사과</li>
<li class="purple" data-lo="us">포도</li>
<li class="yellow" data-lo="us">레몬</li>
<li class="yellow" data-lo="ko">오렌지</li>
</ul>
<ul id="ve">
<li class="white green" data-lo="ko">무</li>
<li class="red green" data-lo="us">파프리카</li>
<li class="black" data-lo="ko">가지</li>
<li class="black" data-lo="us">아보카도</li>
<li class="white" data-lo="cn">연근</li>
</ul>
</div>
</body>
</html>

In [311]:
# 아보카도 추출하기
print(soup.select_one('ul#ve li:nth-of-type(4)').string)
print(soup.select('ul#ve > li[data-lo=us]')[1].string)
print(soup.select('#ve > li')[3].string)
print(soup.select('#ve > li.black')[1].string)

# find 메서드
cond = {'data-lo':'us', 'class':'black'}
print(soup.find('li',cond).string)
print(soup.find(id='ve').find('li',cond).string)

아보카도
아보카도
아보카도
아보카도
아보카도
아보카도


In [318]:
# 정규표현식과 함께 데이터 추출
html = '''
<li><a href='test.html'>test</li>
<li><a href='https://test.html'>test2</li>
<li><a href='https://test.html'>test3</li>
<li><a href='http://test.html'>test4</li>
'''

In [322]:
import re
soup = BeautifulSoup(html,'html.parser')
li = soup.find_all(href=re.compile('https://'))
print(li)

[<a href="https://test.html">test2</a>, <a href="https://test.html">test3</a>]


In [344]:
# 1
class Point:
    def __init__(self,x,y):
        self.x = x
        self.y = y
    def setx(self,x):
        self.x = x
    def sety(self,y):
        self.y = y
    def get(self):
        return(self.x,self.y)
    def move(self,dx,dy):
        self.x += dx
        self.y += dy
        return(self.x,self.y)

In [345]:
# 2
p = Point(3,2)
print(p.get())
print(p.move(-3,-2))

(3, 2)
(0, 0)


In [341]:
# 3 
class Stock:
    market = 'kospi'
a = Stock()
b = Stock()

print(a.market)
print(b.market)

kospi
kospi


In [342]:
print(a.market)
print(b.market)
print(Stock.market)
a.market = "kosdaq"
b.market = "nasdaq"
print(a.market)
print(b.market)
print(Stock.market)

kospi
kospi
kospi
kosdaq
nasdaq
kospi


In [360]:
# 3 
with open('number.txt','w+') as f:
    for i in range(1,11):
        f.write('%d번째 줄입니다.\n' %i)

In [365]:
# 4
def find_file_list(path):
    import glob
    res = glob.glob('%s/*' %path)
    for i in res:
        print(i)
find_file_list('C:\\Users\student\Desktop\TIL\Deeplearning')

C:\Users\student\Desktop\TIL\Deeplearning\coffeeMachine 1227.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day1 1217.md
C:\Users\student\Desktop\TIL\Deeplearning\day1.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day10 0102.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day2 1218.md
C:\Users\student\Desktop\TIL\Deeplearning\day2.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day3 1219.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day3 1219.md
C:\Users\student\Desktop\TIL\Deeplearning\day4 1220.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day4 1220.md
C:\Users\student\Desktop\TIL\Deeplearning\day5 1224.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day5 1224.md
C:\Users\student\Desktop\TIL\Deeplearning\Day6 1226.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day6 1226.md
C:\Users\student\Desktop\TIL\Deeplearning\day7 1227.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day8 1230.ipynb
C:\Users\student\Desktop\TIL\Deeplearning\day9 1231.ipynb
C:\Users\student\Desktop\TIL\Dee

In [502]:
# 5
from bs4 import BeautifulSoup
import urllib.request as req
import re

url = 'https://ko.wikipedia.org/wiki/%EC%9C%A4%EB%8F%99%EC%A3%BC'
openurl = req.urlopen(url)
soup = BeautifulSoup(openurl,'html.parser')

li_res = soup.select_one('#mw-content-text > div > ul:nth-child(71) > li:nth-of-type(8)')
li_res
res=[]
text_res=[]
for i in range(1,9):
    res.append(soup.select_one('#mw-content-text > div > ul:nth-child(71) > li:nth-of-type(%d)'%i))

for i in res:
    text_res.append(i.get_text())

pat = re.compile('\d+년 \d+월 \d+일')
for i in text_res:
    print(i)

for i in range(len(text_res)):
    if re.search(pat,text_res[i]) != None:
        print(re.search(pat,text_res[i]).group())

KBS1 《마돈나여 광야에서 별을 노래하라》 제2부 〈하늘과 바람과 별과 시〉 - 영상시극, 1984년 12월 22일(방영시간 120분)[24]
KBS1 《영상기행3.1절 — 민족시인 尹東柱》, 1988년 3월 1일(방영시간 60분)[25]
NHK 《NHK스페셜》 〈하늘과 바람과 별과 詩, 尹東柱, 일본통치하의 청춘과 죽음〉, 1995년 3월 11일(방영시간 60분)[26]
EBS《지식채널e》하늘과 바람과 별과 시 1부: 별 (2006년 7월 31일 방영), 2부: 시 (2006년 8월 7일 방영)
KBS《해피선데이 - 1박 2일》백두산 탐방 특집 윤동주 생가 방문 (2008년 6~7월)
SBS《그것이 알고싶다》윤동주 그 죽음의 미스터리, 후쿠오카 형무소에선 무슨 일이 있었나 (2009년 8월 15일)
MBC《MBC스페셜》가을, 윤동주 생각 (2011년 11월 4일)
KBS1 《KBS공사창립특집》 불멸의 청년, 윤동주 (2016년 3월 6일)
1984년 12월 22일
1988년 3월 1일
1995년 3월 11일
2006년 7월 31일
2009년 8월 15일
2011년 11월 4일
2016년 3월 6일


In [497]:
# 6
url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp'
res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')

title = soup.find('title').string
wf = soup.find('wf').string
# print(wf)
res=re.findall('[^\d</.>()-~℃]+',wf)
for i in res:
    print(i, end='')

# 영문, 숫자, 특수문자 모두 제거(한글 제외)

기압골의 영향으로 일부터 일 사이에 전국에 비 또는 눈이 오겠고 제주도는 일에도 비가 오겠습니다  한편 동풍의 영향으로 일은 강원영동에 비 또는 눈이 오겠습니다 그 밖의 날은 고기압의 가장자리에 들어 가끔 구름많겠습니다 기온은 평년최저기온  최고기온 보다 높겠습니다 강수량은 평년보다 많겠습니다