# BeautifulSoup
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

# 

## BeautifulSoup 특징
- HTML과 XML 파일에서 데이터를 뽑아내기 위한 파이썬 라이브러릴
- HTML과 XML의 트리 구조를 탐색, 검색, 변경 가능
- 다양한 파서 (parser)를 선택하여 이용 가능

| **파서 (parser)** | **선언** | **장점** | **단점** |
| -- | -- | -- | -- |
| html.parser | ```BeautifulSoup(markup, 'html.parser')``` | 설치 필요 없음<br/> 적절한 속도 |  |
| lxml HTML parser | ```BeautifulSoup(markup, 'lxml')``` | 매우 빠름 | lxml 추가 설치 필요 |
| lxml XML parser | ```BeautifulSoup(markup, 'lxml-xml')``` <br/> ```BeautifulSoup(markup, 'xml')``` | 매우 빠름<br/> 유일한 xml parser | lxml 추가 설치 필요 |
| html5lib | ```BeautifulSoup(markup, 'html5lib')``` | 웹 브라우저와 같은 방식으로 파싱<br/> 유용한 HTML5 생성 | html5lib 추가 설치 필요 <br/>매우 느림 |

# 
# 
## HTML 파싱 (Parsing)
### ```BeautifulSoup(markup, 'html.parser')```

# 

### 웹 페이지 예제 생성

In [1]:
%%writefile example.html
<!DOCTYPE html>
<html>
    <head>
        <title>Page Title</title>
    </head>
    <body>
        <h1>Heading 1</h1>
        <p>Paragraph</p>
        <div>
            <a href="https://www.google.com">google</a>
        </div>
        
        <div class='class1'>
            <a href="https://www.naver.com">naver</a>
            <p>b</p>
            <p>c</p>
        </div>
        
        <div id="id1">
            Example page
            <p>g</p>
        </div>
    </body>
</html>

Writing example.html


In [3]:
from bs4 import BeautifulSoup
import urllib.request

In [4]:
with open('example.html') as fp:
    soup = BeautifulSoup(fp, 'html.parser')

In [5]:
soup
# soup.prettify() 

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="https://www.google.com">google</a>
</div>
<div class="class1">
<a href="https://www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
            Example page
            <p>g</p>
</div>
</body>
</html>

# 
# 
### HTML 태그 파싱

In [9]:
soup.title

<title>Page Title</title>

In [26]:
soup.title.name, soup.title.string

('title', 'Page Title')

In [27]:
soup.title.parent

(<head>
 <title>Page Title</title>
 </head>,
 'head')

In [15]:
soup.title.parent.name

'head'

In [16]:
soup.h1

<h1>Heading 1</h1>

In [28]:
soup.h1.name, soup.h1.string

('h1', 'Heading 1')

In [18]:
soup.div

<div>
<a href="https://www.google.com">google</a>
</div>

# 
### HTML 태그 검색
### ```.find(name, attrs, ...)``` : 해당 조건에 맞는 하나의 태그를 가져옴
- ```name``` : 조건
- ```attrs``` : 속성 값

In [31]:
soup_find = soup.find("div")
soup_find

<div>
<a href="https://www.google.com">google</a>
</div>

- **하이퍼 레퍼런스 값만 추출**

In [48]:
soup.find('a').get('href')

'https://www.google.com'

- **텍스트 값만 추출**

In [51]:
soup.find('a').get_text()

'google'

# 
### ```.find_all(name, attrs, ...)``` : 해당 조건에 맞는 모든 태그를 리스트 형태로 가져옴 

In [43]:
soup_find_all = soup.find_all('div')
soup_find_all, len(soup_find_all)

([<div>
  <a href="https://www.google.com">google</a>
  </div>,
  <div class="class1">
  <a href="https://www.naver.com">naver</a>
  <p>b</p>
  <p>c</p>
  </div>,
  <div id="id1">
              Example page
              <p>g</p>
  </div>],
 3)

- **id 기준으로 탐색**

In [44]:
find_by_id = soup.find_all(name='div', attrs={'id': 'id1'})

In [45]:
find_by_id

[<div id="id1">
             Example page
             <p>g</p>
 </div>]

- **class 기준으로 탐색**

In [46]:
find_by_class = soup.find_all(name='div', attrs={'class': 'class1'})

In [47]:
find_by_class

[<div class="class1">
 <a href="https://www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

# 

In [53]:
site_names = soup.find_all('a')

In [56]:
for name in site_names:
    print(name.get('href'))

https://www.google.com
https://www.naver.com


In [57]:
for name in site_names:
    print(name.get_text())

google
naver


# 
### ```.select()``` : CSS 선택자와 같은 형식, 조건에 맞는 모든 태그를 리스트 형태로 가져옴

In [60]:
id1 = soup.select('div#id1')
id1

[<div id="id1">
             Example page
             <p>g</p>
 </div>]

In [62]:
class1 = soup.select('div.class1')
class1

[<div class="class1">
 <a href="https://www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

- **특정 태그만 select**

In [64]:
class1_a = soup.select('div.class1 > a')
class1_a

[<a href="https://www.naver.com">naver</a>]

# 
# 
## 웹 페이지 콘텐츠 가져오기

In [79]:
%%writefile anthem.html
<!DOCTYPE html>
<html>
<head>
</head>
<body>
    <div>
        <p id="title">애국가</p>
        <p id="content">
            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br />
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
        </p>
        
        <p id="content">
            남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.<br />
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
        </p>
        
        <p id="content">
            가을하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br />
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
        </p>
        
        <p id="content">
            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br />
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
        </p>
    </div>
</body>
</html>

Overwriting anthem.html


In [80]:
from bs4 import BeautifulSoup
import urllib.request

In [86]:
with (open('anthem.html', encoding='utf-8')) as fp:
    soup = BeautifulSoup(fp, 'html.parser')

In [88]:
soup

<!DOCTYPE html>

<html>
<head>
</head>
<body>
<div>
<p id="title">애국가</p>
<p id="content">
            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br/>
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
            남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.<br/>
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
            가을하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br/>
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br/>
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
</div>
</body>
</html>

In [90]:
title = soup.find('p', {'id': 'title'})
contents = soup.find_all('p', {'id': 'content'})

In [91]:
title.get_text()

'애국가'

In [94]:
for content in contents:
    print(content.get_text())


            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


            남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


            가을하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.
            무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.



# 
# 
## 인터넷 웹 페이지 가져오기

In [97]:
url = "http://suanlab.com"
html = urllib.request.urlopen(url).read()

In [99]:
soup = BeautifulSoup(html, 'html.parser')

In [102]:
labels = soup.find_all(['label'])

In [105]:
for label in labels:
    print(label.get_text())

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


In [107]:
labels = soup.select('#wrapper > section > div > div > div > div > div > label')

for label in labels:
    print(label.get_text())

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


# 
# 
# 
## 네이버 영화 리뷰 스크래핑
https://movie.naver.com/movie/point/af/list.naver

In [140]:
from bs4 import BeautifulSoup
import urllib.request
from urllib.parse import quote
import pandas as pd

In [141]:
url = "https://movie.naver.com/movie/point/af/list.naver"
search_url = urllib.request.urlopen(url).read()

In [142]:
soup = BeautifulSoup(search_url, 'html.parser')

# 
#### 네이버 영화 개별 리뷰 url
https://movie.naver.com/movie/point/af/list.naver?st=mcode&sword=204624&target=after
- "mcode&sword="의 숫자만 변경하면 리뷰에 대한 스크래핑 가능

In [155]:
def get_movie_reviews(mcode, page_num=10):
    
    movie_review_df = pd.DataFrame(columns=('Title', 'Score', 'Review'))
    url = "https://movie.naver.com/movie/point/af/list.naver?st=mcode&sword=" + \
        str(mcode) + "&target=after"
    idx = 0
    
    for _ in range(0, page_num):
        movie_page = urllib.request.urlopen(url).read()
        movie_page_soup = BeautifulSoup(movie_page, 'html.parser')
        
        review_list = movie_page_soup.find_all('td', {'class': 'title'})
        for review in review_list:
            title = review.find('a', {'class': 'movie color_b'}).get_text()
            score = review.find('em').get_text()
            review_text = review.find_all("a")[1]['onclick']
            review_text = review_text.replace("report(", "").split("', '")[2]
            movie_review_df.loc[idx] = [title, score, review_text]
            
            idx += 1
            print('#', end="")
        
        # 리뷰의 마지막 페이지 (page_num = 10) 까지 스크래핑
        try:
            url = "https://movie.naver.com" + \
                movie_page_soup.find('a', {'class': 'pg_next'}).get('href')
            
        # 더이상 페이지가 없으면 종료
        except:
            break
            
    return movie_review_df

In [156]:
movie_review_df = get_movie_reviews(18847, 10)

####################################################################################################

In [158]:
movie_review_df.shape

(100, 3)

In [159]:
movie_review_df.head(3)

Unnamed: 0,Title,Score,Review
0,타이타닉,10,언제봐도 멋진 연화입니다
1,타이타닉,10,그냥 짱임 진짜 디카프리오 개잘생김
2,타이타닉,10,내가 봤던 영화중 가장 감동적임


# 
### 현재 상영작 리뷰 스크래핑

In [160]:
url = "https://movie.naver.com/movie/point/af/list.naver"

naver_movie = urllib.request.urlopen(url).read()
soup = BeautifulSoup(naver_movie, 'html.parser')
select = soup.find('select', {'id': 'current_movie'})
movies = select.find_all('option')

In [167]:
movies_dict = {}

for movie in movies[1:]:
    movies_dict[movie.get('value')] = movie.get_text()

In [171]:
movie_review_df = pd.DataFrame(columns=("Title", "Score", "Review"))

for mcode in movies_dict:
    df = get_movie_reviews(mcode, 1)
    movie_review_df = pd.concat([movie_review_df, df])

########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

In [173]:
movie_review_df.head(3)

Unnamed: 0,Title,Score,Review
0,극장판 엄마 까투리: 도시로 간 까투리 가족,9,흥미로운 스토리 좋은이야기
1,극장판 엄마 까투리: 도시로 간 까투리 가족,10,왜 어른인 내가 눙물이 나지 ㅠ ㅠ
2,극장판 엄마 까투리: 도시로 간 까투리 가족,10,스토리도 좋고 너무 좋았어요


In [174]:
movie_review_df.shape

(1109, 3)

# 
# 
## Naver 날씨

In [138]:
from bs4 import BeautifulSoup
import urllib.request

In [284]:
def scrape_weather():
    print("[오늘의 파주 목동동 날씨]")
    
    url = "https://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&query=%ED%8C%8C%EC%A3%BC+%EB%AA%A9%EB%8F%99%EB%8F%99%EB%82%A0%EC%94%A8&oquery=%ED%8C%8C%EC%A3%BC+%EC%9A%B4%EC%A0%95+%EB%82%A0%EC%94%A8&tqi=hxJrFlp0Yidss4C64plssssssEC-066605"
    weather_url = urllib.request.urlopen(url).read() 
    soup = BeautifulSoup(weather_url, 'html.parser')
    
    # 어제보다 2.6° 높아요  흐림 / 체감 25.3° 습도 78% 바람(서풍) 0.5m/s
    today = soup.find('div', attrs={'class': 'temperature_info'}).get_text().lstrip()
    print(today)
    
    # 최저 / 최고 온도
    min_temp = soup.find('span', attrs={'class': 'lowest'}).get_text()
    max_temp = soup.find('span', attrs={'class': 'highest'}).get_text()
    print(min_temp, max_temp)
    
    # 오전 / 오후 강수확률
    rainfall = soup.find_all('span', attrs={'class': 'weather_left'})
    morning = rainfall[0].get_text().lstrip()
    afternoon = rainfall[1].get_text().lstrip()
    print(morning, afternoon)
    
    # 미세먼지, 초미세먼지, 자외선, 일몰
    chart1 = soup.find_all('li', attrs={'class': 'item_today level2'})
    dust = chart1[0].get_text().lstrip()
    micro_dust = chart1[1].get_text().lstrip()
    
    chart2 = soup.find_all('li', attrs={'class': 'item_today level3'})
    ray = chart2[0].get_text().lstrip()
    
    sun = soup.find('li', attrs={'class': 'item_today type_sun'})
    type_sun = sun.get_text().lstrip()
    print(dust, micro_dust, ray, type_sun)

In [285]:
scrape_weather()

[오늘의 파주 목동동 날씨]
어제보다 2.4° 높아요  흐림   체감 25.0° 습도 77% 바람(서풍) 0.2m/s  
최저기온18° 최고기온27°
오전 10%  오후 20% 
미세먼지 좋음   초미세먼지 좋음   자외선 높음   일몰 18:47  


# 
# 
## Naver 헤드라인 뉴스

In [315]:
import pandas as pd

In [386]:
def scrape_headline():
    
    today_section_df = pd.DataFrame(columns=('Title', 'Link', "Media", "Datetime", "Article"))
    idx = 0
    
    print("[오늘의 헤드라인 뉴스]")
    
    url = "https://sports.news.naver.com/index"
    news_url = urllib.request.urlopen(url).read() 
    soup = BeautifulSoup(news_url, 'html.parser')
    
    today_section = soup.find('div', {'class': 'today_section type_no_da'}).\
        find('ul', {'class':'today_list'}).\
        find_all('li', {'class': 'today_item'})
    
    for i in range(0, len(today_section)-1):
        
        title = today_section[i].find('strong', {'class':'title'}).get_text()
        href = today_section[i].find('a', {'class':'link_today'}).get('href')
        
        url2 = "https://sports.news.naver.com" + href
        news_url2 = urllib.request.urlopen(url2).read() 
        soup2 = BeautifulSoup(news_url2, 'html.parser')
        
        media = soup2.find('span', {'id': 'pressLogo'}).find('a').get('href')
        datetime = soup2.find('div', {'class': 'info'}).find('span').get_text()
        article = soup2.find('div', {'id': 'newsEndContents'}).get_text()
        
        today_section_df.loc[idx] = [title, href, media, datetime, article]
        
        idx += 1
    
    return today_section_df

In [390]:
scrape_headline()

[오늘의 헤드라인 뉴스]


Unnamed: 0,Title,Link,Media,Datetime,Article
0,"""이강인과 무리키 교체? 그걸로 게임 끝났어! ""…마요르카 지역지 분노",/news?oid=413&aid=0000146364,http://www.interfootball.co.kr,기사입력 2022.09.12. 오후 01:41,\n마요르카가 레알 마드리드 원정에서 완패를 당했다. 팬들은 이강인과 베다트 무리키...
1,스페인 '도움 1위'가 '韓 대표팀' 못든다? …하루남은 이강인의 운명,/news?oid=008&aid=0004793554,http://www.mt.co.kr/,기사입력 2022.09.12. 오후 02:45,\n사진=이강인 인스타그램최근 상승세를 타던 이강인(마요르카)이 마침내 스페인 프리...
2,"'콘테가 틀렸다' 베르바인, 살라 제치고 리버풀 통합 베스트11",/news?oid=076&aid=0003914751,http://sports.chosun.com,기사입력 2022.09.12. 오후 12:28,\n[스포츠조선 김성원 기자]위기의 리버풀이다. 잉글랜드 프리미어리그(EPL)에선 ...
3,"""최악의 마무리"" LAD 출신 전설, ATL 가서도 애물단지됐다",/news?oid=108&aid=0003086298,http://star.moneytoday.co.kr,기사입력 2022.09.12. 오후 01:29,\n애틀랜타의 켄리 잰슨(오른쪽)이 12일(한국시간) 미국 워싱턴주 시애틀 T-모바...
4,오지환 부상에 끝난 1년 전 LG처럼…PS 앞두고 한 해 농사 끝날라,/news?oid=109&aid=0004697141,http://www.osen.co.kr,기사입력 2022.09.12. 오후 04:20,"\n [OSEN=고척, 조은정 기자] KT 박병호가 발목 부상을 입은 뒤 구급차에..."


# 
# 
## 해커스 영어 명언

In [421]:
def scrape_english():
    
    url = "https://www.hackers.co.kr/?c=s_eng/eng_contents/B_others_wisesay&keywd=haceng_maincenter_wisesay_190703&logger_kw=haceng_maincenter_wisesay_190703"    
    weather_url = urllib.request.urlopen(url).read() 
    soup = BeautifulSoup(weather_url, 'html.parser')
    text_en = soup.find('div', {'class': 'text_en'}).get_text()
    text_ko = soup.find('div', {'class': 'text_ko'}).get_text()
    print("[오늘의 영어 명언]")
    print(text_en)
    print("[해석보기]")
    print(text_ko)

In [422]:
scrape_english()

[오늘의 영어 명언]

We must use time as a tool, not as a crutch.
John F. Kennedy

[해석보기]

우리는 시간을 도구로 사용해야 하며, 시간에 의존해서는 안 된다.
존 F. 케네디

