# 01. webbrowser 활용

In [1]:
# python 내장모듈(webbrowser)
import webbrowser

url = 'www.naver.com'
webbrowser.open(url)

True

In [2]:
naver_search_url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query='
search_word = '빅데이터'

url = naver_search_url + search_word

webbrowser.open(url)

True

### 여러 개의 웹사이트 접속

In [3]:
import webbrowser
urls = ['www.naver.com','www.google.com','www.daum.net']

for url in urls:
    webbrowser.open(url)

### 여러 단어를 동시에 검색

In [4]:
gg_url = 'https://www.google.com/search?q='
words = ['python web scraping', 'python webbrowser']

for word in words:
    webbrowser.open_new(gg_url + word)

# 02. Web Scraping을 위한 기본지식

In [5]:
%%writefile ./\HTML_example.html
<!doctype html>
<html>
 <head>
  <meta charset="utf-8">
  <title>이것은 HTML 예제</title>
 </head>
 <body>
  <h1>출간된 책 정보</h1>
  <p id="book_title">이해가 쏙쏙 되는 파이썬</p>
  <p id="author">홍길동</p>
  <p id="publisher">영식북스 출판사</p>
  <p id="year">2022</p>
 </body>
</html>

Overwriting ./\HTML_example.html


# 03. Web page의 HTML source 코드 가져오기

파이썬 내장 패키지는 urllib가 존재하지만 불편함

그 대신 `requests` 라이브러리를 활용함

In [6]:
import requests

r = requests.get('https://www.google.com/')
r

<Response [200]>

In [7]:
r.text[:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

### HTML source 코드를 분석하고 처리하기

HTML 소스코드를 가져온 후 HTML 코드를 분석해 원하는 데이터를 추출하는 방법을 알아보자

HTML 코드를 분석하기 위해서는 HTML 코드 구문을 이해하고 요소별로 HTML 코드를 분류해야 한다

위와 같은 작업을 `Parsing` 이라 한다.

Parsing을 위해서는 `Beautiful Soup` 라이브러리를 사용하면 파싱을 좀 더 손쉽게 할 수 있다. 

In [8]:
# parsing(파싱) : HTML 코드를 우리가 알아볼 수 있게 해석해 주는 것

from bs4 import BeautifulSoup

html = """<html><body><div><span>\
        <a href=http://www.naver.com>naver</a>\
        <a href=https://www.google.com>google</a>\
        <a href=http://www.daum.net/>daum</a>\
        </span></div></body></html>""" 

# bs4을 활용하여 html 소스를 파싱
soup = BeautifulSoup(html,'lxml')  # declare(선언) 또는 assignment(할당)
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="https://www.google.com">google</a> <a href="http://www.daum.net/">daum</a> </span></div></body></html>

In [9]:
# 조금 더 보기 편하게 HTML 구조 변경
# prettify()

print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


##### `< >` 를 Tag(태그) 라고 표현함

In [10]:
# a 태그의 요소들만 추출
soup.find('a') # 1개의 요소만 추출할 때

<a href="http://www.naver.com">naver</a>

In [11]:
# 2개 이상의 a 태그를 추출
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net/">daum</a>]

In [12]:
soup.find('a').get_text()

'naver'

In [13]:
# find_all의 text를 for 문을 통해 추출
site_names = soup.find_all('a')

for st_name in site_names:
    print(st_name.get_text())

naver
google
daum


# 04. 국내 웹 사이트 순위 - Scraping

In [14]:
import requests as req
from bs4 import BeautifulSoup

In [15]:
url = 'https://tbever.com/%EA%B5%AD%EB%82%B4-%EC%9B%B9%EC%82%AC%EC%9D%B4%ED%8A%B8-%EB%9E%AD%ED%82%B9-top50/'
webbrowser.open(url)

True

In [16]:
req.get(url) # response 200 : 접속 정상

<Response [200]>

In [17]:
# 해당 사이트에서 text를 추출
html_web_rank = req.get(url).text

In [18]:
# Parsing
soup_web_rank = BeautifulSoup(html_web_rank, 'lxml')
soup_web_rank

<!DOCTYPE html>
<html lang="ko-KR" xmlns:addthis="https://www.addthis.com/help/api-spec" xmlns:fb="https://www.facebook.com/2008/fbml">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="https://tbever.com/xmlrpc.php" rel="pingback"/>
<!--[if lt IE 9]>
		<script src="https://tbever.com/wp-content/themes/wpex-magtastico/js/html5.js"></script>
	<![endif]-->
<meta content="index, follow, max-image-preview:large, max-snippet:-1, max-video-preview:-1" name="robots"/>
<!-- Mangboard SEO Start -->
<link href="https://tbever.com/%ea%b5%ad%eb%82%b4-%ec%9b%b9%ec%82%ac%ec%9d%b4%ed%8a%b8-%eb%9e%ad%ed%82%b9-top50/" rel="canonical"/>
<meta content="https://tbever.com/%EA%B5%AD%EB%82%B4-%EC%9B%B9%EC%82%AC%EC%9D%B4%ED%8A%B8-%EB%9E%AD%ED%82%B9-top50/" property="og:url"/>
<meta content="article" property="og:type"/>
<meta content="국내 웹사이트 랭킹 TOP50(접속자 기준) - 완전최고 TBE" property="og:title"/>
<meta content="국내 웹사이트 랭킹 TOP50(접속자 기준) - 완전최고 TBE" na

In [19]:
# a 태그를 가져오기

# soup_web_rank.find_all('a')

web_rank = soup_web_rank.select('p span a')
web_rank

[<a class="broken_link" href="https://www.similarweb.com/" rel="noopener noreferrer" style="color: #0000ff" target="_blank">Similar Web</a>,
 <a href="https://naver.com" rel="noopener noreferrer" target="_blank">https://naver.com</a>,
 <a href="https://google.com" rel="noopener noreferrer" target="_blank">https://google.com</a>,
 <a href="https://youtube.com" rel="noopener noreferrer" target="_blank">https://youtube.com</a>,
 <a href="https://daum.net" rel="noopener noreferrer" target="_blank">https://daum.net</a>,
 <a href="https://facebook.com" rel="noopener noreferrer" target="_blank">https://facebook.com</a>,
 <a href="https://news.naver.com" rel="noopener noreferrer" target="_blank">https://news.naver.com</a>,
 <a href="https://dcinside.com" rel="noopener noreferrer" target="_blank">https://dcinside.com</a>,
 <a href="https://google.co.kr" rel="noopener noreferrer" target="_blank">https://google.co.kr</a>,
 <a href="https://twitter.com" rel="noopener noreferrer" target="_blank">ht

In [20]:
web_rank[3].get_text()

'https://youtube.com'

In [21]:
# for 문을 활용한 사이트 가져오기

result = []
for wb_rk in web_rank:
    result.append(wb_rk.get_text())

In [22]:
result

['Similar Web',
 'https://naver.com',
 'https://google.com',
 'https://youtube.com',
 'https://daum.net',
 'https://facebook.com',
 'https://news.naver.com',
 'https://dcinside.com',
 'https://google.co.kr',
 'https://twitter.com',
 'https://shopping.naver.com',
 'https://map.naver.com',
 'https://tistory.com',
 'https://www.coupang.com',
 'https://www.kakaocorp.com',
 'https://ruliweb.com',
 'https://www.instagram.com',
 'https://namu.wiki',
 'https://www.nate.com',
 'https://www.fmkorea.com',
 'http://ppomppu.co.kr',
 'https://www.donga.com',
 'http://auction.co.kr',
 'https://www.11st.co.kr',
 'https://www.gmarket.co.kr',
 'http://info.edunet.net',
 'http://afreecatv.com',
 'http://ebssw.kr',
 'http://www.inven.co.kr',
 'https://finance.naver.com',
 'https://theqoo.net',
 'https://www.clien.net',
 'http://etoland.co.kr',
 'https://sports.news.naver.com',
 'http://www.chosun.com',
 'https://www.ilbe.com',
 'https://news.nate.com',
 'http://danawa.com',
 'https://www.tmon.co.kr',
 'ht

In [24]:
index_n = []
for i in range(1,len(result[1:-1])+1):
    index_n.append(f'{i}위')

In [25]:
import pandas as pd
result_df = pd.DataFrame(result[1:-1], columns=['web_site'], index = index_n)
result_df

Unnamed: 0,web_site
1위,https://naver.com
2위,https://google.com
3위,https://youtube.com
4위,https://daum.net
5위,https://facebook.com
6위,https://news.naver.com
7위,https://dcinside.com
8위,https://google.co.kr
9위,https://twitter.com
10위,https://shopping.naver.com


In [26]:
# result_df.to_csv('./data/result_web_rank.csv')