# 網路爬蟲基本流程 : 

- ## 1.連線到特定網址, 抓取資料

    - 關鍵心法 : 盡可能的, 讓程式模仿一個普通使用者的樣子

- ## 2.解析資料, 取得實際想要的部分
    - ex1 : HTML 格式資料 - 網路上大部分的格式資料 : HTML的格式已標籤為運作單位, 有階層結構(ex : 外層, 內層, 更內層...)<br>
    - EX : 標籤 : 
        - <> html : 最外部
        - <> head : 網頁標題
        - <> body : 與head相鄰標籤
        - <> title : 網頁標題
        - <> div : div 標籤的屬性(class = "list")
    
    - ex2 : JSON 格式資料 - 使用內建的JSON模組即可

- ### HTML 格式資料 範例 : 

<html>
    <head>
        <title>HTML格式</title>
    <head>
    <body>
        <div class = "list">
            <span>階層結構</span>
            <span>樹狀結構</span>
        </div>
    </body>
<html>

### 如果我們今天用Python抓到的資料是HTML格式 : 可用第三方套件BeautifulSoup做資料解析 : 

- ### 1.安裝套件 pip install beautifulsoup4 : 

- ### 2.練習 : 抓取PTT NBA版原始碼(HTML)

import urliib.request as req # 網路連線Package

In [3]:
# 抓取PTT NBA版原始碼(HTML)

import urllib.request as req # 同網路連線
url = "https://www.ptt.cc/bbs/NBA/index.html"
with req.urlopen(url) as response: 
    data = response.read().decode("utf-8")
print(data)
# 解析原始碼, 取得每篇文章的標提

HTTPError: HTTP Error 403: Forbidden

### Q : 為何以上網頁被禁止爬蟲? 

### A : 因為基本上個網站都不希望被別人爬蟲, 因此會設下某些屏障阻擋 

### Solution : 用其他方法爬蟲 



### 1.使用urllib網路連線抓取資料 :

- 喬裝成使用者進入網頁 : 
    - 在瀏覽器要抓資料的頁面 -> 進入Google Chrome -> 右上"..."-> 更多工具 -> "" 開發人員工具 -> Network -> 重新整理 ->(All)最上面的 index.html -> Headers(一般使用者在瀏覽網頁時所發送的訊息) -> 下滑找到 "user-agent"
    - 

In [9]:
import urllib.request as req # 同網路連線
url = "https://www.ptt.cc/man/NBA/DB8F/index.html"

# 使自己看起來像是個人類使用者 so we ahve to do : 建立一個 Request 物件, 附加 Request Headers的資訊
request = req.Request(url, headers={
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"
})
with req.urlopen(request) as response: # (url) 轉-> (request) 
    data = response.read().decode("utf-8")
print(data)

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		

<meta name="viewport" content="width=device-width, initial-scale=1">

<title>精華區 NBA 文章列表 - 批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-common.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-custom.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print">




	</head>
    <body>
		
<div id="topbar-container">
	<div id="topbar" class="bbs-content">
		<a id="logo" href="/bbs/">批踢踢實業坊</a>
		<span>&rsaquo;</span>
		<a class="board" href="/man/NBA/index.html"><span class="board-label">精華區<sup>beta</sup> </span>NBA</a>
		<a class="right small" href="/about.html">關於我們</a>
		<a class="right small" href="/con

### 2. 抓到資料後做資料解析 : 安裝beautifulsoup4

In [50]:
# 解析原始碼, 取得每篇文章的標提 

import bs4
root = bs4.BeautifulSoup(data, "html.parser" )
#print(root.title)
#print(root.title.string)
#print(root.body)


# 找到其中一個標題 : root.find
titles = root.find("div","/script") # 尋找 class = "title" 的標籤
print(titles)
#print(titles.a.string)

None


In [28]:
# 找到所有標題 : root.find_all
titles_all = root.find_all("div",class_="title")
#print(titles_all)
#print(titles_all.a.string)

# 用 for迴圈抓出所有值

for i in titles_all :  
    if i.a != None: # 因為有些<>標籤中是沒有a.的, 因此設一個條件句 : 印出<>標籤有a的值  (if i.a(迴圈a) !=(不等於空))
        print(i.a.string)

◆ Atlanta Hawks                    亞特蘭大鷹
◆ Boston Celtics               波士頓塞亞提克
◆ Charlotte Bobcats                夏洛特山貓
◆ Chicago Bulls                    芝加哥公牛
◆ Cleveland Cavs                 克里夫蘭騎士
◆ Dallas Mavericks                 達拉斯小牛
◆ Denver Nuggets                     丹佛金塊
◆ Detroit Pistons                  底特律活塞
◆ Golden State Warriors              金州勇士
◆ Houston Rockets                  休士頓火箭
◆ Indidna Pacers                 印第安那溜馬
◆ LA Clippers                      洛杉磯快艇
◆ LA Lakers                        洛杉磯湖人
◆ Memphis Grizzlies                曼菲斯灰熊
◆ Miami Heat                       邁阿密熱火
◆ Milwaukee Bucks                密爾瓦基公鹿
◆ Minnestoa Timberwolves         明尼蘇達灰狼
◆ New Jersey Nets                  紐澤西籃網
◆ New Orleans Hornets              紐奧良黃蜂
◆ New York Knicks                    紐約尼克
◆ Oklahoma City Thunder        奧克拉荷馬雷霆
◆ Orlando Magics                   奧蘭多魔術
◆ Philadelphia 76ers               費城七六人
◆ Phoenix Suns                     鳳凰城太陽
◆ Portland Trail Blaz

In [58]:
import urllib.request as req # 同網路連線
url = "https://www.vogue.com.tw/entertainment/article/2020-%E9%9B%BB%E5%BD%B1"

# 使自己看起來像是個人類使用者 so we ahve to do : 建立一個 Request 物件, 附加 Request Headers的資訊
request = req.Request(url, headers={
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"
})
with req.urlopen(request) as response: # (url) 轉-> (request) 
    data = response.read().decode("utf-8")
#print(data)

import bs4
root = bs4.BeautifulSoup(data, "html.parser" )

# 找到其中一個標題 : root.find
titles = root.find(type="application/ld+json") # 尋找 class = "title" 的標籤
print(titles)
#print(titles.a.string)

<script data-rh="true" type="application/ld+json">{"@context":"https://schema.org","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"name":"Entertainment","item":"https://www.vogue.com.tw/entertainment"},{"@type":"ListItem","position":2,"name":"Movie","item":"https://www.vogue.com.tw/entertainment/movie"}]}</script>


In [None]:
# 解析原始碼, 取得每篇文章的標提 

# 找到所有標題 : root.find_all
titles_all = root.find_all("div",class_="title")
#print(titles_all)
#print(titles_all.a.string)

# 用 for迴圈抓出所有值

for i in titles_all :  
    if i.a != None: # 因為有些<>標籤中是沒有a.的, 因此設一個條件句 : 印出<>標籤有a的值  (if i.a(迴圈a) !=(不等於空))
        print(i.a.string)