In [None]:
"""
Chapter 01: Your first web scraper
Date: 05/04/2024
pip install urllib3
"""

***Mục tiêu:***
- bắt đầu với kiến thức cơ bản về gửi yêu cầu GET
- tìm nạp hoặc nhận nội dung của một trang web đến máy chủ web cho một trang cụ thể và đọc đầu ra của trang đó
- thực hiện một số trích xuất dữ liệu đơn giản để tách biệt nội dung cần lấy

# I. introduction

In [1]:
import urllib3 as url3

resp = url3.request("GET", "http://httpbin.org/robots.txt") 
resp.status
resp.data

b'User-agent: *\nDisallow: /deny\n'

In [2]:
import urllib
from urllib.request import urlopen

html = urlopen('https://www.pythonscraping.com/pages/page1.html')
print(html.read())

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'


In [3]:
html2 = urlopen('https://pythonscraping.com')
print(html2.read())

b'\t<!DOCTYPE html>\n\t<html lang="en-US">\n\t<head>\n\t\t<meta charset="UTF-8" />\n\t\t<meta name="viewport" content="width=device-width, initial-scale=1">\n\t\t<link rel="profile" href="https://gmpg.org/xfn/11">\n\t\t<title>Web Scraping with Python &#8211; Webpage for the book Web Scraping with Python</title>\n<meta name=\'robots\' content=\'max-image-preview:large\' />\n<link rel=\'dns-prefetch\' href=\'//www.googletagmanager.com\' />\n<link rel="alternate" type="application/rss+xml" title="Web Scraping with Python &raquo; Feed" href="https://pythonscraping.com/feed/" />\n<link rel="alternate" type="application/rss+xml" title="Web Scraping with Python &raquo; Comments Feed" href="https://pythonscraping.com/comments/feed/" />\n<script>\nvar pagelayer_ajaxurl = "https://pythonscraping.com/wp-admin/admin-ajax.php?";\nvar pagelayer_global_nonce = "d13107fcb7";\nvar pagelayer_server_time = 1712906330;\nvar pagelayer_is_live = "";\nvar pagelayer_facebook_id = "";\nvar pagelayer_settings =

# II. Introduction to BeautifulSoup

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html.read(), 'html.parser')
print(bs.h1)

# đối tượng html được chuyển trành đối tượng bs và từ đó có thể trích xuất 
# các thuộc tính

<h1>An Interesting Title</h1>


In [6]:
bs = BeautifulSoup(html, 'html.parser')
# html: đối tượng văn bản html
# 'html.parser': chỉ định trình phân tích cú pháp để bs tạo đối tượng đó
# trình phân tích cú pháp khác nữa là "lxml", nó có thể được cài đặt 
# bằng pip install lxml

lxml có một số ưu điểm so với html.parser ở chỗ:

    - nó thường tốt hơn trong việc phân tích mã HTML “lộn xộn” hoặc không đúng định dạng. 

    - Nó tha thứ và khắc phục các vấn đề như thẻ không được đóng, thẻ được lồng không đúng cách và thiếu thẻ đầu hoặc thẻ nội dung. 
    
    - Nó cũng nhanh hơn html.parser một chút, mặc dù tốc độ không hẳn là một lợi thế trong việc quét web, vì tốc độ của mạng hầu như luôn là điểm nghẽn lớn nhất của bạn. 


Một trong những nhược điểm của lxml là nó phải được cài đặt riêng biệt và phụ thuộc vào thư viện C của bên thứ ba để hoạt động. Điều này có thể gây ra vấn đề về tính di động và dễ sử dụng so với html.parser

In [None]:
# trong những trường hợp một HTML bị lỗi, chúng ta cần bắt lỗi (404)
from urllib.request import urlopen
from urllib.error import HTTPError

try:
    html = urlopen('http://www.pythonscraping.com/pages/page1.html')
except HTTPError as error:
    print(error)
else:
    # continue
    # if exception catch, do not need else statement
    error = None

In [15]:
# trong trường hợp không tìm thấy máy chủ, cần phải bắt lỗi nó vì máy chủ
# chịu trách nhiệm trong việc trả về html
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError

try:
    html = urlopen('https://www.dienmayxanh.com/dien-thoai/xiaomi-redmi-note-13')
    print(html.read())
except HTTPError as e:
    print(e)
except URLError as e:
    print(e)
else:
    print("it's worked!")

HTTP Error 403: Forbidden


In [17]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup


def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    
    try:
        bs = BeautifulSoup(html.read(), 'html.parser')
        title = bs.body.h1
    except AttributeError as e:
        return None
    
    return title


title = getTitle('http://www.pythonscraping.com/pages/page1.html')
if title == None:
    print('title could not be found')
else:
    print(title)

<h1>An Interesting Title</h1>


điều quan trọng khi viết mã là hình dung được tổng thể và xử lí các ngoại lệ
và làm cho nó có thể đọc được cùng một lúc

# III. Practice

In [27]:
from urllib.request import urlopen
from urllib.error import HTTPError, URLError
from bs4 import BeautifulSoup

In [33]:
def checkUrl(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return e
    except URLError as e:
        return e
    else:
        return "It's still work!"

In [28]:
html = urlopen("https://www.pythonscraping.com/pages/page1.html")
text = html.read()
list_tag = text.splitlines()
for i in list_tag:
    print(i)

b'<html>'
b'<head>'
b'<title>A Useful Page</title>'
b'</head>'
b'<body>'
b'<h1>An Interesting Title</h1>'
b'<div>'
b'Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.'
b'</div>'
b'</body>'
b'</html>'


In [36]:
print(checkUrl("https://webscraper.io/"))

# html = urlopen("https://webscraper.io/")
# text = html.read()
# list_tag = text.splitlines()
# for i in list_tag:
#     print(i)

# print(f"\nnumbers of tag: {len(list_tag)}")

It's still work!
