### Đọc dữ liệu từ một trang web

In [3]:
from urllib.request import urlopen
html = urlopen('http://pythonscraping.com/pages/page1.html')
print(html.read())

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'


### Làm quen với Beautiful Soup

In [7]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html.read(), 'html.parser')

In [6]:
bs

<html>
<head>
<title>A Useful Page</title>
</head>
<body>
<h1>An Interesting Title</h1>
<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
</body>
</html>

In [8]:
bs.h1

<h1>An Interesting Title</h1>

In [9]:
bs.div

<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>

#### Cấu trúc HTML

![html_structure](assets/html_structure.png)

### Những ví dụ về việc kiểm soát lỗi khi đọc web
Các lỗi có thể có:
- Trang web không tồn tại trên server
- Server không tồn tại

In [14]:
from urllib.request import urlopen
from urllib.error import HTTPError

try:
    html = urlopen('http://pythonscraping.com/pages/page1.html')
except HTTPError as e:
    print(e)
else:
    print('Không chạy vào except')

Không chạy vào except


In [15]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError

try:
    html = urlopen('http://pythonscraping.com/pages/page1.html')
except HTTPError as e:
    print(e)
except URLError as e:
    print('Không thể tìm thấy server')
else:
    print('Nó đã chạy rồi nè')

Nó đã chạy rồi nè


### Một ví dụ về việc truy cập thẻ HTML không tồn tại trong Beautiful Soup

In [20]:
try:
    badContent = bs.nonExistingTag.anotherTag
except AttributeError as e:
    print('Không thể tìm thấy thẻ')
else:
    if badContent == None:
        print('Không thể tìm thấy thẻ')
    else:
        print(badContent)

Không thể tìm thấy thẻ




### Một ví dụ khác hoàn thiện hơn về việc lấy tiêu đề của một trang web

In [25]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url):
    try:
        # kiểm tra lỗi đọc địa chỉ trang web
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        # kiểm tra lỗi đọc các thẻ HTML của trang web
        bs = BeautifulSoup(html.read(), 'html.parser')
        title = bs.body.h1
    except AttributeError as e:
        return None
    return title

title = getTitle('http://www.pythonscraping.com/pages/page1.html')

if title == None:
    print('Title could not be found')
else:
    print(title)

<h1>An Interesting Title</h1>


#### Có thể tìm hiểu sâu hơn: HTML
#### Tips: Đọc trong sách để có thể tìm ra được các từ khóa khác.