### 0. Giới thiệu BeautifulSoup

📌 Beautiful Soup(bs4) là 1 thư viện sử dụng để xử lí các thẻ trong XML, HTML



- **3 BƯỚC ĐƠN GIẢN ĐỂ BẠN CÓ THỂ CRAWL ĐƯỢC BẰNG BS4**
- BƯỚC 1: đọc cái trang web lên
- BƯỚC 2: đọc thẻ HTML, tìm thẻ muốn tìm nó nằm ở đâu 🙂
- BƯỚC 3: đọc doccument của bs4(nếu chưa thành thạo) ở đây https://www.crummy.com/software/BeautifulSoup/bs4/doc/ và sử dụng lệnh thích hợp để lấy nội dung mình cần


> Chú ý:
Dấu '>' có nghĩa là lấy thẻ thấp cấp hơn, dấu '~' có nghĩa là muốn lấy thẻ có cấp ngang hàng

In [1]:
# #cách cài đặt bs4
!pip install bs4
!pip install requests



### 1. Đọc dữ liệu từ một trang web

In [2]:
from urllib.request import urlopen

#cach 1
html = urlopen('http://pythonscraping.com/pages/page1.html')
print(html.read())

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'


In [7]:
#cach 2
import requests
html = requests.get('http://pythonscraping.com/pages/page1.html')
print("status: ", html.status_code)# status 200 là có thể crawl đc
print(html.text)

status:  200
<html>
<head>
<title>A Useful Page</title>
</head>
<body>
<h1>An Interesting Title</h1>
<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
</body>
</html>



### 2. Làm quen với Beautiful Soup

In [8]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

# html = urlopen('http://pythonscraping.com/pages/page1.html')
# bs = BeautifulSoup(html.read(), 'html.parser')
html = requests.get('http://pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html.text, 'html.parser')

In [9]:
bs

<html>
<head>
<title>A Useful Page</title>
</head>
<body>
<h1>An Interesting Title</h1>
<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
</body>
</html>

In [10]:
type(bs)

bs4.BeautifulSoup

In [11]:
bs.h1

<h1>An Interesting Title</h1>

In [12]:
bs.div

<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>

#### Cấu trúc HTML

![html_structure](assets/html_structure.png)

### Những ví dụ về việc kiểm soát lỗi khi đọc web
Các lỗi có thể có:
- Trang web không tồn tại trên server
- Server không tồn tại

In [13]:
from urllib.request import urlopen
from urllib.error import HTTPError

try:
    html = urlopen('http://pythonscraping.com/pages/page1.html')
except HTTPError as e:
    print(e)
else:
    print('Không chạy vào except')

Không chạy vào except


In [14]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError

try:
    html = urlopen('http://pythonscraping.com/pages/page1.html')
except HTTPError as e:
    print(e)
except URLError as e:
    print('Không thể tìm thấy server')
else:
    print('Nó đã chạy rồi nè hehe')

Nó đã chạy rồi nè hehe


### 3. Một ví dụ về việc truy cập thẻ HTML không tồn tại trong Beautiful Soup

In [15]:
try:
    badContent = bs.nonExistingTag.anotherTag
except AttributeError as e:
    print('Không thể tìm thấy thẻ')
else:
    if badContent == None:
        print('Không thể tìm thấy thẻ')
    else:
        print(badContent)

Không thể tìm thấy thẻ


### 4. Một ví dụ khác hoàn thiện hơn về việc lấy tiêu đề của một trang web

In [16]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url):
    try:
        # kiểm tra lỗi đọc địa chỉ trang web
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        # kiểm tra lỗi đọc các thẻ HTML của trang web
        bs = BeautifulSoup(html.read(), 'html.parser')
        title = bs.body.h1
    except AttributeError as e:
        return None
    return title

title = getTitle('http://www.pythonscraping.com/pages/page1.html')

if title == None:
    print('Title could not be found')
else:
    print(title)

<h1>An Interesting Title</h1>


#### Có thể tìm hiểu sâu hơn: HTML
#### Tips: Đọc trong sách để có thể tìm ra được các từ khóa khác.

### 5. Một số lệnh crawl bằng bs4 thông dụng, ví dụ dưới đây chúng ta sẽ lấy dữ liệu của trang https://vnexpress.net/goc-nhin

In [None]:
from bs4 import BeautifulSoup
import requests

# đọc dữ liệu từ web
url = "https://vnexpress.net/goc-nhin"
html = requests.get(url)
html.text

In [18]:
html.status_code

200

In [19]:
bs = BeautifulSoup(html.text, "html.parser")

In [20]:
# lấy 1 link đầu tiên trong trang https://vnexpress.net/goc-nhin
# lấy các link trong trang https://vnexpress.net/goc-nhin
one_link = bs.select_one('div[class="width_common list-news-subfolder list-stream-gocnhin"] > article > div > a')['href']
one_link

'https://vnexpress.net/tac-gia/quan-the-dan-1447.html'

In [21]:
# lấy nhiều link trong trang https://vnexpress.net/goc-nhin
lst = bs.select('div[class="width_common list-news-subfolder list-stream-gocnhin"] > article > div > a')
link  = [i['href'] for i in lst]
link

['https://vnexpress.net/tac-gia/quan-the-dan-1447.html',
 'https://vnexpress.net/tac-gia/vo-nhat-vinh-1166.html',
 'https://vnexpress.net/tac-gia/bui-minh-duc-1667.html',
 'https://vnexpress.net/tac-gia/to-thuc-1053.html',
 'https://vnexpress.net/tac-gia/tran-huu-hiep-1709.html',
 'https://vnexpress.net/tac-gia/le-tran-quynh-1644.html',
 'https://vnexpress.net/tac-gia/trinh-phuong-quan-1404.html',
 'https://vnexpress.net/tac-gia/nguyen-quoc-dinh-1455.html',
 'https://vnexpress.net/tac-gia/vu-ngoc-bao-1204.html',
 'https://vnexpress.net/tac-gia/quan-the-dan-1447.html',
 'https://vnexpress.net/tac-gia/mark-a-ashwill-1209.html',
 'https://vnexpress.net/tac-gia/nguyen-van-tuan-1306.html',
 'https://vnexpress.net/tac-gia/tran-huu-hiep-1709.html']

In [22]:
# lấy 1 thẻ p(thẻ chứa text) đầu tiên trong trang
one_text = bs.find('p')
one_text.text

'Xem thêm »'

In [23]:
#lấy tất cả các thẻ p(thẻ chứa text) trong trang 
#find_all sẽ lấy nội dung tất cả các thẻ mà mình yêu cầu
full_card = bs.find_all('p')
full_text  = [i.text.replace('\n', '').strip() for i in full_card] # lệnh replace để đổi tất cả các kí tự '\n' thành ''
full_text

['Xem thêm »',
 'Nhiều phụ huynh nôn nóng muốn trẻ khỏi bệnh ngay, nên đã cho con dùng kháng sinh, kháng viêm khi chưa cần thiết.',
 'Quan Thế Dân',
 "Giáo viên vô tình trở thành lực lượng 'đòi nợ' khi bị quàng thêm trách nhiệm thu tiền bảo hiểm y tế.",
 'Võ Nhật Vinh',
 'Quyết định về nước của một du học sinh thường bị lãng mạn hóa, coi như sự hy sinh cơ hội, để trở về đóng góp cho quê hương.',
 'Bùi Minh Đức',
 "Chó dữ vẫn thường xuyên cắn người, cả khi chủ chó vừa dứt lời 'nó không làm gì đâu'.",
 'Tô Thức',
 "Miền Tây đang nỗ lực thoát khỏi 'ba vòng xoáy đi xuống' để níu giữ người dân ở lại trên mảnh đất này.",
 'Trần Hữu Hiệp',
 'Mức đấu giá khởi điểm 20 triệu đồng áp với các tỉnh thành là quá cao, khó thu hút đông người tham gia.',
 'Lê Trần Quỳnh',
 'Các loài cây như: trứng cá, hoa sữa, đa, si... không thích hợp trồng ven đường phố.',
 'Trình Phương Quân',
 'Người lao động khu vực tư nhân được tăng lương hàng năm, công viên chức chưa được tăng lương lần nào trong bốn năm.',
 'Ng

In [24]:
#get_text() sẽ lấy tất cả các "text" đang hiển thị trong trang web
from pprint import pprint
full_text_by_get_text = bs.get_text()
pprint(full_text_by_get_text)

('\n'
 '\n'
 '\n'
 'Góc nhìn - Chia sẻ quan điểm, ý kiến, kinh nghiệm - VnExpress \n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '  \n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 ' \n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 'Thứ ba, 8/11/2022\n'
 '\n'
 '\n'
 'Mới nhất\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 'Tin theo khu vực\n'
 '\n'
 '\n'
 'Hà Nội\n'
 'TP Hồ Chí Minh\n'
 '\n'
 '\n'
 'International\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\n'
 '\