# Web scarping

## What is web scraping?

- Basically it is a way to automatically collect data from web pages using code instead of manual copy-paste.
- Before using your Python skills for web scraping, you should always check your target website’s acceptable use policy to see if accessing the website with automated tools is a violation of its terms of use. Legally, web scraping against the wishes of a website is very much a gray area.

## Application of web scraping:

1. Track Prices
2. Collect news and blogs
3. Gather research data
4. Extract job listings
5. Generate leads

## Common supported library:

- requests: Sends HTTP requests to get a response for webpage content (used for static sites).
- beautifulsoup4: Parses and extracts HTML content (like tags, text, links).
- selenium: Automates browsers (needed for dynamic sites with JavaScript).
- lxml: A fast HTML/XML parser, useful for large or complex pages.
- schedule: Lets you run scraping tasks repeatedly at fixed intervals.
- pyautogui: Automates mouse and keyboard; useful when dealing with UI-based interactions.


## BeautifulSoup

- Once the raw HTML is fetched, the next step is to parse it into a readable structure. That’s where BeautifulSoup comes in. It helps convert the raw HTML into a searchable tree of elements.
- Beautiful Soup is a Python library for pulling data out of HTML and XML files.

**Beautiful Soup Documentation:** <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">here</a>

**Beautiful Soup API Documentation:** <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/api/modules.html">here</a>

> This is an introduction of web scraping, when you go deep into real project, remember to read documentation for more information.


In [None]:
import requests
from bs4 import BeautifulSoup

response: requests.Response = requests.get(
    "https://hocpython.org/100-bai-tap-lap-trinh-tu-co-ban-den-nang-cao/"
)

# Create BeautifulSoup object
soup: BeautifulSoup = BeautifulSoup(response.text, "html.parser")

print(soup.prettify())

# BeautifulSoup(html, parser): Converts HTML into a searchable object. 'html.parser' is the built-in parser.
# soup.prettify(): Formats the HTML nicely for easier reading.

<!DOCTYPE html>
<!--[if IE 9 ]> <html lang="en-US" class="ie9 loading-site no-js"> <![endif]-->
<!--[if IE 8 ]> <html lang="en-US" class="ie8 loading-site no-js"> <![endif]-->
<!--[if (gte IE 9)|!(IE)]><!-->
<html class="loading-site no-js" lang="en-US">
 <!--<![endif]-->
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport"/>
  <link href="https://gmpg.org/xfn/11" rel="profile"/>
  <link href="https://hocpython.org/xmlrpc.php" rel="pingback"/>
  <script>
   (function(html){html.className = html.className.replace(/\bno-js\b/,'js')})(document.documentElement);
  </script>
  <meta content="index, follow, max-image-preview:large, max-snippet:-1, max-video-preview:-1" name="robots"/>
  <style>
   img:is([sizes="auto" i], [sizes^="auto," i]) { contain-intrinsic-size: 3000px 1500px }
  </style>
  <!-- This site is optimized with the Yoast SEO plugin v24.2 - https://yoast.com/wordpress/plugins/seo/ -->
  

In [None]:
import requests
from bs4 import BeautifulSoup, Tag

response: requests.Response = requests.get(
    "https://hocpython.org/100-bai-tap-lap-trinh-tu-co-ban-den-nang-cao/"
)

soup: BeautifulSoup = BeautifulSoup(response.text, "html.parser")

content_div: list[Tag] = soup.find_all("div", class_="accordion-inner")

for div in content_div:
    print(div.text.strip())

Nhập vào số n, hãy nhân n lên cho 3, rồi cộng 1 sau đó in kết quả ra màn hình
Nhập vào số n, hãy mũ 2 rồi chia cho 3, sau đó in kết quả ra màn hình
Nhập vào nhiệt độ c, in ra nhiệt độ F
Nhập vào một số nguyên a, nếu a chia hết cho 2 thì in ra True, ngược lại in ra False
Nhập vào số nguyên a, nếu a là số chia hết cho 3 và nằm trong khoảng từ 50 - 100 thì in ra True, ngược lại in ra False
Nhập vào số nguyên a, nếu a là số chia hết cho 5 nhưng KHÔNG nằm trong khoảng từ 20 - 70 thì in ra True, ngược lại in ra False
Nhập vào nguyên a và b, nếu 1 trong 2 số a và b chia hết cho 2 thì in ra True, ngược lại in ra False
Nhập vào số thực a, kiểm tra xem a có phải là số nguyên hay không, nếu có thì in ra True, ngược lại in ra False
Nhập vào số nguyên a, kiểm tra xem a có phải là số chính phương hay không, nếu có thì in ra True, ngược lại in ra False
Nhập vào lương tháng này nhận được, ta phải đưa cho vợ 90% số tiền lương đó. Hãy in ra lương ta giữ lại
Nhập vào 3 số a, b, c. In ra kết quả là tổng c