In [9]:
import requests
from bs4 import BeautifulSoup

In [10]:
def crawl_thuoc_data(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
    }
    response = requests.get(url, headers=headers)
    response.raise_for_status()  
    soup = BeautifulSoup(response.text, 'html.parser')

    #Tên thuốc
    ten_thuoc = soup.find('h1').text.strip()

    #Thông tin thuốc
    thong_tin = soup.find('div', class_='detail')
    if not thong_tin:
        thong_tin = "Không có thông tin"
        return {
            'ten_thuoc': ten_thuoc,
            'thong_tin': thong_tin
        }

    
    #Tách tiêu đề và đoạn văn theo từng mục
    sections = {}
    current_heading = None

    for tag in thong_tin.find_all(['h2', 'p']):
        if tag.name == 'h2':
            current_heading = tag.text.strip()
            sections[current_heading] = ""
        elif tag.name == 'p' and current_heading:
            sections[current_heading] += tag.text.strip() + "\n"
    
    return ten_thuoc, sections


In [11]:
def read_DSthuoc_links(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        return [line.strip() for line in f if line.strip()]

In [13]:
def crawl_DS_thuoc(txt_path):
    thuoc_links = read_DSthuoc_links(txt_path)
    thuoc_data = []
    all_headers = set()

    print(f'Tổng số link thuốc: {len(thuoc_links)}')

    for link in thuoc_links:
        print(f'Đang crawl: {link}')
        try:
            ten_thuoc, thong_tin = crawl_thuoc_data(link)
            row = {
             'ten_thuoc': ten_thuoc, 
             'link': link,
             **thong_tin
            }
            thuoc_data.append(row)
            all_headers.update(thong_tin.keys())
        except Exception as e:
            print(f'Lỗi khi crawl {link}: {e}')
    return thuoc_data, all_headers
            

In [14]:
import csv

def save_to_csv(data, headers, output_file):
    formatted_headers = ['ten_thuoc', 'link'] + sorted(headers)

    with open(output_file, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=formatted_headers)
        writer.writeheader()
        for row in data:
            formatted_row = {key: row.get(key, '') for key in formatted_headers}
            writer.writerow(formatted_row)
    print(f'Đã lưu {len(data)} thuốc vào {output_file}')

In [16]:
txt_path = 'danh_muc_links\DS_thuoc_links.txt'
output_file = 'Thuoc_DieuTri_data.csv'

data, headers = crawl_DS_thuoc(txt_path)
save_to_csv(data, headers, output_file)

  txt_path = 'danh_muc_links\DS_thuoc_links.txt'


Tổng số link thuốc: 1008
Đang crawl: https://www.dieutri.vn/a/azelastine-thuoc-dieu-tri-viem-mui
Đang crawl: https://www.dieutri.vn/a/axit-acetohydroxamic-thuoc-dieu-tri-nhiem-trung-duong-tiet-nieu
Đang crawl: https://www.dieutri.vn/a/axalimogene-filolisbac-thuoc-dieu-tri-ung-thu-co-tu-cung-di-can
Đang crawl: https://www.dieutri.vn/a/avelumab-thuoc-dieu-tri-ung-thu
Đang crawl: https://www.dieutri.vn/a/atovaquone-proguanil-thuoc-dieu-tri-sot-ret
Đang crawl: https://www.dieutri.vn/a/atracurium-thuoc-dieu-tri-gian-co-khi-phau-thuat-va-thong-khi-xam-nhap
Đang crawl: https://www.dieutri.vn/a/atropine-pralidoxime-thuoc-dieu-tri-ngo-doc-phospho-huu-co
Đang crawl: https://www.dieutri.vn/a/atomoxetine-thuoc-dieu-tri-tang-dong-giam-chu-y
Đang crawl: https://www.dieutri.vn/a/atezolizumab-thuoc-dieu-tri-ung-thu
Đang crawl: https://www.dieutri.vn/a/ataluren-thuoc-dieu-tri-chung-loan-duong-co
Đang crawl: https://www.dieutri.vn/a/astragalus-thuoc-dieu-tri-benh-duong-ho-hap-tren
Đang crawl: https://ww

In [None]:
#Demo 1 trang thuốc
# link = 'https://www.dieutri.vn/a/azelastine-thuoc-dieu-tri-viem-mui'
# ten_thuoc, thong_tin = crawl_thuoc_data(link)
# print(f"Tên thuốc: {ten_thuoc}")
# for heading, content in thong_tin.items():
#     print(f"{heading}:\n{content}\n")

Tên thuốc: Azelastine: thuốc điều trị viêm mũi
Liều dùng:
Thuốc xịt mũi
0,1% (137mcg / lần xịt).
0,15% (205,5mcg / lần xịt).
Viêm mũi dị ứng theo mùa
Liều lượng dành cho người lớn
Astelin 0,1%: 1-2 lần xịt vào lỗ mũi sau mỗi 12 giờ, hoặc,
Astepro 0,15%: 2 lần xịt vào lỗ mũi mỗi ngày.
Liều dùng cho trẻ em
Astelin:
Trẻ em dưới 5 tuổi: Chưa xác định được tính an toàn và hiệu quả.
Trẻ em từ 5 đến 11 tuổi: 1 lần xịt vào lỗ mũi sau mỗi 12 giờ.
Trẻ em trên 12 tuổi: 1-2 lần xịt vào lỗ mũi sau mỗi 12 giờ.
Astepro:
Trẻ em dưới 2 tuổi: Chưa xác định được tính an toàn và hiệu quả.
Trẻ em từ 2 đến 5 tuổi: 0,1%; 1 lần xịt vào lỗ mũi sau mỗi 12 giờ.
Trẻ em từ 6-12 tuổi: 0,1% hoặc 0,15%; 1 lần xịt vào lỗ mũi sau mỗi 12 giờ.
Trẻ em trên 12 tuổi:
0,1% hoặc 0,15%: 1 hoặc 2 lần xịt vào lỗ mũi mỗi 12 giờ, hoặc,
0,15%: 2 lần xịt vào mỗi lỗ mũi mỗi ngày.
Viêm mũi dị ứng lâu năm
Liều lượng dành cho người lớn
Astepro 0,15%: 2 lần xịt vào lỗ mũi sau mỗi 12 giờ.
Liều dùng cho trẻ em
Astepro:
Trẻ em dưới 6 tháng: