In [4]:
import requests
from bs4 import BeautifulSoup
import re
import os
import pandas as pd
from lxml import etree
from datetime import datetime
import openpyxl
from openpyxl import Workbook
from openpyxl import load_workbook
current_directory = os.getcwd()

In [5]:
def normalize_date(text):
    # Biểu thức chính quy để bắt ngày, tháng, năm
    pattern = r"(\d{1,2})\s*tháng\s*(\d{1,2})\s*năm\s*(\d{4})"
    match = re.search(pattern, text)
    
    if match:
        # Lấy ra các thành phần ngày, tháng, năm
        day, month, year = match.groups()
        
        # Chuyển đổi thành định dạng dd-mm-yyyy
        date_obj = datetime.strptime(f"{day}-{month}-{year}", "%d-%m-%Y")
        return date_obj.strftime("%d-%m-%Y")
    return None

In [6]:
def part_text(part,start,end):
    part_list = []
    for i in part[start:end]:
        part_list.append(i.get_text(strip=True).replace('\r', '').replace('\n', '').strip())
        part_text = '\n'.join(part_list)
    return part_text
        

In [18]:
link = 'https://thuvienphapluat.vn/van-ban/Xuat-nhap-khau/Thong-bao-13851-TB-TCHQ-2014-ket-qua-phan-loai-Hoa-chat-cong-nghiep-xuat-nhap-khau-258405.aspx'

In [22]:
def get_phanloai_link_info(link):
    response2 = requests.get(link.strip())
    soup = BeautifulSoup(response2.text, 'html.parser')
    content1 = soup.find('div', class_='content1')
    tables = content1.find_all('table')

    # Khởi tạo các biến trước để tránh lỗi khi không tìm thấy
    số = "Không tìm thấy 'Số'"
    ngày = "Không tìm thấy 'Ngày'"
    part_1_text = "Không tìm thấy part 1"
    part_2_text = "Không tìm thấy part 2"
    part_3_text = "Không tìm thấy part 3"
    part_4_text = "Không tìm thấy part 4"
    part_5_text = "Không tìm thấy thông tin phần 5"

    # Lấy số văn bản / ngày
    try:
        paragraphs = tables[0].find_all('p')  # Tìm tất cả các thẻ <p> trong bảng đầu tiên
        for para in paragraphs:
            text = para.get_text(strip=True).replace('\r', '').replace('\n', '').strip()
            if 'Số:' in text:
                số = text.replace("Số:", "").strip()
                break  # Ngừng vòng lặp sau khi tìm thấy đoạn văn bản chứa 'Số'
    except AttributeError as e:
        print(f"Lỗi khi tìm 'Số': {e}")

    try:
        paragraphs = tables[0].find_all('p')  # Tìm tất cả các thẻ <p> trong bảng đầu tiên
        for para in paragraphs:
            text = para.get_text(strip=True).replace('\r', '').replace('\n', '').strip()
            if 'ngày' in text or 'Ngày' in text:
                ngày = normalize_date(text)
                break  # Ngừng vòng lặp sau khi tìm thấy đoạn văn bản chứa 'ngày'
    except AttributeError as e:
        print(f"Lỗi khi tìm 'ngày': {e}")

    # Lấy part 1
    part1 = tables[1].find_all('p')       
    part1_1_pattern = re.compile(r"1\.\s*[Tt]ên\s*[Hh]àng")
    part1_2_pattern = re.compile(r"2\.\s*Đơn\s*vị")
    part1_3_pattern = re.compile(r"3\.\s*Số")
    part1_3_pattern_2 = re.compile(r"3\.\s*Tờ\s*khai")
    part1_4_pattern = re.compile(r"4\.\s*Tóm\s*tắt")
    part1_5_pattern = re.compile(r"5\.\s*Kết\s*quả")

    # Tìm index các phần
    part1_1_index = next((i for i, p_tag in enumerate(part1) if part1_1_pattern.search(p_tag.get_text(strip=True))), None)
    part1_2_index = next((i for i, p_tag in enumerate(part1) if part1_2_pattern.search(p_tag.get_text(strip=True))), None)
    part1_3_index = next((i for i, p_tag in enumerate(part1) if part1_3_pattern.search(p_tag.get_text(strip=True)) or part1_3_pattern_2.search(p_tag.get_text(strip=True))), None)
    part1_4_index = next((i for i, p_tag in enumerate(part1) if part1_4_pattern.search(p_tag.get_text(strip=True))), None)
    part1_5_index = next((i for i, p_tag in enumerate(part1) if part1_5_pattern.search(p_tag.get_text(strip=True))), None)

    # Kiểm tra nếu các chỉ mục có tồn tại, nếu không gán giá trị thông báo không tìm thấy
    if part1_1_index is not None and part1_2_index is not None:
        part_1_text = part_text(part1, part1_1_index, part1_2_index)
    if part1_2_index is not None and part1_3_index is not None:
        part_2_text = part_text(part1, part1_2_index, part1_3_index)
    if part1_3_index is not None and part1_4_index is not None:
        part_3_text = part_text(part1, part1_3_index, part1_4_index)
    if part1_4_index is not None and part1_5_index is not None:
        part_4_text = part_text(part1, part1_4_index, part1_5_index)

    # Lấy thông tin phần 5 nếu tìm thấy index
    if part1_5_index is not None:
        pattern = re.compile(r'\d{4}\s*\.\s*\d{2}\s*\.\s*\d{2}')
        for p_tag in part1[part1_5_index:]:
            text = p_tag.get_text(strip=True)  # Lấy văn bản từ thẻ <p> và loại bỏ khoảng trắng thừa
            matches = pattern.findall(text)  # Tìm tất cả các dãy số khớp với pattern trong văn bản
            if matches:
                part_5_text = matches[-1]  # Lấy kết quả cuối cùng khớp với pattern

    # Tạo danh sách chứa thông tin
    info_list = [link.strip(), số, ngày, part_1_text, part_2_text, part_3_text, part_4_text, part_5_text]
    print(link)
    print(info_list)
    return info_list


In [23]:
get_phanloai_link_info("https://thuvienphapluat.vn/van-ban/Thuong-mai/Thong-bao-2706-TB-TCHQ-2015-phan-loai-hang-xuat-nhap-khau-che-pham-mau-huu-co-dang-bot-min-285178.aspx")

['https://thuvienphapluat.vn/van-ban/Thuong-mai/Thong-bao-2706-TB-TCHQ-2015-phan-loai-hang-xuat-nhap-khau-che-pham-mau-huu-co-dang-bot-min-285178.aspx',
 '2706/TB-TCHQ',
 '31-03-2015',
 'Không tìm thấy part 1',
 '2. Đơn vị nhập khẩu:Công ty TNHH Yung Chi  Paint & Varnish MFG (Việt Nam); địa chỉ: Lô 219, KCN Amata, Long Bình, Biên  Hòa, Đồng Nai; Mã số thuế: 3600725726.',
 '3. Số, ngày tờ khai hải quan:10021008514/A12 ngày 20/11/2014 đăng ký tại Chi cục HQ Biên Hòa, Cục Hải quan  tỉnh Đồng Nai.',
 '4. Tóm tắt mô tả và đặc tính hàng hóa:Chế  phẩm thuốc màu hữu cơ, dạng bột, màu đỏ.',
 '3204.17.00']

In [21]:
part1

NameError: name 'part1' is not defined

In [6]:
part1_3_pattern = re.compile(r"3\.\s*Số")
part1_3_pattern_2 = re.compile(r"3\.\s*Tờ\s*khai")
for p_tag in part1:
    text = p_tag.get_text(strip=True)  # Lấy văn bản từ thẻ <p> và loại bỏ khoảng trắng thừa
    print(text)
    matches = part1_3_pattern.findall(text) or part1_3_pattern_2.findall(text) # Tìm tất cả các dãy số khớp với pattern trong văn bản
    print(matches)
    if matches:
        part1_3_index = part1.index(p_tag)
        print(part1_3_index)

1. Tên hàng theo khai báo:Phân bón đa vi lượng All purpose
  Plantfood 15-30-15 (1 kg/hộp; 18 hộp/thùng) (Mục 1)
[]
2. Đơn vị nhập khẩu: Công ty TNHH Grow More; Địa chỉ:
  370 Trần Hưng Đạo, Phường 11 Quận 5, TP. Hồ Chí Minh; Mã số thuế: 0312257378
[]
3. Số, ngày tờ khai hải quan: 10017802046/A11 ngày 24/10/2014
  tại Chi cục Hải quan Cửa khẩu càng Sải Gòn KVI - Cục Hải quan TP. Hồ Chí Minh
['3. Số']
2
4. Tóm tắt mô tả và đặc tính hàng hóa: Phân bón dạng hạt nhỏ
  được đóng gói với trọng lượng cả bì là 1 kg, thành phần gồm Urê, amoni
  phosphat, kali clorua, urê phosphat và các nguyên tố vi lượng như kẽm, đồng,
  silic, mangan...(trong đó hàm lượng Nitơ»15%; P205»30%; K20»15%)
[]
5. Kết quả phân loại:
[]
Tên thương mại: All purpose Plantfood 15-30-15
[]
Tên gọi theo cấu tạo, công dụng: Phân bón dạng hạt nhỏ
    được đóng gói với trọng lượng cả bì là 1 kg, thành phần gồm Urê, amoni
    phosphat, kali clorua, urê phosphat và các nguyên tố vi lượng như kẽm,
    đồng, silic, mangan...(tron

In [7]:
part1_4_pattern = re.compile(r"4\.\s*Tóm\s*tắt")
for p_tag in part1:
    text = p_tag.get_text(strip=True)  # Lấy văn bản từ thẻ <p> và loại bỏ khoảng trắng thừa
    print(text)
    matches = part1_4_pattern.findall(text)  # Tìm tất cả các dãy số khớp với pattern trong văn bản
    print(matches)
    if matches:
        part1_4_index = part1.index(p_tag)
        print(part1_4_index)

1. Tên hàng theo khai báo:Phân bón đa vi lượng All purpose
  Plantfood 15-30-15 (1 kg/hộp; 18 hộp/thùng) (Mục 1)
[]
2. Đơn vị nhập khẩu: Công ty TNHH Grow More; Địa chỉ:
  370 Trần Hưng Đạo, Phường 11 Quận 5, TP. Hồ Chí Minh; Mã số thuế: 0312257378
[]
3. Số, ngày tờ khai hải quan: 10017802046/A11 ngày 24/10/2014
  tại Chi cục Hải quan Cửa khẩu càng Sải Gòn KVI - Cục Hải quan TP. Hồ Chí Minh
[]
4. Tóm tắt mô tả và đặc tính hàng hóa: Phân bón dạng hạt nhỏ
  được đóng gói với trọng lượng cả bì là 1 kg, thành phần gồm Urê, amoni
  phosphat, kali clorua, urê phosphat và các nguyên tố vi lượng như kẽm, đồng,
  silic, mangan...(trong đó hàm lượng Nitơ»15%; P205»30%; K20»15%)
['4. Tóm tắt']
3
5. Kết quả phân loại:
[]
Tên thương mại: All purpose Plantfood 15-30-15
[]
Tên gọi theo cấu tạo, công dụng: Phân bón dạng hạt nhỏ
    được đóng gói với trọng lượng cả bì là 1 kg, thành phần gồm Urê, amoni
    phosphat, kali clorua, urê phosphat và các nguyên tố vi lượng như kẽm,
    đồng, silic, mangan...

In [8]:
part1_4_index

3

In [9]:
part1_5_pattern = re.compile(r"5\.\s*Kết\s*quả")
for p_tag in part1:
    text = p_tag.get_text(strip=True)  # Lấy văn bản từ thẻ <p> và loại bỏ khoảng trắng thừa
    print(text)
    matches = part1_5_pattern.findall(text)  # Tìm tất cả các dãy số khớp với pattern trong văn bản
    print(matches)
    if matches:
        part1_5_index = part1.index(p_tag)
        print(part1_5_index)

1. Tên hàng theo khai báo:Phân bón đa vi lượng All purpose
  Plantfood 15-30-15 (1 kg/hộp; 18 hộp/thùng) (Mục 1)
[]
2. Đơn vị nhập khẩu: Công ty TNHH Grow More; Địa chỉ:
  370 Trần Hưng Đạo, Phường 11 Quận 5, TP. Hồ Chí Minh; Mã số thuế: 0312257378
[]
3. Số, ngày tờ khai hải quan: 10017802046/A11 ngày 24/10/2014
  tại Chi cục Hải quan Cửa khẩu càng Sải Gòn KVI - Cục Hải quan TP. Hồ Chí Minh
[]
4. Tóm tắt mô tả và đặc tính hàng hóa: Phân bón dạng hạt nhỏ
  được đóng gói với trọng lượng cả bì là 1 kg, thành phần gồm Urê, amoni
  phosphat, kali clorua, urê phosphat và các nguyên tố vi lượng như kẽm, đồng,
  silic, mangan...(trong đó hàm lượng Nitơ»15%; P205»30%; K20»15%)
[]
5. Kết quả phân loại:
['5. Kết quả']
4
Tên thương mại: All purpose Plantfood 15-30-15
[]
Tên gọi theo cấu tạo, công dụng: Phân bón dạng hạt nhỏ
    được đóng gói với trọng lượng cả bì là 1 kg, thành phần gồm Urê, amoni
    phosphat, kali clorua, urê phosphat và các nguyên tố vi lượng như kẽm,
    đồng, silic, mangan...

In [10]:
part1_5_index

4

In [13]:
pattern = re.compile(r'\d{4}\s*\.\s*\d{2}\s*\.\s*\d{2}')
for p_tag in part1[part1_5_index:]:
    text = p_tag.get_text(strip=True)  # Lấy văn bản từ thẻ <p> và loại bỏ khoảng trắng thừa
    matches = pattern.findall(text)  # Tìm tất cả các dãy số khớp với pattern trong văn bản
    if matches:
        part_5_text = matches[-1]

In [7]:
part_5_text

NameError: name 'part_5_text' is not defined