In [3]:
import requests
from bs4 import BeautifulSoup
from PIL import Image
from io import BytesIO
import pytesseract
import base64
import pandas as pd
import time

# Đặt đường dẫn đến tesseract executable trên Windows
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# Hàm để chuyển đổi chuỗi base64 thành hình ảnh
def base64_to_image(base64_str):
    image_data = base64.b64decode(base64_str.split(',')[1])
    return Image.open(BytesIO(image_data))

# Hàm để lấy dữ liệu từ trang công ty
def fetch_company_data(company_link):
    start_time = time.time()
    
    try:
        response = requests.get(company_link, timeout=10)
        response.raise_for_status()
    except requests.RequestException as e:
        print(f"Failed to retrieve company page {company_link}: {e}")
        return None

    soup = BeautifulSoup(response.text, 'html.parser')
    jumbotron_div = soup.find('div', class_='jumbotron')
    if jumbotron_div is None:
        print(f'Jumbotron div not found on page {company_link}')
        return None

    company_name = jumbotron_div.find('h4').text.strip() if jumbotron_div.find('h4') else 'N/A'

    # Xử lý mã số thuế từ ảnh base64
    tax_code_img_base64 = jumbotron_div.find_all('img')[0]['src'] if len(jumbotron_div.find_all('img')) > 0 else None
    if tax_code_img_base64:
        tax_code_img = base64_to_image(tax_code_img_base64)
        try:
            tax_code_text = pytesseract.image_to_string(tax_code_img, config='--psm 6').strip()
        except Exception as e:
            tax_code_text = 'Error'
    else:
        tax_code_text = 'N/A'

    # Xử lý số điện thoại từ ảnh base64
    phone_img_base64 = jumbotron_div.find_all('img')[1]['src'] if len(jumbotron_div.find_all('img')) > 1 else None
    if phone_img_base64:
        phone_img = base64_to_image(phone_img_base64)
        try:
            phone_text = pytesseract.image_to_string(phone_img, config='--psm 6').strip()
        except Exception as e:
            phone_text = 'Error'
    else:
        phone_text = 'N/A'

    address = jumbotron_div.find(text='Địa chỉ:').next.strip() if jumbotron_div.find(text='Địa chỉ:') else 'N/A'
    legal_representative = jumbotron_div.find(text='Đại diện pháp luật:').next.strip() if jumbotron_div.find(text='Đại diện pháp luật:') else 'N/A'
    status = jumbotron_div.find(text='Trạng thái:').next.strip() if jumbotron_div.find(text='Trạng thái:') else 'N/A'
    
    end_time = time.time()
    print(f"Time taken to fetch and process {company_link}: {end_time - start_time} seconds")

    return {
        'Company Name': f'=HYPERLINK("{company_link}", "{company_name}")',
        'Tax Code': tax_code_text,
        'Phone': phone_text,
        'Legal Representative': legal_representative,
        'Address': address,
        'Status': status
    }

# Hàm để lấy tất cả liên kết công ty từ một trang
def fetch_company_links_from_page(page_number):
    url = f'https://www.tratencongty.com/?page={page_number}'
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        company_links = set()  # Sử dụng set để loại bỏ liên kết trùng lặp
        for link in soup.find_all('a', href=True):
            if 'company' in link['href']:
                full_link = link['href'] if link['href'].startswith('http') else 'https://www.tratencongty.com' + link['href']
                company_links.add(full_link)
        return list(company_links)
    else:
        print(f'Failed to retrieve page {page_number}')
        return []

# Hàm để lấy dữ liệu từ tất cả các trang
def fetch_data_from_all_pages(start_page, end_page):
    all_data = []
    for page_number in range(start_page, end_page + 1):
        print(f"Fetching page {page_number}...")
        company_links = fetch_company_links_from_page(page_number)
        for link in company_links:
            company_data = fetch_company_data(link)
            if company_data:
                all_data.append(company_data)
        time.sleep(2)  # Delay between requests to avoid overwhelming the server

    # Chuyển dữ liệu sang DataFrame và xuất ra file Excel
    df = pd.DataFrame(all_data)
    df.to_excel('company_data_all_pages21.xlsx', index=False, engine='openpyxl')
    print('Data has been exported to company_data_all_pages.xlsx')

# Gọi hàm để lấy dữ liệu từ tất cả các trang từ 1 đến 5 (hoặc theo phạm vi trang bạn cần)
fetch_data_from_all_pages(2, 2)


Fetching page 2...


  address = jumbotron_div.find(text='Địa chỉ:').next.strip() if jumbotron_div.find(text='Địa chỉ:') else 'N/A'
  legal_representative = jumbotron_div.find(text='Đại diện pháp luật:').next.strip() if jumbotron_div.find(text='Đại diện pháp luật:') else 'N/A'
  status = jumbotron_div.find(text='Trạng thái:').next.strip() if jumbotron_div.find(text='Trạng thái:') else 'N/A'


Time taken to fetch and process https://www.tratencongty.com/company/ce3115b2-cong-ty-tnhh-bt-mall/: 20.66567850112915 seconds
Time taken to fetch and process https://www.tratencongty.com/company/da20914e-truong-tieu-hoc-va-trung-hoc-co-so-tay-son/: 20.40445899963379 seconds
Time taken to fetch and process https://www.tratencongty.com/company/74d17181-cong-ty-tnhh-trung-tam-giao-duc-va-dao-tao-trang-nguyen/: 20.5871422290802 seconds
Time taken to fetch and process https://www.tratencongty.com/company/11bb65c53-cong-ty-tnhh-mot-thanh-vien-nuoc-uong-dong-phu/: 20.528053522109985 seconds
Time taken to fetch and process https://www.tratencongty.com/company/18d033539-cong-ty-tnhh-thuong-mai-dich-vu-thanh-quang-qn/: 20.579687118530273 seconds
Time taken to fetch and process https://www.tratencongty.com/company/8cb6ebc6-hop-tac-xa-san-xuat-nong-nghiep-sinh-thai-quyet-tien/: 20.534109830856323 seconds
Time taken to fetch and process https://www.tratencongty.com/company/74d17137-cong-ty-co-phan

In [4]:
import requests
from bs4 import BeautifulSoup
from PIL import Image
from io import BytesIO
import pytesseract
import base64
import pandas as pd

# Đặt đường dẫn đến tesseract executable trên Windows
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# Hàm để chuyển đổi chuỗi base64 thành hình ảnh
def base64_to_image(base64_str):
    image_data = base64.b64decode(base64_str.split(',')[1])
    return Image.open(BytesIO(image_data))

# Tạo danh sách để lưu dữ liệu
data = []

# Hàm để lấy dữ liệu từ một trang cụ thể
def fetch_data_from_page(page_number):
    url = f'https://www.tratencongty.com/?page={page_number}'
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        results = soup.find_all('div', class_='search-results')

        for result in results:
            company_link = result.find('a')['href']
            company_name = result.find('a').text.strip()

            # Xử lý mã số thuế từ ảnh base64
            tax_code_img_base64 = result.find('img')['src']
            tax_code_img = base64_to_image(tax_code_img_base64)

            # Sử dụng Tesseract OCR để nhận diện văn bản
            try:
                tax_code_text = pytesseract.image_to_string(tax_code_img, config='--psm 6').strip()
            except Exception as e:
                tax_code_text = 'Error'

            # Tách thông tin đại diện pháp luật và địa chỉ
            details_text = result.find('p').text
            legal_representative = details_text.split('Đại diện pháp luật:')[1].split('Địa chỉ:')[0].strip()
            address = details_text.split('Địa chỉ:')[1].strip()

            # Thêm dữ liệu vào danh sách
            data.append({
                'Company Name': f'=HYPERLINK("{company_link}", "{company_name}")',
                'Tax Code': tax_code_text,
                'Legal Representative': legal_representative,
                'Address': address
            })
    else:
        print(f'Failed to retrieve page {page_number}')

# Lặp qua 50 trang
for page in range(1, 3):
    print(f'Fetching data from page {page}...')
    fetch_data_from_page(page)

# Chuyển dữ liệu sang DataFrame và xuất ra file Excel
df = pd.DataFrame(data)
df.to_excel('company_data.xlsx', index=False, engine='openpyxl')

print('Data has been exported to company_data.xlsx')


Fetching data from page 1...
Fetching data from page 2...


PermissionError: [Errno 13] Permission denied: 'company_data.xlsx'