In [1]:
import pandas as pd
import time
import random
import os
import json
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from webdriver_manager.chrome import ChromeDriverManager
from tqdm import tqdm
import atexit

class NewsScraperVN:
    def __init__(self, headless=True):
        self.setup_driver(headless)
        self.data_dir = "crawled_data"
        self.all_articles_file = "all_articles.csv"
        os.makedirs(self.data_dir, exist_ok=True)
        
        # Danh sách nguồn và categories cố định
        self.sources = ["vnexpress", "tuoitre"]
        self.available_categories = {
            "vnexpress": [
                "thoi-su", "kinh-doanh", "giai-tri", "the-thao", "phap-luat", 
                "giao-duc", "suc-khoe", "doi-song", "du-lich", "khoa-hoc", 
                "so-hoa", "xe", "y-kien", "tam-su", "thu-gian", "the-gioi"
            ],
            "tuoitre": [
                "thoi-su", "kinh-te", "giai-tri", "the-thao", "phap-luat", 
                "giao-duc", "suc-khoe", "van-hoa", "du-lich", "xe", 
                "nhip-song-tre", "the-gioi", "cong-nghe", "ban-doc"
            ]
        }
        
        # Tạo thư mục cho từng nguồn
        for source in self.sources:
            os.makedirs(f"{self.data_dir}/{source}", exist_ok=True)
        
        # Đăng ký hàm để đảm bảo driver sẽ được đóng khi chương trình kết thúc
        atexit.register(self.close)
        
        # Tạo file all_articles.csv nếu chưa tồn tại
        if not os.path.exists(self.all_articles_file):
            pd.DataFrame(columns=[
                'url', 'source', 'crawl_time', 'category', 'title', 
                'description', 'publish_time', 'content', 'author'
            ]).to_csv(self.all_articles_file, index=False, encoding="utf-8-sig")
            print(f"Tạo file {self.all_articles_file} mới")
        else:
            print(f"File {self.all_articles_file} đã tồn tại, sẽ ghi thêm vào file này")
    
    def setup_driver(self, headless=True):
        """Thiết lập trình duyệt Chrome"""
        service = Service(ChromeDriverManager().install())
        
        chrome_options = webdriver.ChromeOptions()
        if headless:
            chrome_options.add_argument('--headless=new')
        
        # Cài đặt Chrome options
        chrome_options.add_argument('--no-sandbox')
        chrome_options.add_argument('--disable-dev-shm-usage')
        chrome_options.add_argument('window-size=1920x1080')
        chrome_options.add_argument('--disable-notifications')
        chrome_options.add_argument('--ignore-certificate-errors')
        chrome_options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36')
        
        self.driver = webdriver.Chrome(service=service, options=chrome_options)
        self.driver.implicitly_wait(10)
        self.wait = WebDriverWait(self.driver, 30)
    
    def random_sleep(self, min_time=1, max_time=3):
        """Tạm dừng ngẫu nhiên giữa các yêu cầu"""
        time.sleep(random.uniform(min_time, max_time))
    
    def get_article_urls(self, source, category, num_pages=5):
        """Thu thập URL bài viết từ danh mục"""
        article_urls = set()
        
        # Cấu hình URL và selectors
        configs = {
            "vnexpress": {
                "base_url": f"https://vnexpress.net/{category}",
                "page_format": f"https://vnexpress.net/{category}-p{{}}",
                "selector": ".item-news h3 a, .title-news a"
            },
            "tuoitre": {
                "base_url": f"https://tuoitre.vn/{category}",
                "page_format": f"https://tuoitre.vn/{category}/trang-{{}}.html",
                "selector": ".box-category-item h3 a, .box-category-item h2 a, .title-news a"
            }
        }
        
        config = configs[source]
        
        # Hàm trợ giúp thu thập URL từ một trang
        def collect_urls_from_page(page_url):
            try:
                self.driver.get(page_url)
                self.random_sleep(1, 2)
                
                # Thử lấy theo selector cụ thể
                try:
                    links = self.driver.find_elements(By.CSS_SELECTOR, config["selector"])
                except:
                    # Fallback: Tìm tất cả thẻ a
                    links = self.driver.find_elements(By.TAG_NAME, "a")
                
                # Thu thập URLs
                new_urls = set()
                for link in links:
                    href = link.get_attribute("href")
                    if self.is_valid_article_url(href, source):
                        new_urls.add(href)
                
                return new_urls
            except Exception as e:
                print(f"Lỗi khi thu thập URLs từ {page_url}: {str(e)}")
                return set()
        
        # Thu thập từ trang đầu tiên
        urls_from_first_page = collect_urls_from_page(config["base_url"])
        article_urls.update(urls_from_first_page)
        print(f"Tìm thấy {len(urls_from_first_page)} liên kết trên trang 1")
        
        # Thu thập từ các trang tiếp theo
        for page in range(2, num_pages + 1):
            page_url = config["page_format"].format(page)
            urls_from_page = collect_urls_from_page(page_url)
            article_urls.update(urls_from_page)
            print(f"Tìm thấy {len(urls_from_page)} liên kết trên trang {page}, tổng cộng: {len(article_urls)}")
        
        return list(article_urls)
    
    def is_valid_article_url(self, url, source):
        """Kiểm tra URL bài viết có hợp lệ không"""
        if not url:
            return False
            
        invalid_patterns = ["/video", "/infographics", "/media", "javascript:"]
        
        # Kiểm tra và loại bỏ URLs không hợp lệ
        if any(pattern in url for pattern in invalid_patterns):
            return False
            
        # Kiểm tra định dạng URL theo nguồn
        if source == "vnexpress":
            return "https://vnexpress.net/" in url and ".html" in url
        elif source == "tuoitre":
            return "https://tuoitre.vn/" in url and ".htm" in url
            
        return False
    
    def scrape_article(self, url, source):
        """Thu thập nội dung bài viết với cấu trúc tối ưu hóa"""
        try:
            self.driver.get(url)
            self.random_sleep(1, 2)
            
            # Chờ trang tải xong
            self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "h1, .title-detail, .article-title")))
            
            # Cấu hình selectors cho từng nguồn
            selectors = {
                "vnexpress": {
                    "title": "h1.title-detail, h1.title-news",
                    "description": ".description, .lead_detail",
                    "time": ".date, .time, time.date",
                    "content": ".fck_detail .Normal, .fck_detail p, .fck_detail",
                    "author": ".author_mail, .author, .author_name"
                },
                "tuoitre": {
                    "title": "h1.article-title, h1.title-page, h1.detail-title",
                    "description": ".sapo, .summary, .article-sapo",
                    "time": ".date-time, time.op-published",
                    "content": ".detail-content, .article-content, #main-detail-body",
                    "author": ".author, .author-info, .name-author"
                }
            }
            
            # Khởi tạo thông tin bài viết
            article = {
                "url": url,
                "source": source,
                "crawl_time": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
                "category": ""
            }
            
            # Hàm trợ giúp lấy nội dung theo selector
            def get_element_text(selector_str):
                for selector in selector_str.split(','):
                    try:
                        element = self.driver.find_element(By.CSS_SELECTOR, selector.strip())
                        return element.text.strip()
                    except:
                        continue
                return ""
            
            # Thu thập dữ liệu
            article["title"] = get_element_text(selectors[source]["title"])
            article["description"] = get_element_text(selectors[source]["description"])
            article["publish_time"] = get_element_text(selectors[source]["time"])
            article["author"] = get_element_text(selectors[source]["author"])
            
            # Thu thập nội dung
            try:
                content_selector = selectors[source]["content"]
                paragraphs = []
                
                # Thử lấy nội dung từ các thẻ p
                for selector in content_selector.split(','):
                    try:
                        content_element = self.driver.find_element(By.CSS_SELECTOR, selector.strip())
                        p_elements = content_element.find_elements(By.TAG_NAME, "p")
                        if p_elements:
                            paragraphs = [p.text.strip() for p in p_elements if p.text.strip()]
                            break
                    except:
                        continue
                
                # Nếu không có thẻ p, lấy toàn bộ nội dung
                if not paragraphs:
                    content_text = get_element_text(content_selector)
                    paragraphs = [line.strip() for line in content_text.split('\n') if line.strip()]
                
                article["content"] = "\n".join(paragraphs)
            except Exception as e:
                article["content"] = ""
                print(f"Lỗi khi lấy nội dung: {url}, {str(e)}")
            
            # Xác định category từ URL
            for cat in self.available_categories[source]:
                if any(pattern in url for pattern in [f"/{cat}/", f"/{cat}.", f"/{cat}-"]):
                    article["category"] = cat
                    break
            
            # Kiểm tra tính hợp lệ của bài viết
            if not article["title"] or not article["content"]:
                print(f"Bài viết không đủ thông tin: {url}")
                return None
                
            return article
            
        except TimeoutException:
            print(f"Timeout khi tải trang: {url}")
            return None
        except Exception as e:
            print(f"Lỗi khi thu thập nội dung: {url}, {str(e)}")
            return None
    
    def append_to_all_articles(self, article):
        """Thêm bài viết vào file tổng hợp all_articles.csv ngay lập tức"""
        try:
            # Tạo DataFrame từ article và ghi vào file
            df = pd.DataFrame([article])
            df.to_csv(self.all_articles_file, mode='a', header=False, index=False, encoding="utf-8-sig")
            # Đảm bảo dữ liệu được ghi vào đĩa ngay lập tức
            return True
        except Exception as e:
            print(f"Lỗi khi ghi vào all_articles.csv: {str(e)}")
            return False
    
    def get_crawled_urls(self):
        """Lấy danh sách URLs đã crawl từ file all_articles.csv"""
        crawled_urls = set()
        if os.path.exists(self.all_articles_file) and os.path.getsize(self.all_articles_file) > 0:
            try:
                existing_df = pd.read_csv(self.all_articles_file, encoding="utf-8-sig")
                if 'url' in existing_df.columns:
                    crawled_urls = set(existing_df['url'].tolist())
                    print(f"Đã tìm thấy {len(crawled_urls)} URLs đã crawl trước đó")
            except Exception as e:
                print(f"Lỗi khi đọc file all_articles.csv: {str(e)}")
        return crawled_urls
    
    def scrape_category(self, source, category, num_pages=5, max_articles=50):
        """Thu thập bài viết từ một danh mục và lưu ngay lập tức vào all_articles.csv"""
        if category not in self.available_categories[source]:
            print(f"Danh mục '{category}' không hợp lệ cho {source}")
            return []

        print(f"\n=== Crawl {source} - {category} ===")
        
        # Tạo thư mục lưu trữ
        category_dir = f"{self.data_dir}/{source}/{category}"
        os.makedirs(category_dir, exist_ok=True)
        
        # Lấy URLs đã crawl
        crawled_urls = self.get_crawled_urls()
        
        # Thu thập URLs mới
        article_urls = self.get_article_urls(source, category, num_pages)
        
        # Lọc URLs chưa crawl
        new_urls = [url for url in article_urls if url not in crawled_urls]
        print(f"Tìm thấy {len(new_urls)} URLs mới chưa crawl")
        
        # Giới hạn số lượng bài viết
        if max_articles and len(new_urls) > max_articles:
            new_urls = new_urls[:max_articles]
            print(f"Giới hạn crawl tối đa {max_articles} URLs")

        articles = []
        skipped = 0
        
        # Progress bar
        with tqdm(total=len(new_urls), desc=f"Crawl {source}/{category}") as pbar:
            for url in new_urls:
                try:
                    # Crawl bài viết
                    article = self.scrape_article(url, source)
                    
                    if article:
                        # Kiểm tra category
                        if article["category"] != category:
                            if article["category"]:
                                skipped += 1
                                pbar.update(1)
                                continue
                            article["category"] = category
                        
                        # Lưu bài viết dạng JSON
                        article_id = url.split("/")[-1].split(".")[0]
                        json_path = f"{category_dir}/{article_id}.json"
                        with open(json_path, "w", encoding="utf-8") as f:
                            json.dump(article, f, ensure_ascii=False, indent=2)
                        
                        # GHI NGAY LẬP TỨC: Thêm vào file all_articles.csv
                        self.append_to_all_articles(article)
                        articles.append(article)
                        
                        # In thông báo mỗi khi crawl thành công
                        pbar.set_postfix_str(f"Đã ghi: {article['title'][:30]}...")
                    
                    pbar.update(1)
                except Exception as e:
                    print(f"\nLỗi khi xử lý {url}: {str(e)}")
                    pbar.update(1)
                    continue
                
                # Tạm dừng ngẫu nhiên để tránh bị chặn
                self.random_sleep(1, 2)

        print(f"Đã crawl {len(articles)} bài viết từ {source}/{category}")
        if skipped > 0:
            print(f"Đã bỏ qua {skipped} bài viết không thuộc danh mục {category}")

        return articles

    def scrape_multiple_categories(self, config):
        """Thu thập từ nhiều danh mục"""
        total_articles = 0
        start_time = datetime.now()
        
        print(f"Bắt đầu crawl vào: {start_time.strftime('%Y-%m-%d %H:%M:%S')}")
        
        for source, categories in config.items():
            for cat_info in categories:
                category = cat_info["category"]
                num_pages = cat_info.get("pages", 5)
                max_articles = cat_info.get("max_articles", 50)
                
                # Thu thập và ghi ngay lập tức vào all_articles.csv
                articles = self.scrape_category(source, category, num_pages, max_articles)
                total_articles += len(articles)
                
                print(f"Hoàn tất crawl {source}/{category}: {len(articles)} bài viết")
                print(f"Tổng cộng đã crawl: {total_articles} bài viết")
                print("-" * 50)
        
        end_time = datetime.now()
        duration = end_time - start_time
        print(f"\nHoàn tất crawl tổng cộng: {total_articles} bài viết")
        print(f"Thời gian thực hiện: {duration}")
        return total_articles

    def close(self):
        """Đóng trình duyệt"""
        if hasattr(self, "driver"):
            try:
                self.driver.quit()
                print("Đã đóng trình duyệt")
            except:
                pass

# Sử dụng
if __name__ == "__main__":
    config = {
        # "vnexpress": [
        #     {"category": "thoi-su", "pages": 1, "max_articles": 50},
            # {"category": "suc-khoe", "pages": 5, "max_articles": 100},
        #     {"category": "kinh-doanh", "pages": 1, "max_articles": 50},
            # {"category": "phap-luat", "pages": 6, "max_articles": 200},
            # {"category": "giao-duc", "pages": 10, "max_articles": 200},
            # {"category": "khoa-hoc", "pages": 10, "max_articles": 300},
        # ],  
        "tuoitre": [
            # {"category": "thoi-su", "pages": 1, "max_articles": 50},
            # {"category": "suc-khoe", "pages": 1, "max_articles": 50},
            {"category": "kinh-te", "pages": 10, "max_articles": 500},
            {"category": "phap-luat", "pages": 10, "max_articles":110},
            {"category": "giao-duc", "pages":10, "max_articles": 100},
            {"category": "cong-nghe", "pages": 10, "max_articles": 200},
        ]
    }

    try:
        scraper = NewsScraperVN(headless=True)
        scraper.scrape_multiple_categories(config)
    except KeyboardInterrupt:
        print("\nNgắt bởi người dùng. Dữ liệu đã được lưu liên tục vào all_articles.csv")
    except Exception as e:
        print(f"Lỗi tổng quát: {str(e)}")
    finally:
        if 'scraper' in locals():
            scraper.close()

File all_articles.csv đã tồn tại, sẽ ghi thêm vào file này
Bắt đầu crawl vào: 2025-03-14 14:24:32

=== Crawl tuoitre - kinh-te ===
Đã tìm thấy 1491 URLs đã crawl trước đó
Tìm thấy 110 liên kết trên trang 1
Tìm thấy 10 liên kết trên trang 2, tổng cộng: 120
Tìm thấy 10 liên kết trên trang 3, tổng cộng: 130
Tìm thấy 10 liên kết trên trang 4, tổng cộng: 140
Tìm thấy 10 liên kết trên trang 5, tổng cộng: 150
Tìm thấy 10 liên kết trên trang 6, tổng cộng: 160
Tìm thấy 10 liên kết trên trang 7, tổng cộng: 170
Tìm thấy 10 liên kết trên trang 8, tổng cộng: 180
Tìm thấy 10 liên kết trên trang 9, tổng cộng: 190
Tìm thấy 10 liên kết trên trang 10, tổng cộng: 200
Tìm thấy 184 URLs mới chưa crawl


Crawl tuoitre/kinh-te:   3%|▎         | 5/184 [07:16<5:12:05, 104.61s/it, Đã ghi: VinUni và NTU - Singapore ký k...]

Bài viết không đủ thông tin: https://tuoitre.vn/kiem-tien-bang-nghe-doc-la-hong-giong-ai-e1918.htm


Crawl tuoitre/kinh-te:   4%|▍         | 8/184 [12:24<5:30:51, 112.79s/it, Đã ghi: TP.HCM, Nam Bộ nắng nóng như ‘...]

Bài viết không đủ thông tin: https://tuoitre.vn/tam-dai-dong-nganh-o-trung-quoc-2024101015305498.htm


Crawl tuoitre/kinh-te:  11%|█▏        | 21/184 [28:25<4:30:10, 99.45s/it, Đã ghi: Nga kiểm soát gắt gao tại các ...]

Bài viết không đủ thông tin: https://tuoitre.vn/brics-va-mot-trat-tu-the-gioi-khac-20241018083427105.htm


Crawl tuoitre/kinh-te:  12%|█▏        | 22/184 [31:19<5:29:08, 121.91s/it, Đã ghi: Nga kiểm soát gắt gao tại các ...]

Bài viết không đủ thông tin: https://tuoitre.vn/con-sot-hang-hieu-kinh-te-hoc-dien-ro-cua-tui-birkin-20241010160436946.htm


Crawl tuoitre/kinh-te:  16%|█▌        | 29/184 [38:50<2:58:53, 69.25s/it, Đã ghi: Nơi tưởng niệm liệt sĩ Gạc Ma ...] 

Bài viết không đủ thông tin: https://tuoitre.vn/o-nhiem-khoi-bui-ta-dang-hai-minh-20250209082837615.htm


Crawl tuoitre/kinh-te:  18%|█▊        | 33/184 [45:00<4:08:32, 98.76s/it, Đã ghi: Xem xét chuyển công tác 2 giáo...]

Bài viết không đủ thông tin: https://tuoitre.vn/thuong-chien-trump-20-e1911.htm


Crawl tuoitre/kinh-te:  18%|█▊        | 34/184 [47:55<5:04:05, 121.63s/it, Đã ghi: Xem xét chuyển công tác 2 giáo...]

Bài viết không đủ thông tin: https://tuoitre.vn/v-league-2024-2025-e1842.htm


Crawl tuoitre/kinh-te:  22%|██▏       | 40/184 [56:14<4:10:42, 104.46s/it, Đã ghi: Giá thịt heo tăng nóng, giá th...]

Bài viết không đủ thông tin: https://tuoitre.vn/cuoc-chien-chong-lua-dao-tren-mang-e1914.htm


Crawl tuoitre/kinh-te:  23%|██▎       | 42/184 [1:00:13<4:37:05, 117.08s/it, Đã ghi: Nhà bán lẻ đồ nội thất, điện g...]

Bài viết không đủ thông tin: https://tuoitre.vn/thu-hep-nen-kinh-te-co-cuu-duoc-hanh-tinh-20241003092930039.htm


Crawl tuoitre/kinh-te:  28%|██▊       | 51/184 [1:10:50<2:59:57, 81.19s/it, Đã ghi: 9 tháng đầu năm 2024, MB tăng ...] 

Bài viết không đủ thông tin: https://tuoitre.vn/diem-huong-dinh-cu-canada-tien-toi-kiem-duoc-chi-du-tieu-vat-20250118130742614.htm


Crawl tuoitre/kinh-te:  28%|██▊       | 52/184 [1:13:45<4:00:45, 109.44s/it, Đã ghi: 9 tháng đầu năm 2024, MB tăng ...]

Bài viết không đủ thông tin: https://tuoitre.vn/chinh-quyen-moi-cua-hoa-ky-va-trung-quoc-20241108082042432.htm


Crawl tuoitre/kinh-te:  38%|███▊      | 69/184 [1:34:58<3:40:46, 115.19s/it, Đã ghi: Mỗi năm Đồng bằng sông Cửu Lon...]

Bài viết không đủ thông tin: https://tuoitre.vn/voi-gia-ca-dung-noi-chuyen-nho-hoi-do-20241114084747759.htm


Crawl tuoitre/kinh-te:  40%|███▉      | 73/184 [1:40:00<2:45:25, 89.42s/it, Đã ghi: Máy bay American Airlines bốc ...] 

Bài viết không đủ thông tin: https://tuoitre.vn/noi-ray-kinh-te-2024-2025-20241231235405022.htm


Crawl tuoitre/kinh-te:  41%|████      | 75/184 [1:43:59<3:19:23, 109.75s/it, Đã ghi: Kinh tế chịu tác động kép song...]

Bài viết không đủ thông tin: https://tuoitre.vn/gia-thit-heo-e617.htm


Crawl tuoitre/kinh-te:  51%|█████     | 93/184 [2:05:34<2:30:17, 99.09s/it, Đã ghi: Châu Á một năm nhìn lại: Thiên...] 

Bài viết không đủ thông tin: https://tuoitre.vn/cang-thang-chinh-tri-o-han-quoc-e1889.htm


Crawl tuoitre/kinh-te:  52%|█████▏    | 95/184 [2:09:33<2:49:55, 114.56s/it, Đã ghi: BVĐK Tâm Trí Cao Lãnh cấp cứu ...]

Bài viết không đủ thông tin: https://tuoitre.vn/nang-luc-canh-tranh-logistics-phan-phoi-su-bi-quan-can-thiet-20241108083839754.htm


Crawl tuoitre/kinh-te:  56%|█████▌    | 103/184 [2:20:06<2:16:22, 101.02s/it, Đã ghi: Coi kênh giải trí, nổi quạu vì...]

Bài viết không đủ thông tin: https://tuoitre.vn/thang-thanh-nien-e1726.htm


Crawl tuoitre/kinh-te:  58%|█████▊    | 106/184 [2:25:12<2:23:54, 110.70s/it, Đã ghi: Cạnh tranh nguồn nước leo than...]

Bài viết không đủ thông tin: https://tuoitre.vn/trump-harris-va-kinh-te-the-gioi-20241108081357998.htm


Crawl tuoitre/kinh-te:  59%|█████▊    | 108/184 [2:29:12<2:32:21, 120.29s/it, Đã ghi: Chính quyền Tổng thống Trump t...]

Bài viết không đủ thông tin: https://tuoitre.vn/trump-2-0-mot-the-gioi-kho-doan-dinh-20241115090543809.htm


Crawl tuoitre/kinh-te:  64%|██████▍   | 118/184 [2:40:34<1:14:45, 67.96s/it, Đã ghi: Huế không cấp phép hội thi chi...] 

Bài viết không đủ thông tin: https://tuoitre.vn/nhung-dia-phuong-nao-nen-sap-nhap-voi-tp-hcm-2025031219370637.htm


Crawl tuoitre/kinh-te:  65%|██████▍   | 119/184 [2:42:27<1:28:27, 81.66s/it, Đã ghi: Huế không cấp phép hội thi chi...]

Bài viết không đủ thông tin: https://tuoitre.vn/playlist/vu-viec-nong-tren-mang-xa-hoi-45.htm


Crawl tuoitre/kinh-te:  72%|███████▏  | 132/184 [2:56:42<57:13, 66.03s/it, Đã ghi: Công an Bến Tre điều tra vụ ng...]  

Bài viết không đủ thông tin: https://tuoitre.vn/mat-bang-metro-so-2-thong-suot-nguoi-dan-mong-som-khoi-cong-2025031222094499.htm


Crawl tuoitre/kinh-te:  74%|███████▍  | 136/184 [3:01:19<56:11, 70.24s/it, Đã ghi: Thủ tướng quảng bá hàng Việt đ...]

Timeout khi tải trang: https://tuoitre.vn/long-an-hinh-thanh-nhieu-truc-kinh-te-phat-trien-nang-cao-nang-luc-canh-tranh-20240827064022701.htm


Crawl tuoitre/kinh-te:  78%|███████▊  | 144/184 [3:12:02<1:05:30, 98.26s/it, Đã ghi: Thủ tướng: Đề xuất đưa nước ta...]

Bài viết không đủ thông tin: https://tuoitre.vn/gac-ma-e188.htm


Crawl tuoitre/kinh-te:  79%|███████▉  | 145/184 [3:14:58<1:18:53, 121.38s/it, Đã ghi: Thủ tướng: Đề xuất đưa nước ta...]

Bài viết không đủ thông tin: https://tuoitre.vn/lam-kinh-te-voi-chi-hang-20240301092529086.htm


Crawl tuoitre/kinh-te:  80%|███████▉  | 147/184 [3:19:42<1:23:11, 134.90s/it, Đã ghi: Thuế quan của ông Trump là 'cú...]

Bài viết không đủ thông tin: https://tuoitre.vn/chi-dau-kinh-te-nong-gion-dam-vi-bo-20240516075201779.htm


Crawl tuoitre/kinh-te:  82%|████████▏ | 150/184 [3:24:44<1:08:43, 121.29s/it, Đã ghi: Tổng giám đốc Samsung Việt Nam...]

Bài viết không đủ thông tin: https://tuoitre.vn/tinh-gon-bo-may-e1886.htm


Crawl tuoitre/kinh-te:  86%|████████▌ | 158/184 [3:35:12<43:46, 101.02s/it, Đã ghi: Ông Putin nhận thiếu sót về l...]  

Bài viết không đủ thông tin: https://tuoitre.vn/nghi-dinh-168-e1903.htm


Crawl tuoitre/kinh-te:  90%|████████▉ | 165/184 [3:44:33<31:54, 100.77s/it, Đã ghi: Cuộc gặp hiếm hoi của ông Tập ...]

Bài viết không đủ thông tin: https://tuoitre.vn/kinh-te-cam-xuc-tieu-tien-de-tim-vui-20241204102750034.htm


Crawl tuoitre/kinh-te:  90%|████████▉ | 165/184 [3:45:38<31:54, 100.77s/it, Đã ghi: Đáng tiếc cho Hoàng Thùy Linh
Crawl tuoitre/kinh-te:  90%|█████████ | 166/184 [3:45:38<26:56, 89.82s/it, Đã ghi: Đáng tiếc cho Hoàng Thùy Linh
Crawl tuoitre/kinh-te: 100%|██████████| 184/184 [4:06:57<00:00, 97.96s/it, Đã ghi: Năm mới, kỳ vọng mới cho TP.HC...]

Bài viết không đủ thông tin: https://tuoitre.vn/trump-2-0-kinh-te-the-gioi-va-viet-nam-20241122093650936.htm


Crawl tuoitre/kinh-te: 100%|██████████| 184/184 [4:06:58<00:00, 80.54s/it, Đã ghi: Năm mới, kỳ vọng mới cho TP.HC...]


Đã crawl 153 bài viết từ tuoitre/kinh-te
Đã bỏ qua 1 bài viết không thuộc danh mục kinh-te
Hoàn tất crawl tuoitre/kinh-te: 153 bài viết
Tổng cộng đã crawl: 153 bài viết
--------------------------------------------------

=== Crawl tuoitre - phap-luat ===
Đã tìm thấy 1644 URLs đã crawl trước đó
Tìm thấy 29 liên kết trên trang 1
Tìm thấy 10 liên kết trên trang 2, tổng cộng: 39
Tìm thấy 10 liên kết trên trang 3, tổng cộng: 39
Tìm thấy 10 liên kết trên trang 4, tổng cộng: 39
Tìm thấy 10 liên kết trên trang 5, tổng cộng: 39
Tìm thấy 10 liên kết trên trang 6, tổng cộng: 39
Tìm thấy 10 liên kết trên trang 7, tổng cộng: 39
Tìm thấy 10 liên kết trên trang 8, tổng cộng: 39
Tìm thấy 10 liên kết trên trang 9, tổng cộng: 39
Tìm thấy 10 liên kết trên trang 10, tổng cộng: 39
Tìm thấy 7 URLs mới chưa crawl


Crawl tuoitre/phap-luat:  14%|█▍        | 1/7 [02:14<13:24, 134.14s/it]

Bài viết không đủ thông tin: https://tuoitre.vn/nhung-dieu-luat-ky-la-tren-the-gioi-2020032052788152.htm


Crawl tuoitre/phap-luat:  86%|████████▌ | 6/7 [08:18<01:22, 82.38s/it, Đã ghi: Cha con đại gia điện gió miền ...] 

Bài viết không đủ thông tin: https://tuoitre.vn/my-o-tu-cung-nhan-tro-cap-covid-19-2020062545786615.htm


Crawl tuoitre/phap-luat: 100%|██████████| 7/7 [09:23<00:00, 80.55s/it, Đã ghi: Ghen tuông vô cớ, rủ bạn đi đá...]


Đã crawl 5 bài viết từ tuoitre/phap-luat
Hoàn tất crawl tuoitre/phap-luat: 5 bài viết
Tổng cộng đã crawl: 158 bài viết
--------------------------------------------------

=== Crawl tuoitre - giao-duc ===
Đã tìm thấy 1649 URLs đã crawl trước đó
Tìm thấy 30 liên kết trên trang 1
Tìm thấy 10 liên kết trên trang 2, tổng cộng: 40
Tìm thấy 10 liên kết trên trang 3, tổng cộng: 50
Tìm thấy 10 liên kết trên trang 4, tổng cộng: 60
Tìm thấy 10 liên kết trên trang 5, tổng cộng: 70
Tìm thấy 10 liên kết trên trang 6, tổng cộng: 80
Tìm thấy 10 liên kết trên trang 7, tổng cộng: 90
Tìm thấy 10 liên kết trên trang 8, tổng cộng: 100
Tìm thấy 10 liên kết trên trang 9, tổng cộng: 110
Tìm thấy 10 liên kết trên trang 10, tổng cộng: 120
Tìm thấy 58 URLs mới chưa crawl


Crawl tuoitre/giao-duc:   2%|▏         | 1/58 [01:42<1:37:46, 102.91s/it]

Bài viết không đủ thông tin: https://tuoitre.vn/10-bien-phap-vui-de-con-tre-duoc-nghi-he-tron-ven-20240723112026725.htm


Crawl tuoitre/giao-duc:  14%|█▍        | 8/58 [09:56<1:05:09, 78.18s/it, Đã ghi: Học sinh TP.HCM mắc tật khúc x...] 

Bài viết không đủ thông tin: https://tuoitre.vn/nhung-bai-hoc-nho-trong-cac-phim-hoat-hinh-danh-cho-thieu-nhi-20240503173111417.htm


Crawl tuoitre/giao-duc:  19%|█▉        | 11/58 [15:02<1:20:58, 103.38s/it, Đã ghi: Chuyển biến đáng kể trong chọn...]

Bài viết không đủ thông tin: https://tuoitre.vn/truong-dai-hoc-va-dai-hoc-co-kho-gi-mot-cai-ten-20241122105701499.htm


Crawl tuoitre/giao-duc:  24%|██▍       | 14/58 [18:55<1:05:46, 89.69s/it, Đã ghi: Giới trẻ ngày nay ít chào hỏi:...] 

Bài viết không đủ thông tin: https://tuoitre.vn/ngan-hang-phong-toa-sach-giao-khoa-20240821153708555.htm


Crawl tuoitre/giao-duc:  29%|██▉       | 17/58 [22:38<53:51, 78.81s/it, Đã ghi: Dậy sóng với trường hợp học gi...]  

Bài viết không đủ thông tin: https://tuoitre.vn/de-an-5695-tien-de-dua-tieng-anh-thanh-ngon-ngu-thu-hai-trong-truong-hoc-20241129200648879.htm


Crawl tuoitre/giao-duc:  36%|███▌      | 21/58 [28:52<1:02:51, 101.92s/it, Đã ghi: Kỷ luật học sinh bằng cách 'đọ...]

Bài viết không đủ thông tin: https://tuoitre.vn/giao-duc-2024-trong-the-tien-thoai-luong-nan-20241227144951281.htm


Crawl tuoitre/giao-duc:  41%|████▏     | 24/58 [34:03<1:03:28, 112.03s/it, Đã ghi: Lãnh đạo Bộ Giáo dục nhiều nướ...]

Bài viết không đủ thông tin: https://tuoitre.vn/tranh-smartphone-gap-smartwatch-20241106081302231.htm


Crawl tuoitre/giao-duc:  47%|████▋     | 27/58 [39:08<59:00, 114.19s/it, Đã ghi: Ông Kim Jong Un ôm chầm, chăm ...]  

Bài viết không đủ thông tin: https://tuoitre.vn/hoi-phu-huynh-o-phap-vua-la-day-to-vua-la-thanh-tra-20240605091328376.htm


Crawl tuoitre/giao-duc:  48%|████▊     | 28/58 [42:03<1:06:11, 132.38s/it, Đã ghi: Ông Kim Jong Un ôm chầm, chăm ...]

Bài viết không đủ thông tin: https://tuoitre.vn/ma-thuat-cua-bang-den-phan-trang-20240327093357614.htm


Crawl tuoitre/giao-duc:  55%|█████▌    | 32/58 [45:54<31:23, 72.43s/it, Đã ghi: Giáo dục sao nhiều cái phải xi...]   

Timeout khi tải trang: https://tuoitre.vn/khi-sinh-vien-giao-duc-khai-phong-khoi-nghiep-20240627214332285.htm


Crawl tuoitre/giao-duc:  59%|█████▊    | 34/58 [48:44<32:12, 80.50s/it, Đã ghi: Thủ tướng: Từng bước đưa tiếng...]

Bài viết không đủ thông tin: https://tuoitre.vn/quyen-luc-cua-chu-h-trong-bang-diem-20240529194651645.htm


Crawl tuoitre/giao-duc:  60%|██████    | 35/58 [50:29<33:39, 87.81s/it, Đã ghi: Thủ tướng: Từng bước đưa tiếng...]

Bài viết không đủ thông tin: https://tuoitre.vn/phu-huynh-hoc-sinh-troi-sinh-t-sao-con-sinh-h-20240603102532901.htm


Crawl tuoitre/giao-duc:  64%|██████▍   | 37/58 [53:19<30:55, 88.37s/it, Đã ghi: Tụ tập, phóng xe lạng lách: Ảo...]

Bài viết không đủ thông tin: https://tuoitre.vn/dap-an-bai-toan-day-them-hoc-them-tu-nguyen-202408261753477.htm


Crawl tuoitre/giao-duc:  69%|██████▉   | 40/58 [58:23<31:43, 105.73s/it, Đã ghi: Ông Trần Văn Mạnh làm phó tổng...]

Bài viết không đủ thông tin: https://tuoitre.vn/ngon-ngu-thu-hai-la-gi-20240829144332925.htm


Crawl tuoitre/giao-duc:  78%|███████▊  | 45/58 [1:05:39<22:45, 105.08s/it, Đã ghi: Năm thứ 20 Toyota triển khai g...]

Bài viết không đủ thông tin: https://tuoitre.vn/cach-giao-duc-gia-truyen-cua-gia-dinh-20240529181129898.htm


Crawl tuoitre/giao-duc:  83%|████████▎ | 48/58 [1:10:42<18:32, 111.30s/it, Đã ghi: Bộ trưởng Kim Sơn: Mong chỉ rõ...]

Bài viết không đủ thông tin: https://tuoitre.vn/moi-quan-he-giua-nha-truong-va-hoi-cha-me-hoc-sinh-dau-la-ranh-gioi-20240605091639492.htm


Crawl tuoitre/giao-duc:  93%|█████████▎| 54/58 [1:18:53<06:25, 96.30s/it, Đã ghi: Bão lũ gây thiệt hại cho ngành...] 

Bài viết không đủ thông tin: https://tuoitre.vn/khi-nguoi-lon-so-nghi-he-20240530132621226.htm


Crawl tuoitre/giao-duc:  95%|█████████▍| 55/58 [1:21:04<04:20, 86.82s/it, Đã ghi: Lương giáo viên cao hay thấp? ...]
Crawl tuoitre/giao-duc:  97%|█████████▋| 56/58 [1:21:04<02:41, 80.84s/it, Đã ghi: Lương giáo viên cao hay thấp?
Crawl tuoitre/giao-duc:  98%|█████████▊| 57/58 [1:23:59<01:49, 109.12s/it, Đã ghi: Lương giáo viên cao hay thấp?
...]

Bài viết không đủ thông tin: https://tuoitre.vn/co-phai-the-gioi-dang-ngay-cang-dot-hon-20250102102123789.htm


Crawl tuoitre/giao-duc: 100%|██████████| 58/58 [1:25:04<00:00, 88.01s/it, Đã ghi: Nhiều nước Đông Nam Á 'chạy đu...] 


Đã crawl 40 bài viết từ tuoitre/giao-duc
Hoàn tất crawl tuoitre/giao-duc: 40 bài viết
Tổng cộng đã crawl: 198 bài viết
--------------------------------------------------

=== Crawl tuoitre - cong-nghe ===
Đã tìm thấy 1689 URLs đã crawl trước đó
Tìm thấy 34 liên kết trên trang 1
Tìm thấy 10 liên kết trên trang 2, tổng cộng: 43
Tìm thấy 10 liên kết trên trang 3, tổng cộng: 53
Tìm thấy 10 liên kết trên trang 4, tổng cộng: 63
Tìm thấy 10 liên kết trên trang 5, tổng cộng: 73
Tìm thấy 10 liên kết trên trang 6, tổng cộng: 83
Tìm thấy 10 liên kết trên trang 7, tổng cộng: 93
Tìm thấy 10 liên kết trên trang 8, tổng cộng: 103
Tìm thấy 10 liên kết trên trang 9, tổng cộng: 113
Tìm thấy 10 liên kết trên trang 10, tổng cộng: 123
Tìm thấy 51 URLs mới chưa crawl


Crawl tuoitre/cong-nghe:  16%|█▌        | 8/51 [08:06<39:32, 55.18s/it, Đã ghi: Tỉ phú Bill Gates giới thiệu n...]

Timeout khi tải trang: https://tuoitre.vn/nhung-tap-doan-lua-dao-truc-tuyen-20250304133752439.htm


Crawl tuoitre/cong-nghe:  33%|███▎      | 17/51 [19:58<56:30, 99.71s/it, Đã ghi: Xã nghèo ven biển ‘lột xác’ nh...]

Bài viết không đủ thông tin: https://tuoitre.vn/giac-mo-metro-20241220120240824.htm


Crawl tuoitre/cong-nghe:  41%|████      | 21/51 [24:18<36:36, 73.22s/it, Đã ghi: Sơn Việt Nam khẳng định chất l...]

Bài viết không đủ thông tin: https://tuoitre.vn/bat-ngo-cong-dung-cua-da-ran-20250125200151464.htm


Crawl tuoitre/cong-nghe:  63%|██████▎   | 32/51 [38:01<31:01, 97.97s/it, Đã ghi: Tạo ra ánh sáng xoắn, sáng gấp...]

Bài viết không đủ thông tin: https://tuoitre.vn/phap-luat-tao-hanh-lang-phat-trien-cong-nghe-20241227142439357.htm


Crawl tuoitre/cong-nghe:  78%|███████▊  | 40/51 [48:52<19:19, 105.45s/it, Đã ghi: Một năm ghi dấu ấn tượng của A...]

Bài viết không đủ thông tin: https://tuoitre.vn/hot-nhu-ky-su-ai-20250103142914814.htm


Crawl tuoitre/cong-nghe:  86%|████████▋ | 44/51 [55:01<12:33, 107.62s/it, Đã ghi: 'Ông lớn' taxi truyền thống th...]

Bài viết không đủ thông tin: https://tuoitre.vn/de-den-ngay-dac-vu-ai-quan-xuyen-moi-thu-20241211084845322.htm


Crawl tuoitre/cong-nghe:  96%|█████████▌| 49/51 [1:02:46<03:47, 113.97s/it, Đã ghi: Sau làn sóng tăng giá ảo, giới...]

Bài viết không đủ thông tin: https://tuoitre.vn/cong-nghe-thoi-huong-trump-20250117094018516.htm


Crawl tuoitre/cong-nghe: 100%|██████████| 51/51 [1:04:57<00:00, 76.42s/it, Đã ghi: Tổng Bí thư Tô Lâm: 'Lãnh đạo ...] 


Đã crawl 43 bài viết từ tuoitre/cong-nghe
Đã bỏ qua 1 bài viết không thuộc danh mục cong-nghe
Hoàn tất crawl tuoitre/cong-nghe: 43 bài viết
Tổng cộng đã crawl: 241 bài viết
--------------------------------------------------

Hoàn tất crawl tổng cộng: 241 bài viết
Thời gian thực hiện: 6:47:57.367138
Đã đóng trình duyệt
