Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Crawl_soha #2

Open
khanhvy02 opened this issue Dec 30, 2023 · 4 comments
Open

Crawl_soha #2

khanhvy02 opened this issue Dec 30, 2023 · 4 comments

Comments

@khanhvy02
Copy link

Mình chào bạn. Bạn ơi, bạn chỉ mình cách chạy file crawl soha với được không ạ. Mình chạy mà không được🥺

@khanhvy02 khanhvy02 reopened this Dec 30, 2023
@trongtuyen99
Copy link
Owner

Chào Vy @khanhvy02 , bạn thử làm theo 2 bước sau nhé:

  1. Sửa lại file new_link.txt (chứa những link sử dụng để khởi tạo bắt đầu crawl) thành các link bài viết trang 24h.com có thể truy cập được, ở các chủ đề khác nhau (vì hiện tại link trong file này đều ko truy cập được.
  2. Thêm 2 dòng sau vào file settings.py
    USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}
    Vì 24h.com hiện đang chặn crawl.

@khanhvy02
Copy link
Author

khanhvy02 commented Jan 2, 2024

Ui mình cảm ơn bạn @trongtuyen99 vì đã trả lời lại bình luận của mình. Thật sự cảm ơn bạn rất nhiều.
Do mình tưởng bạn crawl trang Soha, nhưng trong file code lại có cả của trang 24h nên lúc đầu mình hơi rối một xíu. Trước đây, mình cũng chưa thử pp crawl bằng scrapy bao giờ nên có phần không biết 😭.

  • Sau khi mình tạo project scrapy xong, mình chạy file SohaCrawler.py trong thư mục spider hả bạn. Nhưng báo lỗi í ạ.
  • Bạn có thể nào chỉ cho mình các bước thứ tự chạy với được không ạ.
    Xin lỗi vì đã làm phiền bạn.

@khanhvy02
Copy link
Author

Chào bạn, mình đã gửi Connect qua bên LinkedIn cho bạn rồi ạ

@trongtuyen99
Copy link
Owner

gửi mình linkedIn bạn mình gửi connect, mình đang ko thấy invitation @khanhvy02

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants