Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Project] 커뮤니티 웹 스크래퍼 구현 #43

Open
minSW opened this issue Jun 16, 2021 · 1 comment
Open

[Project] 커뮤니티 웹 스크래퍼 구현 #43

minSW opened this issue Jun 16, 2021 · 1 comment
Assignees

Comments

@minSW
Copy link
Collaborator

minSW commented Jun 16, 2021

[Project] 커뮤니티 웹 스크래퍼 구현

💡 웹 스크래퍼 ?
고도화된 크롤러 (like 검색 엔진) 가 아닌 => 지정 커뮤니티에 대한 일회성의 웹 스크래퍼 구현

Requirement

  • 일일 배치형태로 동작
  • 입력값
    • 스크래핑 대상 커뮤니티 id
    • 커뮤니티 선정 기준 (당일의 Hot , 인기 등)
  • 스크랩핑 데이터 대상
    • 지정 시간 내 작성된 해당 커뮤니티의 모든 게시글의 제목 (ex. 전일 6AM 부터 배치 시점까지의 데이터)
    • + 해당 게시글의 중요도 또는 화제성 판단을 위한 필드 값 함께 수집

Data Format

Parquet

단, 현재는 임의로 CSV 형태

field type
c_id int 글 번호
title string 글 제목 (content)
view int 조회 수
recommend int 추천 수
comment_num int 댓글 수
date datetime 작성일자

모든 필드 및 c_id, date 생략/변경 가능

Libraries (Python)

  • BeautifulSoup
  • Selenium (=> 동적 x)
@minSW minSW self-assigned this Jun 16, 2021
@minSW
Copy link
Collaborator Author

minSW commented Jun 16, 2021

Test (21. 06.17)

  • programming

    • 28 pages, 1374 rows
    • csv (text file) 110KB
    • 소요 시간 : 6.3s
  • bitcoins

    • 177 pages, 8795 rows
    • csv (text file) 711KB
    • 소요 시간 : 41s

스크린샷 2021-06-17 오전 3 36 59

스크린샷 2021-06-17 오전 3 51 29

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant