# 진행 순서
1. 로깅 설정
2. 시스템 정보 확인
3. 웹 크롤러 만들기
4. 병렬처리 셋팅
5. 실행 스케줄러 설정
6. 매개변수를 입력 받는 시스템 명령어 실행

# 로깅 설정

In [1]:
import logging

In [2]:
# 로거 생성
logger = logging.getLogger()

# 로그의 출력 기준 설정
logger.setLevel(logging.INFO)

# log 형식 지정
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

# log 출력
stream_handler = logging.StreamHandler()
stream_handler.setFormatter(formatter)
logger.addHandler(stream_handler)

# log 파일 생성
file_handler = logging.FileHandler('output.log', encoding='utf-8')
file_handler.setFormatter(formatter)
logger.addHandler(file_handler)

# 시스템 정보 확인

In [3]:
import platform, psutil
import os

In [4]:
def print_system_info():
    logger.info(f'''
        OS : {platform.system()}
        OS VERSION : {platform.version()}
        Process Information : {platform.processor()}
        Process Architecture : {platform.machine()}
        CPU Cores : {os.cpu_count()}
        RAM Size : {str(round(psutil.virtual_memory().total / (1024.0 ** 3))) + "(GB)"}
    ''')

In [5]:
print_system_info()

2024-02-18 00:05:18,081 - root - INFO - 
        OS : Windows
        OS VERSION : 10.0.19045
        Process Information : Intel64 Family 6 Model 183 Stepping 1, GenuineIntel
        Process Architecture : AMD64
        CPU Cores : 28
        RAM Size : 64(GB)
    


# 웹크롤러 만들기

In [6]:
from bs4 import BeautifulSoup
import requests

In [7]:
# 네이버 뉴스 URL
url1 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=100'
url2 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=101'
url3 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=102'
url4 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=103'
url5 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=104'
url6 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=105'

In [8]:
def web_crawler(url):
    # 헤더 설정
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"}

    # 서버 응답 확인
    response = requests.get(url, headers=headers)

    # BeautifulSoup 객체 생성
    beautifulSoup = BeautifulSoup(response.content, "html.parser")

    # 페이지 제목 크롤링
    print(beautifulSoup.title.string)

    # 기사 제목 크롤링
    print(beautifulSoup.find("ul", attrs={"class": "type06_headline"}).get_text())

In [9]:
# 크롤러 실행 테스트
web_crawler(url2)

경제 홈 : 네이버 뉴스	










								 [비즈토크<하>] 대한항공·아시아나 합병 '최대 수혜자' 티웨이항공 과제 산적
								


티웨이항공, 5월 첫 유럽노선 '시험대' 홍민택 토스뱅크 대표 사임의지 밝혀 ☞<상>편에 이어 ◆ 대한항공·아시아나항공 합병 ' …
더팩트
1분전












								 인상에 또 인상, 49층 대신 35층…공사비 부담에 재건축 곳곳 ‘삐그덕’
								


시공사, 조합에 공사비 증액 공문 발송 잇따라 일부 현장 분담금 가중에 초고층 포기 검토 공사비 이견에 시공사 못구한 정비사업장 …
매일경제
2분전












								 [비즈토크<상>] "빨리 광고 내려라"…이강인 인성 논란에 KT 날벼락
								


축구 국가대표팀 내홍에 KT 곤혹 이강인 출연 광고, 네티즌 악플 세례 경제는 먹고사는 일과 관련된 분야입니다. 한 나라의 경제 …
더팩트
4분전












								 1107회 로또 1등 ‘6·14·30·31·40·41’…보너스 ‘29’
								


동행복권은 제1107회 로또복권 추첨에서 ‘6·14·30·31·40·41’이 1등 당첨번호로 뽑혔다고 17일 밝혔다. 2등 보너 …
이코노미스트
9분전












								 애틀랜타 연은총재 "올여름 금리인하 배제 안해…추가 데이터 필요"
								


라파엘 보스틱 미국 애틀랜타 연방준비은행 총재는 16일(현지시간) 올여름 연방준비제도(Fed 연준)의 금리인하 가능성을 배제할  …
뉴시스
11분전












								 서울 아파트 전셋값 39주 연속↑…‘탈(脫)서울’ 지난해 32만명
								


수급불균형 지속 뉴시스 서울에서 경기도로 이동하는 사람들이 늘고 있다. 서울 집값과 전셋값이 상승하면서 경기도와 인천 등 주변  …
세계일보
22분전







동영상기사




								 애플 팔고 엔비디아로...AI 붐에 고공행진
					

# 병렬 처리 셋팅

In [None]:
# Pycharm 에서 실행 확인
def main():
    from multiprocessing import Pool
    import time

    url_list = [url1, url2, url3, url4, url5, url6]

    logger.info(f'''멀티 프로세스가 시작됩니다.''')
    start_time = time.time()

    pool = Pool(processes=3)  # 3개 cpu 코어를 사용
    result = pool.map(web_crawler, url_list)  # 각 url에 웹 크롤러 할당

    pool.close()  # 풀링 종료
    pool.join()  # 결과 합치기

    logger.info(f'''멀티 프로세스가 종료되었습니다.''')
    logger.info("--- %s seconds ---" % (time.time() - start_time))


# 실행 스케줄러 설정

In [ ]:
# Pycharm 에서 실행 확인
if __name__ == "__main__":
    import schedule

    # 3초에 한번씩 메인 함수 실행
    schedule.every(3).seconds.do(main)  # 이벤트 등록

    # 스케줄러 실행
    while True:
        schedule.run_pending()

# 매개 변수를 입력 받는 시스템 명령어 실행

In [10]:
def main(cpu=3):
    from multiprocessing import Pool
    import time

    url_list = [url1, url2, url3, url4, url5, url6]

    logger.info(f'''멀티 프로세스가 시작됩니다.''')
    start_time = time.time()

    pool = Pool(processes=cpu)  # N개 CPU 코어를 사용
    result = pool.map(web_crawler, url_list)  # 각 URL에 웹 크롤러 할당

    pool.close()  # 풀링 종료
    pool.join()  # 결과 합치기

    logger.info(f'''멀티 프로세스가 종료되었습니다.''')
    logger.info("--- %s second ---" % (time.time() - start_time))

In [ ]:
# Pycharm에서 실행 확인
if __name__ == "__main__":
    import argparse
    import schedule

    ''' 입력 매개변수 설정'''
    parser = argparse.ArgumentParser()
    parser.add_argument('--cpu', type=int, default=3, help="멀티프로세스 CPU 수")
    parser.add_argument('--run_interval', type=int, default=5, help="웹 크롤러 실행 주기(초)")
    args = parser.parse_args()  # 매개변수 파싱
    cpu = args.cpu
    interval = args.run_interval

    logger.info(f'''
        CPU 사용 : {cpu} 코어
        프로그램 실행 주기 : {interval} 초
    ''')

    # N초에 한번씩 메인 함수 실행
    schedule.every(interval).seconds.do(main, cpu)  # 이벤트 등록

    # 스케줄러 실행
    while True:
        schedule.run_pending()