# 진행 순서
1. 로깅 설정
2. 시스템 정보 확인
3. 웹 크롤러 만들기
4. 병렬처리 셋팅
5. 실행 스케줄러 설정
6. 매개변수를 입력 받는 시스템 명령어 실행

# 로깅 설정

In [None]:
import logging

In [None]:
# 로거 생성
logger = logging.getLogger()

# 로그의 출력 기준 설정
logger.setLevel(logging.INFO)

# log 형식 지정
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

# log 출력
stream_handler = logging.StreamHandler()
stream_handler.setFormatter(formatter)
logger.addHandler(stream_handler)

# log 파일 생성
file_handler = logging.FileHandler('output.log')
file_handler.setFormatter(formatter)
logger.addHandler(file_handler)

# 시스템 정보 확인

In [None]:
import platform, psutil
import os

In [None]:
def print_system_info():
    logger.info(f'''
        OS : {platform.system()}
        OS VERSION : {platform.version()}
        Process Information : {platform.processor()}
        Process Architecture : {platform.machine()}
        CPU Cores : {os.cpu_count()}
        RAM Size : {str(round(psutil.virtual_memory().total / (1024.0 ** 3))) + "(GB)"}
    ''')

In [None]:
print_system_info()

# 웹크롤러 만들기

In [None]:
from bs4 import BeautifulSoup
import requests

In [None]:
# 네이버 뉴스 URL
url1 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=100'
url2 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=101'
url3 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=102'
url4 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=103'
url5 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=104'
url6 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=105'

In [None]:
def web_crawler(url):
    # 헤더 설정
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"}

    # 서버 응답 확인
    response = requests.get(url, headers=headers)

    # BeautifulSoup 객체 생성
    beautifulSoup = BeautifulSoup(response.content, "html.parser")

    # 페이지 제목 크롤링
    print(beautifulSoup.title.string)

    # 기사 제목 크롤링
    print(beautifulSoup.find("ul", attrs={"class": "type06_headline"}).get_text())

In [None]:
# 크롤러 실행 테스트
web_crawler(url2)

# 병렬 처리 셋팅

In [None]:
# Pycharm 에서 실행 확인
if __name__ == "__main__":
    from multiprocessing import Pool
    import time

    url_list = [url1, url2, url3, url4, url5, url6]

    logger.info(f'''멀티 프로세스가 시작됩니다.''')
    start_time = time.time()

    pool = Pool(processes=3)  # 3개 cpu 코어를 사용
    result = pool.map(web_crawler, url_list)  # 각 url에 웹 크롤러 할당

    pool.close()  # 풀링 종료
    pool.join()  # 결과 합치기

    logger.info(f'''멀티 프로세스가 종료되었습니다.''')
    logger.info("--- %s seconds ---" % (time.time() - start_time))
