# **Chapter 7. [시스템] N배 빠른 병렬처리 웹 크롤러 만들기**


---
### 📝 **학습 목차**
> 7-1. 프로젝트 개요 <br>
> 7-2. 시스템 정보 확인 - platform <br>
> 7-3. 매개변수 입력 받기 - sys.argv, argparse <br>
> 7-4. 디버깅의 기본! 로그 남기기 - logging <br>
> 7-5. 원하는 시간에 작업 실행 - sched <br>
> 7-6. 병렬 처리 1 - threading <br>
> 7-7. 병렬 처리 2 - multiprocessing <br>
> 7-8. 시스템 명령어 실행 <br>
> **7-9. 프로젝트 실습**

## 7-9. 병렬처리 웹 크롤러 만들기 🚀 

> ### 진행 순서
>  1. 로깅(logging) 설정
>  2. 시스템 정보 확인
>  3. 웹 크롤러 만들기
>  4. 병렬처리 세팅
>  5. 실행 스케줄러 설정
>  6. 매개변수를 입력 받는 시스템 명령어 실행

#### 7-9-1. 로깅(logging) 설정

In [1]:
import logging

# 로거 생성
logger = logging.getLogger()

# 로그의 출력 기준 설정
logger.setLevel(logging.INFO)

# log 형식 지정
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

# log 출력
stream_handler = logging.StreamHandler()
stream_handler.setFormatter(formatter)
logger.addHandler(stream_handler)

# log 파일 생성
file_handler = logging.FileHandler('output.log')
file_handler.setFormatter(formatter)
logger.addHandler(file_handler)

#### 7-9-2. 시스템 정보 확인

In [2]:
import platform, psutil
import os

def printSystemInfor():
    logger.info(f''' 
        OS                   :\t {platform.system()}
        OS Version           :\t {platform.version()}
        OS                   :\t {platform.system()}
        OS Version           :\t {platform.version()}
        Process information  :\t {platform.processor()}
        Process Architecture :\t {platform.machine()}
        CPU Cores            :\t {os.cpu_count()}   
        RAM Size             :\t {str(round(psutil.virtual_memory().total / (1024.0 **3)))+"(GB)"} 
    ''')


In [3]:
printSystemInfor()

2022-10-18 20:17:19,574 - root - INFO -  
        OS                   :	 Windows
        OS Version           :	 10.0.19043
        OS                   :	 Windows
        OS Version           :	 10.0.19043
        Process information  :	 Intel64 Family 6 Model 142 Stepping 10, GenuineIntel
        Process Architecture :	 AMD64
        CPU Cores            :	 8   
        RAM Size             :	 16(GB) 
    


#### 7-9-3. 웹 크롤러 만들기

In [4]:
from bs4 import BeautifulSoup
import requests

In [5]:
# 네이버 연합뉴스 URL
url1 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=100'
url2 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=101'
url3 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=102'
url4 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=103'
url5 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=104'
url6 = 'https://news.naver.com/main/list.naver?mode=LSD&mid=sec&sid1=105'

[html 헤더 정보 일람 사이트](https://www.useragentstring.com/pages/useragentstring.php)

In [6]:
def web_crawler(url):
    # 헤더 설정
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"}
    
    # 서버 응답 확인
    response = requests.get(url, headers=headers)

    # BeautifulSoup 객체 생성
    beautifulSoup = BeautifulSoup(response.content, "html.parser")

    # 페이지 제목 크롤링
    print(beautifulSoup.title.string)

    # 기사 제목 크롤링
    print(beautifulSoup.find("ul", attrs={"class":"type06_headline"}).get_text())

In [7]:
# 크롤러 실행 테스트
web_crawler(url1)

정치 홈 : 네이버 뉴스	










								 野 "검찰, 유동규 회유 압박"…국감 곳곳 '이재명·김건희 의혹' 충돌(종합3보)
								


박상휘 정재민 이균진 전민 기자 = 윤석열 정부 첫 국정감사가 종반을 향해 치닫고 있는 가운데 여야는 18일에도 상임위원회에 곳 …
뉴스1
1분전












								 北 금강산관광지구 ‘고성항 횟집’ 건물 철거
								


정부 “북한 내 우리 자산 철거 중단하라” 경협 기업인 “정부·국회 피해 보상해야” 남북 경제협력사업 중단과 함께 북한이 금강산 …
세계일보
신문A17면 
4분전







동영상기사




								 [단독] 정부 데이터도 한 건물에 '밀집'…다른 층이면 괜찮다?
								


이번 일을 통해서 회사 덩치만 키우고 재난 대비에는 허술했던 카카오의 민낯이 그대로 드러났습니다. 수백 년 전 조선왕조실록도 불 …
SBS
5분전












								 베트남 총리 예방하는 박진
								


= 베트남을 방문 중인 박진 외교부 장관이 18일 오후 베트남에서 팜 밍 찡(Pham Minh Chinh) 베트남 총리를 예방하 …
뉴스1
6분전












								 베트남 총리와 악수하는 박진
								


= 베트남을 방문 중인 박진 외교부 장관이 18일 오후 베트남에서 팜 밍 찡(Pham Minh Chinh) 베트남 총리를 예방하 …
뉴스1
6분전












								 정진석 "대북굴종·친중사대 文정부 뿌리엔 40년前 좌파이념…현대판 위정척사"
								


"민주당 주류 586세력 이념이 뭔가, 5년간 北 김정은 남매에 왜 고개한번 들지 못했나" "'北은 자주, 韓은 친일괴뢰' 민주 …
디지털타임스
7분전







동영상기사




								 김건희 여사, 넉 달 만에 단독 일정 공개‥보폭 넓히나?
								


윤석열 대통령의 부인 김건희 여사가 넉 달 만에 윤 대통령 없이 

#### 7-9-4. 병렬처리 세팅

In [None]:
# Pycharm 에서 실행 확인
if __name__=='__main__':
    from multiprocessing import Pool
    import time
    
    url_list = [url1, url2, url3, url4, url5, url6]
    
    logger.info(f''' 멀티프로세스가 시작됩니다. ''')
    start_time = time.time()
    
    pool = Pool(processes=3)                          # 3개 CPU 코어를 사용합니다.
    result = pool.map(web_crawler, url_list)          # 각 URL 에 웹 크롤러 할당
    
    pool.close()     # 풀링 종료
    pool.join()      # 결과 합치기

    
    logger.info(f''' 멀티프로세스가 종료되었습니다. ''')
    logger.info("--- %s seconds ---" % (time.time() - start_time))

2022-10-18 20:17:22,572 - root - INFO -  멀티프로세스가 시작됩니다. 


#### 7-9-4. 실행 스케줄러 설정

In [1]:
def main():
    from multiprocessing import Pool
    import time
    
    url_list = [url1, url2, url3, url4, url5, url6]
    
    logger.info(f''' 멀티프로세스가 시작됩니다. ''')
    start_time = time.time()
    
    pool = Pool(processes=3)                          # 3개 CPU 코어를 사용합니다.
    result = pool.map(web_crawler, url_list)          # 각 URL 에 웹 크롤러 할당
    
    pool.close()     # 풀링 종료
    pool.join()      # 결과 합치기
    
    logger.info(f''' 멀티프로세스가 종료되었습니다. ''')
    logger.info("--- %s seconds ---" % (time.time() - start_time))

    
# Pycharm 에서 실행 확인
if __name__=='__main__':
    import schedule 
    
    # 3초에 한번씩 메인 함수 실행
    schedule.every(3).seconds.do(main)  # 이벤트 등록
    
    # 스케줄러 실행
    while True:
        schedule.run_pending()
    

#### 7-9-5. 매개변수를 입력받는 시스템 명령어 실행

In [None]:
def main(cpu=3):
    from multiprocessing import Pool
    import time
    
    url_list = [url1, url2, url3, url4, url5, url6]
    
    logger.info(f''' 멀티프로세스가 시작됩니다. ''')
    start_time = time.time()
    
    pool = Pool(processes=cpu)                        # N개 CPU 코어를 사용합니다.
    result = pool.map(web_crawler, url_list)          # 각 URL 에 웹 크롤러 할당
    
    pool.close()     # 풀링 종료
    pool.join()      # 결과 합치기
    
    logger.info(f''' 멀티프로세스가 종료되었습니다. ''')
    logger.info("--- %s seconds ---" % (time.time() - start_time))

    
# Pycharm 에서 실행 확인
if __name__=='__main__':
    import argparse
    import schedule 
    
    ''' 입력 매개변수 설정 '''
    parser = argparse.ArgumentParser()  
    parser.add_argument('--cpu', type=int, default=3, help="멀티프로세스 CPU 수")
    parser.add_argument('--run_interval', type=int, default=5, help="웹 크롤러 실행 주기(초)")
    args = parser.parse_args()         # 매개변수 파싱
    cpu = args.cpu
    interval = args.run_interval
    
    logger.info(f''' 
        CPU 사용                :\t {cpu} 코어
        프로그램 실행주기        :\t {interval} 초
    ''')

    # N초에 한번씩 메인 함수 실행
    schedule.every(interval).seconds.do(main, cpu)  # 이벤트 등록
    
    # 스케줄러 실행
    while True:
        schedule.run_pending()
    