# 멀티스레딩, 멀티프로세싱 테스트 Test Multithreading, Multiprocessing
- 2024/01/17
- 어느 블로그에 따르면, 99초 걸리던 작업을 6초까지 단축시킬 수 있다고 한다.
- 1. 멀티스레딩, 멀티프로세싱 예제를 실행해본다.
  2. 예제는 나무위키 크롤링이며, 나무위키의 html 구조가 바뀌어, 기존 예제를 수정한다.
- 3. DC 크롤러에 적용하여, 성능을 개선한다.
- 블로그 링크 : https://keyhyuk-kim.medium.com/python-%ED%81%AC%EB%A1%A4%EB%9F%AC-%EB%A9%80%ED%8B%B0%ED%94%84%EB%A1%9C%EC%84%B8%EC%8A%A4-%EB%A9%80%ED%8B%B0%EC%8A%A4%EB%A0%88%EB%93%9C%EB%A1%9C-%EC%84%B1%EB%8A%A5-%EC%A5%90%EC%96%B4%EC%A7%9C%EA%B8%B0-a7712bcbaa4

## a. 예제

### a-1. 예제 : 기존 코드
- 나무위키를 크롤링한다

#### a-1-1. 함수 정의

In [1]:
from fake_useragent import UserAgent
from time import sleep
from multiprocessing import Pool
from concurrent.futures import ThreadPoolExecutor
from bs4 import BeautifulSoup
from selenium import webdriver
import concurrent.futures
import urllib.request  
import requests
import time

In [2]:
urls = ["https://namu.wiki/w/%EB%B6%84%EB%A5%98:%EC%A0%95%EC%88%98", 
        'https://namu.wiki/w/%EB%B6%84%EB%A5%98:%EC%88%98', 
        'https://namu.wiki/w/%EB%aB6%84%EB%A5%98:%ED%95%9C%EA%B5%AD%20%EC%95%84%EC%9D%B4%EB%8F%8C', 
        'https://namu.wiki/w/%EB%B6%84%EB%A5%98:%EA%B1%B8%EA%B7%B8%EB%A3%B9']

limit = 20

# 함수 : a 태그붙은 url 가져오기
def get_sublist_href(url: str):
    namu_link = []

    # 파싱된 html 가져오기
    request = requests.get(url)
    sleep(1)
    parsed_html = BeautifulSoup(request.text, 'html.parser')

    # 
    a_element_tags = parsed_html.find_all('div', attrs={'class' : '_5pchnzVo'})
    for tag in a_element_tags:
        for link in tag.find_all('a'):
            try:
                namu_link.append(url + link['href'])
            except:
                continue
    
    namu_link = namu_link[:limit]
    print('Number of site: ', len(namu_link))
    return namu_link

In [3]:
# 함수 : 해당 url의 html 가져오기
def do_html_crawl(url: str):
    request = requests.get(url)
    sleep(1)
    parsed_html = BeautifulSoup(request.text, 'html.parser')
    return parsed_html

#### a-1-2. 실행

In [4]:
# 실행
result = []
if __name__ == "__main__":
    start_time = time.time()
    for url in urls:
        sub_url_list = get_sublist_href(url)
        for sub_url in sub_url_list:
            result.append(do_html_crawl(sub_url))
    print("--- elapsed time %s seconds ---" % (time.time() - start_time))

Number of site:  20
Number of site:  20
Number of site:  0
Number of site:  17
--- elapsed time 85.80311489105225 seconds ---


#### a-1-3. 결과확인
- 113.494 초
- 데이터 수집 성공적

In [14]:
len(result)

77

In [21]:
type(result)

list

In [22]:
type(result[0])

bs4.BeautifulSoup

In [15]:
result[6]

<!DOCTYPE html>

<html data-n-head-ssr=""><head><title>분류:정수/w/분류:소수(수론) - 나무위키</title><meta charset="utf-8" data-n-head="ssr"/><meta content="user-scalable=no, initial-scale=1.0, maximum-scale=5.0, minimum-scale=1.0, width=device-width" data-n-head="ssr" name="viewport"/><meta content="ie=edge" data-n-head="ssr" http-equv="x-ua-compatible"/><meta content="the seed" data-n-head="ssr" name="generator"/><meta content="yes" data-n-head="ssr" name="mobile-web-app-capable"/><meta content="나무위키" data-n-head="ssr" name="application-name"/><meta content="나무위키" data-n-head="ssr" name="msapplication-tooltip"/><meta content="/w/%EB%82%98%EB%AC%B4%EC%9C%84%ED%82%A4:%EB%8C%80%EB%AC%B8" data-n-head="ssr" name="msapplication-starturl"/><meta content="#008275" data-n-head="ssr" name="theme-color"/><meta content="noarchive" data-n-head="ssr" name="googlebot"/><link data-n-head="ssr" href="https://namu.wiki/w/%EB%B6%84%EB%A5%98:%EC%A0%95%EC%88%98/w/%EB%B6%84%EB%A5%98:%EC%86%8C%EC%88%98(%EC%88%98%EB%A1%A

### a-2. 예제 : 멀티스레딩

#### a-2-1. 함수 정의

In [4]:
def do_thread_crawl(urls: list):
    thread_list = []
    result = []  # soup의 리스트
    # 스레드 풀 생성
    with ThreadPoolExecutor(max_workers=8) as executor:
        print("a")

        # 스레드 작업 제출
        for url in urls:
            thread_list.append(executor.submit(do_html_crawl, url))
            
        print("b")

        # 작업 완료 대기
        for execution in concurrent.futures.as_completed(thread_list):  # 이 루프는 제출된 모든 스레드 작업이 완료될 때까지 대기한다
            result.append(execution.result())  # 각 스레드 작업의 결과를 기다리고, 해당 작업이 완료되면 결과를 반환한다
            
        print("c")
        
    return result

#### a-2-2. 실행
- 29.475초(113.494초 -> 29.475초, 시간 74.03% 단축)
- 데이터 수집 성공적

In [5]:
if __name__ == "__main__":
    result_2 = []

    start_time = time.time()
    
    for url in urls:
        result_2.extend(do_thread_crawl(get_sublist_href(url)))
        
    print("--- elapsed time %s seconds ---" % (time.time() - start_time))
    print("len(result_2) :", len(result_2))
    print("type(result_2) :", type(result_2))
    print("type(result_2[0]) :", type(result_2[0]))
    print("result_2[6] :", result_2[6])
    
# get_sublist_href() 에서 링크들 따고 do_html_crawl() 에서 soup 받아옴

Number of site:  20
a
b
c
Number of site:  20
a
b
c
Number of site:  20
a
b
c
Number of site:  17
a
b
c
--- elapsed time 30.35339879989624 seconds ---
len(result_2) : 77
type(result_2) : <class 'list'>
type(result_2[0]) : <class 'bs4.BeautifulSoup'>
result_2[6] : <!DOCTYPE html>

<html data-n-head-ssr=""><head><title>분류:정수/w/분류:다각수 - 나무위키</title><meta charset="utf-8" data-n-head="ssr"/><meta content="user-scalable=no, initial-scale=1.0, maximum-scale=5.0, minimum-scale=1.0, width=device-width" data-n-head="ssr" name="viewport"/><meta content="ie=edge" data-n-head="ssr" http-equv="x-ua-compatible"/><meta content="the seed" data-n-head="ssr" name="generator"/><meta content="yes" data-n-head="ssr" name="mobile-web-app-capable"/><meta content="나무위키" data-n-head="ssr" name="application-name"/><meta content="나무위키" data-n-head="ssr" name="msapplication-tooltip"/><meta content="/w/%EB%82%98%EB%AC%B4%EC%9C%84%ED%82%A4:%EB%8C%80%EB%AC%B8" data-n-head="ssr" name="msapplication-starturl"/><meta co

### a-3. 예제 : 멀티프로세싱

#### a-3-1. 함수 정의

In [6]:
def do_process_with_thread_crawl(url: str):
    return do_thread_crawl(get_sublist_href(url))  # soup의 리스트 리턴

In [None]:
if __name__ == "__main__":
    print("A")
    
    result_3 = []
    start_time = time.time()

    print("B")
    with Pool(processes=4) as pool:  
        result_3.extend((pool.map(do_process_with_thread_crawl, urls)))
        print("--- elapsed time %s seconds ---" % (time.time() - start_time))

#### a-3-2. 실행
- 왠진 모르지만, Jupyter Notebook 에서는 실행이 멈춘다.
- Pycharm에서 해보니, 정상적으로 작동한다.
- 실행 시간은 약 5.9초 (113.494초 -> 29.475초 -> 5.9초, 시간 94.80% 단축)

### a-4. 코어 수 확인
- 멀티프로세싱 할 때, 컴퓨터의 코어 수에 맞게 프로세스를 생성해야 한다.
- 너무 많이 생성하면 의미가 없음

In [42]:
import os

cpu_cores = os.cpu_count()
print("CPU 코어 수:", cpu_cores)

CPU 코어 수: 20


In [43]:
import multiprocessing

cpu_cores = multiprocessing.cpu_count()
print("CPU 코어 수:", cpu_cores)

CPU 코어 수: 20
