## N배 빠른 크롤링, multiprocessing

지금까지 만들어온 크롤러들은 모두 한번에 하나의 요청만을 처리하고 있습니다.

하지만 한 페이지만을 여유로운 시간을 갖고 크롤링하는 것이 아니라 여러 사이트 혹은 여러 페이지를 좀더 빠르게 긁어오는 방법에는 역시 N개를 띄우는 방법이 제일 낫다고 볼 수 있습니다.

만약 100만개의 페이지가 있다면 1~25만/25~50만/50만~75만/75만~100만 같이 4개로 쪼개서 돌린다면 더 빠르게 도는 것은 당연합니다.

하지만 전달해주는 페이지의 목록이나 페이지 숫자에 직접 저 수들을 입력하는 것은 상당히 귀찮은 일이기도 하고, 크롤링이 '자동화'를 위한 것이라는 면에 반하는 측면도 있습니다. 따라서 우리는 Python 자체에 내장된 `병렬화 모듈`을 사용할 예정입니다.

Python을 이용할 때 프로그램을 병렬적으로 처리하는 방법은 여러가지가 있습니다. 하지만 우리가 하는 일은 연산이 아니고 IO와 네트워크가 가장 큰 문제이기 때문에 `multiprocessing`을 사용합니다.

> `threading` 모듈도 사용 가능합니다. 하지만 `multiprocessing`모듈을 추천합니다. `threading` 모듈은 싱글 프로세스 안의 스레드에서 동작하지만 이로인해 GIL(Global Interpreter Lock)의 제야에 걸리는 경우가 생기기 때문에 성능 향상에 제약이 있습니다.



## 멀티프로세스란?

프로세스란 '실행 중인 프로그램'을 의미합니다. 간단하게 말해 멀티프로세스는 프로세스를 여러개 띄우는 것, 즉 프로그램을 여러개 실행시키는 것이라고 볼 수 있습니다.

Python에는 멀티프로세싱 프로그램을 위한 모듈이 `multiprocessing` 이라는 이름으로 내장되어 있습니다.

가장 단순한 예시로, 임의의 숫자 리스트 (ex: `[20, 25, 30, 35]` ) 를 받고 그 자리의 피보나치 수를 구해주는 프로그램이 있다고 가정해 봅시다.

만약 for문을 통해 리스트를 순회하며 계산한다면

```python

import time

start_time = time.time()

def fibo(n): # 회귀적 피보나치 함수
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fino(n-1) + fino(n-2)
    
    
num_list = [31, 32, 33, 34]
result_list = []
for num in num_list:
    result_list.append(fibo(num))
    
print(result_list)
print("---%s seconds ---" % (time.time() - start_time))

```

실행을 해보면 제 컴퓨터에서는 18초가 걸립니다. 너무 오래걸립니다.
![howlong](websaver/img/캡처15.png)

그렇다면 `multiprocessing`을 이용하면 어떨까요?
```python
from multiprocessing import Pool
import time

start_time = time.time()

def fibo(n): # 회귀적 피보나치 함수
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fibo(n-1) + fibo(n-2)
    
def print_fibo(n):
    print(fibo(n))
    
num_list = [31, 32, 33, 34]

pool = Pool(processes=4) # 4개의 프로세스를 사용합니다.
pool.map(print_fibo, num_list) # pool에 일을 던져줍니다.

print("---%s seconds ---" % (time.time() - start_time))
```




In [1]:
import time

start_time = time.time()

def fibo(n): # 회귀적 피보나치 함수
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fibo(n-1) + fibo(n-2)
    
    
num_list = [31, 32, 33, 34]
result_list = []
for num in num_list:
    result_list.append(fibo(num))
    
print(result_list)
print("---%s seconds ---" % (time.time() - start_time))


[1346269, 2178309, 3524578, 5702887]
---18.290342092514038 seconds ---


In [None]:
from multiprocessing import Pool
import time

start_time = time.time()

def fibo(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fibo(n-1) + fibo(n-2)

def print_fibo(n): # 피보나치 결과를 확인합니다.
    print(fibo(n))

num_list = [31, 32, 33, 34]

pool = Pool(processes=4) # 4개의 프로세스를 사용합니다.
pool.map(print_fibo, num_list) # pool에 일을 던져줍니다.

print("--- %s seconds ---" % (time.time() - start_time))

## 크롤링 병렬화 하기
이번 가이드에서는 위에서 사용한 모듈인 `multiprocessing`을 이용해 진행합니다. 크롤링은 위에서 사용한 것처럼 연산집중적이지 않습니다. 그래서 크롤링하는 함수를 만들어두었다면 그 함수를 그대로 사용하시면 됩니다.

이번 가이드에서는 첫번째 가이드에서 사용했던 함수를 약간 변형해 사용해 봅니다.

## 하나씩 크롤링 하기



In [6]:
# parser.py
import requests
from bs4 import BeautifulSoup as bs
import time

def get_links(): # 블로그의 게시글 링크들을 가져옵니다.
    req = requests.get('https://beomi.github.io/beomi.github.io_old/')
    html = req.text
    soup = bs(html, 'html.parser')
    my_titles = soup.select(
        'h3 > a'
    )
    
    data = []
    
    for title in my_titles:
        data.append(title.get('href'))
    return data


def get_content(link):
    abs_link = 'https://beomi.github.io'+link
    req = requests.get(abs_link)
    html = req.text
    soup = bs(html, 'html.parser')
    # 가져온 데이터로 뭔가 할 수 있겠죠?
    # 하지만 일단 여기서는 시간만 확인해봅시다.
    print(soup.select('h1')[0].text) # 첫 h1 태그를 봅시다.
    

if __name__ == '__main__':
    start_time = time.time()
    for link in get_links():
        get_content(link)
    print("--- %s seconds ---" % (time.time() - start_time))

## Multiprocessing으로 병렬 크롤링하기

이제 좀더 빠른 크롤링을 위해 병렬화를 도입해 봅시다
`multiprocessing`에서 `Pool`을 import 해 줍시다.
그리고 pool에 `get_content` 함수를 넣어 줍시다.


In [None]:
# parser.py
import requests
from bs4 import BeautifulSoup as bs
import time
from multiprocessing import Pool

# workers.py
def get_link():
    req = requests.get("https://beomi.github.io/beomi.github.io_old/")
    html = req.text
    soup = bs(html, 'html.parser')
    my_titles = soup.select(
        'h3 > a'
    )
    
    data = []
    
    for title in my_titles:
        data.append(title.get('href'))
    return data

def get_content(link):
    abs_link = "https://beomi.github.io"+link
    req = requests.get(abs_link)
    html = req.text
    soup = bs(html, 'html.parser')
    print(soup.select('h1')[0].text)
    
# fibo_multi.py

if __name__ == '__main__':
    start_time = time.time()
    pool = Pool(processes=4)
    pool.map(get_content, get_links())
    print("--- %s seconds ---" % (time.time() - start_time))

위에 코드를 Windows에서 진행시 에러가 발생하고 cmd 또는 anaconda3 커맨드 창에서 무한정 에러가 발생한다.

해결책은
실질적인 일을 하는 함수 부분과, multiprocessing Pool 부분을 나눠주는 것이다.

함수부분을 workers.py 이라는 이름으로
Pool 부분을 원하는 이름으로 (multiprocessing.py만 아니면 된다) 저장해주고(본인은 fibo_multi.py로 저장함) 실행시키면 그때 정상 작동한다.

이유는 아래 링크를 통해 확인할수있다

"Multiprocessing in Python on Windows and Jupyter/Ipython — Making it work"

medium.com/@grvsinghal/speed-up-your-python-code-using-multiprocessing-on-windows-and-jupyter-or-ipython-2714b49d6fac

