### spark를 사용한 소수 계산

In [1]:
import numpy as np

In [2]:
import time

In [3]:
# 스파크 접속하기
sc = SparkContext.getOrCreate()
sc

In [4]:
# 소수를 계산할 최대 수
MAX = 100000

In [5]:
# 3이상 ~ MAX +1 미만의 수를 저장하는 리스트 생성
# 해당 리스트는 10개의 멀티 쓰레드로 동시에 실행
rdd = sc.parallelize([i for i in range(3, MAX+1)], 10)

In [6]:
# 소수를 계산할 함수
# rdd에 저장된 값을 순서대로 매개변수 num에 대입받음
def get_prime(num):
    # isPrime의 초기값 설정
    isPrime = True
    # 2 ~ num 미만의 수
    for index in range(2, num):
        # num을 index로 나눈 나머지가 0
        if num % index == 0:
            # isPrime에 False대입
            isPrime = False
            # 반복문 종료
            break
    # 반복문이 종료되고 나서 실행됨
    # isPrime이 True이면 num은 나눠진 수가 없음
    if isPrime == True:
        # num은 소수이므로 num리턴
        return num

In [7]:
# 현재 시간을 start에 대입
start = time.time()
# rdd.map(get_prime) : rdd에 저장된 숫자들을 순서대로 get_prime함수에 대입
# .collect() : 함수의 실행 결과를 가져옴
prime_list = rdd.map(get_prime).collect()
# 현재 시간을 end에 대입
end = time.time()
# 소요된 시간을 출력
print('소요시간 = ', end-start)
# 데이터를 10개로 나눠서 동시에 처리한다.

소요시간 =  16.43236207962036


### spark를 사용하지않은 소수 계산

In [9]:
import numpy as np

In [10]:
import time

In [11]:
# 소수를 계산할 최대 수
MAX = 100000

In [12]:
# 3이상 MAX+1 미만의 수를 저장한 list01 생성
lst01 = [ i for i in range(3, MAX+1)]

In [13]:
# 소수로 계산할 함수
# rdd에 저장된 값을 순서대로 매개변수 num에 대입받음
def get_prime(num):
    # isPrime의 초기값 설정
    isPrime = True
    # 2 ~ num 미만의 수
    for index in range(2, num):
        # num을 index로 나눈 나머지가 0
        if num % index == 0:
            # isPrime에 False대입
            isPrime = False
            # 반복문 종료
            break
    # 반복문이 종료되고 나서 실행됨
    # isPrime이 True이면 num은 나눠진 수가 없음
    if isPrime == True:
        # num은 소수이므로 num리턴
        return num

In [14]:
# 현재 시간을 start에 대입
start = time.time()
# lst01의 데이터를 순서대로 get_prime함수에 대입하곡 결과를 리턴함
prime_list = list(map(get_prime, lst01))
# 현재 시간을 end에 대입
end = time.time()
# 소요된 시간을 출력
print('소요시간 = ', end-start)
# 전체 데이터를 순서대로 처리하기때문에 시간이 많이 걸림

소요시간 =  37.78818917274475
