In [1]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local").appName("SOFM").getOrCreate()
sc = spark.sparkContext
import som
import numpy as np
import math
import time

d = 18
rows = 8
cols = 7
tau = 10
max_iters = 10
sigma_0 = 4

In [2]:
"""
Ahora probamos con SUSY
"""
from pyspark.ml.linalg import DenseVector
from pyspark.ml.feature import StandardScaler
from pyspark.sql import Row

rdd = sc.textFile('../datasets/SUSY.csv')
rdd = rdd.map(lambda line: line.split(','))
rdd = rdd.map(lambda line: Row(features=DenseVector(line[1:])))
df = rdd.toDF()
scaler = StandardScaler(inputCol="features", outputCol="scaledFeatures",
                        withStd=True, withMean=False)
scalerModel = scaler.fit(df)
normalized_df = scalerModel.transform(df)
rdd = normalized_df.rdd

In [3]:
def subsample_and_repeat(sub_percent, rdd, repeat=5):
    subrdd = rdd.sample(True, sub_percent, 7)
    a = subrdd.take(1)
    for my_iter in range(repeat):
        print('REPETICIÓN', my_iter)
        inicio = time.time()
        cpu_weights=som.spark_cpu_batch_som(subrdd, d, max_iters, rows, cols, sigma_0, tau, seed=my_iter)
        fin = time.time()
        print('TIEMPO CPU', fin - inicio)
        inicio = time.time()
        weights=som.spark_gpu_batch_som(subrdd, d, max_iters, rows, cols, sigma_0, tau, seed=my_iter)
        fin = time.time()
        print('TIEMPO GPU', fin - inicio)
            

    

In [8]:
subsample_and_repeat(0.1, rdd)


REPETICIÓN 0
TIEMPO CPU 1626.7230577468872
TIEMPO GPU 1040.2971427440643
REPETICIÓN 1
TIEMPO CPU 1604.7162034511566
TIEMPO GPU 1014.214194059372
REPETICIÓN 2
TIEMPO CPU 1604.0761995315552
TIEMPO GPU 1017.0712096691132
REPETICIÓN 3
TIEMPO CPU 1600.7571794986725
TIEMPO GPU 1025.2842993736267
REPETICIÓN 4
TIEMPO CPU 1600.3163094520569
TIEMPO GPU 1026.5466198921204


In [9]:
subsample_and_repeat(0.2, rdd)

REPETICIÓN 0
TIEMPO CPU 2479.121779203415
TIEMPO GPU 1038.1888346672058
REPETICIÓN 1
TIEMPO CPU 2470.7771940231323
TIEMPO GPU 1039.673902273178
REPETICIÓN 2
TIEMPO CPU 2472.043259382248
TIEMPO GPU 1036.0775146484375
REPETICIÓN 3
TIEMPO CPU 2472.9130091667175
TIEMPO GPU 1037.668906211853
REPETICIÓN 4
TIEMPO CPU 2473.7825174331665
TIEMPO GPU 1042.2396850585938


In [10]:
subsample_and_repeat(0.3, rdd)

REPETICIÓN 0
TIEMPO CPU 3329.2713894844055
TIEMPO GPU 1069.3611958026886
REPETICIÓN 1
TIEMPO CPU 3335.342926263809
TIEMPO GPU 1067.6408159732819
REPETICIÓN 2
TIEMPO CPU 3333.0916714668274
TIEMPO GPU 1065.1453733444214
REPETICIÓN 3
TIEMPO CPU 3326.2040078639984
TIEMPO GPU 1065.5968744754791
REPETICIÓN 4
TIEMPO CPU 3328.620718240738
TIEMPO GPU 1072.6942672729492


In [11]:
subsample_and_repeat(0.4, rdd)

REPETICIÓN 0
TIEMPO CPU 4196.714554071426
TIEMPO GPU 1096.4159774780273
REPETICIÓN 1
TIEMPO CPU 4194.30574631691
TIEMPO GPU 1083.4809947013855
REPETICIÓN 2
TIEMPO CPU 4189.897697210312
TIEMPO GPU 1093.4891788959503
REPETICIÓN 3
TIEMPO CPU 4184.97384428978
TIEMPO GPU 1095.9122812747955
REPETICIÓN 4
TIEMPO CPU 4189.027407407761
TIEMPO GPU 1094.2111992835999


In [12]:
subsample_and_repeat(0.5, rdd)

REPETICIÓN 0
TIEMPO CPU 5061.935399532318
TIEMPO GPU 1114.9188141822815
REPETICIÓN 1
TIEMPO CPU 5089.22651720047
TIEMPO GPU 1124.8585283756256
REPETICIÓN 2
TIEMPO CPU 5080.269446372986
TIEMPO GPU 1119.4910740852356
REPETICIÓN 3
TIEMPO CPU 5080.303938865662
TIEMPO GPU 1118.7945370674133
REPETICIÓN 4
TIEMPO CPU 5071.040327787399
TIEMPO GPU 1120.6473979949951


In [4]:
subsample_and_repeat(0.6, rdd)

REPETICIÓN 0
TIEMPO CPU 5952.785950899124
TIEMPO GPU 1142.0098707675934
REPETICIÓN 1
TIEMPO CPU 5943.887523889542
TIEMPO GPU 1142.4115257263184
REPETICIÓN 2
TIEMPO CPU 5932.3710305690765
TIEMPO GPU 1132.1699755191803
REPETICIÓN 3
TIEMPO CPU 5936.824468135834
TIEMPO GPU 1137.167414188385
REPETICIÓN 4
TIEMPO CPU 5934.391213417053
TIEMPO GPU 1134.6218490600586


In [None]:
subsample_and_repeat(0.7, rdd)

REPETICIÓN 0
TIEMPO CPU 6787.286008358002
TIEMPO GPU 1156.5586359500885
REPETICIÓN 1
TIEMPO CPU 6789.885028123856
TIEMPO GPU 1157.9658601284027
REPETICIÓN 2
TIEMPO CPU 6800.490084648132
TIEMPO GPU 1151.2380900382996
REPETICIÓN 3
TIEMPO CPU 6824.093298435211
TIEMPO GPU 1158.1699306964874
REPETICIÓN 4
TIEMPO CPU 6832.599863767624
TIEMPO GPU 1168.975726366043


In [None]:
subsample_and_repeat(0.8, rdd)

REPETICIÓN 0
TIEMPO CPU 7692.160309076309
TIEMPO GPU 1170.2617163658142
REPETICIÓN 1
TIEMPO CPU 7693.6434235572815
TIEMPO GPU 1177.8705813884735
REPETICIÓN 2
TIEMPO CPU 7677.753610372543
TIEMPO GPU 1173.32985496521
REPETICIÓN 3
TIEMPO CPU 7683.1013832092285
TIEMPO GPU 1162.4300644397736
REPETICIÓN 4
TIEMPO CPU 7674.611334562302
TIEMPO GPU 1175.5599958896637


In [None]:
subsample_and_repeat(0.9, rdd)

REPETICIÓN 0
TIEMPO CPU 8527.345841884613
TIEMPO GPU 1174.6535234451294
REPETICIÓN 1
TIEMPO CPU 8515.61854338646
TIEMPO GPU 1182.8414070606232
REPETICIÓN 2
TIEMPO CPU 8520.68859577179
TIEMPO GPU 1179.2499775886536
REPETICIÓN 3
TIEMPO CPU 8542.116681098938
TIEMPO GPU 1198.4511241912842
REPETICIÓN 4
TIEMPO CPU 8528.228273153305
TIEMPO GPU 1172.1161234378815


In [None]:
subsample_and_repeat(1.0, rdd)

REPETICIÓN 0
TIEMPO CPU 9413.422646284103
TIEMPO GPU 1195.815146446228
REPETICIÓN 1
TIEMPO CPU 9413.24831366539
TIEMPO GPU 1191.4032664299011
REPETICIÓN 2
TIEMPO CPU 9402.93989443779
TIEMPO GPU 1191.7513518333435
REPETICIÓN 3
