# FFT accuracy using (py)vkfft
The methodology follows http://www.fftw.org/accuracy/method.html:
* random values are generated with a uniform distribution between -0.5 and 0.5 (for both real and imaginary values)
* the comparison is made with long double precision calculations performed with (py)fftw
* the comparison is made using the norms: $L_n(y) = \left[\Sigma{\left|y\right|^n}\right]^{1/n}$ (n=1,2 or $\infty$)
* the reported average accuracy is $\frac{L_n(fft_{ref} - fft)}{L_n(fft_{ref})}$

Note that the observed differences between the OpenCL and CUDA backend of VkFFT are due to 
different sine and cosine functions used when `useLUT` is not specified. 
With `useLUT=1` these differences disappear, and may also not exist on different GPUs.

In [18]:
%matplotlib notebook
import numpy as np
import matplotlib.pyplot as plt
# pyfftw supports long double accuracy
from pyfftw.interfaces.scipy_fft import fftn as fftwn, ifftn as ifftwn
from scipy.fft import fftn as fftsn, ifftn as ifftsn
from scipy import stats
from pyvkfft.fft import fftn as vkfftn, ifftn as ivkfftn
from pyvkfft.base import primes
from pyvkfft.version import __version__, vkfft_version

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

print("pyvkfft %s, VkFFT %s" % (__version__, vkfft_version()))

pyvkfft 2021.2.1, VkFFT 1.2.16


In [2]:
# Init pycuda
cuda_device_name = None
try:
    import pycuda.autoinit
    import pycuda.gpuarray as cua
    from pyvkfft.cuda import VkFFTApp as VkFFTAppcu
    has_pycuda = True
    cuda_device_name = pycuda.autoinit.device.name()
    print("Selected CUDA device: ", cuda_device_name)
    
    v_cufft_plan = []
    def fftncu(d):
        dcu = cua.to_gpu(d)
        plan = cu_fft.Plan(d.shape, d.dtype, d.dtype)
        cu_fft.fft(dcu, dcu, plan, scale=False)
        if cu_fft.cufft.cufftGetVersion() >= 10200:
            v_cufft_plan.append(plan)
        return dcu.get()
    
    def fftnvcu(d):
        dcu = cua.to_gpu(d)
        #return vkfftn(dcu).get()
        app = VkFFTAppcu(d.shape, d.dtype, useLUT=0)
        return app.fft(dcu).get()

    def fftnvculut(d):
        dcu = cua.to_gpu(d)
        app = VkFFTAppcu(d.shape, d.dtype, useLUT=1)
        return app.fft(dcu).get()

    try:
        import skcuda.fft as cu_fft
        has_cufft = True
        if cu_fft.cufft.cufftGetVersion() >= 10200:
            print("WARNING: cuFFT plans destruction is inhibited as a workaround for "
                  "an issue with CUDA>=11.0. See https://github.com/lebedov/scikit-cuda/issues/308\n"
                  "=> all cuFFT plans will be kept in GPU memory, effectively creating a memory leak "
                  "(this should be fine to run this notebook)")
    except:
        has_cufft = False
except:
    print("CUDA is not available")
    has_pycuda = False
    has_cufft = False


Selected CUDA device:  GeForce GTX 1080 Ti




In [3]:
# Init pyopencl
cl_device_name = None
try:
    import pyopencl as cl
    import pyopencl.array as cla
    import os
    from pyvkfft.opencl import VkFFTApp as VkFFTAppcl
    
    # Create some context on the first available GPU
    if 'PYOPENCL_CTX' in os.environ:
        ctx = cl.create_some_context()
    else:
        ctx = None
        # Find the first OpenCL GPU available and use it, unless
        for p in cl.get_platforms():
            for d in p.get_devices():
                if d.type & cl.device_type.GPU == 0:
                    continue
                cl_device_name = d.name
                print("Selected OpenCL device: ", d.name)
                ctx = cl.Context(devices=(d,))
                break
            if ctx is not None:
                break
    cq = cl.CommandQueue(ctx)

    def fftnvcl(d):
        dcl = cla.to_device(cq, d)
        #return vkfftn(d).get()
        app = VkFFTAppcl(d.shape, d.dtype, queue=cq, useLUT=0)
        return app.fft(dcl).get()

    def fftnvcllut(d):
        dcl = cla.to_device(cq, d)
        app = VkFFTAppcl(d.shape, d.dtype, queue=cq, useLUT=1)
        return app.fft(dcl).get()

    has_pyopencl = True
except:
    print("OpenCL is not available")
    has_pyopencl = False


Selected OpenCL device:  GeForce GTX 1080 Ti


In [4]:
def l1(a,b):
    return abs(a-b).sum() / abs(a).sum()

def l2(a,b):
    return np.sqrt((abs(a-b)**2).sum() / (abs(a)**2).sum())

def li(a,b):
    return abs(a-b).max() / abs(a).max()

def latex_float(f):
    float_str = "{0:.2g}".format(f)
    if "e" in float_str:
        base, exponent = float_str.split("e")
        return r"{0} \times 10^{{{1}}}".format(base, int(exponent))
    else:
        return float_str


In [5]:
if has_pycuda:
    # CUDA
    device_name = "CUDA: " + cuda_device_name
else:
    # OpenCL
    device_name = "OpenCL: " + cl_device_name

fft_dic = {"fftw": fftwn}
if has_pycuda:
    fft_dic["vkfft-cuda"] = fftnvcu
    fft_dic["vkfft-cuda-LUT"] = fftnvculut
if has_cufft:
    fft_dic["cufft"] = fftncu
if has_pyopencl:
    fft_dic["vkfft-opencl"] = fftnvcl
    fft_dic["vkfft-opencl-LUT"] = fftnvcllut


## 1D, single precision

In [6]:
nmax = 2**18
d0 = np.random.uniform(-0.5, 0.5, nmax) + 1j * np.random.uniform(-0.5, 0.5, nmax)
d0ld = d0.astype(np.clongdouble)
d0s = d0.astype(np.complex64)



def accu_1d(n, fft_dic):
    rld = fftwn(d0ld[:n])
    res = {}
    for k,v in fft_dic.items():
        r = v(d0s[:n])
        res[k] = l1(rld, r),l2(rld, r),li(rld, r)
    return res

# print(accu_1d(16, fft_dic))

vn, vl1, vl2, vli = [], {}, {}, {}

#print("%7s  %12s  %12s  %12s  %12s"%("N", "vkfft   ", "vkfft-LUT    ", "cufft   ", "fftw   "))
s = "%7s  %14s"%("N", "fftw   ")
r = accu_1d(8, fft_dic)
for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
    if k in r:
        s += "  %14s" % k
print(s)
for n in range(8, len(d0)+1):
    if max(primes(n)) <= 3:
        r = accu_1d(n, fft_dic)
        vn.append(n)
        for k, v in r.items():
            if k not in vl1:
                vl1[k] = []
                vl2[k] = []
                vli[k] = []
            vl1[k].append(v[0])
            vl2[k].append(v[1])
            vli[k].append(v[2])
        s = "%7d  %14e" % (n, vl2["fftw"][-1])
        for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
            if k in vl2:
                red = int(np.log10(vl2[k][-1] / vl2["fftw"][-1]) / np.log10(100) * 255)
                if red < 0:
                    red = 0
                if red > 255:
                    red = 255
                s += "\x1b[38;2;%d;0;0m    %14e\x1b[0m" % (red, vl2[k][-1])
        print(s)


      N         fftw         vkfft-cuda  vkfft-cuda-LUT    vkfft-opencl  vkfft-opencl-LUT           cufft
      8    7.263771e-08[38;2;0;0;0m      5.523626e-08[0m[38;2;0;0;0m      5.523626e-08[0m[38;2;0;0;0m      5.945792e-08[0m[38;2;0;0;0m      5.945792e-08[0m[38;2;0;0;0m      6.052943e-08[0m
      9    7.840338e-08[38;2;30;0;0m      1.371350e-07[0m[38;2;0;0;0m      6.343088e-08[0m[38;2;8;0;0m      9.064900e-08[0m[38;2;0;0;0m      6.983414e-08[0m[38;2;0;0;0m      6.405731e-08[0m
     12    7.516921e-08[38;2;6;0;0m      8.433461e-08[0m[38;2;0;0;0m      7.410827e-08[0m[38;2;0;0;0m      7.388705e-08[0m[38;2;0;0;0m      6.989580e-08[0m[38;2;0;0;0m      7.337561e-08[0m
     16    8.101961e-08[38;2;0;0;0m      6.242063e-08[0m[38;2;0;0;0m      6.019264e-08[0m[38;2;0;0;0m      7.373017e-08[0m[38;2;0;0;0m      6.001749e-08[0m[38;2;5;0;0m      8.908456e-08[0m
     18    6.175550e-08[38;2;57;0;0m      1.754842e-07[0m[38;2;10;0;0m      7.419411e-08[0m[

   1944    1.319696e-07[38;2;62;0;0m      4.106166e-07[0m[38;2;0;0;0m      1.293405e-07[0m[38;2;40;0;0m      2.721405e-07[0m[38;2;2;0;0m      1.375272e-07[0m[38;2;19;0;0m      1.872647e-07[0m
   2048    1.336500e-07[38;2;51;0;0m      3.415962e-07[0m[38;2;0;0;0m      1.292276e-07[0m[38;2;21;0;0m      1.988269e-07[0m[38;2;0;0;0m      1.336248e-07[0m[38;2;13;0;0m      1.697849e-07[0m
   2187    1.400458e-07[38;2;66;0;0m      4.678876e-07[0m[38;2;0;0;0m      1.361585e-07[0m[38;2;43;0;0m      3.051977e-07[0m[38;2;2;0;0m      1.467038e-07[0m[38;2;18;0;0m      1.949846e-07[0m
   2304    1.363820e-07[38;2;54;0;0m      3.622071e-07[0m[38;2;0;0;0m      1.306761e-07[0m[38;2;37;0;0m      2.685680e-07[0m[38;2;0;0;0m      1.337033e-07[0m[38;2;28;0;0m      2.297494e-07[0m
   2592    1.359927e-07[38;2;61;0;0m      4.093780e-07[0m[38;2;0;0;0m      1.316336e-07[0m[38;2;39;0;0m      2.767176e-07[0m[38;2;1;0;0m      1.405220e-07[0m[38;2;32;0;0m      2.45968

  41472    1.575495e-07[38;2;65;0;0m      5.153308e-07[0m[38;2;0;0;0m      1.550744e-07[0m[38;2;37;0;0m      3.089172e-07[0m[38;2;2;0;0m      1.641179e-07[0m[38;2;28;0;0m      2.624806e-07[0m
  46656    1.617520e-07[38;2;69;0;0m      5.677759e-07[0m[38;2;0;0;0m      1.535146e-07[0m[38;2;32;0;0m      2.883151e-07[0m[38;2;0;0;0m      1.637283e-07[0m[38;2;23;0;0m      2.457910e-07[0m
  49152    1.619208e-07[38;2;57;0;0m      4.540122e-07[0m[38;2;0;0;0m      1.587916e-07[0m[38;2;34;0;0m      3.025511e-07[0m[38;2;1;0;0m      1.653674e-07[0m[38;2;35;0;0m      3.097620e-07[0m
  52488    1.616002e-07[38;2;74;0;0m      6.182451e-07[0m[38;2;0;0;0m      1.594822e-07[0m[38;2;45;0;0m      3.698639e-07[0m[38;2;3;0;0m      1.721906e-07[0m[38;2;28;0;0m      2.728193e-07[0m
  55296    1.660781e-07[38;2;61;0;0m      5.051813e-07[0m[38;2;0;0;0m      1.564601e-07[0m[38;2;29;0;0m      2.854239e-07[0m[38;2;0;0;0m      1.649443e-07[0m[38;2;32;0;0m      2.96129

In [7]:
plt.figure(figsize=(13,1+(len(vl2)+1)*1.5))
vk = vl2.keys()

x = np.array(vn, dtype=np.float32)
xl = d0.ndim * np.log10(x)  # Use the size of the array

i=1
for k in vk:
    plt.subplot((len(vl2)+1)//2,2,i)
    plt.semilogx(vn, vl1[k], '-ob', label="$L1$")

    r2 = stats.linregress(xl, np.array(vl2[k], dtype=np.float32))
    plt.semilogx(vn, vl2[k], '-ok', label=r"$L2\approx %s+%s\log(size)$" % (latex_float(r2[1]), latex_float(r2[0])))

    ri = stats.linregress(xl, np.array(vli[k], dtype=np.float32))
    plt.semilogx(vn, vli[k], '-og', label=r"$L_{\infty}\approx %s+%s\log(size)$" % (latex_float(ri[1]), latex_float(ri[0])))

    plt.semilogx(x, r2[1] + r2[0]*xl, "k-")
    plt.semilogx(x, ri[1] + ri[0]*xl, "g-")
    plt.title(k)
    plt.grid(True)
    plt.legend(loc='upper left')
    plt.xlabel("N", loc='right')
    i+=1


plt.suptitle("1D FFT errors (single precision, radix-2,3) - " + device_name)

plt.tight_layout()

plt.figure()
ms = 3

clrs = {"fftw":'-og', "vkfft-cuda": "-^k", "vkfft-cuda-LUT":"-^b", "vkfft-opencl": "-vk", "vkfft-opencl-LUT":"-vb","cufft":"-or"}

for k,v in vl2.items():
    plt.semilogx(vn, v, clrs[k], markersize=ms, label=k)
plt.legend(loc='upper left')
plt.suptitle("1D FFT L2 error (single precision, radix-2,3) - " + device_name)
plt.xlabel("N", loc='right')
plt.grid(True)
plt.tight_layout()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## 1D, double precision

In [8]:
nmax = 2**18
d0 = np.random.uniform(-0.5, 0.5, nmax) + 1j * np.random.uniform(-0.5, 0.5, nmax)
d0ld = d0.astype(np.clongdouble)
d0d = d0.astype(np.complex128)



def accu_1d(n, fft_dic):
    rld = fftwn(d0ld[:n])
    res = {}
    for k,v in fft_dic.items():
        r = v(d0d[:n])
        res[k] = l1(rld, r),l2(rld, r),li(rld, r)
    return res

# print(accu_1d(16, fft_dic))

vn, vl1, vl2, vli = [], {}, {}, {}

#print("%7s  %12s  %12s  %12s  %12s"%("N", "vkfft   ", "vkfft-LUT    ", "cufft   ", "fftw   "))
s = "%7s  %14s"%("N", "fftw   ")
r = accu_1d(8, fft_dic)
for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
    if k in r:
        s += "  %14s" % k
print(s)
for n in range(8, len(d0)+1):
    if max(primes(n)) <= 3:
        r = accu_1d(n, fft_dic)
        vn.append(n)
        for k, v in r.items():
            if k not in vl1:
                vl1[k] = []
                vl2[k] = []
                vli[k] = []
            vl1[k].append(v[0])
            vl2[k].append(v[1])
            vli[k].append(v[2])
        s = "%7d  %14e" % (n, vl2["fftw"][-1])
        for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
            if k in vl2:
                red = int(np.log10(vl2[k][-1] / vl2["fftw"][-1]) / np.log10(100) * 255)
                if red < 0:
                    red = 0
                if red > 255:
                    red = 255
                s += "\x1b[38;2;%d;0;0m    %14e\x1b[0m" % (red, vl2[k][-1])
        print(s)


      N         fftw         vkfft-cuda  vkfft-cuda-LUT    vkfft-opencl  vkfft-opencl-LUT           cufft
      8    7.980008e-17[38;2;14;0;0m      1.031068e-16[0m[38;2;14;0;0m      1.031068e-16[0m[38;2;14;0;0m      1.031078e-16[0m[38;2;14;0;0m      1.031078e-16[0m[38;2;3;0;0m      8.568740e-17[0m
      9    1.525524e-16[38;2;0;0;0m      1.283024e-16[0m[38;2;0;0;0m      1.283024e-16[0m[38;2;0;0;0m      1.438206e-16[0m[38;2;0;0;0m      1.438206e-16[0m[38;2;0;0;0m      1.049743e-16[0m
     12    9.148945e-17[38;2;22;0;0m      1.381970e-16[0m[38;2;22;0;0m      1.381970e-16[0m[38;2;27;0;0m      1.492033e-16[0m[38;2;27;0;0m      1.492033e-16[0m[38;2;35;0;0m      1.721749e-16[0m
     16    1.232807e-16[38;2;0;0;0m      8.331447e-17[0m[38;2;0;0;0m      8.331447e-17[0m[38;2;0;0;0m      8.182649e-17[0m[38;2;0;0;0m      8.182649e-17[0m[38;2;0;0;0m      8.810946e-17[0m
     18    1.653154e-16[38;2;11;0;0m      2.043927e-16[0m[38;2;11;0;0m      2.043927e-

   1728    2.549683e-16[38;2;25;0;0m      4.064884e-16[0m[38;2;25;0;0m      4.064884e-16[0m[38;2;26;0;0m      4.096940e-16[0m[38;2;26;0;0m      4.096940e-16[0m[38;2;11;0;0m      3.158742e-16[0m
   1944    2.550899e-16[38;2;36;0;0m      4.909945e-16[0m[38;2;36;0;0m      4.909945e-16[0m[38;2;37;0;0m      4.983217e-16[0m[38;2;37;0;0m      4.983217e-16[0m[38;2;15;0;0m      3.350208e-16[0m
   2048    2.269422e-16[38;2;21;0;0m      3.362905e-16[0m[38;2;21;0;0m      3.362905e-16[0m[38;2;22;0;0m      3.400430e-16[0m[38;2;22;0;0m      3.400430e-16[0m[38;2;13;0;0m      2.879746e-16[0m
   2187    2.792903e-16[38;2;30;0;0m      4.802293e-16[0m[38;2;30;0;0m      4.802293e-16[0m[38;2;31;0;0m      4.954908e-16[0m[38;2;31;0;0m      4.954908e-16[0m[38;2;8;0;0m      3.265947e-16[0m
   2304    2.439942e-16[38;2;28;0;0m      4.093269e-16[0m[38;2;28;0;0m      4.093269e-16[0m[38;2;29;0;0m      4.140331e-16[0m[38;2;29;0;0m      4.140331e-16[0m[38;2;18;0;0m    

  39366    3.384117e-16[38;2;34;0;0m      6.299198e-16[0m[38;2;34;0;0m      6.299198e-16[0m[38;2;35;0;0m      6.399870e-16[0m[38;2;35;0;0m      6.399870e-16[0m[38;2;20;0;0m      4.936945e-16[0m
  41472    3.085268e-16[38;2;35;0;0m      5.896880e-16[0m[38;2;35;0;0m      5.896880e-16[0m[38;2;36;0;0m      5.962276e-16[0m[38;2;36;0;0m      5.962276e-16[0m[38;2;13;0;0m      3.959578e-16[0m
  46656    3.154038e-16[38;2;40;0;0m      6.605684e-16[0m[38;2;40;0;0m      6.605684e-16[0m[38;2;41;0;0m      6.682855e-16[0m[38;2;41;0;0m      6.682855e-16[0m[38;2;10;0;0m      3.794827e-16[0m
  49152    2.891622e-16[38;2;27;0;0m      4.787207e-16[0m[38;2;27;0;0m      4.787207e-16[0m[38;2;29;0;0m      4.882047e-16[0m[38;2;29;0;0m      4.882047e-16[0m[38;2;18;0;0m      4.047930e-16[0m
  52488    3.296105e-16[38;2;37;0;0m      6.468936e-16[0m[38;2;37;0;0m      6.468936e-16[0m[38;2;38;0;0m      6.570493e-16[0m[38;2;38;0;0m      6.570493e-16[0m[38;2;15;0;0m   

In [9]:
plt.figure(figsize=(13,1+(len(vl2)+1)*1.5))
vk = vl2.keys()

x = np.array(vn, dtype=np.float32)
xl = d0.ndim * np.log10(x)  # Use the size of the array

i=1
for k in vk:
    plt.subplot((len(vl2)+1)//2,2,i)
    plt.semilogx(vn, vl1[k], '-ob', label="$L1$")

    r2 = stats.linregress(xl, np.array(vl2[k], dtype=np.float32))
    plt.semilogx(vn, vl2[k], '-ok', label=r"$L2\approx %s+%s\log(size)$" % (latex_float(r2[1]), latex_float(r2[0])))

    ri = stats.linregress(xl, np.array(vli[k], dtype=np.float32))
    plt.semilogx(vn, vli[k], '-og', label=r"$L_{\infty}\approx %s+%s\log(size)$" % (latex_float(ri[1]), latex_float(ri[0])))

    plt.semilogx(x, r2[1] + r2[0]*xl, "k-")
    plt.semilogx(x, ri[1] + ri[0]*xl, "g-")
    plt.title(k)
    plt.grid(True)
    plt.legend(loc='upper left')
    plt.xlabel("N", loc='right')
    i+=1


plt.suptitle("1D FFT L2 error (double precision, radix-2,3) - " + device_name)

plt.tight_layout()

plt.figure()
ms = 3

clrs = {"fftw":'-og', "vkfft-cuda": "-^k", "vkfft-cuda-LUT":"-^b", "vkfft-opencl": "-vk", "vkfft-opencl-LUT":"-vb","cufft":"-or"}

for k,v in vl2.items():
    plt.semilogx(vn, v, clrs[k], markersize=ms, label=k)
plt.legend(loc='upper left')
plt.suptitle("1D FFT L2 error (double precision, radix-2,3) - " + device_name)
plt.xlabel("N", loc='right')
plt.grid(True)
plt.tight_layout()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## 2D, single precision

In [10]:
nmax = 512
d0 = np.random.uniform(-0.5, 0.5, (nmax, nmax)) + 1j * np.random.uniform(-0.5, 0.5, (nmax, nmax))
d0ld = d0.astype(np.clongdouble)
d0s = d0.astype(np.complex64)

def accu_2d(n, fft_dic):
    rld = fftwn(d0ld[:n,:n].copy())
    res = {}
    for k,v in fft_dic.items():
        r = v(d0s[:n,:n].copy())
        res[k] = l1(rld, r),l2(rld, r),li(rld, r)
    return res


vn, vl1, vl2, vli = [], {}, {}, {}

s = "%7s  %14s"%("N", "fftw   ")
r = accu_2d(8, fft_dic)
for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
    if k in r:
        s += "  %14s" % k
print(s)
for n in range(8, len(d0)+1):
    if max(primes(n)) <= 3:
        r = accu_2d(n, fft_dic)
        vn.append(n)
        for k, v in r.items():
            if k not in vl1:
                vl1[k] = []
                vl2[k] = []
                vli[k] = []
            vl1[k].append(v[0])
            vl2[k].append(v[1])
            vli[k].append(v[2])
        
        s = "%7d  %14e" % (n, vl2["fftw"][-1])
        for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
            if k in vl2:
                red = int(np.log10(vl2[k][-1] / vl2["fftw"][-1]) / np.log10(100) * 255)
                if red < 0:
                    red = 0
                if red > 255:
                    red = 255
                s += "\x1b[38;2;%d;0;0m    %14e\x1b[0m" % (red, vl2[k][-1])
        print(s)


      N         fftw         vkfft-cuda  vkfft-cuda-LUT    vkfft-opencl  vkfft-opencl-LUT           cufft
      8    7.767901e-08[38;2;0;0;0m      6.932121e-08[0m[38;2;0;0;0m      6.951961e-08[0m[38;2;0;0;0m      7.747344e-08[0m[38;2;0;0;0m      7.747344e-08[0m[38;2;0;0;0m      7.810145e-08[0m
      9    8.953289e-08[38;2;53;0;0m      2.367880e-07[0m[38;2;10;0;0m      1.075355e-07[0m[38;2;26;0;0m      1.441275e-07[0m[38;2;0;0;0m      9.073205e-08[0m[38;2;10;0;0m      1.073607e-07[0m
     12    8.073020e-08[38;2;26;0;0m      1.306362e-07[0m[38;2;5;0;0m      8.951678e-08[0m[38;2;19;0;0m      1.139420e-07[0m[38;2;5;0;0m      8.939445e-08[0m[38;2;14;0;0m      1.054349e-07[0m
     16    9.249661e-08[38;2;12;0;0m      1.165685e-07[0m[38;2;1;0;0m      9.540429e-08[0m[38;2;14;0;0m      1.197603e-07[0m[38;2;2;0;0m      9.601119e-08[0m[38;2;17;0;0m      1.263834e-07[0m
     18    1.179885e-07[38;2;49;0;0m      2.898348e-07[0m[38;2;0;0;0m      1.132306e-

In [11]:
plt.figure(figsize=(13,1+(len(vl2)+1)*1.5))
vk = vl2.keys()

x = np.array(vn, dtype=np.float32)
xl = d0.ndim * np.log10(x)  # Use the size of the array

i=1
for k in vk:
    plt.subplot((len(vl2)+1)//2,2,i)
    plt.semilogx(vn, vl1[k], '-ob', label="$L1$")

    r2 = stats.linregress(xl, np.array(vl2[k], dtype=np.float32))
    plt.semilogx(vn, vl2[k], '-ok', label=r"$L2\approx %s+%s\log(size)$" % (latex_float(r2[1]), latex_float(r2[0])))

    ri = stats.linregress(xl, np.array(vli[k], dtype=np.float32))
    plt.semilogx(vn, vli[k], '-og', label=r"$L_{\infty}\approx %s+%s\log(size)$" % (latex_float(ri[1]), latex_float(ri[0])))

    plt.semilogx(x, r2[1] + r2[0]*xl, "k-")
    plt.semilogx(x, ri[1] + ri[0]*xl, "g-")
    plt.title(k)
    plt.grid(True)
    plt.legend(loc='upper left')
    plt.xlabel("N", loc='right')
    i+=1


plt.suptitle("2D FFT errors (single precision, radix-2,3) - " + device_name)

plt.tight_layout()

plt.figure()
ms = 3

clrs = {"fftw":'-og', "vkfft-cuda": "-^k", "vkfft-cuda-LUT":"-^b", "vkfft-opencl": "-vk", "vkfft-opencl-LUT":"-vb","cufft":"-or"}

for k,v in vl2.items():
    plt.semilogx(vn, v, clrs[k], markersize=ms, label=k)
plt.legend(loc='upper left')
plt.suptitle("2D FFT L2 error (single precision, radix-2,3) - " + device_name)
plt.grid(True)
plt.xlabel("N", loc='right')
plt.tight_layout()



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# 1D, non-radix (Bluestein) transforms, single precision

In [12]:
nmax = 512
d0 = np.random.uniform(-0.5, 0.5, nmax) + 1j * np.random.uniform(-0.5, 0.5, nmax)
d0ld = d0.astype(np.clongdouble)
d0s = d0.astype(np.complex64)

def accu_1d(n, fft_dic):
    rld = fftwn(d0ld[:n])
    res = {}
    for k,v in fft_dic.items():
        r = v(d0s[:n])
        res[k] = l1(rld, r),l2(rld, r),li(rld, r)
    return res

fft_dic = {"fftw": fftwn}
if has_pycuda:
    fft_dic["vkfft-cuda"] = fftnvcu
    fft_dic["vkfft-cuda-LUT"] = fftnvculut
    fft_dic["cufft"] = fftncu
if has_pyopencl:
    fft_dic["vkfft-opencl"] = fftnvcl
    fft_dic["vkfft-opencl-LUT"] = fftnvcllut


# print(accu_1d(16, fft_dic))

vn, vl1, vl2, vli = [], {}, {}, {}

#print("%7s  %12s  %12s  %12s  %12s"%("N", "vkfft   ", "vkfft-LUT    ", "cufft   ", "fftw   "))
s = "%7s  %16s"%("N", "fftw   ")
r = accu_1d(8, fft_dic)
for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
    if k in r:
        s += "  %16s" % k
print(s)
for n in range(8, len(d0)+1):
    if max(primes(n)) >13:  # test only transforms with non-radix dimensions
        r = accu_1d(n, fft_dic)
        vn.append(n)
        for k, v in r.items():
            if k not in vl1:
                vl1[k] = []
                vl2[k] = []
                vli[k] = []
            vl1[k].append(v[0])
            vl2[k].append(v[1])
            vli[k].append(v[2])
        s = "%7d  %16e" % (n, vl2["fftw"][-1])
        for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
            if k in vl2:
                red = int(np.log10(vl2[k][-1] / vl2["fftw"][-1]) / np.log10(100) * 255)
                if red < 0:
                    red = 0
                if red > 255:
                    red = 255
                s += "\x1b[38;2;%d;0;0m    %14e\x1b[0m" % (red, vl2[k][-1])
        print(s)


      N           fftw           vkfft-cuda    vkfft-cuda-LUT      vkfft-opencl  vkfft-opencl-LUT             cufft
     17      6.762912e-08[38;2;69;0;0m      2.363116e-07[0m[38;2;40;0;0m      1.396184e-07[0m[38;2;43;0;0m      1.479738e-07[0m[38;2;46;0;0m      1.559264e-07[0m[38;2;0;0;0m      6.761392e-08[0m
     19      8.078921e-08[38;2;55;0;0m      2.192701e-07[0m[38;2;37;0;0m      1.587186e-07[0m[38;2;42;0;0m      1.737957e-07[0m[38;2;33;0;0m      1.473702e-07[0m[38;2;0;0;0m      8.136379e-08[0m
     23      7.879719e-08[38;2;61;0;0m      2.378490e-07[0m[38;2;39;0;0m      1.621119e-07[0m[38;2;41;0;0m      1.670845e-07[0m[38;2;34;0;0m      1.479829e-07[0m[38;2;0;0;0m      6.212704e-08[0m
     29      1.037757e-07[38;2;56;0;0m      2.903124e-07[0m[38;2;29;0;0m      1.762551e-07[0m[38;2;34;0;0m      1.919426e-07[0m[38;2;37;0;0m      2.053393e-07[0m[38;2;0;0;0m      9.251689e-08[0m
     31      8.446517e-08[38;2;57;0;0m      2.369281e-07[0m[3

    103      1.861330e-07[38;2;37;0;0m      3.664395e-07[0m[38;2;0;0;0m      1.879483e-07[0m[38;2;1;0;0m      1.895629e-07[0m[38;2;5;0;0m      2.060387e-07[0m[38;2;0;0;0m      1.316484e-07[0m
    106      1.907124e-07[38;2;38;0;0m      3.835273e-07[0m[38;2;0;0;0m      1.876935e-07[0m[38;2;6;0;0m      2.126511e-07[0m[38;2;1;0;0m      1.976319e-07[0m[38;2;0;0;0m      1.368074e-07[0m
    107      2.049056e-07[38;2;34;0;0m      3.798155e-07[0m[38;2;0;0;0m      1.878033e-07[0m[38;2;4;0;0m      2.235184e-07[0m[38;2;0;0;0m      1.955603e-07[0m[38;2;0;0;0m      1.388813e-07[0m
    109      1.827296e-07[38;2;45;0;0m      4.120949e-07[0m[38;2;0;0;0m      1.821349e-07[0m[38;2;10;0;0m      2.208527e-07[0m[38;2;2;0;0m      1.901625e-07[0m[38;2;0;0;0m      1.422558e-07[0m
    111      1.399262e-07[38;2;51;0;0m      3.531050e-07[0m[38;2;15;0;0m      1.842619e-07[0m[38;2;26;0;0m      2.243904e-07[0m[38;2;21;0;0m      2.076030e-07[0m[38;2;0;0;0m      1.3

    170      1.152188e-07[38;2;69;0;0m      4.015174e-07[0m[38;2;45;0;0m      2.607904e-07[0m[38;2;58;0;0m      3.308658e-07[0m[38;2;49;0;0m      2.834492e-07[0m[38;2;39;0;0m      2.337557e-07[0m
    171      1.031578e-07[38;2;80;0;0m      4.451872e-07[0m[38;2;52;0;0m      2.650357e-07[0m[38;2;65;0;0m      3.390933e-07[0m[38;2;56;0;0m      2.846681e-07[0m[38;2;9;0;0m      1.234955e-07[0m
    172      1.241242e-07[38;2;68;0;0m      4.239201e-07[0m[38;2;41;0;0m      2.633673e-07[0m[38;2;52;0;0m      3.203663e-07[0m[38;2;43;0;0m      2.746878e-07[0m[38;2;5;0;0m      1.368547e-07[0m
    173      1.994417e-07[38;2;51;0;0m      5.028625e-07[0m[38;2;6;0;0m      2.258236e-07[0m[38;2;18;0;0m      2.778041e-07[0m[38;2;10;0;0m      2.416095e-07[0m[38;2;8;0;0m      2.317221e-07[0m
    174      1.184383e-07[38;2;76;0;0m      4.699909e-07[0m[38;2;33;0;0m      2.179787e-07[0m[38;2;50;0;0m      2.959766e-07[0m[38;2;41;0;0m      2.492135e-07[0m[38;2;6;0;

    227      2.115995e-07[38;2;42;0;0m      4.565572e-07[0m[38;2;1;0;0m      2.163424e-07[0m[38;2;8;0;0m      2.476818e-07[0m[38;2;2;0;0m      2.207685e-07[0m[38;2;5;0;0m      2.318901e-07[0m
    228      1.121574e-07[38;2;74;0;0m      4.317541e-07[0m[38;2;34;0;0m      2.105587e-07[0m[38;2;42;0;0m      2.419244e-07[0m[38;2;36;0;0m      2.150381e-07[0m[38;2;17;0;0m      1.528717e-07[0m
    229      2.116472e-07[38;2;40;0;0m      4.385047e-07[0m[38;2;1;0;0m      2.168710e-07[0m[38;2;8;0;0m      2.478909e-07[0m[38;2;5;0;0m      2.350003e-07[0m[38;2;5;0;0m      2.329220e-07[0m
    230      1.187455e-07[38;2;75;0;0m      4.608888e-07[0m[38;2;30;0;0m      2.078493e-07[0m[38;2;41;0;0m      2.492069e-07[0m[38;2;36;0;0m      2.314793e-07[0m[38;2;27;0;0m      1.963352e-07[0m
    232      1.094936e-07[38;2;81;0;0m      4.813379e-07[0m[38;2;45;0;0m      2.497017e-07[0m[38;2;45;0;0m      2.504617e-07[0m[38;2;43;0;0m      2.412875e-07[0m[38;2;12;0;0m 

    283      2.233124e-07[38;2;52;0;0m      5.809991e-07[0m[38;2;5;0;0m      2.464881e-07[0m[38;2;23;0;0m      3.425213e-07[0m[38;2;11;0;0m      2.732011e-07[0m[38;2;31;0;0m      3.918994e-07[0m
    284      1.759312e-07[38;2;66;0;0m      5.888131e-07[0m[38;2;18;0;0m      2.456236e-07[0m[38;2;38;0;0m      3.553075e-07[0m[38;2;24;0;0m      2.757953e-07[0m[38;2;0;0;0m      1.426046e-07[0m
    285      1.187152e-07[38;2;83;0;0m      5.344806e-07[0m[38;2;39;0;0m      2.421073e-07[0m[38;2;48;0;0m      2.868711e-07[0m[38;2;40;0;0m      2.462899e-07[0m[38;2;15;0;0m      1.574987e-07[0m
    287      1.689193e-07[38;2;63;0;0m      5.342975e-07[0m[38;2;14;0;0m      2.213128e-07[0m[38;2;29;0;0m      2.854837e-07[0m[38;2;17;0;0m      2.301494e-07[0m[38;2;0;0;0m      1.285989e-07[0m
    289      1.132064e-07[38;2;86;0;0m      5.392090e-07[0m[38;2;45;0;0m      2.566275e-07[0m[38;2;59;0;0m      3.302581e-07[0m[38;2;49;0;0m      2.757286e-07[0m[38;2;3;0

    337      2.206503e-07[38;2;58;0;0m      6.399129e-07[0m[38;2;1;0;0m      2.251373e-07[0m[38;2;25;0;0m      3.517038e-07[0m[38;2;6;0;0m      2.491032e-07[0m[38;2;31;0;0m      3.930216e-07[0m
    339      2.120640e-07[38;2;44;0;0m      4.769936e-07[0m[38;2;13;0;0m      2.708358e-07[0m[38;2;29;0;0m      3.641924e-07[0m[38;2;17;0;0m      2.920267e-07[0m[38;2;0;0;0m      1.640633e-07[0m
    340      1.172106e-07[38;2;75;0;0m      4.620717e-07[0m[38;2;44;0;0m      2.637512e-07[0m[38;2;62;0;0m      3.593968e-07[0m[38;2;52;0;0m      3.010746e-07[0m[38;2;37;0;0m      2.303037e-07[0m
    341      1.243749e-07[38;2;79;0;0m      5.180960e-07[0m[38;2;39;0;0m      2.528382e-07[0m[38;2;59;0;0m      3.637273e-07[0m[38;2;42;0;0m      2.699213e-07[0m[38;2;16;0;0m      1.661213e-07[0m
    342      1.161230e-07[38;2;82;0;0m      5.185914e-07[0m[38;2;44;0;0m      2.575766e-07[0m[38;2;66;0;0m      3.835174e-07[0m[38;2;51;0;0m      2.940103e-07[0m[38;2;10;

    391      1.234031e-07[38;2;79;0;0m      5.176278e-07[0m[38;2;29;0;0m      2.111775e-07[0m[38;2;36;0;0m      2.404816e-07[0m[38;2;33;0;0m      2.249271e-07[0m[38;2;0;0;0m      1.194722e-07[0m
    393      2.167121e-07[38;2;47;0;0m      5.112536e-07[0m[38;2;0;0;0m      2.177376e-07[0m[38;2;4;0;0m      2.346695e-07[0m[38;2;1;0;0m      2.238076e-07[0m[38;2;0;0;0m      1.908055e-07[0m
    394      2.156230e-07[38;2;46;0;0m      4.982571e-07[0m[38;2;1;0;0m      2.221624e-07[0m[38;2;4;0;0m      2.357527e-07[0m[38;2;5;0;0m      2.372792e-07[0m[38;2;0;0;0m      2.010277e-07[0m
    395      1.987180e-07[38;2;53;0;0m      5.236080e-07[0m[38;2;4;0;0m      2.169644e-07[0m[38;2;10;0;0m      2.399708e-07[0m[38;2;5;0;0m      2.204489e-07[0m[38;2;3;0;0m      2.108682e-07[0m
    397      2.385111e-07[38;2;42;0;0m      5.131825e-07[0m[38;2;0;0;0m      2.041022e-07[0m[38;2;1;0;0m      2.431453e-07[0m[38;2;0;0;0m      2.162526e-07[0m[38;2;30;0;0m      4.

    442      1.264981e-07[38;2;77;0;0m      5.163640e-07[0m[38;2;31;0;0m      2.250594e-07[0m[38;2;37;0;0m      2.508160e-07[0m[38;2;36;0;0m      2.445577e-07[0m[38;2;19;0;0m      1.813006e-07[0m
    443      2.427374e-07[38;2;42;0;0m      5.199409e-07[0m[38;2;0;0;0m      2.272581e-07[0m[38;2;0;0;0m      2.373657e-07[0m[38;2;0;0;0m      2.287195e-07[0m[38;2;32;0;0m      4.352933e-07[0m
    444      1.567364e-07[38;2;66;0;0m      5.245578e-07[0m[38;2;20;0;0m      2.270471e-07[0m[38;2;23;0;0m      2.417554e-07[0m[38;2;22;0;0m      2.367657e-07[0m[38;2;4;0;0m      1.684949e-07[0m
    445      2.079802e-07[38;2;51;0;0m      5.224283e-07[0m[38;2;0;0;0m      2.098188e-07[0m[38;2;9;0;0m      2.453116e-07[0m[38;2;1;0;0m      2.155791e-07[0m[38;2;0;0;0m      1.703993e-07[0m
    446      2.220117e-07[38;2;48;0;0m      5.337771e-07[0m[38;2;1;0;0m      2.299441e-07[0m[38;2;6;0;0m      2.516630e-07[0m[38;2;1;0;0m      2.286961e-07[0m[38;2;0;0;0m     

    492      1.642499e-07[38;2;64;0;0m      5.255011e-07[0m[38;2;21;0;0m      2.416710e-07[0m[38;2;28;0;0m      2.734164e-07[0m[38;2;21;0;0m      2.424280e-07[0m[38;2;0;0;0m      1.473883e-07[0m
    493      1.291949e-07[38;2;78;0;0m      5.290094e-07[0m[38;2;32;0;0m      2.334901e-07[0m[38;2;36;0;0m      2.494216e-07[0m[38;2;35;0;0m      2.463335e-07[0m[38;2;9;0;0m      1.545596e-07[0m
    494      1.269546e-07[38;2;79;0;0m      5.288244e-07[0m[38;2;33;0;0m      2.328653e-07[0m[38;2;38;0;0m      2.544324e-07[0m[38;2;34;0;0m      2.355698e-07[0m[38;2;10;0;0m      1.530610e-07[0m
    496      1.147654e-07[38;2;87;0;0m      5.559831e-07[0m[38;2;39;0;0m      2.347981e-07[0m[38;2;45;0;0m      2.614454e-07[0m[38;2;41;0;0m      2.408346e-07[0m[38;2;10;0;0m      1.376689e-07[0m
    497      1.807417e-07[38;2;58;0;0m      5.213127e-07[0m[38;2;15;0;0m      2.399581e-07[0m[38;2;21;0;0m      2.686386e-07[0m[38;2;15;0;0m      2.375183e-07[0m[38;2;0;

In [13]:
plt.figure(figsize=(13,1+(len(vl2)+1)*1.5))
vk = vl2.keys()

x = np.array(vn, dtype=np.float32)
xl = d0.ndim * np.log10(x)  # Use the size of the array

i=1
for k in vk:
    plt.subplot((len(vl2)+1)//2,2,i)
    plt.semilogx(vn, vl1[k], '-ob', label="$L1$")

    r2 = stats.linregress(xl, np.array(vl2[k], dtype=np.float32))
    plt.semilogx(vn, vl2[k], '-ok', label=r"$L2\approx %s+%s\log(size)$" % (latex_float(r2[1]), latex_float(r2[0])))

    ri = stats.linregress(xl, np.array(vli[k], dtype=np.float32))
    plt.semilogx(vn, vli[k], '-og', label=r"$L_{\infty}\approx %s+%s\log(size)$" % (latex_float(ri[1]), latex_float(ri[0])))

    plt.semilogx(x, r2[1] + r2[0]*xl, "k-")
    plt.semilogx(x, ri[1] + ri[0]*xl, "g-")
    plt.title(k)
    plt.grid(True)
    plt.legend(loc='upper left')
    plt.xlabel("N", loc='right')
    i+=1


plt.suptitle("1D FFT errors (single precision, Bluestein) - " + device_name)

plt.tight_layout()

plt.figure()
ms = 3

clrs = {"fftw":'-og', "vkfft-cuda": "-^k", "vkfft-cuda-LUT":"-^b", "vkfft-opencl": "-vk", "vkfft-opencl-LUT":"-vb","cufft":"-or"}

for k,v in vl2.items():
    plt.semilogx(vn, v, clrs[k], markersize=ms, label=k)
plt.legend(loc='upper left')
plt.suptitle("1D FFT L2 error (single precision, Bluestein) - " + device_name)
plt.grid(True)
plt.xlabel("N", loc='right')
plt.tight_layout()



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# 1D, non-radix (Bluestein) transforms, double precision


In [14]:
nmax = 512
d0 = np.random.uniform(-0.5, 0.5, nmax) + 1j * np.random.uniform(-0.5, 0.5, nmax)
d0ld = d0.astype(np.clongdouble)
d0 = d0.astype(np.complex128)

def accu_1d(n, fft_dic):
    rld = fftwn(d0ld[:n])
    res = {}
    for k,v in fft_dic.items():
        r = v(d0[:n])
        res[k] = l1(rld, r),l2(rld, r),li(rld, r)
    return res

fft_dic = {"fftw": fftwn}
if has_pycuda:
    fft_dic["vkfft-cuda"] = fftnvcu
    fft_dic["vkfft-cuda-LUT"] = fftnvculut
    fft_dic["cufft"] = fftncu
if has_pyopencl:
    fft_dic["vkfft-opencl"] = fftnvcl
    fft_dic["vkfft-opencl-LUT"] = fftnvcllut


# print(accu_1d(16, fft_dic))

vn, vl1, vl2, vli = [], {}, {}, {}

#print("%7s  %12s  %12s  %12s  %12s"%("N", "vkfft   ", "vkfft-LUT    ", "cufft   ", "fftw   "))
s = "%7s  %16s"%("N", "fftw   ")
r = accu_1d(8, fft_dic)
for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
    if k in r:
        s += "  %16s" % k
print(s)
for n in range(8, len(d0)+1):
    if max(primes(n)) >13:  # test only transforms with non-radix dimensions
        r = accu_1d(n, fft_dic)
        vn.append(n)
        for k, v in r.items():
            if k not in vl1:
                vl1[k] = []
                vl2[k] = []
                vli[k] = []
            vl1[k].append(v[0])
            vl2[k].append(v[1])
            vli[k].append(v[2])
        s = "%7d  %16e" % (n, vl2["fftw"][-1])
        for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
            if k in vl2:
                red = int(np.log10(vl2[k][-1] / vl2["fftw"][-1]) / np.log10(100) * 255)
                if red < 0:
                    red = 0
                if red > 255:
                    red = 255
                s += "\x1b[38;2;%d;0;0m    %14e\x1b[0m" % (red, vl2[k][-1])
        print(s)


      N           fftw           vkfft-cuda    vkfft-cuda-LUT      vkfft-opencl  vkfft-opencl-LUT             cufft
     17      1.152418e-16[38;2;70;0;0m      4.100973e-16[0m[38;2;70;0;0m      4.100973e-16[0m[38;2;69;0;0m      4.019577e-16[0m[38;2;69;0;0m      4.019577e-16[0m[38;2;0;0;0m      1.144480e-16[0m
     19      1.943078e-16[38;2;44;0;0m      4.341398e-16[0m[38;2;44;0;0m      4.341398e-16[0m[38;2;47;0;0m      4.618303e-16[0m[38;2;47;0;0m      4.618303e-16[0m[38;2;0;0;0m      1.595062e-16[0m
     23      1.377567e-16[38;2;67;0;0m      4.664383e-16[0m[38;2;67;0;0m      4.664383e-16[0m[38;2;68;0;0m      4.739990e-16[0m[38;2;68;0;0m      4.739990e-16[0m[38;2;0;0;0m      1.261504e-16[0m
     29      1.515821e-16[38;2;75;0;0m      5.889523e-16[0m[38;2;75;0;0m      5.889523e-16[0m[38;2;72;0;0m      5.618188e-16[0m[38;2;72;0;0m      5.618188e-16[0m[38;2;14;0;0m      1.973031e-16[0m
     31      1.616343e-16[38;2;59;0;0m      4.755829e-16[0m[

    103      3.921759e-16[38;2;26;0;0m      6.319480e-16[0m[38;2;26;0;0m      6.319480e-16[0m[38;2;27;0;0m      6.482670e-16[0m[38;2;27;0;0m      6.482670e-16[0m[38;2;0;0;0m      2.516292e-16[0m
    106      4.228607e-16[38;2;27;0;0m      6.996962e-16[0m[38;2;27;0;0m      6.996962e-16[0m[38;2;29;0;0m      7.211422e-16[0m[38;2;29;0;0m      7.211422e-16[0m[38;2;0;0;0m      2.037659e-16[0m
    107      4.211683e-16[38;2;25;0;0m      6.619910e-16[0m[38;2;25;0;0m      6.619910e-16[0m[38;2;24;0;0m      6.523139e-16[0m[38;2;24;0;0m      6.523139e-16[0m[38;2;0;0;0m      2.710273e-16[0m
    109      3.822554e-16[38;2;28;0;0m      6.355377e-16[0m[38;2;28;0;0m      6.355377e-16[0m[38;2;31;0;0m      6.714590e-16[0m[38;2;31;0;0m      6.714590e-16[0m[38;2;0;0;0m      2.585955e-16[0m
    111      3.038160e-16[38;2;46;0;0m      7.030638e-16[0m[38;2;46;0;0m      7.030638e-16[0m[38;2;44;0;0m      6.832234e-16[0m[38;2;44;0;0m      6.832234e-16[0m[38;2;0;0;

    167      3.965643e-16[38;2;70;0;0m      1.428426e-15[0m[38;2;70;0;0m      1.428426e-15[0m[38;2;72;0;0m      1.464342e-15[0m[38;2;72;0;0m      1.464342e-15[0m[38;2;255;0;0m      4.327618e-14[0m
    170      2.103905e-16[38;2;85;0;0m      9.911071e-16[0m[38;2;85;0;0m      9.911071e-16[0m[38;2;85;0;0m      9.855028e-16[0m[38;2;85;0;0m      9.855028e-16[0m[38;2;2;0;0m      2.204799e-16[0m
    171      2.055173e-16[38;2;97;0;0m      1.186886e-15[0m[38;2;97;0;0m      1.186886e-15[0m[38;2;94;0;0m      1.139132e-15[0m[38;2;94;0;0m      1.139132e-15[0m[38;2;10;0;0m      2.497387e-16[0m
    172      1.967420e-16[38;2;93;0;0m      1.067804e-15[0m[38;2;93;0;0m      1.067804e-15[0m[38;2;93;0;0m      1.073716e-15[0m[38;2;93;0;0m      1.073716e-15[0m[38;2;6;0;0m      2.218554e-16[0m
    173      4.192220e-16[38;2;66;0;0m      1.390141e-15[0m[38;2;66;0;0m      1.390141e-15[0m[38;2;67;0;0m      1.417206e-15[0m[38;2;67;0;0m      1.417206e-15[0m[38;2;1

    223      4.387874e-16[38;2;22;0;0m      6.608253e-16[0m[38;2;22;0;0m      6.608253e-16[0m[38;2;23;0;0m      6.680330e-16[0m[38;2;23;0;0m      6.680330e-16[0m[38;2;242;0;0m      3.513117e-14[0m
    226      4.391770e-16[38;2;25;0;0m      6.991922e-16[0m[38;2;25;0;0m      6.991922e-16[0m[38;2;25;0;0m      7.016479e-16[0m[38;2;25;0;0m      7.016479e-16[0m[38;2;0;0;0m      2.614784e-16[0m
    227      4.211505e-16[38;2;25;0;0m      6.660238e-16[0m[38;2;25;0;0m      6.660238e-16[0m[38;2;22;0;0m      6.305548e-16[0m[38;2;22;0;0m      6.305548e-16[0m[38;2;220;0;0m      2.263896e-14[0m
    228      2.007461e-16[38;2;65;0;0m      6.538246e-16[0m[38;2;65;0;0m      6.538246e-16[0m[38;2;63;0;0m      6.265656e-16[0m[38;2;63;0;0m      6.265656e-16[0m[38;2;12;0;0m      2.508290e-16[0m
    229      3.935671e-16[38;2;32;0;0m      7.109566e-16[0m[38;2;32;0;0m      7.109566e-16[0m[38;2;33;0;0m      7.198530e-16[0m[38;2;33;0;0m      7.198530e-16[0m[38;2

    279      2.334356e-16[38;2;133;0;0m      2.580519e-15[0m[38;2;133;0;0m      2.580519e-15[0m[38;2;134;0;0m      2.659111e-15[0m[38;2;134;0;0m      2.659111e-15[0m[38;2;0;0;0m      2.278091e-16[0m
    281      4.231052e-16[38;2;75;0;0m      1.655825e-15[0m[38;2;75;0;0m      1.655825e-15[0m[38;2;76;0;0m      1.671147e-15[0m[38;2;76;0;0m      1.671147e-15[0m[38;2;255;0;0m      5.115777e-14[0m
    282      3.680533e-16[38;2;82;0;0m      1.640278e-15[0m[38;2;82;0;0m      1.640278e-15[0m[38;2;84;0;0m      1.680061e-15[0m[38;2;84;0;0m      1.680061e-15[0m[38;2;0;0;0m      2.651793e-16[0m
    283      4.520019e-16[38;2;73;0;0m      1.702950e-15[0m[38;2;73;0;0m      1.702950e-15[0m[38;2;73;0;0m      1.700858e-15[0m[38;2;73;0;0m      1.700858e-15[0m[38;2;250;0;0m      4.147434e-14[0m
    284      4.092422e-16[38;2;77;0;0m      1.661998e-15[0m[38;2;77;0;0m      1.661998e-15[0m[38;2;76;0;0m      1.637787e-15[0m[38;2;76;0;0m      1.637787e-15[0m[3

    332      3.811131e-16[38;2;74;0;0m      1.467722e-15[0m[38;2;74;0;0m      1.467722e-15[0m[38;2;75;0;0m      1.483314e-15[0m[38;2;75;0;0m      1.483314e-15[0m[38;2;0;0;0m      2.698698e-16[0m
    333      3.485723e-16[38;2;82;0;0m      1.539064e-15[0m[38;2;82;0;0m      1.539064e-15[0m[38;2;82;0;0m      1.540301e-15[0m[38;2;82;0;0m      1.540301e-15[0m[38;2;0;0;0m      2.999202e-16[0m
    334      3.958140e-16[38;2;75;0;0m      1.534240e-15[0m[38;2;75;0;0m      1.534240e-15[0m[38;2;74;0;0m      1.532780e-15[0m[38;2;74;0;0m      1.532780e-15[0m[38;2;17;0;0m      5.436603e-16[0m
    335      3.777984e-16[38;2;75;0;0m      1.482574e-15[0m[38;2;75;0;0m      1.482574e-15[0m[38;2;76;0;0m      1.509469e-15[0m[38;2;76;0;0m      1.509469e-15[0m[38;2;0;0;0m      2.439032e-16[0m
    337      4.796452e-16[38;2;52;0;0m      1.243783e-15[0m[38;2;52;0;0m      1.243783e-15[0m[38;2;55;0;0m      1.299753e-15[0m[38;2;55;0;0m      1.299753e-15[0m[38;2;244

    383      4.366467e-16[38;2;26;0;0m      6.987595e-16[0m[38;2;26;0;0m      6.987595e-16[0m[38;2;24;0;0m      6.802236e-16[0m[38;2;24;0;0m      6.802236e-16[0m[38;2;255;0;0m      7.814903e-14[0m
    386      3.775412e-16[38;2;31;0;0m      6.647902e-16[0m[38;2;31;0;0m      6.647902e-16[0m[38;2;31;0;0m      6.718855e-16[0m[38;2;31;0;0m      6.718855e-16[0m[38;2;23;0;0m      5.816232e-16[0m
    387      2.465475e-16[38;2;54;0;0m      6.585150e-16[0m[38;2;54;0;0m      6.585150e-16[0m[38;2;53;0;0m      6.515906e-16[0m[38;2;53;0;0m      6.515906e-16[0m[38;2;8;0;0m      2.875136e-16[0m
    388      3.326757e-16[38;2;40;0;0m      6.878727e-16[0m[38;2;40;0;0m      6.878727e-16[0m[38;2;40;0;0m      6.964512e-16[0m[38;2;40;0;0m      6.964512e-16[0m[38;2;0;0;0m      2.839728e-16[0m
    389      4.753219e-16[38;2;21;0;0m      7.042651e-16[0m[38;2;21;0;0m      7.042651e-16[0m[38;2;20;0;0m      6.925251e-16[0m[38;2;20;0;0m      6.925251e-16[0m[38;2;2

    434      2.402958e-16[38;2;62;0;0m      7.490997e-16[0m[38;2;62;0;0m      7.490997e-16[0m[38;2;61;0;0m      7.351306e-16[0m[38;2;61;0;0m      7.351306e-16[0m[38;2;10;0;0m      2.887393e-16[0m
    435      2.369226e-16[38;2;60;0;0m      7.098072e-16[0m[38;2;60;0;0m      7.098072e-16[0m[38;2;59;0;0m      6.917903e-16[0m[38;2;59;0;0m      6.917903e-16[0m[38;2;25;0;0m      3.721807e-16[0m
    436      4.017288e-16[38;2;30;0;0m      6.990213e-16[0m[38;2;30;0;0m      6.990213e-16[0m[38;2;30;0;0m      6.971213e-16[0m[38;2;30;0;0m      6.971213e-16[0m[38;2;0;0;0m      2.953540e-16[0m
    437      2.331481e-16[38;2;60;0;0m      6.916194e-16[0m[38;2;60;0;0m      6.916194e-16[0m[38;2;61;0;0m      7.034986e-16[0m[38;2;61;0;0m      7.034986e-16[0m[38;2;0;0;0m      2.183560e-16[0m
    438      3.632866e-16[38;2;34;0;0m      6.799459e-16[0m[38;2;34;0;0m      6.799459e-16[0m[38;2;36;0;0m      7.003220e-16[0m[38;2;36;0;0m      7.003220e-16[0m[38;2;0;

    482      3.824167e-16[38;2;34;0;0m      7.076884e-16[0m[38;2;34;0;0m      7.076884e-16[0m[38;2;35;0;0m      7.314313e-16[0m[38;2;35;0;0m      7.314313e-16[0m[38;2;23;0;0m      5.884894e-16[0m
    483      2.270259e-16[38;2;66;0;0m      7.559921e-16[0m[38;2;66;0;0m      7.559921e-16[0m[38;2;67;0;0m      7.725469e-16[0m[38;2;67;0;0m      7.725469e-16[0m[38;2;17;0;0m      3.126539e-16[0m
    485      3.624383e-16[38;2;38;0;0m      7.207185e-16[0m[38;2;38;0;0m      7.207185e-16[0m[38;2;38;0;0m      7.236376e-16[0m[38;2;38;0;0m      7.236376e-16[0m[38;2;0;0;0m      3.106790e-16[0m
    487      4.433044e-16[38;2;26;0;0m      7.216372e-16[0m[38;2;26;0;0m      7.216372e-16[0m[38;2;27;0;0m      7.254905e-16[0m[38;2;27;0;0m      7.254905e-16[0m[38;2;255;0;0m      1.120706e-13[0m
    488      2.995088e-16[38;2;49;0;0m      7.307366e-16[0m[38;2;49;0;0m      7.307366e-16[0m[38;2;50;0;0m      7.484853e-16[0m[38;2;50;0;0m      7.484853e-16[0m[38;2;

In [15]:
plt.figure(figsize=(13,1+(len(vl2)+1)*1.5))
vk = vl2.keys()

x = np.array(vn, dtype=np.float32)
xl = d0.ndim * np.log10(x)  # Use the size of the array

i=1
for k in vk:
    plt.subplot((len(vl2)+1)//2,2,i)
    plt.semilogx(vn, vl1[k], '-ob', label="$L1$")

    r2 = stats.linregress(xl, np.array(vl2[k], dtype=np.float32))
    plt.semilogx(vn, vl2[k], '-ok', label=r"$L2\approx %s+%s\log(size)$" % (latex_float(r2[1]), latex_float(r2[0])))

    ri = stats.linregress(xl, np.array(vli[k], dtype=np.float32))
    plt.semilogx(vn, vli[k], '-og', label=r"$L_{\infty}\approx %s+%s\log(size)$" % (latex_float(ri[1]), latex_float(ri[0])))

    plt.semilogx(x, r2[1] + r2[0]*xl, "k-")
    plt.semilogx(x, ri[1] + ri[0]*xl, "g-")
    plt.title(k)
    plt.grid(True)
    plt.legend(loc='upper left')
    plt.xlabel("N", loc='right')
    i+=1


plt.suptitle("1D FFT errors (double precision, Bluestein) - " + device_name)

plt.tight_layout()

plt.figure()
ms = 3

clrs = {"fftw":'-og', "vkfft-cuda": "-^k", "vkfft-cuda-LUT":"-^b", "vkfft-opencl": "-vk", "vkfft-opencl-LUT":"-vb","cufft":"-or"}

for k,v in vl2.items():
    plt.semilogx(vn, v, clrs[k], markersize=ms, label=k)
plt.legend(loc='upper left')
plt.suptitle("1D FFT L2 error (double precision, Bluestein) - " + device_name)
plt.grid(True)
plt.xlabel("N", loc='right')
plt.tight_layout()



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# 2D, non-radix (Bluestein) transforms, single precision

In [16]:
nmax = 101
d0 = np.random.uniform(-0.5, 0.5, (nmax, nmax)) + 1j * np.random.uniform(-0.5, 0.5, (nmax, nmax))
d0ld = d0.astype(np.clongdouble)
d0s = d0.astype(np.complex64)

def accu_2d(n, fft_dic):
    rld = fftwn(d0ld[:n,:n].copy())
    res = {}
    for k,v in fft_dic.items():
        r = v(d0s[:n,:n].copy())
        res[k] = l1(rld, r),l2(rld, r),li(rld, r)
    return res

fft_dic = {"fftw": fftwn}
if has_pycuda:
    fft_dic["vkfft-cuda"] = fftnvcu
    fft_dic["vkfft-cuda-LUT"] = fftnvculut
    fft_dic["cufft"] = fftncu
if has_pyopencl:
    fft_dic["vkfft-opencl"] = fftnvcl
    fft_dic["vkfft-opencl-LUT"] = fftnvcllut


# print(accu_1d(16, fft_dic))

vn, vl1, vl2, vli = [], {}, {}, {}

#print("%7s  %12s  %12s  %12s  %12s"%("N", "vkfft   ", "vkfft-LUT    ", "cufft   ", "fftw   "))
s = "%7s  %16s"%("N", "fftw   ")
r = accu_2d(8, fft_dic)
for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
    if k in r:
        s += "  %16s" % k
print(s)
for n in range(8, len(d0)+1):
    if max(primes(n)) >13:  # test only transforms with non-radix dimensions
        r = accu_2d(n, fft_dic)
        vn.append(n)
        for k, v in r.items():
            if k not in vl1:
                vl1[k] = []
                vl2[k] = []
                vli[k] = []
            vl1[k].append(v[0])
            vl2[k].append(v[1])
            vli[k].append(v[2])
        s = "%7d  %16e" % (n, vl2["fftw"][-1])
        for k in ["vkfft-cuda", "vkfft-cuda-LUT", "vkfft-opencl", "vkfft-opencl-LUT", "cufft"]:
            if k in vl2:
                red = int(np.log10(vl2[k][-1] / vl2["fftw"][-1]) / np.log10(100) * 255)
                if red < 0:
                    red = 0
                if red > 255:
                    red = 255
                s += "\x1b[38;2;%d;0;0m    %14e\x1b[0m" % (red, vl2[k][-1])
        print(s)


      N           fftw           vkfft-cuda    vkfft-cuda-LUT      vkfft-opencl  vkfft-opencl-LUT             cufft
     17      1.057807e-07[38;2;73;0;0m      4.000992e-07[0m[38;2;45;0;0m      2.395381e-07[0m[38;2;43;0;0m      2.337372e-07[0m[38;2;44;0;0m      2.368279e-07[0m[38;2;0;0;0m      9.764867e-08[0m
     19      1.091140e-07[38;2;76;0;0m      4.376637e-07[0m[38;2;50;0;0m      2.726232e-07[0m[38;2;49;0;0m      2.683255e-07[0m[38;2;52;0;0m      2.813029e-07[0m[38;2;0;0;0m      1.034432e-07[0m
     23      1.194018e-07[38;2;67;0;0m      4.063653e-07[0m[38;2;40;0;0m      2.495411e-07[0m[38;2;43;0;0m      2.623447e-07[0m[38;2;46;0;0m      2.759498e-07[0m[38;2;0;0;0m      1.108334e-07[0m
     29      1.295736e-07[38;2;68;0;0m      4.492496e-07[0m[38;2;44;0;0m      2.881181e-07[0m[38;2;49;0;0m      3.166111e-07[0m[38;2;49;0;0m      3.157936e-07[0m[38;2;0;0;0m      1.195725e-07[0m
     31      1.314515e-07[38;2;61;0;0m      3.984253e-07[0m[3

In [17]:
plt.figure(figsize=(13,1+(len(vl2)+1)*1.5))
vk = vl2.keys()

x = np.array(vn, dtype=np.float32)
xl = d0.ndim * np.log10(x)  # Use the size of the array

i=1
for k in vk:
    plt.subplot((len(vl2)+1)//2,2,i)
    plt.semilogx(vn, vl1[k], '-ob', label="$L1$")

    r2 = stats.linregress(xl, np.array(vl2[k], dtype=np.float32))
    plt.semilogx(vn, vl2[k], '-ok', label=r"$L2\approx %s+%s\log(size)$" % (latex_float(r2[1]), latex_float(r2[0])))

    ri = stats.linregress(xl, np.array(vli[k], dtype=np.float32))
    plt.semilogx(vn, vli[k], '-og', label=r"$L_{\infty}\approx %s+%s\log(size)$" % (latex_float(ri[1]), latex_float(ri[0])))

    plt.semilogx(x, r2[1] + r2[0]*xl, "k-")
    plt.semilogx(x, ri[1] + ri[0]*xl, "g-")
    plt.title(k)
    plt.grid(True)
    plt.legend(loc='upper left')
    plt.xlabel("N", loc='right')
    i+=1


plt.suptitle("2D FFT errors (single precision, Bluestein) - " + device_name)

plt.tight_layout()

plt.figure()
ms = 3

clrs = {"fftw":'-og', "vkfft-cuda": "-^k", "vkfft-cuda-LUT":"-^b", "vkfft-opencl": "-vk", "vkfft-opencl-LUT":"-vb","cufft":"-or"}

for k,v in vl2.items():
    plt.semilogx(vn, v, clrs[k], markersize=ms, label=k)
plt.legend(loc='upper left')
plt.suptitle("2D FFT L2 error (single precision, Bluestein) - " + device_name)
plt.grid(True)
plt.xlabel("N", loc='right')
plt.tight_layout()



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>