# Tensoren in der GPU

## Abfrage der GPU

Mit Hilfe des `cuda`-Moduls von `PyTorch` kann eine vorhandene GPU erkannt und abgefragt werden:

In [1]:
import torch

In [2]:
def check_gpu(device = None):
    if torch.cuda.device_count() == 0:
        print("Keine GPU gefunden, verwende CPU")
        return 'cpu'
    else:
        print(f"GPU gefunden: {torch.cuda.get_device_name(0)}")
        return 'cuda'

        
def gpu_info():
    print(f'CUDA available: {torch.cuda.is_available()}')
    print(f'CUDA devices count: {torch.cuda.device_count()}')
    print(f'CUDA current device: {torch.cuda.current_device()}')
    print(f'CUDA device 0: {torch.cuda.device(0)}')
    print(f'CUDA device name: {torch.cuda.get_device_name(0)}')

In [3]:
check_gpu()
gpu_info()

GPU gefunden: NVIDIA GeForce GTX 1050 Ti
CUDA available: True
CUDA devices count: 1
CUDA current device: 0
CUDA device 0: <torch.cuda.device object at 0x0000018750E34740>
CUDA device name: NVIDIA GeForce GTX 1050 Ti


Mit der folgenden Anweisung wird eine Variable `device` definiert, die bei der Erzeugung von Tensoren verwendet werden kann:

In [4]:
device =  "cuda" if torch.cuda.is_available else "cpu"
device

'cuda'

### Erzeugung von Tensoren in der GPU

In [5]:
x = torch.tensor([[1,2,3],[4,5,6]],device = device)
y = torch.tensor([[7,8,9],[10,11,12]],device = device)
x,y

(tensor([[1, 2, 3],
         [4, 5, 6]], device='cuda:0'),
 tensor([[ 7,  8,  9],
         [10, 11, 12]], device='cuda:0'))

Liegen die Ausgangs-Tensoren auf der GPU, so auch die Ergebnisse von Beechnungen:

In [6]:
z = x + y
z

tensor([[ 8, 10, 12],
        [14, 16, 18]], device='cuda:0')

## Performance

Auf der GPU werden alle Berechnungen erheblich (mehrere Größenordnungen) schneller durchgeführt:

In [2]:
N = 10

In [3]:
m1_gpu = torch.randn(N,N,dtype = float, device = 'cuda')
m2_gpu = torch.randn(N,N,dtype = float, device = 'cuda') 
%timeit m1_gpu @ m2_gpu

The slowest run took 8.88 times longer than the fastest. This could mean that an intermediate result is being cached.
67.5 μs ± 74.1 μs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [4]:
m1_cpu = torch.randn(N,N,dtype = float, device = 'cpu')
m2_cpu = torch.randn(N,N,dtype = float, device = 'cpu') 
%timeit m1_cpu @ m2_cpu

15.6 μs ± 2.68 μs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
