# ‚ö° Aula 3 ‚Äì GPUs em Python e Aplica√ß√µes em Engenharia

## Computa√ß√£o de Alto Desempenho em Python para Engenharia Civil

**Objetivos desta aula:**
- Introduzir paralelismo massivo com GPU
- Usar CuPy (NumPy para GPU) e Numba CUDA
- Aplicar HPC a simula√ß√µes reais (difus√£o de calor)
- Comparar performance CPU vs GPU

---

### üéØ CPU vs GPU: Filosofias Diferentes

**CPU (Central Processing Unit):**
- Poucos n√∫cleos complexos (4-64 cores)
- Otimizada para lat√™ncia (velocidade individual)
- Hierarquia de cache complexa
- Ideal para c√≥digo sequencial e ramificado

**GPU (Graphics Processing Unit):**
- Milhares de n√∫cleos simples (1000+ cores)
- Otimizada para throughput (trabalho total)
- Arquitetura SIMD (Single Instruction, Multiple Data)
- Ideal para paralelismo massivo e dados regulares

### üèóÔ∏è Aplica√ß√µes GPU em Engenharia Civil
- **Simula√ß√µes CFD** (Computational Fluid Dynamics)
- **An√°lise modal** de estruturas complexas
- **Processamento de imagens** (inspe√ß√£o, monitoramento)
- **Machine Learning** para predi√ß√£o de falhas

In [None]:
# Import Required Libraries
import time
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
import multiprocessing as mp

# Tentar importar bibliotecas GPU
try:
    import cupy as cp
    CUPY_AVAILABLE = True
    print(f"‚úÖ CuPy {cp.__version__} dispon√≠vel")
    print(f"   GPU: {cp.cuda.runtime.getDeviceProperties(0)['name'].decode()}")
    print(f"   Mem√≥ria: {cp.cuda.runtime.memGetInfo()[1] // (1024**3)} GB")
except ImportError:
    CUPY_AVAILABLE = False
    print("‚ö†Ô∏è  CuPy n√£o dispon√≠vel - instale com: pip install cupy-cuda11x (ou cupy-cuda12x)")

try:
    from numba import cuda
    import numba
    NUMBA_CUDA_AVAILABLE = True
    print(f"‚úÖ Numba CUDA {numba.__version__} dispon√≠vel")
except ImportError:
    NUMBA_CUDA_AVAILABLE = False
    print("‚ö†Ô∏è  Numba CUDA n√£o dispon√≠vel")

# Configure matplotlib
plt.style.use('seaborn-v0_8' if 'seaborn-v0_8' in plt.style.available else 'default')
plt.rcParams['figure.figsize'] = (12, 8)

print(f"nüñ•Ô∏è  Sistema: {mp.cpu_count()} n√∫cleos CPU")
print(f"üìä NumPy: {np.__version__}")

if not CUPY_AVAILABLE and not NUMBA_CUDA_AVAILABLE:
    print("n‚ö†Ô∏è  Nota: Esta aula requer GPU NVIDIA e CUDA para funcionalidade completa")
    print("   Mas ainda podemos aprender os conceitos e ver simula√ß√µes CPU!")

## 1. Exemplo 10: Soma de Vetores com CuPy

CuPy oferece uma interface NumPy para GPUs - mudan√ßa m√≠nima de c√≥digo!

In [None]:
if CUPY_AVAILABLE:
    print("üöÄ Exemplo 10: Soma de Vetores com CuPy")
    print("=" * 40)
    
    # Teste com diferentes tamanhos de vetores
    sizes = [1_000_000, 10_000_000, 100_000_000]
    
    for N in sizes:
        print(f"nüìä Tamanho: {N:,} elementos")
        
        # Criar vetores no CPU
        print("  Criando dados no CPU...")
        a_cpu = np.random.randn(N).astype(np.float32)
        b_cpu = np.random.randn(N).astype(np.float32)
        
        # NumPy (CPU)
        start = time.perf_counter()
        c_cpu = a_cpu + b_cpu
        time_cpu = time.perf_counter() - start
        print(f"  NumPy (CPU):     {time_cpu:.4f}s")
        
        # Transferir para GPU
        start_transfer = time.perf_counter()
        a_gpu = cp.asarray(a_cpu)
        b_gpu = cp.asarray(b_cpu)
        time_transfer_to = time.perf_counter() - start_transfer
        
        # CuPy (GPU) - primeira execu√ß√£o
        start = time.perf_counter()
        c_gpu = a_gpu + b_gpu
        cp.cuda.Stream.null.synchronize()  # Aguardar conclus√£o
        time_gpu_first = time.perf_counter() - start
        
        # CuPy (GPU) - segunda execu√ß√£o (kernels j√° compilados)
        start = time.perf_counter()
        c_gpu = a_gpu + b_gpu
        cp.cuda.Stream.null.synchronize()
        time_gpu = time.perf_counter() - start
        
        # Transferir resultado de volta
        start_transfer = time.perf_counter()
        c_gpu_cpu = cp.asnumpy(c_gpu)
        time_transfer_back = time.perf_counter() - start_transfer
        
        # Verificar corre√ß√£o
        are_equal = np.allclose(c_cpu, c_gpu_cpu, rtol=1e-5)
        
        # Speedup considerando apenas computa√ß√£o
        speedup_compute = time_cpu / time_gpu
        
        # Speedup total (incluindo transfer√™ncias)
        total_gpu_time = time_transfer_to + time_gpu + time_transfer_back
        speedup_total = time_cpu / total_gpu_time
        
        print(f"  CuPy (GPU):      {time_gpu:.4f}s")
        print(f"  Transfer√™ncia:   {time_transfer_to + time_transfer_back:.4f}s")
        print(f"  Total GPU:       {total_gpu_time:.4f}s")
        print(f"  Speedup (comp):  {speedup_compute:.2f}x")
        print(f"  Speedup (total): {speedup_total:.2f}x")
        print(f"  Precis√£o:        {'‚úì' if are_equal else '‚úó'}")
    
    print("nüí° Observa√ß√µes importantes:")
    print("‚Ä¢ Transfer√™ncia CPU‚ÜîGPU √© custosa")
    print("‚Ä¢ Speedup real depende do tamanho do problema")
    print("‚Ä¢ GPU √© mais eficiente para problemas grandes")
    print("‚Ä¢ CuPy = np ‚Üí cp (mudan√ßa m√≠nima de c√≥digo)")

else:
    print("‚ö†Ô∏è  CuPy n√£o dispon√≠vel. Exemplo conceitual:")
    print("""
    # NumPy (CPU)
    import numpy as np
    a = np.arange(10_000_000)
    b = np.arange(10_000_000)
    c = a + b  # Executa no CPU
    
    # CuPy (GPU) - mudan√ßa m√≠nima!
    import cupy as cp
    a = cp.arange(10_000_000)  # Criado diretamente na GPU
    b = cp.arange(10_000_000)
    c = a + b  # Executa na GPU automaticamente!
    """)

## 2. Exemplo 11: Multiplica√ß√£o de Matrizes Massivas

Para matrizes grandes, GPUs mostram seu verdadeiro poder!

In [None]:
if CUPY_AVAILABLE:
    print("üßÆ Exemplo 11: Multiplica√ß√£o de Matrizes Massivas")
    print("=" * 50)
    
    # Testar diferentes tamanhos de matrizes
    matrix_sizes = [1024, 2048, 4096]
    
    for size in matrix_sizes:
        print(f"nüìä Matrizes {size}x{size} (elementos: {size**2:,})")
        
        # Criar matrizes aleat√≥rias
        print("  Gerando matrizes aleat√≥rias...")
        np.random.seed(42)
        A_cpu = np.random.randn(size, size).astype(np.float32)
        B_cpu = np.random.randn(size, size).astype(np.float32)
        
        # NumPy (CPU) com BLAS otimizado
        print("  Executando multiplica√ß√£o no CPU...")
        start = time.perf_counter()
        C_cpu = np.dot(A_cpu, B_cpu)
        time_cpu = time.perf_counter() - start
        print(f"  NumPy (CPU):     {time_cpu:.4f}s")
        
        # Transferir para GPU
        start = time.perf_counter()
        A_gpu = cp.asarray(A_cpu)
        B_gpu = cp.asarray(B_cpu)
        time_transfer_to = time.perf_counter() - start
        print(f"  Transfer√™ncia‚ÜíGPU: {time_transfer_to:.4f}s")
        
        # CuPy (GPU)
        print("  Executando multiplica√ß√£o na GPU...")
        start = time.perf_counter()
        C_gpu = cp.dot(A_gpu, B_gpu)
        cp.cuda.Stream.null.synchronize()
        time_gpu = time.perf_counter() - start
        print(f"  CuPy (GPU):      {time_gpu:.4f}s")
        
        # Transferir resultado de volta
        start = time.perf_counter()
        C_gpu_cpu = cp.asnumpy(C_gpu)
        time_transfer_back = time.perf_counter() - start
        print(f"  Transfer√™ncia‚ÜêGPU: {time_transfer_back:.4f}s")
        
        # Verificar precis√£o
        max_error = np.max(np.abs(C_cpu - C_gpu_cpu))
        are_close = np.allclose(C_cpu, C_gpu_cpu, rtol=1e-4)
        
        # Calcular speedups
        speedup_compute = time_cpu / time_gpu
        total_gpu_time = time_transfer_to + time_gpu + time_transfer_back
        speedup_total = time_cpu / total_gpu_time
        
        # Calcular FLOPS (opera√ß√µes de ponto flutuante por segundo)
        flops = 2 * size**3  # Multiplica√ß√£o de matrizes: 2*n¬≥ opera√ß√µes
        gflops_cpu = flops / (time_cpu * 1e9)
        gflops_gpu = flops / (time_gpu * 1e9)
        
        print(f"n  üìà Performance:")
        print(f"    CPU GFLOPS:      {gflops_cpu:.2f}")
        print(f"    GPU GFLOPS:      {gflops_gpu:.2f}")
        print(f"    Speedup (comp):  {speedup_compute:.2f}x")
        print(f"    Speedup (total): {speedup_total:.2f}x")
        print(f"    Erro m√°ximo:     {max_error:.2e}")
        print(f"    Precis√£o:        {'‚úì' if are_close else '‚úó'}")
        
        # Limpeza de mem√≥ria GPU
        del A_gpu, B_gpu, C_gpu
        cp.get_default_memory_pool().free_all_blocks()
    
    print("nüí° Observa√ß√µes:")
    print("‚Ä¢ GPU acelera significativamente opera√ß√µes matriciais grandes")
    print("‚Ä¢ GFLOPS (Giga FLOPS) mede efici√™ncia computacional")
    print("‚Ä¢ Speedup melhora com tamanho do problema")
    print("‚Ä¢ Essencial considerar overhead de transfer√™ncia")

else:
    print("‚ö†Ô∏è  Demonstra√ß√£o conceitual de multiplica√ß√£o de matrizes GPU:")
    
    # Simular performance t√≠pica
    sizes = [1024, 2048, 4096]
    print("Speedups t√≠picos para multiplica√ß√£o de matrizes:")
    print("Tamanho    CPU (s)    GPU (s)    Speedup")
    print("-" * 40)
    
    for size in sizes:
        # Estimativas baseadas em hardware t√≠pico
        flops = 2 * size**3
        time_cpu_est = flops / (100e9)  # ~100 GFLOPS CPU
        time_gpu_est = flops / (2000e9)  # ~2000 GFLOPS GPU
        speedup_est = time_cpu_est / time_gpu_est
        
        print(f"{size:>6}x{size:<6} {time_cpu_est:.3f}     {time_gpu_est:.4f}    {speedup_est:.1f}x")

## 3. Introdu√ß√£o ao Numba CUDA

Numba CUDA permite escrever kernels customizados para m√°ximo controle sobre a GPU.

In [None]:
if NUMBA_CUDA_AVAILABLE:
    print("üîß Introdu√ß√£o ao Numba CUDA")
    print("=" * 30)
    
    @cuda.jit
    def add_kernel(a, b, c):
        # """Kernel CUDA para soma elemento por elemento"""
        # Obter √≠ndice do thread atual
        i = cuda.grid(1)
        
        # Verificar bounds
        if i < a.size:
            c[i] = a[i] + b[i]
    
    @cuda.jit 
    def square_kernel(arr, result):
        # """Kernel CUDA para elevar ao quadrado"""
        i = cuda.grid(1)
        
        if i < arr.size:
            result[i] = arr[i] * arr[i]
    
    # Exemplo 12: Monte Carlo œÄ com CUDA
    @cuda.jit
    def monte_carlo_pi_kernel(rng_states, n_per_thread, results):
        # """Kernel para estimativa de œÄ por Monte Carlo"""
        thread_id = cuda.grid(1)
        
        if thread_id >= rng_states.size:
            return
            
        # Cada thread conta pontos dentro do c√≠rculo
        count = 0
        for i in range(n_per_thread):
            x = cuda.random.xoroshiro128p_uniform_float32(rng_states, thread_id)
            y = cuda.random.xoroshiro128p_uniform_float32(rng_states, thread_id)
            
            if x*x + y*y <= 1.0:
                count += 1
        
        results[thread_id] = count
    
    def monte_carlo_pi_cuda(n_samples, n_threads=256):
        # """Estimativa de œÄ usando CUDA"""
        n_blocks = (n_samples + n_threads - 1) // n_threads
        samples_per_thread = n_samples // (n_blocks * n_threads)
        
        # Alocar arrays na GPU
        rng_states = cuda.random.create_xoroshiro128p_states(n_blocks * n_threads, seed=42)
        results = cuda.device_array(n_blocks * n_threads, dtype=np.int32)
        
        # Executar kernel
        start = time.perf_counter()
        monte_carlo_pi_kernel[n_blocks, n_threads](rng_states, samples_per_thread, results)
        cuda.synchronize()
        time_gpu = time.perf_counter() - start
        
        # Transferir resultados e somar
        results_host = results.copy_to_host()
        total_inside = np.sum(results_host)
        total_samples = samples_per_thread * n_blocks * n_threads
        
        pi_estimate = 4.0 * total_inside / total_samples
        return pi_estimate, time_gpu
    
    print("nüé≤ Exemplo 12: Monte Carlo œÄ com Numba CUDA")
    print("-" * 45)
    
    # Teste com diferentes n√∫meros de amostras
    sample_counts = [1_000_000, 10_000_000, 100_000_000]
    
    for n_samples in sample_counts:
        print(f"nAmostras: {n_samples:,}")
        
        # Vers√£o CPU para compara√ß√£o
        start = time.perf_counter()
        np.random.seed(42)
        x_cpu = np.random.uniform(-1, 1, n_samples)
        y_cpu = np.random.uniform(-1, 1, n_samples)
        inside_cpu = np.sum((x_cpu**2 + y_cpu**2) <= 1)
        pi_cpu = 4 * inside_cpu / n_samples
        time_cpu = time.perf_counter() - start
        
        # Vers√£o GPU
        pi_gpu, time_gpu = monte_carlo_pi_cuda(n_samples)
        
        speedup = time_cpu / time_gpu
        error_cpu = abs(pi_cpu - np.pi)
        error_gpu = abs(pi_gpu - np.pi)
        
        print(f"  CPU: œÄ ‚âà {pi_cpu:.6f}, erro = {error_cpu:.6f}, tempo = {time_cpu:.4f}s")
        print(f"  GPU: œÄ ‚âà {pi_gpu:.6f}, erro = {error_gpu:.6f}, tempo = {time_gpu:.4f}s")
        print(f"  Speedup: {speedup:.2f}x")
    
    print("nüí° Conceitos CUDA importantes:")
    print("‚Ä¢ Grid: cole√ß√£o de blocos")
    print("‚Ä¢ Block: cole√ß√£o de threads")
    print("‚Ä¢ Thread: unidade de execu√ß√£o")
    print("‚Ä¢ cuda.grid(1): obt√©m √≠ndice global do thread")
    print("‚Ä¢ cuda.synchronize(): aguarda conclus√£o")

else:
    print("‚ö†Ô∏è  Numba CUDA n√£o dispon√≠vel. Conceitos fundamentais:")
    print("""
    Hierarquia CUDA:
    
    Grid (toda a GPU)
    ‚îú‚îÄ‚îÄ Block 0 (grupo de threads)
    ‚îÇ   ‚îú‚îÄ‚îÄ Thread 0
    ‚îÇ   ‚îú‚îÄ‚îÄ Thread 1
    ‚îÇ   ‚îî‚îÄ‚îÄ Thread N
    ‚îú‚îÄ‚îÄ Block 1
    ‚îî‚îÄ‚îÄ Block M
    
    Kernel CUDA exemplo:
    
    @cuda.jit
    def meu_kernel(input_array, output_array):
        # Obter √≠ndice √∫nico para este thread
        i = cuda.grid(1)
        
        # Verificar bounds
        if i < input_array.size:
            output_array[i] = input_array[i] * 2
    
    # Lan√ßar kernel
    threads_per_block = 256
    blocks_per_grid = (array.size + threads_per_block - 1) // threads_per_block
    meu_kernel[blocks_per_grid, threads_per_block](input_arr, output_arr)
    """)

## 4. Exemplo 13: Simula√ß√£o de Difus√£o de Calor 2D

Vamos implementar uma simula√ß√£o real√≠stica de engenharia: difus√£o de calor em uma placa met√°lica.

In [None]:
def heat_equation_cpu(T, alpha, dx, dy, dt, steps):
    """
    Simula difus√£o de calor 2D no CPU
    Equa√ß√£o: ‚àÇT/‚àÇt = Œ±(‚àÇ¬≤T/‚àÇx¬≤ + ‚àÇ¬≤T/‚àÇy¬≤)
    """
    ny, nx = T.shape
    T_new = T.copy()
    
    start = time.perf_counter()
    
    for step in range(steps):
        # Atualizar pontos internos usando diferen√ßas finitas
        for i in range(1, ny-1):
            for j in range(1, nx-1):
                T_new[i, j] = T[i, j] + alpha * dt * (
                    (T[i+1, j] - 2*T[i, j] + T[i-1, j]) / dx**2 +
                    (T[i, j+1] - 2*T[i, j] + T[i, j-1]) / dy**2
                )
        
        # Trocar arrays
        T, T_new = T_new, T
    
    exec_time = time.perf_counter() - start
    return T, exec_time

if CUPY_AVAILABLE:
    def heat_equation_gpu(T_gpu, alpha, dx, dy, dt, steps):
        """Simula difus√£o de calor 2D na GPU usando CuPy"""
        ny, nx = T_gpu.shape
        T_new_gpu = cp.copy(T_gpu)
        
        start = time.perf_counter()
        
        for step in range(steps):
            # Atualizar usando slicing vetorizado
            T_new_gpu[1:-1, 1:-1] = T_gpu[1:-1, 1:-1] + alpha * dt * (
                (T_gpu[2:, 1:-1] - 2*T_gpu[1:-1, 1:-1] + T_gpu[:-2, 1:-1]) / dx**2 +
                (T_gpu[1:-1, 2:] - 2*T_gpu[1:-1, 1:-1] + T_gpu[1:-1, :-2]) / dy**2
            )
            
            # Trocar arrays
            T_gpu, T_new_gpu = T_new_gpu, T_gpu
            
        cp.cuda.Stream.null.synchronize()
        exec_time = time.perf_counter() - start
        return T_gpu, exec_time

if NUMBA_CUDA_AVAILABLE:
    @cuda.jit
    def heat_equation_kernel(T_old, T_new, alpha, dx, dy, dt):
        """Kernel CUDA para um passo da equa√ß√£o de calor"""
        i, j = cuda.grid(2)  # Obter coordenadas 2D
        
        ny, nx = T_old.shape
        
        # Verificar bounds (evitar bordas)
        if 1 <= i < ny-1 and 1 <= j < nx-1:
            T_new[i, j] = T_old[i, j] + alpha * dt * (
                (T_old[i+1, j] - 2*T_old[i, j] + T_old[i-1, j]) / (dx*dx) +
                (T_old[i, j+1] - 2*T_old[i, j] + T_old[i, j-1]) / (dy*dy)
            )
    
    def heat_equation_cuda(T_host, alpha, dx, dy, dt, steps):
        """Simula difus√£o de calor 2D usando kernels CUDA"""
        ny, nx = T_host.shape
        
        # Alocar na GPU
        T_gpu = cuda.to_device(T_host)
        T_new_gpu = cuda.device_array_like(T_gpu)
        
        # Configurar grid de threads
        threads_per_block = (16, 16)
        blocks_per_grid_x = (nx + threads_per_block[0] - 1) // threads_per_block[0]
        blocks_per_grid_y = (ny + threads_per_block[1] - 1) // threads_per_block[1]
        blocks_per_grid = (blocks_per_grid_x, blocks_per_grid_y)
        
        start = time.perf_counter()
        
        for step in range(steps):
            heat_equation_kernel[blocks_per_grid, threads_per_block](
                T_gpu, T_new_gpu, alpha, dx, dy, dt
            )
            
            # Trocar buffers
            T_gpu, T_new_gpu = T_new_gpu, T_gpu
        
        cuda.synchronize()
        exec_time = time.perf_counter() - start
        
        # Transferir resultado de volta
        result = T_gpu.copy_to_host()
        return result, exec_time

print("üå°Ô∏è  Exemplo 13: Simula√ß√£o de Difus√£o de Calor 2D")
print("=" * 50)

# Par√¢metros f√≠sicos
Lx, Ly = 1.0, 1.0  # Dimens√µes da placa (metros)
nx, ny = 256, 256  # Pontos da malha
dx = Lx / (nx - 1)
dy = Ly / (ny - 1)
alpha = 1e-4  # Difusividade t√©rmica (m¬≤/s)
dt = 0.25 * min(dx, dy)**2 / (4 * alpha)  # Passo de tempo est√°vel
steps = 500  # N√∫mero de passos de tempo

print(f"Par√¢metros da simula√ß√£o:")
print(f"  Malha: {nx}x{ny} = {nx*ny:,} pontos")
print(f"  Passos de tempo: {steps}")
print(f"  dt = {dt:.2e}s (estabilidade: {dt*alpha/(dx**2):.3f} < 0.25)")

# Condi√ß√µes iniciais e de contorno
T_initial = np.zeros((ny, nx), dtype=np.float32)

# Fonte de calor no centro
center_x, center_y = nx//2, ny//2
radius = min(nx, ny) // 8
for i in range(ny):
    for j in range(nx):
        if (i - center_y)**2 + (j - center_x)**2 <= radius**2:
            T_initial[i, j] = 100.0  # 100¬∞C

# Bordas mantidas a 0¬∞C (condi√ß√£o de Dirichlet)
T_initial[0, :] = T_initial[-1, :] = 0.0
T_initial[:, 0] = T_initial[:, -1] = 0.0

print(f"nCondi√ß√µes iniciais: fonte de calor central a 100¬∞C")

# Simular no CPU
print("n‚è±Ô∏è  Executando simula√ß√£o no CPU...")
T_cpu, time_cpu = heat_equation_cpu(T_initial.copy(), alpha, dx, dy, dt, steps)
print(f"CPU: {time_cpu:.3f}s")

# Simular na GPU (se dispon√≠vel)
if CUPY_AVAILABLE:
    print("n‚è±Ô∏è  Executando simula√ß√£o na GPU (CuPy)...")
    T_gpu_cupy, time_gpu_cupy = heat_equation_gpu(cp.asarray(T_initial), alpha, dx, dy, dt, steps)
    T_gpu_cupy_host = cp.asnumpy(T_gpu_cupy)
    
    speedup_cupy = time_cpu / time_gpu_cupy
    max_diff_cupy = np.max(np.abs(T_cpu - T_gpu_cupy_host))
    
    print(f"GPU (CuPy): {time_gpu_cupy:.3f}s, speedup: {speedup_cupy:.2f}x")
    print(f"Diferen√ßa m√°xima CPU vs GPU: {max_diff_cupy:.2e}¬∞C")

if NUMBA_CUDA_AVAILABLE:
    print("n‚è±Ô∏è  Executando simula√ß√£o na GPU (Numba CUDA)...")
    T_gpu_cuda, time_gpu_cuda = heat_equation_cuda(T_initial.copy(), alpha, dx, dy, dt, steps)
    
    speedup_cuda = time_cpu / time_gpu_cuda
    max_diff_cuda = np.max(np.abs(T_cpu - T_gpu_cuda))
    
    print(f"GPU (CUDA): {time_gpu_cuda:.3f}s, speedup: {speedup_cuda:.2f}x")
    print(f"Diferen√ßa m√°xima CPU vs CUDA: {max_diff_cuda:.2e}¬∞C")

# Visualiza√ß√£o dos resultados
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# Estado inicial
im1 = axes[0].imshow(T_initial, cmap='hot', interpolation='bilinear')
axes[0].set_title('Estado Inicialn(t = 0)')
axes[0].set_xlabel('x')
axes[0].set_ylabel('y')
plt.colorbar(im1, ax=axes[0], label='Temperatura (¬∞C)')

# Estado final (CPU)
im2 = axes[1].imshow(T_cpu, cmap='hot', interpolation='bilinear')
axes[1].set_title(f'Estado Final (CPU)n(t = {steps*dt:.3f}s)')
axes[1].set_xlabel('x')
axes[1].set_ylabel('y')
plt.colorbar(im2, ax=axes[1], label='Temperatura (¬∞C)')

# Compara√ß√£o GPU vs CPU (se dispon√≠vel)
if CUPY_AVAILABLE:
    diff = T_gpu_cupy_host - T_cpu
    im3 = axes[2].imshow(diff, cmap='RdBu_r', interpolation='bilinear')
    axes[2].set_title('Diferen√ßa GPU - CPUn(CuPy)')
    axes[2].set_xlabel('x')
    axes[2].set_ylabel('y')
    plt.colorbar(im3, ax=axes[2], label='Diferen√ßa (¬∞C)')
else:
    # Perfil de temperatura no centro
    center_line = T_cpu[ny//2, :]
    axes[2].plot(np.linspace(0, Lx, nx), center_line, 'r-', linewidth=2)
    axes[2].set_title('Perfil de Temperaturan(linha central)')
    axes[2].set_xlabel('Posi√ß√£o x (m)')
    axes[2].set_ylabel('Temperatura (¬∞C)')
    axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("nüí° Aplica√ß√µes em Engenharia Civil:")
print("‚Ä¢ An√°lise t√©rmica de estruturas de concreto")
print("‚Ä¢ Simula√ß√£o de inc√™ndios em edifica√ß√µes")
print("‚Ä¢ Comportamento t√©rmico de pavimentos")
print("‚Ä¢ Isolamento t√©rmico de edif√≠cios")
print("‚Ä¢ Pontes t√©rmicas em estruturas")

## 5. Integra√ß√£o CPU + GPU e Ferramentas Avan√ßadas

Vamos ver como combinar CPU e GPU eficientemente e explorar ferramentas do ecossistema.

In [None]:
print("üîó Integra√ß√£o CPU + GPU e Ecossistema HPC")
print("=" * 45)

print("nüìö Ferramentas Avan√ßadas do Ecossistema:")
print("n1. üöÄ **Dask + CuPy**: Computa√ß√£o distribu√≠da em m√∫ltiplas GPUs")
print("   ‚Ä¢ Escalabilidade para clusters")
print("   ‚Ä¢ DataFrame distribu√≠dos")
print("   ‚Ä¢ Exemplo: `import dask.array as da; da.from_array(cupy_array)`")

print("n2. üß† **PyTorch/TensorFlow**: Machine Learning em larga escala")
print("   ‚Ä¢ Redes neurais para previs√£o estrutural")
print("   ‚Ä¢ Processamento de imagens de inspe√ß√£o")
print("   ‚Ä¢ Detec√ß√£o de anomalias em estruturas")

print("n3. üê≥ **Singularity/Docker**: Containers para HPC")
print("   ‚Ä¢ Reprodutibilidade em clusters")
print("   ‚Ä¢ Isolamento de depend√™ncias")
print("   ‚Ä¢ Portabilidade entre sistemas")

print("n4. üìä **Rapids**: Acelera√ß√£o completa do pipeline de dados")
print("   ‚Ä¢ cuDF (pandas para GPU)")
print("   ‚Ä¢ cuML (scikit-learn para GPU)")
print("   ‚Ä¢ cuGraph (NetworkX para GPU)")

# Demonstra√ß√£o de pipeline h√≠brido CPU+GPU
def hybrid_data_processing_example():
    
    print("nüí° Exemplo de Pipeline H√≠brido CPU+GPU:")
    print("n1. **Pr√©-processamento no CPU**:")
    print("   ‚Ä¢ Leitura de arquivos")
    print("   ‚Ä¢ Parsing de dados")
    print("   ‚Ä¢ Valida√ß√£o e limpeza")
    
    print("n2. **Computa√ß√£o intensiva na GPU**:")
    print("   ‚Ä¢ Simula√ß√µes num√©ricas")
    print("   ‚Ä¢ Opera√ß√µes matriciais massivas")
    print("   ‚Ä¢ Processamento paralelo")
    
    print("n3. **P√≥s-processamento no CPU**:")
    print("   ‚Ä¢ An√°lise estat√≠stica")
    print("   ‚Ä¢ Gera√ß√£o de relat√≥rios")
    print("   ‚Ä¢ Visualiza√ß√£o")
    
    if CUPY_AVAILABLE:
        print("nüîß Implementa√ß√£o pr√°tica:")
        
        # Simular dados de entrada (CPU)
        print("   Gerando dados no CPU...")
        data_cpu = np.random.randn(1000, 1000).astype(np.float32)
        
        # Transferir para GPU para processamento intensivo
        print("   Transferindo para GPU...")
        data_gpu = cp.asarray(data_cpu)
        
        # Opera√ß√µes intensivas na GPU
        print("   Processando na GPU...")
        start = time.perf_counter()
        
        # Simula√ß√£o: m√∫ltiplas opera√ß√µes matriciais
        result_gpu = cp.dot(data_gpu, data_gpu.T)
        result_gpu = cp.linalg.eigvals(result_gpu)
        result_gpu = cp.sort(result_gpu)
        
        cp.cuda.Stream.null.synchronize()
        gpu_time = time.perf_counter() - start
        
        # Transferir de volta para an√°lise no CPU
        print("   Transferindo resultado de volta...")
        result_cpu = cp.asnumpy(result_gpu)
        
        # An√°lise final no CPU
        print("   Analisando no CPU...")
        mean_eigenval = np.mean(result_cpu.real)
        std_eigenval = np.std(result_cpu.real)
        
        print(f"nüìä Resultados:")
        print(f"   Tempo GPU: {gpu_time:.4f}s")
        print(f"   Autovalor m√©dio: {mean_eigenval:.6f}")
        print(f"   Desvio padr√£o: {std_eigenval:.6f}")
    
    else:
        print("n‚ö†Ô∏è  CuPy n√£o dispon√≠vel para demonstra√ß√£o pr√°tica")

hybrid_data_processing_example()

print("nüéØ Boas Pr√°ticas para CPU+GPU:")
print("n‚Ä¢ **Minimize transfer√™ncias**: Mantenha dados na GPU o m√°ximo poss√≠vel")
print("‚Ä¢ **Sobreposi√ß√£o**: Use streams CUDA para computa√ß√£o e transfer√™ncia simult√¢neas")
print("‚Ä¢ **Pinned memory**: Acelera transfer√™ncias CPU‚ÜîGPU")
print("‚Ä¢ **Batch processing**: Processe m√∫ltiplos itens juntos")
print("‚Ä¢ **Profiling**: Use nvprof, Nsight para identificar gargalos")

print("nüìà Quando usar GPU vs CPU:")
print("n**Use GPU quando:**")
print("‚Ä¢ Alto paralelismo (milhares de opera√ß√µes simult√¢neas)")
print("‚Ä¢ Opera√ß√µes matem√°ticas intensivas")
print("‚Ä¢ Dados regulares e homog√™neos")
print("‚Ä¢ Pouca ramifica√ß√£o condicional")

print("n**Use CPU quando:**")
print("‚Ä¢ C√≥digo sequencial complexo")
print("‚Ä¢ Muitas ramifica√ß√µes condicionais")
print("‚Ä¢ I/O intensivo")
print("‚Ä¢ Processamento de strings/texto")

print("nüîÆ Futuro da Computa√ß√£o Heterog√™nea:")
print("‚Ä¢ **SYCL/DPC++**: Programa√ß√£o unificada CPU/GPU/FPGA")
print("‚Ä¢ **Intel oneAPI**: Toolchain multi-arquitetura")
print("‚Ä¢ **AMD HIP**: Portabilidade CUDA‚ÜíROCm")
print("‚Ä¢ **WebGPU**: Computa√ß√£o GPU no navegador")

# Exemplo de medi√ß√£o de throughput
if CUPY_AVAILABLE:
    print("nüìä Benchmark Final: Throughput de Dados")
    print("-" * 40)
    
    data_sizes = [1, 10, 100]  # MB
    
    for size_mb in data_sizes:
        n_elements = (size_mb * 1024 * 1024) // 4  # 4 bytes por float32
        
        # CPU
        data_cpu = np.random.randn(n_elements).astype(np.float32)
        start = time.perf_counter()
        result_cpu = np.sum(data_cpu**2)
        time_cpu = time.perf_counter() - start
        throughput_cpu = size_mb / time_cpu
        
        # GPU
        data_gpu = cp.asarray(data_cpu)
        start = time.perf_counter()
        result_gpu = cp.sum(data_gpu**2)
        cp.cuda.Stream.null.synchronize()
        time_gpu = time.perf_counter() - start
        throughput_gpu = size_mb / time_gpu
        
        print(f"{size_mb:3d} MB: CPU {throughput_cpu:6.1f} MB/s, GPU {throughput_gpu:6.1f} MB/s")