
# Uma breve introdução ao Machine Learning: Dia 2

Gabriel Wendell Celestino Rocha

Material de um minicurso de introdução ao Machine Learning oferecido pelo [PET - Física](https://petfisica.home.blog).

O conteúdo é mantido no [GitHub]() e distribuídos sob uma [licença BSD3](https://opensource.org/licenses/BSD-3-Clause).

- [Veja a tabela de conteúdos]()

Este `Notebook` pode, opcionalmente, ser visto como uma [apresentação de slides](https://medium.com/learning-machine-learning/present-your-data-science-projects-with-jupyter-slides-75f20735eb0f). Clique [aqui]() para ver os slides online ou, para apresentar os slides localmente, use:

```Python
$ jupyter nbconvert Dia2.ipynb --to slides --post serve
```

---

### Bibliotecas necessárias

In [5]:
import seaborn as sns; sns.set()
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

%matplotlib notebook

def opt_plot():
    # plt.style.use('dark_background')
    plt.grid(True, linestyle=':', color='0.50')
    plt.minorticks_on()
    plt.tick_params(axis='both',which='minor', direction = "in",
                        top = True,right = True, length = 5,width = 1,labelsize = 15)
    plt.tick_params(axis='both',which='major', direction = "in",
                        top = True,right = True, length = 8,width = 1,labelsize = 15)

### Versões das bibliotecas

In [3]:
%load_ext version_information
%version_information Matplotlib, Numpy, Pandas, Seaborn

Software,Version
Python,3.9.8 64bit [MSC v.1929 64 bit (AMD64)]
IPython,8.0.1
OS,Windows 10 10.0.19043
Matplotlib,3.5.1
Numpy,1.22.2
Pandas,1.4.0
Seaborn,0.11.2
Sat Jun 04 14:40:28 2022 Hora Padrão de Buenos Aires,Sat Jun 04 14:40:28 2022 Hora Padrão de Buenos Aires


#### Instalação:

```
$ pip install version_information
```

---

# Computação Tensorial

A maioria dos algoritmos práticos de ML podem ser decompostos em pequenos passos onde os cálculos são expressos com álgebra linear, ou seja, combinações lineares de escalares, vetores e matrizes.

Por exemplo, uma rede neural pode ser construída a partir de camadas onde cada uma calcula

$$\textbf{x}_{\text{out}}=\max{(0,W\textbf{x}_{\text{in}}+\textbf{b})}$$

onde $W$ é uma matriz e os símbolos em negrito representam vetores. Em aplicações típicas, $\textbf{x}_{\text{out}}$ e $\textbf{x}_{\text{in}}$ são derivados de **dados** enquanto $W$ e $\textbf{b}$ são considerados **parâmetros do modelo**. (Essa relação não é estritamente linear: por quê?)

Os tipos numéricos e de lista python podem representar escalares arbitrários, vetores e matrizes, mas são projetados para flexibilidade em vez de eficiência.

O Numpy é otimizado para o caso especial em que todos os elementos da lista são valores numéricos do mesmo tipo, que podem ser organizados e acessados de forma muito eficiente na memória, com um tipo de array especializado com muitos recursos interessantes. Uma desvantagem dessa abordagem é que a maioria das funções matemáticas internas são duplicadas (por exemplo, `math.sin` e `np.sin`) para trabalhar com matrizes Numpy.

## 1. Terminologia

Frequentemente usamos $\textbf{r}=(x,y,z)$ em física para representar uma posição arbitrária em três dimensões (contínuas).

Em numpy, não podemos representar uma posição arbitrária, mas podemos representar facilmente uma posição *específica*, por exemplo:

No entanto, `rvec` tem apenas uma dimensão (discreta), que usamos para acessar seus três elementos de array com índices 0,1,2:

Observe como usamos o termo **dimensão** de maneira diferente nesses dois casos!

Todos os arrays numpy têm uma propriedade shape que especifica o intervalo de índices permitidos para cada uma de suas dimensões (discretas):

Compare com uma matriz representada em numpy:

Numpy suporta arrays com qualquer número (finito) de dimensões (discretas). O nome geral para esses arrays é um **tensor** (portanto, escalares, vetores e matrizes são tensores). Por exemplo:

Tensores também são usados em física: por exemplo, a expressão tensorial $g^{i\ell}\Gamma_{ki}^{k}x^{k}$ surge em [derivadas contravariantes na Relatividade Geral](https://en.wikipedia.org/wiki/Christoffel_symbols#Covariant_derivatives_of_tensors). Quais são as dimensões de , e nesta expressão? Observe que os tensores numpy não fazem distinção entre índices superiores ou inferiores.

A dimensão numpy às vezes também é chamada de **classificação** (*rank*) (mas observe que a [classificação do array](https://en.wikipedia.org/wiki/Rank_(computer_programming)) é semelhante, mas sutilmente diferente da [classificação da álgebra linear](https://en.wikipedia.org/wiki/Rank_(linear_algebra)).

## 2. Operações fundamentais

### 2.1 Criação de tensores

As maneiras mais comuns de criar novos arrays são:

- Preenchido com uma sequência simples de valores constantes
- Preenchido com valores aleatórios (reprodutíveis)
- Calculado como uma função matemática de matrizes existentes.

1. Sequência regular de valores:

2. Números "aleatórios" reproduzíveis:

3. Calculado em função do array existente:

Todos os valores contidos em um tensor têm o mesmo [tipo de dados](https://docs.scipy.org/doc/numpy-1.15.0/user/basics.types.html), que você pode inspecionar:

Quais seriam os `dtype` de `c3`, `r2` e `f1`?

Acontece que as funções `np.zeros` e `np.ones` do Numpy são do tipo `float64`, por padrão, enquanto a função `np.full` usa o tipo do valor constante fornecido. Os inteiros são promovidos automaticamente a `float`s em expressões mistas.

**PERGUNTA:** O aprendizado profundo (*deep learning*) geralmente usa tipos de dados flutuantes menores (32 bits ou 16 bits). Quais são as vantagens? E as desvantagens?

**RESPOSTA:** `Floats` menores permitem o uso mais eficiente da memória limitada (GPU) e cálculos mais rápidos, ao custo de alguma precisão que por sua vez pode ser "negociada". Como o treinamento de uma rede neural profunda é inerentemente barulhento, isso geralmente é uma boa compensação.

### 2.2 Remodelagem do tensor

Muitas vezes é útil remodelar um tensor sem alterar seu tamanho total, o que pode ser feito de forma muito eficiente através da função [`np.reshape`](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.reshape.html) do Numpy, pois o layout dos valores do tensor na memória não precisa ser alterado:

### 2.3 Transmissão de tensores

O verdadeiro poder da computação tensorial vem de expressões como esta:

Escalamos cada coluna da matriz de 3x4 unidades por um valor diferente.

Os resultados não são surpreendentes nesses exemplos, mas algo não trivial está acontecendo nos bastidores para fazer isso funcionar, já que estamos combinando tensores com formas diferentes. Isso se chama [*broadcasting*](https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html) e tem regras específicas de como lidar com casos menos óbvios.

O *broadcasting* serve a dois propósitos:

- Permite expressões "vetorizadas" mais compactas e fáceis de entender, onde os loops sobre os elementos em cada dimensão estão implícitos.

- Permite otimizações automáticas para aproveitar o hardware disponível, já que loops python explícitos geralmente são um gargalo.

Nem todas as expressões podem ser transmitidas automaticamente, mesmo que pareçam fazer sentido. Por exemplo:

No entanto, geralmente você pode remodelar as entradas para obter o resultado desejado:

Outro truque útil é usar `keepdims = True` com funções de redução, como por exemplo:

Para experimentar as regras de transmissão, defina uma função para tentar transmitir duas formas de tensor arbitrárias:

Podemos inclusive "brincar" de tentar adivinhar o resultado de algumas transmissões:

## 3. Estrutura de tensores

### 3.1 Numpy

Numpy é um exemplo de uma estrutura para computação tensorial que é amplamente suportada e não requer hardware especial. No entanto, ele ainda oferece melhorias significativas de desempenho, eliminando loops python explícitos e usando a memória com eficiência.

Por exemplo, vamos calcular a separação do ângulo de abertura entre dois vetores unitários, cada um especificado com ângulos (`lat`, `lon`) em radianos (ou `RA`, `DEC` para astrônomos, conforme implementado [aqui](https://desisurvey.readthedocs.io/en/latest/api.html#desisurvey.utils.separation_matrix)). A [fórmula de Haversine](https://en.wikipedia.org/wiki/Haversine_formula) é uma boa maneira de calcular essa quantidade.

Gere um grande número de vetores unitários aleatórios para *benchmarking* (esses são distribuídos uniformemente na esfera?)

Usamos loops python explícitos para calcular a matriz (quadrada) de ângulos de separação entre todos os pares de vetores unitários:

Usamos a *magic extension* `%time` para dar uma olhada no tempo necessário para rodar nossa função:

Agora calcule as mesmas separações usando loops implícitos Numpy:

Verificamos se ambos os cálculos dão os mesmos resultados:

Como isso é muito mais rápido, aumente a quantidade de computação (e memória) 100x para um melhor *benchmark*:

Portanto, o uso de loops Numpy implícitos acelera o cálculo por um fator de cerca de $6,8/0,02=340$. Como estamos usando as matrizes Numpy eficientes em ambos os casos, a aceleração é inteiramente devida aos loops!

### 3.2 Outros *frameworks*: `PyTorch` e `TensorFlow`

O aprendizado de máquina depende muito de estruturas que copiam o design Numpy bem-sucedido para computação de tensor, enquanto adicionam alguns novos recursos importantes:

- Aceleração automática de hardware.
- Cálculo automático de derivativos.
- Implementação eficiente para outras plataformas (móvel, nuvem).

Ao contrário do numpy, o tipo padrão nessas estruturas geralmente é um float de 32 bits, em vez de um float de 64 bits.

As duas estruturas de computação tensor mais populares para aprendizado de máquina hoje são [`PyTorch`](https://pytorch.org) e [`TensorFlow`](https://www.tensorflow.org). Ambos são grandes projetos de código aberto, desenvolvidos principalmente pelo Facebook (`pytorch`) e Google (`tensorflow`). Esses frameworks eram originalmente bem diferentes, com pytorch preferido para pesquisa e tensorflow preferido para implantação em larga escala, mas eles estão gradualmente convergindo para um conjunto de recursos semelhante.

A seguir, repetimos nosso cálculo da matriz de separação com ambas as estruturas. Você notará que os novos recursos vêm com alguma complexidade adicional.

#### 3.2.1 Exemplo usando o `PyTorch`

#### 3.2.2 Exemplo usando o `TensorFlow`

## 4. Aceleraçao do hardware

A computação de tensores pode ser acelerada significativamente (10-100x) usando hardware que é otimizado para realizar a computação do tensor distribuindo cálculos simples ("kernels") entre muitos processadores independentes ("núcleos/*cores*") executados em paralelo.

O driver original para esse hardware era acelerar os cálculos de geometria 3D necessários para renderizar gráficos 3D em tempo real, levando às primeiras [Unidades de Processamento Gráfico (*Graphics Processing Units* ou GPUs)](https://en.wikipedia.org/wiki/Graphics_processing_unit) na década de 1990. Mais recentemente, as GPUs foram adotadas para cálculos puramente numéricos, sem tela anexada, levando ao desenvolvimento de linguagens de programação especializadas, como [CUDA](https://en.wikipedia.org/wiki/CUDA) e [OpenCL](https://en.wikipedia.org/wiki/OpenCL).

Atualmente, um fornecedor (Nvidia) domina o uso de GPUs para ML com sua linguagem CUDA proprietária. O Google também introduziu uma arquitetura [TPU](https://en.wikipedia.org/wiki/Tensor_Processing_Unit) ainda mais especializada.

A tabela abaixo mostra alguns benchmarks para o problema da matriz de separação, rodando em diferentes hardwares com diferentes frameworks. As acelerações obtidas usando PyTorch e TensorFlow com uma GPU são típicas. As duas estruturas fornecem desempenho geral de GPU comparável, mas podem diferir em problemas específicos.

| Test | Laptop | Server(GPU) | Collab(CPU) | Collab(GPU) |
| --- | --- | --- | --- | --- |
| Numpy | 2.08s | 1.17s | 10.5s | 10.3s |
| Torch | 7.32s	| 48.7ms | --- |	--- |
| Tensorflow | --- | --- | 9.11s | 246ms |
| Ratio | 3.5 |	1/24 |	0.87 | 1/41 |

Para se beneficiar desse hardware, você pode adicionar uma GPU a um servidor Linux ou usar uma plataforma de computação em nuvem.

A computação em nuvem é a maneira mais fácil de começar. Existem algumas opções gratuitas, mas geralmente você precisa "pagar conforme o uso" para fazer uma quantidade útil de trabalho. Alguns bons pontos de partida são:

- [Google Collaboratory](https://colab.research.google.com): ferramenta de pesquisa gratuita com front-end de notebook jupyter.
- [PaperSpace](https://www.paperspace.com): preço razoável e simples de começar.
- [Amazon Web Services](https://aws.amazon.com/pt/ec2/): grátis para experimentar, muito flexível e relativamente complexo.
- [Google Cloud](https://cloud.google.com): comparável à AWS.

**Observação: esta não é uma lista completa e os preços e os recursos estão mudando rapidamente.**

Se você está pensando em construir seu próprio servidor GPU, comece aqui. Um único servidor pode hospedar 4 GPUs. Aqui está uma única [GPU RTX 2080 Ti](https://www.nvidia.com/en-us/geforce/20-series/) refrigerada a água instalada no escritório de um conhecido meu:

![image](IMG/GPU-server.jpg)

## 5. Derivadas Automáticas

Além da aceleração de hardware, um recurso importante das estruturas de computação tensorial para ML é sua capacidade de automatizar o cálculo de derivadas, que permitem algoritmos de otimização baseados em gradiente eficientes e precisos.

Em geral, uma derivada pode ser implementada em software de três maneiras:

- Analiticamente (usando papel ou matemática) e depois copiado em código: este é o mais eficiente e preciso, mas menos generalizável.

- Numericamente: com equações de [diferenças finitas](https://en.wikipedia.org/wiki/Finite_difference): esta é a menos eficiente e precisa, mas a mais generalizável.

- [Automaticamente](https://en.wikipedia.org/wiki/Automatic_differentiation): uma abordagem híbrida onde um pequeno conjunto de funções primitivas (sin, cos, log, ...) Isso é eficiente e preciso, mas requer que as expressões sejam construídas inteiramente a partir de primitivas que dão suporte ao AD.

Como exemplo concreto, calcule a distribuição gaussiana (não normalizada):

$$y(x)=e^{-x^{2}}$$

Usando o `PyTorch`:

Especificamos `require_grad = True` para habilitar AD para todos os tensores que dependem de `x` (portanto, apenas `y` neste caso). Para calcular derivadas parciais ("gradientes") de `y` e `x`, basta usar:

O tensor `x.grad` agora contém $y'(x)$ em cada valor de `x`:

Observe que essas derivadas são calculadas com precisão total da máquina e não são afetadas pelo espaçamento aproximado em $x$.

[Jax](https://github.com/google/jax) é uma estrutura relativamente nova para diferenciação automática (desenvolvida pelo Google, mas independente do `TensorFlow`) que se baseia na compilação "*just-in-time*" e é projetada para pesquisa de ML.

## 6. APIs de nível superior para computação tensor

Embora o `TensorFlow` e o `PyTorch` sejam semelhantes ao Numpy, eles têm APIs diferentes, então você é forçado a escolher um para aproveitar seus recursos exclusivos. No entanto, para muitos cálculos, eles são intercambiáveis e um novo ecossistema de APIs de nível superior está crescendo para oferecer suporte a isso. Por exemplo, confira:

- [Tensorly](http://tensorly.org/stable/index.html) (*Tensor learning in Python*): Inclui [decomposição](https://arxiv.org/abs/1711.10781) poderosa (PCA generalizado) e algoritmos de regressão.

- [Einops](https://github.com/arogozhnikov/einops) (*Deep learning operations reinvented*): Suporta expressões compactas para operações de indexação complexas ([`np.einsum`](https://numpy.org/doc/stable/reference/generated/numpy.einsum.html) com esteróides).

Nenhum desses pacotes está incluído no ambiente MLS conda, mas encorajo você a experimentá-los se quiser escrever código tensor independente de estrutura.

![image](https://c.tenor.com/hEOM8E4epvgAAAAC/hahaha-thats-all-folks.gif)

---