<a href="https://colab.research.google.com/github/wlcosta/voxar-ml-workshop/blob/main/ML_Workshop.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução à Deep Learning - Workshop Voxar Labs
## Welcome!
Bem vindos ao nosso primeiro workshop interativo sobre Deep Learning. Você está em um notebook interativo, que, nada mais é do que uma combinação de texto e código que pode ser executado de forma interativa. O nosso workshop será baseado nesse esquema: um texto introdutório sobre o que estamos fazendo e o código de como fazê-lo.

Se você já possui experiência com Linux, vários comandos já estão disponíveis no notebook. Você pode executá-los adicionando o sinal de exclamação antes do seu comando. Por exemplo:

In [None]:
!uname -a

Linux b28c176f88f8 5.4.104+ #1 SMP Sat Jun 5 09:50:34 PDT 2021 x86_64 x86_64 x86_64 GNU/Linux


Ou seja: você pode baixar arquivos, instalar alguns softwares e pacotes para trabalhar no workshop da forma que preferir.

### Conteúdo

Apesar de ser um workshop introdutório, ainda precisaremos revisitar vários itens, que será o nosso background. Abaixo está a tabela completa de conteúdos para o workshop:

1. IPython - indo além do Python comum
2. Breve, breve, breeeve introdução ao NumPy
3. Manipulação de dados com o Pandas
4. Visualização usando Matplotlib
5. Aprendizado raso: o tal do Machine Learning (na prática)
6. O buraco é mais embaixo: Deep Learning

E aí? bora dale?

# IPython - indo além do Python comum

Se você já conhece Python, o IPython vai ser uma ferramenta interessante. Existem várias opções de desenvolvimento para o Python, e o Interactive Python é um interpretador avançado com várias interfaces interativas para a linguagem.

Os notebooks são "apenas" uma interface gráfica baseada em browsers para o shell do IPython.

A ideia por trás do Python é criar uma linguagem pensada para o usuário, e uma grande parte disso é o acesso fácil à documentação. Cada objeto possui uma referência a um *doc string*, que é uma boa parte de documentação.

Chega de falar, bora testar!

In [None]:
# Vamos criar uma lista com alguns números.

x = [1, 2, 3]

Quantos elementos estão naquela lista? Usaremos a função `len()` para descobrir. Mas antes, precisamos saber como usar a função.

In [None]:
help(len)

Help on built-in function len in module builtins:

len(obj, /)
    Return the number of items in a container.



A função `help()` acessa o docstring que falamos antes e formata para ser mostrado na tela. Use sempre que estiver com dúvidas sobre como executar alguma função. Agora sabemos que a função espera um objeto como entrada e retorna o número de itens em um container.

In [None]:
len(x)

3

Ops! esqueci de adicionar um item na lista. Como podemos fazer isso?

Uma outra função importante é a `dir()`. Com ela, podemos ver todos os métodos que fazem parte do objeto.

In [None]:
dir(x)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__reversed__',
 '__rmul__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'append',
 'clear',
 'copy',
 'count',
 'extend',
 'index',
 'insert',
 'pop',
 'remove',
 'reverse',
 'sort']

Temos dois métodos que fazem sentido no nosso contexto: `append` e `insert`. Vamos dar uma olhada na documentação deles pra entender qual podemos escolher.

In [None]:
help(x.append)

Help on built-in function append:

append(object, /) method of builtins.list instance
    Append object to the end of the list.



In [None]:
help(x.insert)

Help on built-in function insert:

insert(index, object, /) method of builtins.list instance
    Insert object before index.



A diferença é simples: `append` adiciona ao final da lista, enquanto `insert` adiciona em um índice. Pra mim, o `append` funciona. Vamos testar.

In [None]:
x.append(4)
print(x)

[1, 2, 3, 4]


Massa! Listas são bem tranquilas de trabalhar, e a forma como a linguagem foi construída permite que possamos fazer coisas bem legais com ela.

Por exemplo, e se quisermos iterar em uma lista?

In [None]:
lista_de_compras = ['feijão', 'arroz', 'macarrão', 'farofa', 'tomate', 'alface', 'carne']
for produto in lista_de_compras:
  print(produto)

feijão
arroz
macarrão
farofa
tomate
alface
carne


In [None]:
for id, produto in enumerate(lista_de_compras):
  print(id, produto)

0 feijão
1 arroz
2 macarrão
3 farofa
4 tomate
5 alface
6 carne


In [None]:
gasolina_hoje = [6.0, 6.10, 6.20]
gasolina_amanha = [x*1.3 for x in gasolina_hoje]
print(gasolina_hoje, gasolina_amanha)

[6.0, 6.1, 6.2] [7.800000000000001, 7.93, 8.06]


Mas, a principal vantagem de usar IPython são os tais comandos mágicos. Esses comandos podem ser executados nas células e não estão disponíveis no Python original.

Vamos fazer um exemplo: eu tenho dois métodos para calcular o fatorial de um número qualquer.

In [1]:
# Importa pacotes necessários para a execução do código.
# Pacotes são conjuntos de métodos e classes.
import resource, sys, time

# As duas linhas a seguir servem apenas para aumentar o limite de recursão do Python.
resource.setrlimit(resource.RLIMIT_STACK, (2**29,-1))
sys.setrecursionlimit(10**6)


def fact(n):
  '''
  Função para calcular o fatorial de um número N.
    Argumentos
      n: número de entrada
    Saída
      O fatorial de N (N!).
  '''
  product = 1
  for i in range(n):
    product = product * (i+1)
  return product

def fact2(n):
  '''
  Função para calcular o fatorial de um número N.
    Argumentos
      n: número de entrada
    Saída
      O fatorial de N (N!).
  '''
  if n==0:
    return 1
  else:
    return n * fact2(n-1)

Qual dos dois é mais rápido?

In [2]:
%timeit fact(50)
%timeit fact2(50)

100000 loops, best of 5: 4.73 µs per loop
100000 loops, best of 5: 9.91 µs per loop


Uma parte interessante é fazer o profiling por linha. Isso ajuda a localizar gargalos no código e complementa o debug como já conhecemos.

In [5]:
!pip install line_profiler
%load_ext line_profiler

Collecting line_profiler
  Downloading line_profiler-3.3.0-cp37-cp37m-manylinux2010_x86_64.whl (63 kB)
[?25l[K     |█████▏                          | 10 kB 26.6 MB/s eta 0:00:01[K     |██████████▎                     | 20 kB 28.8 MB/s eta 0:00:01[K     |███████████████▍                | 30 kB 19.8 MB/s eta 0:00:01[K     |████████████████████▌           | 40 kB 16.5 MB/s eta 0:00:01[K     |█████████████████████████▋      | 51 kB 8.2 MB/s eta 0:00:01[K     |██████████████████████████████▉ | 61 kB 7.9 MB/s eta 0:00:01[K     |████████████████████████████████| 63 kB 2.1 MB/s 
Installing collected packages: line-profiler
Successfully installed line-profiler-3.3.0


In [6]:
%lprun -f fact fact(5)

Podemos fazer o mesmo para memória:

In [7]:
!pip install memory_profiler
%load_ext memory_profiler

Collecting memory_profiler
  Downloading memory_profiler-0.58.0.tar.gz (36 kB)
Building wheels for collected packages: memory-profiler
  Building wheel for memory-profiler (setup.py) ... [?25l[?25hdone
  Created wheel for memory-profiler: filename=memory_profiler-0.58.0-py3-none-any.whl size=30190 sha256=f7451d92bcb5319188506dbd55b2e662d3225cf798c20c49c0a0af16a0562013
  Stored in directory: /root/.cache/pip/wheels/56/19/d5/8cad06661aec65a04a0d6785b1a5ad035cb645b1772a4a0882
Successfully built memory-profiler
Installing collected packages: memory-profiler
Successfully installed memory-profiler-0.58.0


In [8]:
%memit fact(5)

peak memory: 114.87 MiB, increment: 0.07 MiB


In [9]:
%%file mprun_demo.py
def sum_of_lists(N):
    total = 0
    for i in range(5):
        L = [j ^ (j >> i) for j in range(N)]
        total += sum(L)
        del L
    return total

Writing mprun_demo.py


In [11]:
from mprun_demo import sum_of_lists
%mprun -f sum_of_lists sum_of_lists(100)




# Introdução a NumPy

Manipulação de dados em Python é quase sempre feita usando manipulação de arrays do NumPy. Ferramentas para grandes massas de dados, como o Pandas, foram criadas com base no NumPy. Aqui, vamos falar um pouco sobre manipulação básica de vetores e arrays NumPy.

### Atributos

Vamos começar definindo 3 arrays aleatórias (veja como é fácil)

In [12]:
import numpy as np
np.random.seed(0)

x1 = np.random.randint(10, size=6) #1d
x2 = np.random.randint(10, size=(3, 4)) #2d
x3 = np.random.randint(10, size=(3, 4, 5)) #d

Cada array terá 4 atributos importantes para o nosso cotidiano de deep learning:

In [13]:
print('Dimensões do array x3: ', x3.ndim)
print('Shape do array x3: ', x3.shape)
print('Tamanho do array x3: ', x3.size)
print('Tipo do array x3: ', x3.dtype)

Dimensões do array x3:  3
Shape do array x3:  (3, 4, 5)
Tamanho do array x3:  60
Tipo do array x3:  int64


Você também pode ter acesso a alguns atributos de memória:

In [14]:
# O tamanho, em bytes, de cada elemento do aray e o tamanho total do array
print(x3.itemsize, x3.nbytes)

8 480


### Acessando elementos em um vetor

In [15]:
print(x1)

[5 0 3 3 7 9]


In [17]:
print('O primeiro elemento de x1 é: ', x1[0])
print('O segundo elemento de x1 é: ', x1[1])
print('O último elemento de x1 é: ', x1[-1])
print('O penúltimo elemento de x1 é: ', x1[-2])

O primeiro elemento de x1 é:  5
O segundo elemento de x1 é:  0
O último elemento de x1 é:  9
O penúltimo elemento de x1 é:  7


Em arrays de várias dimensões, os itens podem ser acessados usando uma tupla de índices.

In [18]:
print(x2)

[[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]]


In [20]:
print(x2[0, 0])
x2[0, 0] = 100
print(x2[0, 0])

3
100


O fatiamento de vetores será bem comum na nossa prática diária. Assim como usamos `[]` para acessar índices individuais, também podemos acessar subarrays usando a notação de fatiamento (slice notation), que é marcado pelo dois pontos (`:`). A sintaxe segue a de listas em Python, e é feita da forma

`x[início:final:passos]`

Abaixo, veremos alguns exemplos

In [21]:
x = np.arange(10) #Vetor de 10 posições, linearmente espaçado
print(x)

[0 1 2 3 4 5 6 7 8 9]


In [23]:
print(x[0:5])
print(x[:5])

[0 1 2 3 4]
[0 1 2 3 4]


In [24]:
print(x[5:])

[5 6 7 8 9]


In [25]:
print(x[4:7])

[4 5 6]


In [26]:
print(x[1::2])

[1 3 5 7 9]


In [27]:
print(x[::-1])

[9 8 7 6 5 4 3 2 1 0]


In [28]:
print(x2)

[[100   5   2   4]
 [  7   6   8   8]
 [  1   6   7   7]]


In [29]:
print(x2[:2, :3]) # as duas primeiras linhas, as três primeiras colunas

array([[100,   5,   2],
       [  7,   6,   8]])

In [31]:
print(x2[:, 0]) # todas as linhas da primeira coluna

[100   7   1]


### Mudando a forma dos arrays

Reshaping também é bastante útil no nosso cotidiano. A forma mais flexível é através do método `reshape`.

In [33]:
grid = np.arange(1, 10)
print(grid, grid.shape)
grid = grid.reshape((3, 3))
print(grid, grid.shape)

[1 2 3 4 5 6 7 8 9] (9,)
[[1 2 3]
 [4 5 6]
 [7 8 9]] (3, 3)


Também podemos concatenar arrays:

In [35]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
print(np.concatenate([x, y]))
print(np.vstack([x, y]))
print(np.hstack([x, y]))

[1 2 3 3 2 1]
[[1 2 3]
 [3 2 1]]
[1 2 3 3 2 1]


### Mínimo, máximo e tudo entre eles

Algumas operações elementares em arrays NumPy

In [1]:
import numpy as np
array = np.random.random(1000)

In [2]:
print(np.sum(array))

497.32976997682533


In [3]:
print(np.min(array), np.max(array))

0.000619475127323299 0.9992226269256181


Outros métodos importantes:

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |