<a href="https://colab.research.google.com/github/vicotrbb/machine_learning/blob/master/work_process/best_pratices_for_ML_engineers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importantes dicas para ser um engenheiro de ML melhor

Um questionamento constante que tenho quando estou desenvolvendo um novo script para treinar um modelo ou mesmo uma nova API para poder consumi-los, é se oque eu se estou seguindo as boas práticas, criar serviços voltados a ML e IA não são iguais ao desenvolvimento de software convencional, mas isso não quer dizer que não devemos seguir boas práticas e manter esses serviços o melhor possivel.

A frente, seguem dicas que podem ajudar a melhorar seu trabalho. A maioria dos topicos são retirados de leituras que realizei e alguns poucos são de minha autoria, referencias seguem abaixo.

## Author

* Victor Bona - https://www.linkedin.com/in/victorbona/

## Referencias

* https://medium.com/modern-nlp/10-great-ml-practices-for-python-developers-b089eefc18fc

# Apresente o progresso de tarefas importantes e onerosas

Acompanhar o progresso de grandes tarefas pode ser uma excelente pratica, visando facilitar o acompanhamento do processo, melhor percepção de métricas e facilitar a percepção de *leaks*.

Para esta tarefa, recomenda-se o uso da lib fastprogress, como demonstrado no exemplo abaixo.

In [None]:
from fastprogress.fastprogress import progress_bar
from time import sleep
for j in progress_bar(range(100)):
  sleep(0.01)

# Contabilize tempo de execução

Da mesma forma como a dica anterior, esta visa também facilitar o acompanhamento dos processos, poder contabilizar quanto tempo um processo demora para executar por completo, pode ajudar muito e antender onde melhorar no seu pipeline ou identificar possiveis *leaks*.

A ideia do exemplo abaixo, é criar um *decorator* para permitir a facil metrificação do tempo de execução dos métodos.

In [None]:
import time
from functools import wraps

def timing(f):
  """Decorator for timing functions
  Usage:
  @timing
  def function(a):
    pass
  """

  @wraps(f)
  def wrapper(*args, **kwargs):
    start = time.time()
    result = f(*args, **kwargs)
    end = time.time()
    print('function:%r took: %2.2f sec' % (f.__name__,  end - start))
    return result
  return wrapper

In [None]:
@timing
def teste():
  y = 0
  for x in range(1,10000000):
    y += x
  print(y)

teste()

49999995000000
function:'teste' took: 0.61 sec


# Sempre tenha formas de evitar disperdicio de recursos

Quando vamos treinar um modelo em uma maquina na nuvem, normalmente isso custa muito caro, pricipalmente por que as maquinas utilizadas são de alto desempenho e custam mais caro naturalmente. 

O problema mesmo é quando o egenheiro que projetou o pipeline acaba esquecendo de checar quando o modelo já esta pronto para desligar a maquina ou pausa-la, ocasionando em gastos desnecessários.

Visando evitar esse problema, crie algum método para desligar a maquina depois que terminar e salvar o processo.

In [None]:
import os

def shutdown(seconds=0):
  os.system(f'sudo shutdown -h -t sec {seconds}')

# Fixe as seeds do seu projeto

Uma boa pratica, é fixar as "seeds" do seu projeto, para que seja possivel reproduzir seus resultados em outros ambientes. Essas seeds são os valores utilizados como parametro para realizar alguns processos importantes.

Normalmente, as seeds são fixadas no topo do seu projeto ou em um método de setup.

In [None]:
import numpy as np
import os
import tensorflow as tf
import random

os.environ['PYTHONHASHSEED']=str(66)
tf.random.set_seed(66)
np.random.seed(66)
random.seed(66)