![](https://github.com/vorodrigues/databricks-automl-lab/blob/main/img/header-automl.png?raw=true)

# Lab 03 - Usando o AutoML através do Python

## Exercício 03.01 - Visualização dos Dados

Nesse laboratório, vamos trabalhar com uma tabela:
- **sales_monthly:** valores mensais de vendas agregados por produto e loja

Vamos ver como são esses dados!

Antes de tudo, vamos selecionar nosso banco de dados.

Preencha o valor da variável `db` e execute a célula abaixo.

In [0]:
# TODO: Preencha o caminho do seu database abaixo
db = 'meu_catalogo.meu_database'
spark.sql(f'USE {db}')

In [0]:
%sql select * from sales_monthly

## Exercício 03.02 - Previsão das vendas nos próximos meses

Dessa vez, já temos os dados preparados para serem utilizados na nossa previsão. Caso contrário, seria recomendado fazer a exploração e preparação dos dados, assim como fizemos nos exercícios anteriores.

Para a nossa previsão, iremos utilizar o **Databricks AutoML** através da sua API para Python. Isso nos permite:
- Criar agendamentos para executar previsões periodicamente
- Parametrizar e modularizar execuções
- Segmentar modelos por diferentes grupos de produtos, regiões, perfis de consumidor, etc...

Siga os passos abaixo:
- Na célula abaixo, preencha o valor da variável `name`
- Execute a célula abaixo

In [0]:
import databricks.automl
from datetime import datetime

# TODO: Preencha seu nome ou inicias abaixo
name = '<meu_nome>'
experiment_dir = '<meu_diretorio>'

# Formata a data e hora atual
now = datetime.now()
formatted_date = now.strftime('%Y-%m-%d_%H-%M')

# Crie um modelo com Databricks AutoML
model = databricks.automl.forecast(
  experiment_name=f"{name} Sales Forecast {formatted_date}",
  dataset=f"{db}.sales_monthly",
  target_col="sales_amount", 
  identity_col=["product_id", "store_id"], 
  time_col="month",
  frequency="month",
  horizon=6, 
  country_code="BR", 
  primary_metric="smape",
  experiment_dir=experiment_dir,
  # output_database=db, #OBS: o AutoML pode gravar as previsões em uma tabela automaticamente, porém não teremos essa permisão durante o workshop
  timeout_minutes=10
)

Assim que o experimento for iniciado, no output da célula acima, deverá aparecer o link para acessá-lo. Dentro do experimento, novamente, teremos todas as informações sobre este modelo, como:
- Hiper-parâmetros utilizados
- Métricas de performance
- Notebooks de exploração e do melhor modelo
- Tabela de inferência (somente para experimentos de previsão)

Agora, vamos explorar essas informações!

## Exercício 03.03 - Analisando o notebook de exploração

Vamos começar pelo notebook de exploração! Siga os passos abaixo:
- Abra o experimento utilizando o link gerado na célula acima
- Clique em **View data exploration notebook**
- Em **Time column Analysis**, analise os períodos disponíveis para cada loja / produto
- Em **Target Value Analysis**, analise:
  - A distribuição dos valores de vendas para cada loja / produto
  - A existência de nulos nos valores de vendas

## Exercício 03.04 - Avaliando os modelos

- Abra o experimento novamente
- Clique no **ícone do gráfico**
- Caso necessário, clique no **ícone do olho** e selecione **Show all runs**
- Avalie a performance dos modelos
  - São criados automaticamente gráficos para diversas métricas de performance (MDAPE, MAE, MAPE, SMAPE, entre outras) na base de validação (val)

Estes gráficos nos permitem comparar a performance dos modelos em dados que o modelo não havia visto durante o seu treinamento. Isso nos permite entender se o modelo está **generalizando** bem, ou seja, se ele é capaz de reproduzir sua performance do treinamento no mundo real. Vamos buscar o modelo que possuem a maior performance – lembrando que a maioria das métricas disponíveis (incluindo o SMAPE que definimos como principal) medem o erro do modelo, ou seja, quanto menor, melhor.

## Exercício 03.05 - Visualizando o melhor modelo

- No gráfico, clique no ponto que representa o melhor modelo
- No cartão, clique no nome do modelo

Veja que todas as informações do modelo se encontram disponíveis, desde os parâmetros utilizados  e métricas de performance nas diversas bases, até o notebook criado pelo **AutoML** para treinar o modelo e artefatos gerados. Isso garante máxima transparência ao processo e permite com que vocês façam alterações adicionais, caso desejem.

Adicionalmente, siga os passos abaixo:

- Na tela do exeperimento, clique na aba **Artifacts** para visualizar as especificações do modelo, binários, dependências e outros artefatos necessários para a sua execução em produção
- Clique no notebook disponível em **Source** para visualizar o código
  - *Alternativamente, no menu do AutoML, clique em **View notebook for best model***

**Observação**:
- Alguns artefatos são gerados apenas para o modelo campeão

**Parabéns!**

Você concluiu o laboratório de utilização da API Python do Databricks AutoML. Com isso, você poderá modularizar e automatizar processos de forma muito simples, além de poder escalar o treinamento de modelos para diversos segmentos para melhorar ainda mais as suas performances!