# Introdução ao Amazon SageMaker

Nesta demonstração iremos obter o [conjunto de dados caltech-256](http://www.vision.caltech.edu/Image_Datasets/Caltech256/) e iremos preparar o dataset para a etapa de treinamento.

Para começar, precisamos configurar o ambiente com algumas etapas de pré-requisito.

## Pré-requisitos e Pré-processamento

### Permissões e variáveis

Aqui, configuramos o link e a autenticação para os serviços da AWS. Existem três partes para isso:

* As funções usadas para fornecer acesso aos serviços AWS
* O bucket S3 que você deseja usar para armazenar o dataset e o modelo

In [None]:
import os 
import urllib.request
import boto3
    
bucket= 'sagemaker-workshop-files-us-east-1-206730628141' # troque pelo seu bucket (o bucket foi criado pelo CloudFormation, verifique a aba de output no CloudFormation)
prefix = 'introduction'

def download(url):
    filename = url.split('/')[-1]
    if not os.path.exists(filename):
        urllib.request.urlretrieve(url, filename)

def upload_to_s3(channel, file):
    s3 = boto3.resource('s3')
    data = open(file, 'rb')
    key = f'{channel}/{file}'
    s3.Bucket(bucket).put_object(Key=key, Body=data)

### Preparação dos dados
Iremos fazer download do dataset e depois upload no nosso bucket S3. Nessa demonstração usamos o dataset [Caltech-256](http://www.vision.caltech.edu/Image_Datasets/Caltech256/) que possui 30608 imagens de 256 objetos diferentes. Para o treinamento e validação do modelo, iremos utilizar dois arquivos que de maneira aleatória tem separado 60 imagens por classe de objeto para o treinamento, e usa as imagens restantes para validação. Os arquivos já estão no formato `RecordIO` para economizarmos tempo, mas também é possível converter as imagens para o formato `RecordIO` usando o [im2rec](https://mxnet.incubator.apache.org/how_to/recordio.html?highlight=im2rec) do framework MXNet.

In [None]:
# Download caltech-256
download('http://data.mxnet.io/data/caltech-256/caltech-256-60-train.rec')
download('http://data.mxnet.io/data/caltech-256/caltech-256-60-val.rec')

In [None]:
# Quatro canais: train, validation, train_lst, and validation_lst
s3train = f'{prefix}/train'
s3validation = f'{prefix}/validation'

# upload the lst files to train and validation channels
upload_to_s3(s3train, 'caltech-256-60-train.rec')
upload_to_s3(s3validation, 'caltech-256-60-val.rec')

Assim que tivermos os dados disponíveis no formato correto para treinamento, a próxima etapa é realmente treinar o modelo usando os dados. Depois de definir os parâmetros de treinamento, iniciamos o treinamento e monitoramos até que o treinamento seja concluído. Volte para o workshop e confira o próximo passo!