## Introdu√ß√£o

Word2Vec √© um algoritmo bem popular usado para gerar representa√ß√µes vetoriais densas de palavras em grandes textos usando aprendizado n√£o supervisionado. Essas representa√ß√µes s√£o √∫teis para muitas tarefas de processamento de linguagem natural (PLN/NLP), como an√°lise de sentimentos, reconhecimento de entidades nomeadas e tradu√ß√£o autom√°tica.


Modelos populares que aprendem tais representa√ß√µes ignoram a morfologia das palavras, atribuindo um vetor distinto a cada palavra. Essa √© uma limita√ß√£o, especialmente para idiomas com vocabul√°rios grandes e muitas palavras incomuns. O algoritmo *SageMaker BlazingText* pode aprender representa√ß√µes vetoriais associadas aos caracteres n-gramas; representando palavras como a soma dessas representa√ß√µes de n-gramas de caracteres [1]. Esse m√©todo permite que o *BlazingText* gere vetores para palavras fora do vocabul√°rio (out-of-vocabulary / OOV), conforme demonstrado neste notebook.

Ferramentas populares como [FastText](https://github.com/facebookresearch/fastText) aprendem a incorpora√ß√£o de subpalavras para gerar representa√ß√µes, mas t√™m uma escala ruim, pois podem ser executadas apenas em CPUs. O BlazingText estende o modelo FastText para alavancar GPUs, fornecendo mais de 10x acelera√ß√£o, dependendo do hardware.

[1] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, [Enriching Word Vectors with Subword Information](https://arxiv.org/pdf/1607.04606.pdf)

## Configura√ß√µes


In [None]:
import sagemaker
from sagemaker import get_execution_role
import boto3
import json

In [None]:
sess = sagemaker.Session()

role = get_execution_role()
print(role) # Pega a Role/Fun√ß√£o que criamos e que o Notetbook est√° rodando

bucket = sess.default_bucket() # Pega o bucket padr√£o da Sess√£o (ou coloque aqui teu bucket j√° usado)
print(bucket)
prefix = 'blazingtext/aulasagemaker' #Pasta em que todo o trabalho ser√° executado

### Leitura dos dados para treinamento

O BlazingText espera um √∫nico arquivo de texto pr√©-processado com tokens separados por espa√ßo e cada linha do arquivo deve conter uma √∫nica frase. Eu j√° deixei o arquivo 

Neste exemplo, vamos treinar os vetores no conjunto de dados [text8](http://mattmahoney.net/dc/textdata.html) (100 MB), que √© uma vers√£o pequena (j√° pr√©-processada) do dump da Wikipedia em ingl√™s. O arquivo j√° est√° pronto na pasta `datasets/textmining/text8.gz` e precisa ser descompactado.

In [None]:
# Uncompressing
!gzip -d datasets/textmining/text8.gz -f

Ap√≥s a descompactar o arquivo, precisamos carreg√°-los no S3 para que possam ser consumidos pelo SageMaker para o treinamento. Usaremos o Python SDK para fazer upload desse arquivo no bucket e na pasta escolhidos acima.

Execute esta c√©lula e confira se o arquivo est√° no local esperado.

In [None]:
train_channel = prefix + '/train'

sess.upload_data(path='datasets/textmining/text8', bucket=bucket, key_prefix=train_channel)

s3_train_data = 's3://{}/{}'.format(bucket, train_channel)

Ent√£o, precisamos configurar um local de sa√≠da no S3, onde o arquivo do modelo ser√° salvo. Importante: √© a√≠ que ficar√° o arquivo resultante do treinamento do modelo.

In [None]:
s3_output_location = 's3://{}/{}/output'.format(bucket, prefix)
print(s3_output_location)

## Preparando o treino  

Agora que terminamos todas as configura√ß√µes necess√°rias, estamos prontos para treinar nosso detector de objetos. Para come√ßar, vamos criar um objeto ``sageMaker.estimator.Estimator``. Este estimador iniciar√° o trabalho de treinamento.

In [None]:
region_name = boto3.Session().region_name
print(region_name)

In [None]:
container = sagemaker.amazon.amazon_estimator.get_image_uri(region_name, "blazingtext", "latest")
print('Using SageMaker BlazingText container: {} ({})'.format(container, region_name))

## Treinando o modelo BlazingText para gerar vetores de palavras

In [None]:
bt_model = sagemaker.estimator.Estimator(container,
                                         role, 
                                         train_instance_count=1, 
                                         train_instance_type='ml.c4.2xlarge', # Use of ml.p3.2xlarge is highly recommended for highest speed and cost efficiency
                                         train_volume_size = 30,
                                         train_max_run = 360000,
                                         input_mode= 'File',
                                         output_path=s3_output_location,
                                         sagemaker_session=sess)

Ajuste dos hyperpar√¢metros.  
Consulte a [algorithm documentation](https://docs.aws.amazon.com/sagemaker/latest/dg/blazingtext_hyperparameters.html) para a lista completa.

In [None]:
bt_model.set_hyperparameters(mode="skipgram",
                             epochs=5,
                             min_count=5,
                             sampling_threshold=0.0001,
                             learning_rate=0.05,
                             window_size=5,
                             vector_dim=100,
                             negative_samples=5,
                             subwords=True, # Enables learning of subword embeddings for OOV word vector generation
                             min_char=3, # min length of char ngrams
                             max_char=6, # max length of char ngrams
                             batch_size=11, #  = (2*window_size + 1) (Preferred. Used only if mode is batch_skipgram)
                             evaluation=True)# Perform similarity evaluation on WS-353 dataset at the end of training

Prepara vari√°vel que possui os dados que ser√£o usados no treinamento.

In [None]:
train_data = sagemaker.session.s3_input(s3_train_data, distribution='FullyReplicated', 
                        content_type='text/plain', s3_data_type='S3Prefix')
data_channels = {'train': train_data}

Depois que o trabalho terminar, uma mensagem "Trabalho conclu√≠do" ser√° impressa. O modelo treinado pode ser encontrado no bucket S3 que foi configurado como `output_path` no estimador.

Este processo deve demorar de **7 a 10 minutos** ... podemos acompanhar  pelo portal tamb√©m üòä

In [None]:
bt_model.fit(inputs=data_channels, logs=True)

## Hosting / Endpoint  

Ap√≥s a conclus√£o do treinamento, podemos implantar o modelo treinado como um endpoint hospedado em realtime do Amazon SageMaker. Isso nos permitir√° fazer predi√ß√µes (ou scoring/infer√™ncia) a partir do modelo. Observe que n√£o precisamos hospedar no mesmo tipo de inst√¢ncia que costum√°vamos treinar. Como os pontos de extremidade da inst√¢ncia estar√£o em funcionamento por muito tempo, podemoos escolher uma inst√¢ncia mais barata para infer√™ncia.

Este processo deve demorar de **4 a 8 minutos**... podemos acompanhar üòä pelo portal tamb√©m :-)

In [None]:
bt_endpoint = bt_model.deploy(initial_instance_count = 1,instance_type = 'ml.m4.xlarge')
print("Conclu√≠do!")
print("EndpointName do modelo: {0}".format( bt_endpoint.endpoint) )

### Obtendo representa√ß√µes vetoriais para palavras [incluindo out-of-vocabulary (OOV) words]

Como treinamos com o par√¢metro ** ```subwords ="True"``` **, podemos obter representa√ß√µes vetoriais para qualquer palavra - incluindo palavras com erros ortogr√°ficos ou palavras que n√£o estavam presentes no conjunto de dados de treinamento.
Se treinarmos sem o sinalizador de subpalavras, o treinamento ser√° muito mais r√°pido, mas o modelo n√£o poder√° gerar vetores para palavras OOV. Em vez disso, retornar√° um vetor de zeros para essas palavras.

#### Use o padr√£o JSON para predi√ß√£o  

O payload deve conter uma lista de palavras com a chave como "**instances**". O AWS Sagemaker suporta o tipo de conte√∫do `application/json`.

In [None]:
words = ["awesome", "awweeesome"]

payload = {"instances" : words}

response = bt_endpoint.predict(json.dumps(payload))

vecs = json.loads(response)
print(vecs)

In [None]:
print( len(vecs) )
print( len(vecs[0]['vector']) )
print( len(vecs[1]['vector']) )

Como esperado, obtemos um vetor n-dimensional (onde n √© vector_dim, conforme especificado nos hiperpar√¢metros) para cada uma das palavras.

---

Ok! Agora √© avaliar se est√° funcionando a partir de outras chamadas.