# Modelo de detecção de plágio

Agora que você criou dados de treinamento e teste, está pronto para definir e treinar um modelo. Seu objetivo neste bloco de notas será treinar um modelo de classificação binária que aprenda a rotular um arquivo de resposta como plagiado ou não, com base nos recursos que você fornece ao modelo.

Esta tarefa será dividida em algumas etapas discretas:

* Envie seus dados para o S3.
* Defina um modelo de classificação binária e um script de treinamento.
* Treine seu modelo e implante-o.
* Avalie seu classificador implantado e responda a algumas perguntas sobre sua abordagem.

Para completar este caderno, você terá que completar todos os exercícios dados e responder a todas as perguntas neste caderno.
> Todas as suas tarefas serão claramente rotuladas como **EXERCÍCIO** e as perguntas como **QUESTION**.

Caberá a você explorar diferentes modelos de classificação e decidir sobre um modelo que ofereça o melhor desempenho para este conjunto de dados.

---

## Carregar dados para S3

No último bloco de notas, você deve ter criado dois arquivos: um arquivo `training.csv` e` test.csv` com os recursos e rótulos de classe para o corpus dado de dados de texto plagiado / não plagiado.

> As células abaixo são carregadas em algumas bibliotecas do AWS SageMaker e cria um intervalo padrão. Depois de criar esse bucket, você pode carregar seus dados armazenados localmente para o S3.

Salve seus arquivos treino e teste de recurso `.csv`, localmente. Para fazer isso, você pode executar o segundo bloco de notas "2_Plagiarism_Feature_Engineering" no SageMaker ou pode carregar manualmente seus arquivos para este bloco de notas usando o ícone de upload no Laboratório Jupyter. Então você pode fazer upload de arquivos locais para o S3 usando `sagemaker_session.upload_data` e apontando diretamente para onde os dados de treinamento são salvos.

In [None]:
import pandas as pd
import boto3
import sagemaker

In [None]:
"""
DON'T MODIFY ANYTHING IN THIS CELL THAT IS BELOW THIS LINE
"""
# session and role
sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

# create an S3 bucket
bucket = sagemaker_session.default_bucket()

## EXERCÍCIO: Envie seus dados de treinamento para S3

Especifique o `data_dir` onde você salvou seu arquivo` train.csv`. Escolha um `prefixo` descritivo que define onde seus dados serão carregados no bucket S3 padrão. Finalmente, crie um ponteiro para seus dados de treinamento chamando `sagemaker_session.upload_data` e passando os parâmetros necessários. Pode ser útil olhar a [documentação da sessão](https://sagemaker.readthedocs.io/en/stable/session.html#sagemaker.session.Session.upload_data) ou exemplos de código SageMaker anteriores.

Espera-se que você carregue todo o seu diretório. Posteriormente, o script de treinamento acessará apenas o arquivo `train.csv`.

In [None]:
# should be the name of directory you created to save your features data
data_dir = 'plagiarism_data'

# set prefix, a descriptive name for a directory  
prefix = 'plagiarism-detection'

# upload all data to S3
input_data = sagemaker_session.upload_data(path=data_dir, bucket=bucket, key_prefix=prefix)
input_data
#test_location = sagemaker_session.upload_data(os.path.join(data_dir, 'test.csv'), key_prefix=prefix)
#train_location = sagemaker_session.upload_data(os.path.join(data_dir, 'train.csv'), key_prefix=prefix)

### Célula de teste

Teste se seus dados foram carregados com sucesso. A célula abaixo imprime os itens em seu balde S3 e gerará um erro se estiver vazio. Você deve ver o conteúdo do seu `data_dir` e talvez alguns pontos de verificação. Se você vir qualquer outro arquivo listado, então você pode ter alguns arquivos de modelo antigo que você pode excluir através do console S3 (entretanto, arquivos adicionais não devem afetar o desempenho do modelo desenvolvido neste notebook).

In [None]:
"""
DON'T MODIFY ANYTHING IN THIS CELL THAT IS BELOW THIS LINE
"""
# confirm that data is in S3 bucket
empty_check = []
for obj in boto3.resource('s3').Bucket(bucket).objects.all():
    empty_check.append(obj.key)
    print(obj.key)

assert len(empty_check) !=0, 'S3 bucket is empty.'
print('Test passed!')

---

# Modelagem

Agora que você carregou seus dados de treinamento, é hora de definir e treinar um modelo!

O tipo de modelo que você cria é com você. Para uma tarefa de classificação binária, você pode escolher seguir um dos três caminhos:
* Use um algoritmo de classificação integrado, como LinearLearner.
* Defina um classificador Scikit-learn personalizado, uma comparação de modelos pode ser encontrada [aqui](https://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html).
* Defina um classificador de rede neural PyTorch personalizado.

Caberá a você testar uma variedade de modelos e escolher o melhor. Seu projeto será avaliado com base na precisão de seu modelo final.
 
---

## EXERCÍCIO: Complete um script de treinamento

Para implementar um classificador personalizado, você precisará completar um script `train.py`. Você recebeu as pastas `source_sklearn` e` source_pytorch` que contêm o código inicial para um modelo Scikit-learn personalizado e um modelo PyTorch, respectivamente. Cada diretório possui um script de treinamento `train.py`. Para concluir este projeto **você só precisa concluir um desses scripts**; o script que é responsável por treinar seu modelo final.

Um script de treinamento típico:
* Carrega dados de treinamento de um diretório especificado
* Analisa qualquer treinamento e hiperparâmetros de modelo (por exemplo, nós em uma rede neural, períodos de treinamento, etc.)
* Instancia um modelo do seu design, com quaisquer hiperparâmetros especificados
* Treina esse modelo
* Por fim, salva o modelo para que possa ser hospedado / implantado posteriormente

### Definindo e treinando um modelo
Muito do código do script de treinamento é fornecido para você. Quase todo o seu trabalho será feito na seção ʻif __name__ == '__main __': `. Para completar um arquivo `train.py`, você irá:
1. Importe todas as bibliotecas extras de que precisar
2. Defina quaisquer hiperparâmetros adicionais de treinamento de modelo usando `parser.add_argument`
2. Defina um modelo na seção ʻif __name__ == '__main __': `
3. Treine o modelo na mesma seção

Abaixo, você pode usar `! Pygementize` para exibir um arquivo` train.py` existente. Leia o código; todas as suas tarefas são marcadas com comentários `TODO`.

**Nota: Se você escolher criar um modelo PyTorch personalizado, você será responsável por definir o modelo no arquivo `model.py`, ** e um arquivo` predict.py` é fornecido. Se você escolher usar o Scikit-learn, você só precisa do arquivo `train.py`; você pode importar um classificador da biblioteca `sklearn`.

In [None]:
# directory can be changed to: source_sklearn or source_pytorch
!pygmentize source_sklearn/train.py

### Código fornecido

Se você leu o código acima, pode ver que o código inicial inclui algumas coisas:
* Carregamento do modelo (`model_fn`) e salvamento do código
* Obtendo os hiperparâmetros padrão do SageMaker
* Carregando os dados de treinamento por nome, `train.csv` e extraindo os recursos e rótulos,` train_x` e `train_y`

Se você gostaria de ler mais sobre como salvar modelo com [joblib for sklearn](https://scikit-learn.org/stable/modules/model_persistence.html) ou com [torch.save](https://pytorch.org/tutorials/beginner/saving_loading_models.html), clique nos links fornecidos.

---
# Crie um estimador

Quando um modelo personalizado é construído no SageMaker, um ponto de entrada deve ser especificado. Este é o arquivo Python que será executado quando o modelo for treinado; a função `train.py` que você especificou acima. Para executar um script de treinamento personalizado no SageMaker, construa um estimador e preencha os argumentos do construtor apropriados:

* **entry_point**: o caminho para o script Python que SageMaker executa para treinamento e previsão.
* **source_dir**: O caminho para o diretório do script de treinamento `source_sklearn` OU` source_pytorch`.
* **entry_point**: o caminho para o script Python que SageMaker executa para treinamento e previsão.
* **source_dir**: O caminho para o diretório do script de treinamento `train_sklearn` OU` train_pytorch`.
* **entry_point**: O caminho para o script Python que SageMaker executa para treinamento.
* **source_dir**: O caminho para o diretório do script de treinamento `train_sklearn` OU` train_pytorch`.
* **função**: Função ARN, que foi especificada acima.
* **train_instance_count**: O número de instâncias de treinamento (deve ser deixado em 1).
* **train_instance_type**: O tipo de instância SageMaker para treinamento. Observação: como o Scikit-learn não oferece suporte nativo ao treinamento de GPU, o Sagemaker Scikit-learn não oferece suporte a treinamento em tipos de instância de GPU.
* **sagemaker_session**: A sessão usada para treinar no Sagemaker.
* **hiperparâmetros** (opcional): Um dicionário `{'nome': valor, ..}` passado para a função de trem como hiperparâmetros.

Nota: Para um modelo PyTorch, há outro argumento opcional **framework_version**, que você pode definir para a versão mais recente do PyTorch, `1.0`.

## EXERCÍCIO: Definir um estimador Scikit-learn ou PyTorch

Para importar o estimador desejado, use uma das seguintes linhas:
```
from sagemaker.sklearn.estimator import SKLearn
```
```
from sagemaker.pytorch import PyTorch
```

In [None]:
# your import and estimator code, here

# from sagemaker.sklearn.estimator import SKLearn
# from sagemaker.pytorch import PyTorch

from sagemaker import LinearLearner

## EXERCISE: Train the estimator

Train your estimator on the training data stored in S3. This should create a training job that you can monitor in your SageMaker console.

In [None]:
output_path = 's3://{}/{}'.format(bucket, prefix)

In [None]:
linear = LinearLearner(role = role,
                      train_instance_count = 1,
                      train_instance_type='ml.c4.xlarge',
                      predictor_type='binary_classifier',
                      output_path=output_path,
                      sagemaker_session=sagemaker_session,
                      epochs = 15)


In [None]:
train_x_np = train.astype('float32')
train_x_np = train.astype('float32')

In [None]:
%%time

# Train your estimator on S3 training data
linear.fit(formatted_train_data)

In [None]:
test_x_np = test.astype('float32')
result = linear.predict(test_x_np[0])
result

## EXERCÍCIO: Implantar o modelo treinado

Após o treinamento, implante seu modelo para criar um `preditor`. Se você estiver usando um modelo PyTorch, você precisará criar um `PyTorchModel` treinado que aceita o` <model> .model_data` treinado como um parâmetro de entrada e aponta para o arquivo `source_pytorch / predict.py` fornecido como um ponto de entrada.

Para implantar um modelo treinado, você usará `<model> .deploy`, que leva em dois argumentos:
* **initial_instance_count**: O número de instâncias implementadas (1).
* **instance_type**: O tipo de instância SageMaker para implantação.

Observação: se você se deparar com um erro de instância, pode ser porque escolheu o treinamento ou implantação incorreto instance_type. Pode ser útil consultar o código do exercício anterior para ver quais tipos de instâncias usamos.

In [None]:
%%time

# uncomment, if needed
# from sagemaker.pytorch import PyTorchModel


# deploy your model to create a predictor
predictor = linear.deploy(initial_instance_count=1, instance_type='ml.t2.medium')

---
# Avaliando seu modelo

Uma vez que seu modelo é implantado, você pode ver como ele funciona quando aplicado aos nossos dados de teste.

A célula fornecida abaixo lê os dados de teste, presumindo que estejam armazenados localmente em `data_dir` e com o nome` test.csv`. Os rótulos e recursos são extraídos do arquivo `.csv`.

In [None]:
"""
DON'T MODIFY ANYTHING IN THIS CELL THAT IS BELOW THIS LINE
"""
import os

# read in test data, assuming it is stored locally
test_data = pd.read_csv(os.path.join(data_dir, "test.csv"), header=None, names=None)

# labels are in the first column
test_y = test_data.iloc[:,0]
test_x = test_data.iloc[:,1:]

## EXERCÍCIO: Determine a precisão do seu modelo

Use seu `preditor` implantado para gerar rótulos de classe previstos para os dados de teste. Compare-os com os rótulos *true*, `test_y`, e calcule a precisão como um valor entre 0 e 1,0 que indica a fração dos dados de teste que seu modelo classificou corretamente. Você pode usar [sklearn.metrics](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) para este cálculo.

**Para ser aprovado neste projeto, seu modelo deve obter pelo menos 90% de precisão de teste.**

In [None]:
# First: generate predicted, class labels
test_y_preds = None


"""
DON'T MODIFY ANYTHING IN THIS CELL THAT IS BELOW THIS LINE
"""
# test that your model generates the correct number of labels
assert len(test_y_preds)==len(test_y), 'Unexpected number of predictions.'
print('Test passed!')

In [None]:
# Second: calculate the test accuracy
accuracy = None

print(accuracy)


## print out the array of predicted and true labels, if you want
print('\nPredicted class labels: ')
print(test_y_preds)
print('\nTrue class labels: ')
print(test_y.values)

### Pergunta 1: Quantos falsos positivos e falsos negativos seu modelo produziu, se houver? E por que você acha que isso acontece?

** Answer**: 


### Pergunta 2: Como você decidiu sobre o tipo de modelo a ser usado?

** Answer**:



----
## EXERCÍCIO: Limpar recursos

Depois de avaliar seu modelo, **exclua o endpoint do modelo**. Você pode fazer isso com uma chamada para `.delete_endpoint ()`. Você precisa mostrar, neste bloco de notas, que o endpoint foi excluído. Quaisquer outros recursos, você pode excluir do console AWS, e você encontrará mais instruções sobre como limpar todos os seus recursos, abaixo.

In [None]:
# uncomment and fill in the line below!
# <name_of_deployed_predictor>.delete_endpoint()
predictor.delete_endpoint()

### Excluindo bucket S3

Quando você tiver * completamente * concluído o treinamento e os modelos de teste, também poderá excluir todo o seu bucket S3. Se você fizer isso antes de terminar de treinar seu modelo, terá que recriar seu bucket S3 e carregar seus dados de treinamento novamente.

In [None]:
# deleting bucket, uncomment lines below
 bucket_to_delete = boto3.resource('s3').Bucket(bucket)
 bucket_to_delete.objects.all().delete()

### Excluindo todos os seus modelos e instâncias

Quando você estiver _completamente_ concluído com este projeto e **nunca** quiser revisitar este bloco de notas, você pode escolher excluir todas as instâncias e modelos de bloco de notas SageMaker seguindo [estas instruções](https://docs.aws.amazon.com/sagemaker/latest/dg/ex1-cleanup.html). Antes de excluir esta instância do notebook, recomendo pelo menos baixar uma cópia e salvá-la, localmente.

---
## Outras direções

Existem muitas maneiras de melhorar ou adicionar a este projeto para expandir seu aprendizado ou torná-lo um projeto único para você. Algumas ideias estão listadas abaixo:
* Treine um classificador para prever a *categoria* (1-3) de plágio e não apenas plagiado (1) ou não (0).
* Utilize um conjunto de dados diferente e maior para ver se este modelo pode ser estendido a outros tipos de plágio.
* Use a análise de linguagem ou nível de caractere para encontrar diferentes (e mais) recursos de semelhança.
* Escreva uma função de pipeline completa que aceite um texto-fonte e um arquivo de texto enviado e classifique o texto enviado como plagiado ou não.
* Use o API Gateway e uma função lambda para implantar seu modelo em um aplicativo da web.

Essas são apenas opções para estender seu trabalho. Se você completou todos os exercícios neste bloco de notas, você completou um aplicativo do mundo real e pode prosseguir para enviar seu projeto. Bom trabalho!