# Otimizando Modelo de QA - Quantização: estática ou dinâmica.

In [None]:
modelo_id_qa = 'optimum/roberta-base-squad2'

In [None]:
tokenizer = AutoTokenizer.from_pretrained(modelo_id_qa)

In [None]:
from optimum.onnxruntime import ORTModelForQuestionAnswering

modelo_qa = ORTModelForQuestionAnswering.from_pretrained(modelo_id_qa)

In [None]:
dir_qa = 'tmp/onnx-quest/'

tokenizer.save_pretrained(dir_qa)
modelo_qa.save_pretrained(dir_qa)

## Inferindo o Modelo

In [None]:
onnx_qa = pipeline('question-answering', model=modelo_qa, tokenizer=tokenizer, accelerator = 'ort')

In [None]:
contexto = 'The automotive industry is booming due to the increasing demand for electric vehicles.'
pergunta = 'Why is the automotive industry booming?'

In [None]:
def pergunta_resposta(modelo_pipe, contexto=contexto, pergunta=pergunta):
  saida = modelo_pipe(context=contexto, question=pergunta)
  return saida

In [None]:
pergunta_resposta(onnx_qa)

# Otimização: Quantização

In [None]:
import onnx
from optimum.onnxruntime import ORTQuantizer
from optimum.onnxruntime.configuration import AutoQuantizationConfig

In [None]:
quantizador = ORTQuantizer.from_pretrained(modelo_qa)
config_quantizacao = AutoQuantizationConfig.avx512_vnni(is_static=False)

In [None]:
dir_quant = '/content/tmp/onnx-quant'

In [None]:
quantizador.quantize(save_dir = dir_quant,
                     quantization_config = config_quantizacao)

## Inferindo Modelo Quantizado

In [None]:
modelo_quant = ORTModelForQuestionAnswering.from_pretrained(dir_quant,file_name= 'model_quantized.onnx')
tokenizer = AutoTokenizer.from_pretrained(dir_quant)

In [None]:
onnx_quant = pipeline('question-answering', model=modelo_quant, tokenizer=tokenizer, accelerator='ort')

pergunta_resposta(onnx_quant)

## Avaliando Modelo

### Tamanho

In [None]:
import os

def obter_tamanho_diretorio(diretorio):
    tamanho_total = 0
    for caminho_diretorio, subdiretorios, arquivos in os.walk(diretorio):
        for arquivo in arquivos:
            caminho_arquivo = os.path.join(caminho_diretorio, arquivo)
            if os.path.isfile(caminho_arquivo):
                tamanho_total += os.path.getsize(caminho_arquivo)
    return tamanho_total / (1024 * 1024)

In [None]:
obter_tamanho_diretorio(dir_qa)

In [None]:
obter_tamanho_diretorio(dir_quant)

### Performace

In [None]:
dados_id_qa = 'squad_v2'

In [None]:
data = load_dataset(dados_id_qa, split = 'validation[:600]')

In [None]:
def avaliacao(data, model_qa):
  eval = evaluator('question-answering')
  resultados = eval.compute(
      model_or_pipeline=model_qa,
      data=data,
      metric='squad_v2',
      squad_v2_format=True,
  )
  return resultados

In [None]:
modelo_original = avaliacao(data, onnx_qa)

In [None]:
modelo_quantizado = avaliacao(data,onnx_quant)

In [None]:
modelo_original

In [None]:
modelo_quantizado

# Publicar Modelo

In [None]:
nome_rep_quant = 'ONNX-quantizado-roberta-base-squad2'

In [None]:
onnx_quant.push_to_hub(nome_rep_quant)

## Usar Modelo Quantizado

In [None]:
modelo_quantizado_rep = pipeline('question-answering', 'mirla/ONNX-quantizado-roberta-base-squad2',
                                 accelerator='ort')
pergunta_resposta(modelo_quantizado_rep)