# Finetuning de modelos BERT para classificação de laudos médicos

## O que é o BERT

Bidirectional Encoder Representations from Transformers ou BERT é um Large Language Model (LLM) desenvolvido pela Google AI Language e publicado como [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2018)](https://arxiv.org/abs/1810.04805).

O modelo original foi lançado logo após o lançamento público do primeiro membro da familia Generative Pre-trained Transformer (GPT) pela Open AI publicado como [Improving Language Understanding by Generative Pre-Training (Radfors et al., 2018)](https://openai.com/index/language-unsupervised/)

As duas implementações são baseadas na arquitetura Transformer, introduzida em [Attention Is All You Need (Vaswani et al., 2017)](https://arxiv.org/abs/1706.03762)

<mark>Enquanto modelos LLM GPT focam em Natural Language Generation (NLG), modelos LLM BERT são voltados a Natural Language Understanding (NLU).</mark>

Ambas as arquiteturas **decoder-only** do GPT e **encoder-only** do BERT são capazes de produzir modelos formidáveis, mas as tarefas que eles são capazes de realizar têm diferenças conceituais e de implementação importantes.

O desenho de uma solução bem sucedida baseada na arquitetura Transformer depende do entendimento claro dessa diferença sutil.

### O que é a arquitetura Transformer, GPT e BERT

Abaixo as três arquiteturas discutidas até aqui esquematizadas

![Transformer, GPT e BERT](../assets/1_Qww2aaIdqrWVeNmo3AS0ZQ.png)

Como visto em [A Complete Guide to BERT with Code](https://towardsdatascience.com/a-complete-guide-to-bert-with-code-9f87602e4a11)

### Contexto Bidirecional x Unidirecional

O conceito de bidirecional que é ums das diferenças chave do BERT está ligado ao fato de que cada palavra na sequencia pode receber contexto de palavras anteriores e posteriores, em outros termos, o mecanismo de atenção da arquitetura pode se concentrar nos tokens à direita e à esquerda.

Abaixo uma ilustração dos dois mecanismos de atenção comparados

![Mecanismos de atenção](../assets/1_otV3y8jKM_zSxA-0YiLi1w.png)

Como visto em [A Complete Guide to BERT with Code](https://towardsdatascience.com/a-complete-guide-to-bert-with-code-9f87602e4a11)

### Pré treinamento

O BERT modelo foi o primeiro derivado da arquitetura Transformer baseado codificadores, mas ele utilizou diversos conceitos usados antes na arquitetura GPT de decodificadores, um destes conceitos muito importante para a terefa proposta aqui é a do **pré-treinamento de modelos**.

O pré-treinamento envolve treinar um modelo para adquirir um entendimento amplo da linguagem, com o objetivo de criar um modelo fundamental independente de tarefas. Nos diagramas apresentados, o modelo fundamental é composto pelos componentes abaixo da penultima camada de baixo para cima.

Uma vez treinado, cópias desse modelo fundamental podem ser ajustadas para resolver tarefas específicas. O ajuste fino (fine-tuning) envolve treinar apenas a camada linear: uma pequena rede neural feedforward, frequentemente chamada de "classification head" ou simplesmente "head". Os pesos e vieses no restante do modelo permanecem inalterados.

### Variantes mais comuns do BERT

**[RoBERTa (Liu et al., 2019)](https://arxiv.org/abs/1907.11692)**

Remove NSP, aumenta o tamanho do batch e utiliza mais dados. Treinamento ajustado exclusivamente em MLM.

**[DistilBERT (Sanh et al., 2019)](https://arxiv.org/abs/1910.01108)**

Usa knowledge distillation para reduzir o tamanho, mantendo 97% da performance. Menor custo de inferência.

**[BioBERT (Lee et al., 2020)](https://arxiv.org/abs/1901.08746)**

Pré-treinado em textos biomédicos, como PubMed e PMC. Otimizado para tarefas de NER e extração de informações biomédicas.

**[ClinicalBERT (Huang et al., 2019)](https://arxiv.org/abs/1904.05342)**

Pré-treinado em registros médicos eletrônicos, com foco em tarefas clínicas.

### Leitura adicional

Uma explicação detalhada da arquitetura está além do escopo deste material, mas é altamente recomendada  aleitura do artigo técnico [A Complete Guide to BERT with Code](https://towardsdatascience.com/a-complete-guide-to-bert-with-code-9f87602e4a11)

## Dados utilizados

O conjunto de dados utilizado como base foi o [Breast Cancer Wisconsin (Diagnostic)](https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic) ele é amplamente utilizado para análise e classificação de câncer de mama. Ele contém medições computacionais de características extraídas de imagens de massas celulares em exames de mamografia. As características foram calculadas a partir de imagens digitalizadas de aspirações por agulha fina (FNA), sendo usadas para prever se uma massa é maligna (câncer) ou benigna (não cancerígena). Estes dados foram disponibilizados no repositório [UCI Machine Learning](https://archive.ics.uci.edu/) e originalmente coletados pelo Dr. William H. Wolberg da University of Wisconsin Hospitals, Madison.

## Preparação dos dados

A preparação dos dados está no notebook [PrepareData](PrepareData.ipynb).

Os dados originais foram aumentados sinteticamente somente para fins da demonstração do passo a passo do finetuning.

## Codigo completo temporário

abc

## Aquisição do modelo

abc

## Treinamento do modelo

abc

## Avaliação do modelo

abc

## Exemplo de uso

abc