# TP2 - POS Tagging com BERT

**Disciplina:** Processamento de Linguagem Natural  
**Aluno:** Caio Santana Trigueiro  
**Matr√≠cula:** 2022043310  
**Data:** Novembro de 2025

---

## üìã Objetivo

Este trabalho pr√°tico tem como objetivo estudar e implementar um modelo de **POS Tagging** (Part-of-Speech Tagging), que consiste em classificar a classe gramatical de cada palavra em um texto. Utilizaremos Transformers pr√©-treinados, especificamente o modelo **BERT**, para realizar esta tarefa.

## üìä Dataset

- **Fonte:** [batterydata/pos_tagging](https://huggingface.co/datasets/batterydata/pos_tagging)
- **Tipo:** Dataset de etiquetagem gramatical
- **Splits:** Treino e Teste

## üéØ Metodologia

1. **Explora√ß√£o dos Dados:** An√°lise inicial do dataset
2. **Preprocessamento:** Prepara√ß√£o dos dados para o modelo
3. **Modelagem:** Fine-tuning do BERT para token classification
4. **Avalia√ß√£o:** C√°lculo de m√©tricas de precis√£o
5. **An√°lise:** Discuss√£o dos resultados por classe gramatical

## 1. Configura√ß√£o Inicial

Importa√ß√£o das bibliotecas necess√°rias e configura√ß√£o do ambiente.

In [None]:
# Imports b√°sicos
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.auto import tqdm
import warnings
warnings.filterwarnings('ignore')

# Transformers e Datasets
from transformers import (
    AutoTokenizer, 
    AutoModelForTokenClassification,
    TrainingArguments, 
    Trainer,
    DataCollatorForTokenClassification
)
from datasets import load_dataset

# M√©tricas
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import torch

# Configura√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Verificar disponibilidade de GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Dispositivo utilizado: {device}")

## 2. Carregamento e Explora√ß√£o dos Dados

Vamos carregar o dataset e realizar uma an√°lise explorat√≥ria para entender sua estrutura.

In [None]:
# Carregar dataset do Hugging Face
print("Carregando dataset...")
dataset = load_dataset("batterydata/pos_tagging")

# Visualizar estrutura
print("\n=== Estrutura do Dataset ===")
print(dataset)

In [None]:
# Examinar um exemplo
print("\n=== Exemplo do conjunto de treino ===")
exemplo = dataset['train'][0]
for key, value in exemplo.items():
    print(f"{key}: {value}")

### 2.1 An√°lise Estat√≠stica

Vamos explorar as estat√≠sticas b√°sicas do dataset.

In [None]:
# Estat√≠sticas b√°sicas
print("=== Estat√≠sticas do Dataset ===")
print(f"N√∫mero de exemplos de treino: {len(dataset['train'])}")
print(f"N√∫mero de exemplos de teste: {len(dataset['test'])}")

# Analisar distribui√ß√£o de tags
# (C√≥digo ser√° completado ap√≥s verificar a estrutura exata do dataset)

### 2.2 Classes Gramaticais (POS Tags)

An√°lise das classes gramaticais presentes no dataset.

In [None]:
# Extrair informa√ß√µes sobre as classes
# (Ser√° completado ap√≥s an√°lise do dataset)

## 3. Preprocessamento

Prepara√ß√£o dos dados para treinamento do modelo BERT.

In [None]:
# Inicializar tokenizer
# (Ser√° implementado ap√≥s explora√ß√£o do dataset)

## 4. Modelo BERT para POS Tagging

Configura√ß√£o e treinamento do modelo.

In [None]:
# Configura√ß√£o do modelo
# (Ser√° implementado)

## 5. Avalia√ß√£o

Avalia√ß√£o do modelo no conjunto de teste.

In [None]:
# Avalia√ß√£o
# (Ser√° implementado)

## 6. An√°lise de Resultados

### 6.1 M√©tricas Globais

An√°lise das m√©tricas gerais do modelo.

In [None]:
# M√©tricas globais
# (Ser√° implementado)

### 6.2 An√°lise por Classe Gramatical

Identifica√ß√£o das classes com melhor e pior performance.

In [None]:
# An√°lise por classe
# (Ser√° implementado)

## 7. Conclus√µes

Discuss√£o dos resultados e insights obtidos.

**Principais observa√ß√µes:**
- [A ser completado ap√≥s an√°lise]

**Classes com melhor performance:**
- [A ser completado]

**Classes com pior performance:**
- [A ser completado]

**Poss√≠veis melhorias:**
- [A ser completado]

## üìö Refer√™ncias

- Devlin, J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
- Hugging Face Transformers Documentation: https://huggingface.co/docs/transformers
- Dataset: https://huggingface.co/datasets/batterydata/pos_tagging