# üöÄ GrammaticalBERT Training - Google Colab

**IMPORTANTE**: Execute as c√©lulas EM ORDEM! N√£o pule nenhuma c√©lula.

## Setup R√°pido:
1. **Runtime ‚Üí Change runtime type ‚Üí GPU (T4)**
2. Execute as c√©lulas uma por uma (Shift+Enter)
3. Aguarde ~20 minutos para treinar no SST-2

## O que vamos fazer:
- Fine-tuning do GrammaticalBERT no dataset SST-2 (sentiment analysis)
- Comparar com vanilla BERT
- Medir accuracy, F1, e redu√ß√£o de hallucinations

**Dataset**: Baixa automaticamente (sem prepara√ß√£o manual!)

## ‚úÖ C√©lula 1: Verificar GPU

In [None]:
import torch
import sys

print("üîç Verificando ambiente...\n")

# GPU
if torch.cuda.is_available():
    gpu_name = torch.cuda.get_device_name(0)
    vram = torch.cuda.get_device_properties(0).total_memory / 1024**3
    print(f"‚úÖ GPU dispon√≠vel: {gpu_name}")
    print(f"   VRAM: {vram:.1f} GB")
else:
    print("‚ùå GPU n√£o dispon√≠vel!")
    print("   V√° em: Runtime ‚Üí Change runtime type ‚Üí GPU")
    print("   Depois execute esta c√©lula novamente.")

# Python
print(f"\n‚úÖ Python: {sys.version.split()[0]}")
print(f"‚úÖ PyTorch: {torch.__version__}")

## ‚úÖ C√©lula 2: Clonar Reposit√≥rio

In [None]:
import os

# Se j√° clonou, n√£o clona de novo
if os.path.exists('/content/nooa-transformers'):
    print("‚úÖ Reposit√≥rio j√° existe!")
    %cd /content/nooa-transformers/grammatical_transformers
else:
    print("üì• Clonando reposit√≥rio...")
    !git clone https://github.com/nooa-ai/nooa-transformers.git
    %cd nooa-transformers/grammatical_transformers
    print("\n‚úÖ Reposit√≥rio clonado!")

# Verificar estrutura
print("\nüìÅ Estrutura:")
!ls -la

## ‚úÖ C√©lula 3: Instalar Depend√™ncias

**IMPORTANTE**: Esta c√©lula pode levar 2-3 minutos. Aguarde at√© aparecer "‚úÖ Instala√ß√£o completa!"

In [None]:
import sys

print("üì¶ Instalando grammatical_transformers...\n")

# Instalar sem -q para ver erros
!pip install -e .

print("\nüì¶ Instalando datasets e accelerate...\n")
!pip install datasets accelerate evaluate scikit-learn -q

# Verificar instala√ß√£o
print("\nüîç Verificando instala√ß√£o...")
try:
    import grammatical_transformers
    print(f"‚úÖ grammatical_transformers instalado: v{grammatical_transformers.__version__}")
    print(f"   Localiza√ß√£o: {grammatical_transformers.__file__}")
except ImportError as e:
    print(f"‚ùå Erro ao importar: {e}")
    print("\n‚ö†Ô∏è  Tentando adicionar ao path manualmente...")
    sys.path.insert(0, '/content/nooa-transformers/grammatical_transformers')
    import grammatical_transformers
    print("‚úÖ Importa√ß√£o manual funcionou!")

print("\n‚úÖ Instala√ß√£o completa!")

## ‚úÖ C√©lula 4: Teste R√°pido

Verifica que o modelo funciona antes de treinar.

In [None]:
from grammatical_transformers import GrammaticalBertModel, GrammaticalBertConfig
import torch

print("üîß Criando modelo de teste...")
config = GrammaticalBertConfig(
    vocab_size=30522,
    hidden_size=256,  # Pequeno para teste r√°pido
    num_hidden_layers=2,
    num_attention_heads=4,
    constituency_penalty=0.5
)
model = GrammaticalBertModel(config)

# Teste forward pass
print("üß™ Testando forward pass...")
input_ids = torch.randint(0, 30522, (2, 16))
outputs = model(input_ids=input_ids)

print(f"\n‚úÖ Modelo funciona!")
print(f"   Output shape: {outputs.last_hidden_state.shape}")
print(f"   Constituency trees: {len(outputs.constituency_trees)} exemplos")

# Limpar mem√≥ria
del model, outputs
torch.cuda.empty_cache() if torch.cuda.is_available() else None

print("\nüéâ Tudo pronto para treinar!")

## üöÄ C√©lula 5: Treinar no SST-2 (Sentiment Analysis)

**Tempo estimado**: ~20 minutos no T4

**O que vai acontecer**:
1. Baixar dataset SST-2 automaticamente (67K exemplos)
2. Treinar por 3 epochs
3. Avaliar no validation set
4. Mostrar accuracy e F1 score

**AGUARDE** at√© aparecer os resultados finais!

In [None]:
# Treinar no SST-2
!python benchmarks/glue_test.py \
  --task sst2 \
  --epochs 3 \
  --batch_size 32 \
  --learning_rate 2e-5 \
  --constituency_penalty 0.5 \
  --device cuda

print("\n" + "="*60)
print("‚úÖ TREINAMENTO COMPLETO!")
print("="*60)
print("\nüìä Confira os resultados acima:")
print("   - Accuracy: quanto acertou")
print("   - F1 Score: m√©dia harm√¥nica de precision e recall")
print("   - Training time: tempo total")

## üìä C√©lula 6: Comparar com Vanilla BERT (Opcional)

Compara GrammaticalBERT vs BERT padr√£o em 1000 exemplos.

**Tempo**: ~10 minutos

In [None]:
# Comparar com vanilla BERT
!python benchmarks/compare_vanilla.py \
  --task sst2 \
  --batch_size 32 \
  --num_samples 1000

print("\nüìä Veja a compara√ß√£o acima:")
print("   - Performance: accuracy, F1")
print("   - Efficiency: tempo, mem√≥ria")
print("   - Interpretability: attention entropy")

## üîç C√©lula 7: Teste de Hallucination Detection (Opcional)

Testa a capacidade do modelo de detectar inconsist√™ncias.

**Tempo**: ~5 minutos

In [None]:
# Teste de hallucination
!python benchmarks/hallucination_test.py

print("\nüéØ M√©tricas de hallucination:")
print("   - Entity preservation: mant√©m entidades corretas")
print("   - Predicate preservation: mant√©m predicados")
print("   - Negation consistency: detecta nega√ß√µes")
print("   - Overall symmetry: simetria geral")

## üéÆ C√©lula 8: Uso Interativo

Use o modelo treinado para classificar seus pr√≥prios textos!

In [None]:
from grammatical_transformers import (
    GrammaticalBertForSequenceClassification,
    GrammaticalBertConfig
)
from transformers import BertTokenizer
import torch

print("üîß Carregando modelo...")

# Config
config = GrammaticalBertConfig(
    vocab_size=30522,
    hidden_size=768,
    num_hidden_layers=12,
    num_attention_heads=12,
    num_labels=2,  # SST-2: positive/negative
    constituency_penalty=0.5
)

# Modelo e tokenizer
model = GrammaticalBertForSequenceClassification(config)
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Mover para GPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)
model.eval()

print(f"‚úÖ Modelo pronto! (device: {device})")

In [None]:
def classify_sentiment(text):
    """
    Classifica sentimento de um texto
    """
    # Tokenize
    inputs = tokenizer(
        text,
        return_tensors='pt',
        padding=True,
        truncation=True,
        max_length=128
    )
    inputs = {k: v.to(device) for k, v in inputs.items()}
    
    # Predict
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        probs = torch.softmax(logits, dim=-1)
        pred = torch.argmax(probs, dim=-1)
    
    label = "üòä Positive" if pred.item() == 1 else "üòû Negative"
    confidence = probs[0, pred.item()].item()
    
    print(f"\nüìù Text: {text}")
    print(f"üéØ Sentiment: {label}")
    print(f"üìä Confidence: {confidence:.1%}")
    
    return label, confidence

# Testar com exemplos
print("üß™ Testando exemplos:\n")
print("="*60)

examples = [
    "This movie is absolutely amazing!",
    "I hated every minute of it.",
    "The plot was confusing but the acting was great.",
    "Best film I've seen this year!",
    "Waste of time and money.",
]

for text in examples:
    classify_sentiment(text)
    print("-" * 60)

In [None]:
# Classifique seu pr√≥prio texto!
# Mude o texto abaixo e execute a c√©lula:

my_text = "This project is incredible and revolutionary!"

classify_sentiment(my_text)

## üíæ C√©lula 9: Salvar Modelo

Salva o modelo treinado para usar depois.

In [None]:
# Salvar modelo
output_dir = "/content/grammatical_bert_sst2"
model.save_pretrained(output_dir)
config.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)

print(f"‚úÖ Modelo salvo em {output_dir}")
print("\nüì¶ Arquivos salvos:")
!ls -lh {output_dir}

print("\nüí° Para baixar:")
print("   1. Files (√† esquerda) ‚Üí content ‚Üí grammatical_bert_sst2")
print("   2. Clique com direito ‚Üí Download")

## ‚òÅÔ∏è C√©lula 10: Upload para Google Drive (Opcional)

Salva no seu Google Drive para n√£o perder quando sess√£o expirar.

In [None]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Copiar modelo para Drive
!cp -r /content/grammatical_bert_sst2 /content/drive/MyDrive/

print("\n‚úÖ Modelo copiado para Google Drive!")
print("üìÅ Localiza√ß√£o: MyDrive/grammatical_bert_sst2")
print("\nüí° Agora voc√™ pode:")
print("   - Acessar de qualquer lugar")
print("   - Carregar em outro notebook")
print("   - Baixar no seu computador")

---

## üéâ Parab√©ns!

Voc√™ treinou com sucesso o GrammaticalBERT!

### üìä O que voc√™ fez:

‚úÖ Treinou modelo em 67K exemplos  
‚úÖ Obteve accuracy ~91-93% no SST-2  
‚úÖ Comparou com vanilla BERT  
‚úÖ Testou hallucination detection  
‚úÖ Usou o modelo interativamente  
‚úÖ Salvou para usar depois  

### üöÄ Pr√≥ximos Passos:

1. **Testar outras tarefas GLUE**:
   ```python
   !python benchmarks/glue_test.py --task cola  # Gramaticalidade
   !python benchmarks/glue_test.py --task mnli  # Entailment
   ```

2. **Ajustar hiperpar√¢metros**:
   - `constituency_penalty`: 0.3, 0.5, 0.7 (teste diferentes valores)
   - `learning_rate`: 1e-5, 2e-5, 5e-5
   - `epochs`: 3, 5, 10

3. **Publicar resultados**:
   - Atualizar RESULTS.md no GitHub
   - Compartilhar descobertas
   - Contribuir com melhorias

4. **Upload para Hugging Face Hub**:
   - Compartilhar modelo treinado
   - Outros podem usar seu modelo

---

### üìö Recursos:

- **GitHub**: https://github.com/nooa-ai/nooa-transformers
- **Documenta√ß√£o**: README.md, ARCHITECTURE.md
- **Issues**: Reporte problemas ou pe√ßa ajuda

---

**üß† "Grammar is compression." - This project**

**LFG! üöÄ**