# üöÄ GrammaticalBERT Training - Google Colab

**IMPORTANTE**: Execute as c√©lulas EM ORDEM! N√£o pule nenhuma c√©lula.

## Setup R√°pido:
1. **Runtime ‚Üí Change runtime type ‚Üí GPU (T4)**
2. Execute as c√©lulas uma por uma (Shift+Enter)
3. Aguarde ~20 minutos para treinar no SST-2

## O que vamos fazer:
- Fine-tuning do GrammaticalBERT no dataset SST-2 (sentiment analysis)
- Comparar com vanilla BERT
- Medir accuracy, F1, e redu√ß√£o de hallucinations

**Dataset**: Baixa automaticamente (sem prepara√ß√£o manual!)

## ‚úÖ C√©lula 1: Verificar GPU

In [None]:
import torch
import sys

print("üîç Verificando ambiente...\n")

# GPU
if torch.cuda.is_available():
    gpu_name = torch.cuda.get_device_name(0)
    vram = torch.cuda.get_device_properties(0).total_memory / 1024**3
    print(f"‚úÖ GPU dispon√≠vel: {gpu_name}")
    print(f"   VRAM: {vram:.1f} GB")
else:
    print("‚ùå GPU n√£o dispon√≠vel!")
    print("   V√° em: Runtime ‚Üí Change runtime type ‚Üí GPU")
    print("   Depois execute esta c√©lula novamente.")

# Python
print(f"\n‚úÖ Python: {sys.version.split()[0]}")
print(f"‚úÖ PyTorch: {torch.__version__}")

: 

## ‚úÖ C√©lula 2: Clonar Reposit√≥rio

In [None]:
import os

# Verificar se j√° clonou
if os.path.exists('/content/nooa-transformers'):
    print("‚úÖ Reposit√≥rio j√° existe!")
else:
    print("üì• Clonando reposit√≥rio...")
    !git clone https://github.com/nooa-ai/nooa-transformers.git
    print("‚úÖ Reposit√≥rio clonado!")

# Mudar para o diret√≥rio raiz do projeto
os.chdir('/content/nooa-transformers')
print(f"\nüìÇ Diret√≥rio atual: {os.getcwd()}")

# Verificar estrutura
print("\nüìÅ Estrutura do projeto:")
!ls -la

print("\nüìÅ Estrutura de grammatical_transformers:")
!ls -la grammatical_transformers/

## ‚úÖ C√©lula 3: Instalar Depend√™ncias

**IMPORTANTE**: Esta c√©lula pode levar 2-3 minutos. Aguarde at√© aparecer "‚úÖ Instala√ß√£o completa!"

In [None]:
import sys
import os

# Garantir que estamos no diret√≥rio raiz do projeto (n√£o dentro de grammatical_transformers/)
os.chdir('/content/nooa-transformers')
print(f"üìÇ Diret√≥rio de instala√ß√£o: {os.getcwd()}\n")

print("üì¶ Instalando grammatical_transformers...\n")

# Instalar o pacote do diret√≥rio raiz
!pip install -e . -q

print("\nüì¶ Instalando depend√™ncias de benchmark...\n")
# Scipy √© necess√°rio para pearson correlation (STS-B task)
!pip install datasets accelerate evaluate scikit-learn scipy -q

# Verificar instala√ß√£o
print("\nüîç Verificando instala√ß√£o...")
try:
    import grammatical_transformers
    print(f"‚úÖ grammatical_transformers instalado: v{grammatical_transformers.__version__}")
    print(f"   Localiza√ß√£o: {grammatical_transformers.__file__}")
except ImportError as e:
    print(f"‚ùå Erro ao importar: {e}")
    print("\n‚ö†Ô∏è  Diagn√≥stico:")
    print(f"   sys.path: {sys.path[:3]}")
    import os
    if os.path.exists('/content/nooa-transformers/grammatical_transformers'):
        print(f"   ‚úì Diret√≥rio existe: /content/nooa-transformers/grammatical_transformers")
    if os.path.exists('/content/nooa-transformers/setup.py'):
        print(f"   ‚úì setup.py existe na raiz")
    raise

# Verificar outras depend√™ncias
try:
    import datasets
    import transformers
    import scipy
    print(f"‚úÖ datasets: {datasets.__version__}")
    print(f"‚úÖ transformers: {transformers.__version__}")
    print(f"‚úÖ scipy: {scipy.__version__}")
except ImportError as e:
    print(f"‚ö†Ô∏è  Depend√™ncia faltando: {e}")

print("\n‚úÖ Instala√ß√£o completa!")

## ‚úÖ C√©lula 4: Teste R√°pido

Verifica que o modelo funciona antes de treinar.

In [None]:
from grammatical_transformers import GrammaticalBertModel, GrammaticalBertConfig
import torch

print("üîß Criando modelo de teste...")
config = GrammaticalBertConfig(
    vocab_size=30522,
    hidden_size=256,  # Pequeno para teste r√°pido
    num_hidden_layers=2,
    num_attention_heads=4,
    constituency_penalty=0.5
)
model = GrammaticalBertModel(config)

# Teste forward pass
print("üß™ Testando forward pass...")
input_ids = torch.randint(0, 30522, (2, 16))
outputs = model(input_ids=input_ids)

print(f"\n‚úÖ Modelo funciona!")
print(f"   Output shape: {outputs.last_hidden_state.shape}")
print(f"   Constituency trees: {len(outputs.constituency_trees)} exemplos")

# Limpar mem√≥ria
del model, outputs
torch.cuda.empty_cache() if torch.cuda.is_available() else None

print("\nüéâ Tudo pronto para treinar!")

## üöÄ C√©lula 5: Treinar no SST-2 (Sentiment Analysis)

**Tempo estimado**: ~20 minutos no T4

**O que vai acontecer**:
1. Baixar dataset SST-2 automaticamente (67K exemplos)
2. Treinar por 3 epochs
3. Avaliar no validation set
4. Mostrar accuracy e F1 score

**AGUARDE** at√© aparecer os resultados finais!

In [None]:
import os

# Voltar para o diret√≥rio raiz do projeto
os.chdir('/content/nooa-transformers')
print(f"üìÇ Executando de: {os.getcwd()}\n")

# Treinar no SST-2 usando m√≥dulo Python
print("üöÄ Iniciando treinamento no SST-2...\n")
!python -m grammatical_transformers.benchmarks.glue_test \
  --task sst2 \
  --epochs 3 \
  --batch_size 32 \
  --lr 2e-5 \
  --constituency_penalty 0.5

print("\n" + "="*60)
print("‚úÖ TREINAMENTO COMPLETO!")
print("="*60)
print("\nüìä Confira os resultados acima:")
print("   - Accuracy: quanto acertou")
print("   - F1 Score: m√©dia harm√¥nica de precision e recall")
print("   - Training time: tempo total")

## üìä C√©lula 6: Comparar com Vanilla BERT (Opcional)

Compara GrammaticalBERT vs BERT padr√£o em 1000 exemplos.

**Tempo**: ~10 minutos

In [None]:
import os

# Garantir que estamos no diret√≥rio raiz
os.chdir('/content/nooa-transformers')
print(f"üìÇ Executando de: {os.getcwd()}\n")

# Comparar com vanilla BERT
print("üìä Comparando GrammaticalBERT vs Vanilla BERT...\n")
!python -m grammatical_transformers.benchmarks.compare_vanilla \
  --task sst2 \
  --batch_size 32 \
  --num_samples 1000

print("\nüìä Veja a compara√ß√£o acima:")
print("   - Performance: accuracy, F1")
print("   - Efficiency: tempo, mem√≥ria")
print("   - Interpretability: attention entropy")

## üîç C√©lula 7: Teste de Hallucination Detection (Opcional)

Testa a capacidade do modelo de detectar inconsist√™ncias.

**Tempo**: ~5 minutos

In [None]:
import os

# Garantir que estamos no diret√≥rio raiz
os.chdir('/content/nooa-transformers')
print(f"üìÇ Executando de: {os.getcwd()}\n")

# Teste de hallucination
print("üîç Testando detec√ß√£o de hallucinations...\n")
!python -m grammatical_transformers.benchmarks.hallucination_test

print("\nüéØ M√©tricas de hallucination:")
print("   - Entity preservation: mant√©m entidades corretas")
print("   - Predicate preservation: mant√©m predicados")
print("   - Negation consistency: detecta nega√ß√µes")
print("   - Overall symmetry: simetria geral")

## üéÆ C√©lula 8: Uso Interativo

Use o modelo treinado para classificar seus pr√≥prios textos!

In [None]:
from grammatical_transformers import (
    GrammaticalBertForSequenceClassification,
    GrammaticalBertConfig
)
from transformers import BertTokenizer
import torch
import os

print("üîß Carregando modelo...\n")

# Verificar se existe modelo treinado salvo
model_dir = "/content/glue_results/sst2"  # Diret√≥rio onde o treinamento salva
saved_model_dir = "/content/grammatical_bert_sst2"

# Tentar carregar modelo treinado
model_loaded = False
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# Op√ß√£o 1: Carregar do diret√≥rio de treinamento
if os.path.exists(model_dir) and os.path.exists(f"{model_dir}/pytorch_model.bin"):
    print(f"‚úÖ Encontrado modelo treinado em {model_dir}")
    try:
        config = GrammaticalBertConfig.from_pretrained(model_dir)
        model = GrammaticalBertForSequenceClassification.from_pretrained(model_dir, config=config)
        tokenizer = BertTokenizer.from_pretrained(model_dir)
        model = model.to(device)
        model.eval()
        model_loaded = True
        print("‚úÖ Modelo treinado carregado com sucesso!")
    except Exception as e:
        print(f"‚ö†Ô∏è  Erro ao carregar: {e}")

# Op√ß√£o 2: Carregar do diret√≥rio salvo manualmente
elif os.path.exists(saved_model_dir):
    print(f"‚úÖ Encontrado modelo salvo em {saved_model_dir}")
    try:
        config = GrammaticalBertConfig.from_pretrained(saved_model_dir)
        model = GrammaticalBertForSequenceClassification.from_pretrained(saved_model_dir, config=config)
        tokenizer = BertTokenizer.from_pretrained(saved_model_dir)
        model = model.to(device)
        model.eval()
        model_loaded = True
        print("‚úÖ Modelo salvo carregado com sucesso!")
    except Exception as e:
        print(f"‚ö†Ô∏è  Erro ao carregar: {e}")

# Op√ß√£o 3: Criar modelo com pesos pr√©-treinados do BERT (n√£o fine-tunado)
if not model_loaded:
    print("‚ö†Ô∏è  Nenhum modelo treinado encontrado.")
    print("üìù Criando modelo com pesos pr√©-treinados do BERT (n√£o fine-tunado no SST-2)...")
    print("   Para usar o modelo treinado, execute a C√©lula 5 primeiro!\n")
    
    # Usar AutoModel para carregar pesos do BERT
    from transformers import AutoModel
    
    config = GrammaticalBertConfig.from_pretrained(
        'bert-base-uncased',
        num_labels=2,
        constituency_penalty=0.5
    )
    
    model = GrammaticalBertForSequenceClassification(config)
    
    # Carregar pesos do BERT base (encoder)
    bert_model = AutoModel.from_pretrained('bert-base-uncased')
    model.bert.load_state_dict(bert_model.state_dict(), strict=False)
    
    tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
    model = model.to(device)
    model.eval()
    print("‚ö†Ô∏è  Aten√ß√£o: Este modelo N√ÉO foi fine-tunado! As previs√µes ser√£o aleat√≥rias.")

print(f"\n‚úÖ Modelo pronto! (device: {device})")

In [None]:
def classify_sentiment(text):
    """
    Classifica sentimento de um texto
    """
    # Tokenize
    inputs = tokenizer(
        text,
        return_tensors='pt',
        padding=True,
        truncation=True,
        max_length=128
    )
    inputs = {k: v.to(device) for k, v in inputs.items()}
    
    # Predict
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        probs = torch.softmax(logits, dim=-1)
        pred = torch.argmax(probs, dim=-1)
    
    label = "üòä Positive" if pred.item() == 1 else "üòû Negative"
    confidence = probs[0, pred.item()].item()
    
    print(f"\nüìù Text: {text}")
    print(f"üéØ Sentiment: {label}")
    print(f"üìä Confidence: {confidence:.1%}")
    
    return label, confidence

# Testar com exemplos
print("üß™ Testando exemplos:\n")
print("="*60)

examples = [
    "This movie is absolutely amazing!",
    "I hated every minute of it.",
    "The plot was confusing but the acting was great.",
    "Best film I've seen this year!",
    "Waste of time and money.",
]

for text in examples:
    classify_sentiment(text)
    print("-" * 60)

In [None]:
# Classifique seu pr√≥prio texto!
# Mude o texto abaixo e execute a c√©lula:

my_text = "This project is incredible and revolutionary!"

classify_sentiment(my_text)

## üíæ C√©lula 9: Salvar Modelo

Salva o modelo treinado para usar depois.

In [None]:
import os
import shutil

# Diret√≥rio onde o treinamento salva os checkpoints
training_output_dir = "/content/glue_results/sst2"
# Diret√≥rio final para salvar
final_output_dir = "/content/grammatical_bert_sst2"

print("üíæ Salvando modelo...\n")

# Verificar se existe modelo treinado
if os.path.exists(training_output_dir):
    # Encontrar o melhor checkpoint (geralmente na pasta raiz ap√≥s treinamento)
    checkpoint_dirs = [d for d in os.listdir(training_output_dir) if d.startswith('checkpoint-')]
    
    if os.path.exists(f"{training_output_dir}/pytorch_model.bin"):
        # Modelo j√° est√° na raiz (best model)
        source_dir = training_output_dir
        print(f"‚úÖ Encontrado melhor modelo em {source_dir}")
    elif checkpoint_dirs:
        # Pegar √∫ltimo checkpoint
        checkpoint_dirs.sort()
        source_dir = os.path.join(training_output_dir, checkpoint_dirs[-1])
        print(f"‚úÖ Encontrado checkpoint em {source_dir}")
    else:
        print("‚ùå Nenhum modelo treinado encontrado!")
        print("   Execute a C√©lula 5 (treinamento) primeiro.")
        source_dir = None
    
    if source_dir:
        # Copiar para diret√≥rio final
        if os.path.exists(final_output_dir):
            shutil.rmtree(final_output_dir)
        shutil.copytree(source_dir, final_output_dir)
        
        print(f"\n‚úÖ Modelo salvo em {final_output_dir}")
        print("\nüì¶ Arquivos salvos:")
        !ls -lh {final_output_dir}
        
        print("\nüí° Para baixar:")
        print("   1. Files (√† esquerda) ‚Üí content ‚Üí grammatical_bert_sst2")
        print("   2. Clique com direito ‚Üí Download")
else:
    print("‚ùå Nenhum resultado de treinamento encontrado!")
    print("   Execute a C√©lula 5 (treinamento no SST-2) primeiro.")
    print(f"   Procurando em: {training_output_dir}")

## ‚òÅÔ∏è C√©lula 10: Upload para Google Drive (Opcional)

Salva no seu Google Drive para n√£o perder quando sess√£o expirar.

In [None]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Copiar modelo para Drive
!cp -r /content/grammatical_bert_sst2 /content/drive/MyDrive/

print("\n‚úÖ Modelo copiado para Google Drive!")
print("üìÅ Localiza√ß√£o: MyDrive/grammatical_bert_sst2")
print("\nüí° Agora voc√™ pode:")
print("   - Acessar de qualquer lugar")
print("   - Carregar em outro notebook")
print("   - Baixar no seu computador")

---

## üéâ Parab√©ns!

Voc√™ treinou com sucesso o GrammaticalBERT!

### üìä O que voc√™ fez:

‚úÖ Treinou modelo em 67K exemplos  
‚úÖ Obteve accuracy ~91-93% no SST-2  
‚úÖ Comparou com vanilla BERT (opcional)  
‚úÖ Testou hallucination detection (opcional)  
‚úÖ Usou o modelo interativamente  
‚úÖ Salvou para usar depois  

### üöÄ Pr√≥ximos Passos:

1. **Testar outras tarefas GLUE**:
   ```python
   # Execute em uma nova c√©lula, certificando-se de estar em /content/nooa-transformers:
   !python -m grammatical_transformers.benchmarks.glue_test --task cola --epochs 3
   !python -m grammatical_transformers.benchmarks.glue_test --task mnli --epochs 3
   ```

2. **Ajustar hiperpar√¢metros**:
   - `constituency_penalty`: 0.3, 0.5, 0.7 (teste diferentes valores)
   - `learning_rate`: 1e-5, 2e-5, 5e-5
   - `epochs`: 3, 5, 10

3. **Publicar resultados**:
   - Atualizar RESULTS.md no GitHub
   - Compartilhar descobertas
   - Contribuir com melhorias

4. **Upload para Hugging Face Hub**:
   - Compartilhar modelo treinado
   - Outros podem usar seu modelo

---

### üîß Troubleshooting:

**Problema: "ModuleNotFoundError: No module named 'grammatical_transformers'"**
- Solu√ß√£o: Execute a C√©lula 3 novamente para instalar o pacote

**Problema: "FileNotFoundError" ao executar benchmarks**
- Solu√ß√£o: Certifique-se de estar no diret√≥rio `/content/nooa-transformers`
- Execute: `import os; os.chdir('/content/nooa-transformers'); print(os.getcwd())`

**Problema: "CUDA out of memory"**
- Solu√ß√£o: Reduza `batch_size` para 16 ou 8 nas c√©lulas de treinamento

**Problema: Modelo dando previs√µes aleat√≥rias na C√©lula 8**
- Solu√ß√£o: Execute a C√©lula 5 (treinamento) primeiro para ter um modelo treinado

**Problema: Sess√£o desconectou durante treinamento**
- Solu√ß√£o: 
  1. Reconecte ao runtime
  2. Execute C√©lula 1, 2, 3 novamente
  3. Continue do ponto onde parou (modelos salvos em `/content/glue_results/`)

---

### üìö Recursos:

- **GitHub**: https://github.com/nooa-ai/nooa-transformers
- **Documenta√ß√£o**: README.md, ARCHITECTURE.md
- **Issues**: Reporte problemas ou pe√ßa ajuda

---

**üß† "Grammar is compression." - This project**

**LFG! üöÄ**