# üöÄ Infer√™ncia e Submiss√£o - Fake News Classification - PS Ligia NLP
**Autor:** Carlos Eduardo Falc√£o Teixera (ceft)  
**Objetivo:** Este notebook representa a fase final do ciclo de vida do nosso modelo. Iremos carregar o nosso classificador baseado em Transformers (DistilBERT ou DistilRoBERTa), pr√©-processar cegamente o conjunto de dados de teste (garantindo as regras da competi√ß√£o) e gerar o ficheiro `submission.csv` final, otimizado para o F1-Score (Macro Average).

## 1. Setup e Configura√ß√£o
Nesta sec√ß√£o, instalamos as depend√™ncias necess√°rias, montamos a infraestrutura do Google Drive e configuramos o hardware (GPU) para acelerar o processamento.

In [1]:
# Instala√ß√£o das bibliotecas-chave (se n√£o existirem no ambiente Colab)
import os
import re
import zipfile
import torch
import numpy as np
import pandas as pd
from google.colab import drive
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from datasets import Dataset
import gdown

# Montagem do Google Drive para acesso aos dados e ao modelo
drive.mount('/content/drive')

# Verifica√ß√£o da infraestrutura de GPU (Fundamental para evitar lentid√£o na infer√™ncia)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"‚úÖ Dispositivo de Processamento em uso: {device}")

Mounted at /content/drive
‚úÖ Dispositivo de Processamento em uso: cuda


## 2. Carregamento do Modelo
Em projetos corporativos ou de competi√ß√£o, √© essencial termos planos de conting√™ncia para aceder aos modelos (caso o Drive seja reorganizado ou estejamos a rodar num ambiente partilhado). Aqui implementamos uma abordagem flex√≠vel:

* **Op√ß√£o 1:** Leitura direta a partir do caminho montado no Google Drive.
* **Op√ß√£o 2:** Leitura a partir de um zip Online.

In [11]:
# GEST√ÉO DE CARREGAMENTO DO MODELO

USAR_DOWNLOAD_ZIP = True   # False = Google Drive | True = Download Online
TIPO_MODELO = "distilroberta"  # "distilroberta" ou "distilbert"

if not USAR_DOWNLOAD_ZIP:
    print("üîÑ Op√ß√£o 1 selecionada: A carregar modelo diretamente do Google Drive...")

    if TIPO_MODELO == "distilroberta":
        model_path = "/content/drive/MyDrive/PS_Ligia_NLP/best_distilroberta_model"

    elif TIPO_MODELO == "distilbert":
        model_path = "/content/drive/MyDrive/PS_Ligia_NLP/best_distilbert_model"

    else:
        raise ValueError("‚ùå Tipo de modelo inv√°lido. Use 'distilroberta' ou 'distilbert'.")


else:
    print("üîÑ Op√ß√£o 2 selecionada: A fazer download e a extrair modelo...")

    if TIPO_MODELO == "distilroberta":
        zip_url = "https://drive.google.com/uc?id=1-pIef8Yzp-Ii-GJI_4CE6Tfw1lpPthRV"

    elif TIPO_MODELO == "distilbert":
        zip_url = "https://drive.google.com/uc?id=1MO-xCcPRghG8Lnxb847zfzAdkz_3Obaa"

    else:
        raise ValueError("‚ùå Tipo de modelo inv√°lido. Use 'distilroberta' ou 'distilbert'.")

    zip_output = f"best_{TIPO_MODELO}_model.zip"
    extract_folder = f"extracted_{TIPO_MODELO}"

    # Download e extra√ß√£o
    if not os.path.exists(extract_folder):
        gdown.download(zip_url, zip_output, quiet=False)

        with zipfile.ZipFile(zip_output, "r") as zip_ref:
            zip_ref.extractall(extract_folder)

    # Busca autom√°tica pelo config.json
    model_path = None
    for root, dirs, files in os.walk(extract_folder):
        if "config.json" in files:
            model_path = root
            break

    if model_path is None:
        raise ValueError("‚ùå Erro: config.json n√£o encontrado. Verifique a integridade do .zip.")

print(f"‚úÖ Modelo selecionado: {TIPO_MODELO}")
print(f"‚úÖ Diret√≥rio final do modelo resolvido: {model_path}")

# Carregamento do Tokenizador e do Modelo
print("‚è≥ A carregar os pesos na mem√≥ria...")
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)
model.to(device)
print("‚úÖ Tokenizador e Modelo carregados com sucesso!")

üîÑ Op√ß√£o 2 selecionada: A fazer download e a extrair modelo...


Downloading...
From (original): https://drive.google.com/uc?id=1-pIef8Yzp-Ii-GJI_4CE6Tfw1lpPthRV
From (redirected): https://drive.google.com/uc?id=1-pIef8Yzp-Ii-GJI_4CE6Tfw1lpPthRV&confirm=t&uuid=819856ca-02c5-499a-bfbe-cbcb671904a7
To: /content/best_distilroberta_model.zip
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 247M/247M [00:01<00:00, 226MB/s]


‚úÖ Modelo selecionado: distilroberta
‚úÖ Diret√≥rio final do modelo resolvido: extracted_distilroberta/best_distilroberta_model
‚è≥ A carregar os pesos na mem√≥ria...


Loading weights:   0%|          | 0/104 [00:00<?, ?it/s]

‚úÖ Tokenizador e Modelo carregados com sucesso!


## 3. Carregamento e Limpeza dos Dados de Teste (Kaggle Safe)

No ecossistema Kaggle, a submiss√£o deve ter **estritamente o mesmo n√∫mero de linhas** do ficheiro `test.csv`. O sistema cruza os seus √≠ndices com o gabarito privado. Se utilizarmos o m√©todo `.dropna()` para limpar linhas vazias ou dupliciadas, o tamanho da matriz ir√° divergir e a plataforma rejeitar√° a submiss√£o.

In [8]:
USAR_DS_ONLINE = True

if not USAR_DS_ONLINE:
  # Carregamento do arquivo de Teste
  test_csv_path = '/content/drive/MyDrive/PS_Ligia_NLP/test.csv'
  df_test = pd.read_csv(test_csv_path)

else:
  # --- Carregando dataset limpo via compartilhamento Online
  url = 'https://drive.google.com/uc?id=1qtUkukHVSMx9EbMMMzJkPkLWxyx3Z-IJ'
  output = 'test.csv'

  try:
    if not os.path.exists(output):
      gdown.download(url, output, quiet=False)

    df_test = pd.read_csv(output)
    print("\n‚úÖ Dataset carregado com sucesso!")
  except Exception as e:
    print(f"‚ùå Erro ao baixar/ler o arquivo: {e}")

  # ---


print(f"Dimens√µes do conjunto de Teste Original: {df_test.shape}")

# 1. Preserva√ß√£o da coluna de ID
test_ids = df_test['id'].copy()

# 2. Tratamento para Kaggle (sem dropar linhas)
df_test['title'] = df_test['title'].fillna("")
df_test['text'] = df_test['text'].fillna("")

# 3. Replica√ß√£o Exata do Pipeline de Limpeza da EDA
def remove_reuters_leakage(text):
    # Remove a tag da Reuters que vazava informa√ß√£o de classes verdadeiras
    return re.sub(r'^.{0,120}?\\(Reuters\\)\s*-\s*', '', str(text))

df_test['text_clean'] = df_test['text'].apply(remove_reuters_leakage)

# 4. Feature Engineering (Concatena√ß√£o)
# Criando a exata feature de entrada que o modelo viu no treinamento
df_test['input_text'] = df_test['title'] + " - " + df_test['text_clean']

print("‚úÖ Pr√©-processamento conclu√≠do sem perda de linhas.")
display(df_test[['id', 'input_text']].head(3))


‚úÖ Dataset carregado com sucesso!
Dimens√µes do conjunto de Teste Original: (5712, 5)
‚úÖ Pr√©-processamento conclu√≠do sem perda de linhas.


Unnamed: 0,id,input_text
0,5398,Obama‚Äôs ‚ÄúCLOCK BOY‚Äù Comes Back To Texas‚Ä¶After ...
1,5503,LGBT VOLUNTEERS Aren‚Äôt Waiting To Be Thrown Of...
2,23151,Colombia authorizes air raids against dissiden...


## 4. Tokeniza√ß√£o e Pipeline de Infer√™ncia

### Por que utilizamos o `np.argmax()`?
Em tarefas de classifica√ß√£o bin√°ria, o nosso modelo (DistilBERT) n√£o produz nativamente zeros e uns. A √∫ltima camada emite um array de n√∫meros reais conhecidos como **logits** (ex: `[-1.4, 3.2]`), que representam a for√ßa do sinal preditivo para a Classe 0 e Classe 1, respetivamente.

O edital exige estritamente um CSV com a label dura (`0` ou `1`), e n√£o probabilidades de Softmax cont√≠nuas. A fun√ß√£o matem√°tica `np.argmax(logits, axis=-1)` percorre cada array de logits gerado pelas previs√µes e **devolve o √≠ndice do maior valor**.
Se o maior sinal estiver no √≠ndice 0, a predi√ß√£o final ser√° `0` (Real). Se estiver no √≠ndice 1, a predi√ß√£o ser√° `1` (Fake).

In [9]:
# Convers√£o do Pandas DataFrame para um Dataset nativo da Hugging Face
inference_dataset = Dataset.from_pandas(df_test[['input_text']])

# Fun√ß√£o de Tokeniza√ß√£o padronizada
def tokenize_for_inference(batch):
    return tokenizer(
        batch['input_text'],
        max_length=512,
        padding='max_length',
        truncation=True
    )

print("‚è≥ A tokenizar o conjunto de teste...")
tokenized_test = inference_dataset.map(tokenize_for_inference, batched=True)

# Configura√ß√£o do Trainer exclusivo para Infer√™ncia
# Utilizamos o eval_batch_size dimensionado para evitar OOM (Out Of Memory) na GPU
inference_args = TrainingArguments(
    output_dir="./temp_results",
    per_device_eval_batch_size=16,
    dataloader_num_workers=2
)

trainer = Trainer(
    model=model,
    args=inference_args
)

print("üöÄ A iniciar as predi√ß√µes na GPU (Isso pode levar alguns minutos)...")
# O m√©todo predict devolve um objeto NamedTuple onde .predictions cont√©m os logits
raw_predictions = trainer.predict(tokenized_test)
logits = raw_predictions.predictions

# Extra√ß√£o da classe matem√°tica atrav√©s de Argmax
final_predictions = np.argmax(logits, axis=-1)

print("‚úÖ Predi√ß√µes extra√≠das com sucesso!")

‚è≥ A tokenizar o conjunto de teste...


Map:   0%|          | 0/5712 [00:00<?, ? examples/s]

üöÄ A iniciar as predi√ß√µes na GPU (Isso pode levar alguns minutos)...


‚úÖ Predi√ß√µes extra√≠das com sucesso!


## 5. Formata√ß√£o e Gera√ß√£o do submission.csv
A √∫ltima etapa consiste em cumprir os requisitos de formata√ß√£o t√©cnica exigidos pela competi√ß√£o:
1. Ter apenas as colunas `id` e `target`.
2. N√£o exportar o `index` padr√£o do Pandas.
3. Classes perfeitamente mapeadas (0 = Real, 1 = Fake).

In [10]:
# Cria√ß√£o do DataFrame de submiss√£o unindo as chaves (ID) preservadas e as predi√ß√µes geradas
submission_df = pd.DataFrame({
    'id': test_ids,
    'target': final_predictions
})

# Verifica√ß√£o de Sanidade (Sanity Check)
assert len(submission_df) == len(df_test), "‚ùå ERRO CR√çTICO: O n√∫mero de linhas gerado n√£o corresponde ao arquivo de teste original."

# Visualiza√ß√£o de amostragem
print("--- Amostra do Arquivo Final ---")
display(submission_df.head())
print(submission_df.shape)

# Exporta√ß√£o do CSV limpo
submission_path = '/content/drive/MyDrive/PS_Ligia_NLP/submission.csv'
submission_df.to_csv(submission_path, index=False)

print(f"üèÜ Submiss√£o perfeitamente formatada e gravada em: {submission_path}")
print("O ficheiro est√° pronto para ser enviado para a plataforma Kaggle!")

--- Amostra do Arquivo Final ---


Unnamed: 0,id,target
0,5398,1
1,5503,1
2,23151,0
3,12669,0
4,27864,0


(5712, 2)
üèÜ Submiss√£o perfeitamente formatada e gravada em: /content/drive/MyDrive/PS_Ligia_NLP/submission.csv
O ficheiro est√° pronto para ser enviado para a plataforma Kaggle!
