# 1. Extraçao

In [1]:
# ----------------------------------------------------------------------
# PASSO 1: INSTALAR BIBLIOTECAS (se ainda não tiver feito)
# ----------------------------------------------------------------------
!pip install google-cloud-bigquery pandas-gbq -q

# ----------------------------------------------------------------------
# PASSO 2: AUTENTICAR E EXTRAIR DADOS
# ----------------------------------------------------------------------
import pandas as pd
from google.colab import auth
import pandas_gbq

# Autentica o usuário para permitir o acesso ao Google Cloud
print("--- [AUTH] Autenticando para acesso ao BigQuery ---")
auth.authenticate_user()
print("--- [AUTH] Autenticação concluída com sucesso ---")


print("\n--- [BIGQUERY] Iniciando extração de dados do BigQuery ---")

# 1. Defina o nome completo do seu projeto e tabela
project_id = "bacias-pcj"
table_id = "scrapping.noticias"

# 2. Crie a consulta SQL para selecionar todos os dados da tabela
#    O formato é `projeto.dataset.tabela`
sql_query = f"SELECT * FROM `{project_id}.{table_id}`"

print(f"Executando a consulta: {sql_query}")

# 3. Use o pandas_gbq para ler os dados e carregá-los em um DataFrame
try:
    df_from_bq = pandas_gbq.read_gbq(sql_query, project_id=project_id)

    print(f"--- [BIGQUERY] Sucesso! {len(df_from_bq)} registros foram extraídos da tabela.")
    print("\n--- Exibindo os 5 primeiros registros extraídos: ---")

    # Exibe as primeiras linhas do DataFrame carregado
    try:
        from IPython.display import display
        display(df_from_bq.head())
    except (ImportError, NameError):
        print(df_from_bq.head())

except Exception as e:
    print(f"--- [BIGQUERY] ERRO: Falha na extração de dados. Detalhes: {e}")

--- [AUTH] Autenticando para acesso ao BigQuery ---
--- [AUTH] Autenticação concluída com sucesso ---

--- [BIGQUERY] Iniciando extração de dados do BigQuery ---
Executando a consulta: SELECT * FROM `bacias-pcj.scrapping.noticias`
Downloading: 100%|[32m██████████[0m|
--- [BIGQUERY] Sucesso! 385 registros foram extraídos da tabela.

--- Exibindo os 5 primeiros registros extraídos: ---


Unnamed: 0,fonte,horario_coleta,titulo,resumo,link,nivel_risco,data_publicacao
0,G1,2025-10-20 14:55:01.254189+00:00,"'Caça foi boa, peixes e onças': troca de mensa...",... coação psicológica. Mas a juíza do caso ap...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
1,G1,2025-10-22 00:07:11.625686+00:00,"'Caça foi boa, peixes e onças': troca de mensa...",... do caso apontou que não há provas dessa su...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
2,G1,2025-10-22 00:17:07.427247+00:00,"'Caça foi boa, peixes e onças': troca de mensa...",... do caso apontou que não há provas dessa su...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
3,G1,2025-10-22 00:17:20.337969+00:00,Acusado de assassinar historiador em Campinas ...,... citaram homofobia\nA Polícia Civil de Camp...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
4,G1,2025-10-22 00:17:41.295741+00:00,Alerta da Defesa Civil gera reações entre alag...,"Reações, Alagoas, alerta Defesa Civil\nReprodu...",//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT


# 2. Mostrando o DF

In [2]:
df_from_bq.head()

Unnamed: 0,fonte,horario_coleta,titulo,resumo,link,nivel_risco,data_publicacao
0,G1,2025-10-20 14:55:01.254189+00:00,"'Caça foi boa, peixes e onças': troca de mensa...",... coação psicológica. Mas a juíza do caso ap...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
1,G1,2025-10-22 00:07:11.625686+00:00,"'Caça foi boa, peixes e onças': troca de mensa...",... do caso apontou que não há provas dessa su...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
2,G1,2025-10-22 00:17:07.427247+00:00,"'Caça foi boa, peixes e onças': troca de mensa...",... do caso apontou que não há provas dessa su...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
3,G1,2025-10-22 00:17:20.337969+00:00,Acusado de assassinar historiador em Campinas ...,... citaram homofobia\nA Polícia Civil de Camp...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
4,G1,2025-10-22 00:17:41.295741+00:00,Alerta da Defesa Civil gera reações entre alag...,"Reações, Alagoas, alerta Defesa Civil\nReprodu...",//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT


# Classificacao com o QWEN

In [4]:
df_from_bq.head()

Unnamed: 0,fonte,horario_coleta,titulo,resumo,link,nivel_risco,data_publicacao
0,G1,2025-10-20 14:55:01.254189,"'Caça foi boa, peixes e onças': troca de mensa...",... coação psicológica. Mas a juíza do caso ap...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
1,G1,2025-10-22 00:07:11.625686,"'Caça foi boa, peixes e onças': troca de mensa...",... do caso apontou que não há provas dessa su...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
2,G1,2025-10-22 00:17:07.427247,"'Caça foi boa, peixes e onças': troca de mensa...",... do caso apontou que não há provas dessa su...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
3,G1,2025-10-22 00:17:20.337969,Acusado de assassinar historiador em Campinas ...,... citaram homofobia\nA Polícia Civil de Camp...,//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT
4,G1,2025-10-22 00:17:41.295741,Alerta da Defesa Civil gera reações entre alag...,"Reações, Alagoas, alerta Defesa Civil\nReprodu...",//g1.globo.com/busca/click?q=defesa+civil+camp...,0,NaT


In [None]:
# pip install transformers accelerate torch --upgrade

import re
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

# -------------------------------------------------------------------
# 1. Carregar modelo Qwen localmente (sem API key)
# -------------------------------------------------------------------
MODEL_ID = "Qwen/Qwen2-0.5B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    device_map="auto",     # usa GPU se tiver, senão CPU
    torch_dtype="auto"
)

pipe = pipeline(
    task="text-generation",
    model=model,
    tokenizer=tokenizer,
    # se estiver em CPU muito fraca, reduza max_new_tokens no classify_risk
)

# -------------------------------------------------------------------
# 2. Preparar texto de entrada (titulo + resumo)
# -------------------------------------------------------------------
# df_from_bq é o seu DataFrame original
df = df_from_bq.copy()

# Garante que não tenha NaN
df["titulo"] = df["titulo"].fillna("")
df["resumo"] = df["resumo"].fillna("")

df["texto_noticia"] = (
    "TÍTULO: " + df["titulo"].astype(str) +
    "\nRESUMO: " + df["resumo"].astype(str)
)

# -------------------------------------------------------------------
# 3. Função de classificação com a LLM
# -------------------------------------------------------------------
def classify_risk(text: str) -> int:
    """
    Classifica o nível de risco em:
    0 = sem risco
    1 = risco baixo
    2 = risco médio
    3 = risco alto

    Retorna um int entre 0 e 3. Se não conseguir, retorna -1.
    """

    system_msg = (
        "Você é um modelo que classifica o nível de risco em notícias "
        "para Defesa Civil. Sempre responda SOMENTE com um único número: "
        "0, 1, 2 ou 3, sem texto extra."
    )

    user_msg = (
        "Analise o texto abaixo e classifique o nível de risco para a Defesa Civil "
        "usando a escala:\n"
        "0 = sem risco relevante ou apenas informativo\n"
        "1 = risco baixo (atenção leve, impacto limitado)\n"
        "2 = risco médio (situação que pode causar problemas localizados)\n"
        "3 = risco alto (situação grave, ameaça à vida ou grande dano)\n\n"
        f"TEXTO:\n{text}\n\n"
        "Responda apenas com UM número: 0, 1, 2 ou 3."
    )

    messages = [
        {"role": "system", "content": system_msg},
        {"role": "user", "content": user_msg},
    ]

    # Para Qwen2, o pipe recebe a lista de mensagens
    output = pipe(
        messages,
        max_new_tokens=8,
        do_sample=False,      # comportamento mais determinístico
        temperature=0.0
    )

    # O formato de saída esperado é uma lista, onde o último item contém a resposta do modelo
    try:
        content = output[0]["generated_text"][-1]["content"]
    except Exception:
        return -1

    # Extrai o primeiro dígito entre 0 e 3
    match = re.search(r"[0-3]", content)
    if match:
        return int(match.group(0))
    else:
        return -1

# -------------------------------------------------------------------
# 4. Aplicar ao DataFrame
# -------------------------------------------------------------------
# Se o dataset for grande, considere usar tqdm para visualizar progresso
# from tqdm.auto import tqdm
# tqdm.pandas()
# df["risco_ia"] = df["texto_noticia"].progress_apply(classify_risk)

df["risco_ia"] = df["texto_noticia"].apply(classify_risk)

# Se não quiser manter o texto concatenado:
df_resultado = df.drop(columns=["texto_noticia"])

# df_resultado agora tem a coluna "risco_ia"
print(df_resultado.head())


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/659 [00:00<?, ?B/s]

`torch_dtype` is deprecated! Use `dtype` instead!


model.safetensors:   0%|          | 0.00/988M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/242 [00:00<?, ?B/s]

Device set to use cpu
The following generation flags are not valid and may be ignored: ['temperature', 'top_p', 'top_k']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
