In [None]:
!uv add python-dotenv instructor pydantic jsonref pandas

[2K[37m‚†á[0m [2mnewspaper3k==0.2.8                                                            [0m[37m‚†ã[0m [2mResolving dependencies...                                                     [0m

In [9]:
import os
from dotenv import load_dotenv
import instructor
from pydantic import BaseModel, Field
from typing import Optional, List

# Load environment variables from .env file
load_dotenv()

# Get the Gemini API key from environment
GEMINI_API_KEY = os.getenv('GEMINI_API_KEY')

if GEMINI_API_KEY:
    # Initialize Instructor client with Gemini
    # Instructor uses the API key from environment or can be passed directly
    os.environ['GEMINI_API_KEY'] = GEMINI_API_KEY
    client = instructor.from_provider(
        "google/gemini-2.5-flash",
        api_key=GEMINI_API_KEY
    )
    print("Instructor client initialized successfully with Gemini!")
else:
    print("Warning: GEMINI_API_KEY not found in .env file")
    client = None

GEMINI_MODELS = [
    'gemini-2.5-flash',
    'gemini-3-pro-preview',
    'gemini-3-flash-preview',
    'gemini-flash-lite-latest',
]

Instructor client initialized successfully with Gemini!


In [2]:
import pandas as pd

In [3]:
import sqlite3

# Connect to the SQLite database
db_path = "../instance/violence.db"
conn = sqlite3.connect(db_path)

# Get the table names
tables = pd.read_sql_query("SELECT name FROM sqlite_master WHERE type='table';", conn)
table_names = tables['name'].tolist()

dfs = {}  # Dictionary to hold DataFrames for each table

for table in table_names:
    dfs[table] = pd.read_sql_query(f"SELECT * FROM {table};", conn)

conn.close()

# Now, dfs is a dictionary where keys are table names and values are DataFrames


In [4]:
dfs.keys()

dict_keys(['source', 'incident', 'extracted_event', 'keyword', 'alembic_version', 'lost_and_found', 'events_ground_truth'])

In [5]:
dfs['events_ground_truth']

Unnamed: 0,id,source_id,incident_id,confidence_score,extracted_date,extracted_location,extracted_victim_name,summary,death_count,group_id
0,1,646,70,1.0,2025-10-25 00:00:00,"comunidades da Penha e do Alem√£o, Rio de Janeiro",,Uma megaopera√ß√£o policial nas comunidades da P...,,70
1,2,1372,70,1.0,2025-10-28 00:00:00,"Complexos do Alem√£o e da Penha, Zona Norte do ...",,Quatro agentes foram mortos durante uma megaop...,4.0,70
2,3,1318,70,1.0,2025-10-28 00:00:00,"Complexo da Penha, Rio de Janeiro",Rodrigo Nascimento,O policial civil Rodrigo Nascimento morreu nes...,1.0,70
3,4,2119,70,1.0,2025-10-28 00:00:00,"Complexos do Alem√£o e da Penha, Rio de Janeiro",Marcus Vin√≠cius Cardoso de Carvalho,Uma megaopera√ß√£o policial nos Complexos do Ale...,70.0,70
4,5,57,4,1.0,2025-12-14 00:00:00,"Campo Grande, Zona Oeste do Rio de Janeiro",Marcus Vinicius Carvalho Cardoso Menesterio,"Um homem, identificado como Marcus Vinicius Ca...",1.0,4
5,6,69,4,1.0,2025-12-14 00:00:00,"Campo Grande, zona oeste do Rio de Janeiro",Marcus Vinicius Carvalho,Um homem foi preso em flagrante por atropelar ...,1.0,4
6,7,57,4,1.0,2025-12-14 00:00:00,"Campo Grande, Rio de Janeiro",Marcus Vinicius Carvalho Cardoso Menesterio,Marcus Vinicius Carvalho Cardoso Menesterio mo...,,4
7,8,276,19,1.0,2025-12-02 00:00:00,"Conjunto do Amarelinho, Acari, Zona Norte do R...",Emerson Costa dos Santos,Um intenso tiroteio entre traficantes do Coman...,2.0,19
8,9,296,19,1.0,2025-12-02 00:00:00,"Acari, Zona Norte, Rio de Janeiro",Emerson Costa dos Santos e Carlos Octavio de A...,"Dois homens, Emerson Costa dos Santos e Carlos...",2.0,19
9,10,364,19,1.0,2025-12-02 00:00:00,"Conjunto do Amarelinho, Acari, Zona Norte do Rio",Emerson Costa do Santos e Carlos Octavio de Ar...,Dois homens foram mortos em um confronto entre...,2.0,19


In [6]:
# First step is to improve the data that we extract from the source

# I want to extract the following information from the source:

# 1. Structured Location Fields
# extracted_neighborhood (String) - Normalized neighborhood name
# extracted_street (String) - Street name/address
# extracted_city (String) - City (default: "Rio de Janeiro")
# extracted_state (String) - State (default: "Rio de Janeiro")
# extracted_country (String) - Country (default: "Brasil")
# Keep extracted_location (String) - Original full location string for reference

# 2. Normalized Victim Information
# extracted_victim_name_normalized (String) - Normalized name (lowercase, no accents, standardized)
# extracted_victim_age (Integer, nullable) - Age if mentioned
# extracted_victim_gender (String, nullable) - Gender if mentioned
# number_of_victims (Integer, nullable) - Number of victims if mentioned

# 3. Additional Identifiers
# extracted_method (String, nullable) - Method of death (e.g., "tiro", "facada", "envenenamento")
# extracted_time_of_day (String, nullable) - Time period if mentioned (e.g., "manh√£", "tarde", "noite")

# 4. Date Precision
# extracted_date_precision (String) - Precision level: "exact", "day", "approximate", "unknown"
# Keep extracted_date (DateTime) - Best estimate of event date

In [None]:
from typing import Dict, List, Optional, Literal

from pydantic import BaseModel, Field, field_validator, model_validator

# ---- Type definitions for standardization ----
# Using Literal instead of Enum for better compatibility with Gemini/Instructor

HomicideType = Literal[
    "Homic√≠dio",
    "Homic√≠dio Qualificado",
    "Homic√≠dio Culposo",
    "Tentativa de Homic√≠dio",
    "Latroc√≠nio",
    "Feminic√≠dio",
    "Infantic√≠dio",
    "Outro"
]

MethodOfDeath = Literal[
    "Arma de fogo",
    "Arma branca",
    "Estrangulamento",
    "Asfixia",
    "Espancamento",
    "Atropelamento",
    "Envenenamento",
    "Objeto contundente",
    "Inc√™ndio",
    "Queda",
    "Outro",
    "N√£o especificado"
]

# ---- Classes for Structured Extraction ----

class Location(BaseModel):
    """Estrutura de dados de localiza√ß√£o extra√≠da da not√≠cia."""
    neighborhood: Optional[str] = Field(
        None, 
        description="Nome do bairro onde ocorreu a morte violenta. Use apenas se explicitamente mencionado."
    )
    street: Optional[str] = Field(
        None, 
        description="Nome da rua, avenida ou logradouro. Exemplo: 'Rua das Flores', 'Avenida Paulista'"
    )
    establishment: Optional[str] = Field(
        None,
        description="Nome do estabelecimento ou tipo de local. Exemplo: 'Resid√™ncia', 'Via p√∫blica', 'Bar e Restaurante', 'Terreno baldio'"
    )
    city: Optional[str] = Field(
        None, 
        description="Cidade onde ocorreu a morte violenta"
    )
    state: Optional[str] = Field(
        None, 
        description="Estado em sigla para Brasil (RJ, SP, MG, etc.) ou nome completo para outros pa√≠ses"
    )
    country: Optional[str] = Field(
        "Brasil", 
        description="Pa√≠s onde ocorreu a morte violenta. Use as informa√ß√µes do texto para inferir o pa√≠s."
    )
    full_location_description: Optional[str] = Field(
        None, 
        description="Descri√ß√£o completa e precisa do local."
    )

class IdentifiablePerpetrator(BaseModel):
    """Dados estruturados do autor/suspeito de morte violenta identific√°vel."""
    name: Optional[str] = Field(
        None,
        description="Nome completo do autor, se identificado."
    )
    age: Optional[int] = Field(
        None,
        description="Idade do autor."
    )
    gender: Optional[Literal["masculino", "feminino", "outro", "n√£o informado"]] = Field(
        None,
        description="G√™nero do autor."
    )
    occupation: Optional[str] = Field(
        None,
        description="Profiss√£o ou ocupa√ß√£o do autor, se mencionada."
    )
    relationship_to_victim: Optional[str] = Field(
        None,
        description="Rela√ß√£o do autor com a v√≠tima, se mencionada. Exemplo: 'c√¥njuge', 'desconhecido', 'colega', 'familiar'"
    )
    is_security_force: Optional[bool] = Field(
        None,
        description="Indica se o autor √© integrante das for√ßas de seguran√ßa p√∫blica (Ex: policial militar, policial civil, etc.). True se for, False se n√£o for, None se n√£o mencionado."
    )
    description: Optional[str] = Field(
        None,
        description="Descri√ß√£o f√≠sica ou caracter√≠sticas do autor mencionadas"
    )

class UnidentifiedPerpetratorGroup(BaseModel):
    """Grupo de autores/suspeitos n√£o identificados individualmente."""
    count: int = Field(..., description="N√∫mero de autores neste grupo")
    description: str = Field(
        ...,
        description="""Descri√ß√£o do grupo conforme texto. Ex: "criminosos", "suspeitos", "policiais", "traficantes", "homens armados\""""
    )
    is_security_force: Optional[bool] = Field(
        None,
        description="Este grupo √© de for√ßas de seguran√ßa?"
    )
    is_civilian: Optional[bool] = Field(
        None,
        description="Este grupo √© de civis?"
    )
    context: Optional[str] = Field(
        None,
        description="Contexto adicional sobre este grupo (ex: 'fugiram do local', 'presos durante opera√ß√£o X')"
    )

class Perpetrators(BaseModel):
    """Dados sobre os autores/suspeitos de morte violenta."""
    identifiable_perpetrators: List[IdentifiablePerpetrator] = Field(
        ...,
        description="Lista de autores/suspeitos de morte violenta. Crie uma entrada para cada autor mencionado somente quando houver informa√ß√µes suficientes para identificar o autor."
    )
    number_of_identifiable_perpetrators: int = Field(
        ...,
        description="N√∫mero de autores/suspeitos identificados"
    )
    unidentified_groups: Optional[List[UnidentifiedPerpetratorGroup]] = Field(
        None,
        description="Lista de autores/suspeitos n√£o identificados"
    )
    number_of_unidentified_perpetrators: Optional[int] = Field(
        None,
        description="N√∫mero de autores/suspeitos n√£o identificados"
    )
    number_of_perpetrators: int = Field(
        ...,
        description="N√∫mero total de autores/suspeitos de morte violenta mencionados na not√≠cia"
    )

class IdentifiableVictim(BaseModel):
    """Dados estruturados da v√≠tima de morte violenta."""
    name: Optional[str] = Field(
        None, 
        description="Nome completo da v√≠tima. Se apenas primeiro nome ou apelido, registrar o que foi informado."
    )
    age: Optional[int] = Field(
        None, 
        description="Idade da v√≠tima em anos"
    )
    gender: Optional[Literal["masculino", "feminino", "outro", "n√£o informado"]] = Field(
        None, 
        description="G√™nero da v√≠tima inferido do texto"
    )
    occupation: Optional[str] = Field(
        None,
        description="Profiss√£o ou ocupa√ß√£o da v√≠tima, se mencionada"
    )
    relationship_to_perpetrator: Optional[str] = Field(
        None,
        description="Rela√ß√£o com o autor do crime, se mencionada. Exemplo: 'c√¥njuge', 'desconhecido', 'colega', 'familiar'"
    )
    is_security_force: Optional[bool] = Field(
        None,
        description="Indica se a v√≠tima √© integrante das for√ßas de seguran√ßa p√∫blica (Ex: policial militar, policial civil, guarda municipal, etc.). True se for, False se n√£o for, None se n√£o mencionado."
    )
    description: Optional[str] = Field(
        None,
        description="Descri√ß√£o f√≠sica ou caracter√≠sticas mencionadas"
    )

class UnidentifiedVictimGroup(BaseModel):
    """Grupo de v√≠timas n√£o identificadas individualmente."""
    count: int = Field(..., description="N√∫mero de v√≠timas neste grupo")
    description: str = Field(
        ...,
        description="""
        Descri√ß√£o do grupo conforme texto.
        Ex: "moradores", "suspeitos", "policiais", "pessoas", "civis", "criminosos"
        """
    )
    is_security_force: Optional[bool] = Field(
        None,
        description="Este grupo √© de for√ßas de seguran√ßa?"
    )
    is_civilian: Optional[bool] = Field(
        None,
        description="Este grupo √© de civis?"
    )
    context: Optional[str] = Field(
        None,
        description="Contexto adicional sobre este grupo (ex: 'mortos durante opera√ß√£o X')"
    )

class Victims(BaseModel):
    """Dados sobre as v√≠timas de morte violenta."""
    identifiable_victims: List[IdentifiableVictim] = Field(
        ...,
        description="Lista de v√≠timas de morte violenta. Crie uma entrada para cada v√≠tima mencionada somente quando houver informa√ß√µes suficientes para identificar a v√≠tima."
    )
    number_of_identifiable_victims: int = Field(
        ...,
        description="N√∫mero de v√≠timas identificadas"
    )
    unidentified_groups: Optional[List[UnidentifiedVictimGroup]] = Field(
        None,
        description="Lista de v√≠timas n√£o identificadas"
    )
    number_of_unidentified_victims: Optional[int] = Field(
        None,
        description="N√∫mero de v√≠timas n√£o identificadas"
    )
    number_of_victims: int = Field(
        ...,
        description="N√∫mero total de v√≠timas de morte violenta mencionadas na not√≠cia"
    )

class DateVerification(BaseModel):
    """Verifica√ß√£o rigorosa da data antes de extrair."""
    has_explicit_date: bool = Field(
        ...,
        description="""
        O texto cont√©m uma data COMPLETA e EXPL√çCITA (dia/m√™s/ano OU dia/m√™s com ano claro no contexto)?
        
        TRUE apenas se houver:
        - "15 de dezembro de 2025"
        - "15/12/2025"
        - "em 12 de mar√ßo" (se o ano 2024 est√° claramente estabelecido no contexto)
        
        FALSE se houver apenas:
        - "ontem", "hoje", "na semana passada"
        - "sexta-feira (12)", "segunda-feira (15)" (dia da semana com n√∫mero mas SEM ano expl√≠cito)
        - "h√° tr√™s dias", "recentemente"
        - Qualquer termo relativo
        """
    )
    
    date_text_quote: Optional[str] = Field(
        None,
        description="""
        Se has_explicit_date √© TRUE, copie EXATAMENTE o trecho do texto que cont√©m a data completa.
        
        Deve ser uma cita√ß√£o LITERAL do texto original, palavra por palavra.
        Se has_explicit_date √© FALSE, deixe como null.
        """
    )
    
    year_explicitly_mentioned: bool = Field(
        ...,
        description="""
        O ANO est√° explicitamente mencionado no trecho da data?
        
        TRUE: "15 de dezembro de 2025", "12/03/2024"
        FALSE: "sexta-feira (12)", "no dia 15", "em mar√ßo"
        """
    )
    
    verification_reasoning: str = Field(
        ...,
        description="""
        Explique seu racioc√≠nio sobre a data:
        - O que o texto diz exatamente?
        - Por que voc√™ marcou has_explicit_date como TRUE ou FALSE?
        - Se FALSE, por que n√£o √© poss√≠vel extrair a data?
        """
    )

class DateTime(BaseModel):
    """Dados estruturados de data e hora."""
    
    date_verification: DateVerification = Field(
        ...,
        description="Verifica√ß√£o rigorosa se h√° data expl√≠cita no texto"
    )
    
    date: Optional[str] = Field(
        None, 
        description="""
        Data da morte violenta no formato AAAA-MM-DD.
        
        REGRA ABSOLUTA: Este campo DEVE ser null se date_verification.has_explicit_date √© FALSE.
        
        Use data SOMENTE se:
        1. date_verification.has_explicit_date √© TRUE
        2. date_verification.year_explicitly_mentioned √© TRUE
        3. H√° uma data completa no formato dia/m√™s/ano no texto
        
        NUNCA calcule ou infira datas de termos relativos.
        """
    )
    
    date_precision: Optional[Literal["exata", "parcial", "n√£o informada"]] = Field(
        None,
        description="""
        - "exata": data completa (dia/m√™s/ano) expl√≠cita no texto
        - "parcial": apenas dia da semana ou m√™s mencionado, sem ano
        - "n√£o informada": sem data ou apenas termos relativos
        """
    )
    
    time: Optional[str] = Field(
        None,
        description="""
        Hor√°rio espec√≠fico se explicitamente mencionado no texto.
        
        FORMATOS ACEITOS:
        - Hor√°rio exato: "20h30", "15:45", "√†s 23h"
        - Aproxima√ß√£o expl√≠cita: "por volta das 20h", "cerca de 15h"
        
        N√ÉO USE se apenas per√≠odo do dia for mencionado ("√† noite", "de manh√£").
        """
    )
    
    time_of_day: Optional[Literal["madrugada", "manh√£", "tarde", "noite", "n√£o informado"]] = Field(
        None, 
        description="""
        Per√≠odo do dia quando ocorreu a morte violenta, baseado no texto.
        
        Use APENAS se explicitamente mencionado ou se houver hor√°rio espec√≠fico.
        """
    )
    
    @model_validator(mode='after')
    def validate_date_consistency(self):
        """Valida que a data s√≥ existe se a verifica√ß√£o permitir."""
        if self.date is not None:
            if not self.date_verification.has_explicit_date:
                raise ValueError(
                    f"ERRO: Campo 'date' est√° preenchido mas date_verification.has_explicit_date √© FALSE. "
                    f"Racioc√≠nio: {self.date_verification.verification_reasoning}"
                )
            if not self.date_verification.year_explicitly_mentioned:
                raise ValueError(
                    f"ERRO: Campo 'date' est√° preenchido mas date_verification.year_explicitly_mentioned √© FALSE. "
                    f"N√£o √© poss√≠vel extrair data completa sem ano expl√≠cito."
                )
        return self

class HomicideDynamic(BaseModel):
    """Din√¢mica da morte violenta estruturada."""
    
    title: str = Field(
        ...,
        description="""
        T√≠tulo t√©cnico da ocorr√™ncia seguindo o formato:
        [TIPO DE HOMIC√çDIO] - [LOCAL] - [DATA OU "DATA N√ÉO INFORMADA"]
        
        IMPORTANTE: Se n√£o houver data completa verificada, use "DATA N√ÉO INFORMADA" no lugar da data.
        
        Exemplos:
        - "HOMIC√çDIO QUALIFICADO - VIA P√öBLICA BAIRRO CENTRO - 15/12/2025"
        - "FEMINIC√çDIO - RESID√äNCIA SANTA CRUZ - DATA N√ÉO INFORMADA"
        - "LATROC√çNIO - ESTABELECIMENTO COMERCIAL - 10/01/2025"
        """
    )
    
    homicide_type: HomicideType = Field(
        ...,
        description="""
        Classifica√ß√£o do tipo de homic√≠dio segundo terminologia jur√≠dica brasileira.
        Valores permitidos:
        - "Homic√≠dio"
        - "Homic√≠dio Qualificado"
        - "Homic√≠dio Culposo"
        - "Tentativa de Homic√≠dio"
        - "Latroc√≠nio"
        - "Feminic√≠dio"
        - "Infantic√≠dio"
        - "Outro"
        """
    )
    
    method: Optional[MethodOfDeath] = Field(
        None,
        description="""
        M√©todo utilizado para causar a morte violenta.
        Valores permitidos:
        - "Arma de fogo"
        - "Arma branca"
        - "Estrangulamento"
        - "Asfixia"
        - "Espancamento"
        - "Atropelamento"
        - "Envenenamento"
        - "Objeto contundente"
        - "Inc√™ndio"
        - "Queda"
        - "Outro"
        - "N√£o especificado"
        """
    )
    
    chronological_description: str = Field(
        ...,
        description="""
        Descri√ß√£o cronol√≥gica OBJETIVA dos fatos em linguagem t√©cnica policial.
        
        DEVE:
        - Usar terceira pessoa e voz passiva
        - Linguagem formal, t√©cnica e impessoal
        - Ordem cronol√≥gica clara dos eventos
        - Apenas fatos verific√°veis no texto
        - Terminologia jur√≠dica adequada
        - Identificar claramente: v√≠tima(s), autor(es), testemunha(s)
        - Se data completa n√£o dispon√≠vel, use "em data n√£o especificada" ou "em [dia da semana/per√≠odo mencionado]"
        
        N√ÉO DEVE:
        - Incluir opini√µes ou ju√≠zos de valor
        - Usar adjetivos sensacionalistas ("brutal", "covarde", etc.)
        - Especular sobre motiva√ß√µes n√£o declaradas
        - Usar linguagem coloquial ou emotiva
        - Incluir informa√ß√µes n√£o verificadas no texto
        - Inventar datas completas
        """
    )
    

class ViolentDeathEvent(BaseModel):
    """Informa√ß√µes estruturadas completas sobre morte violenta extra√≠da de not√≠cia."""
    
    location_info: Location = Field(
        ..., 
        description="Informa√ß√µes estruturadas do local onde ocorreu a morte violenta"
    )
    
    date_time: DateTime = Field(
        ..., 
        description="Informa√ß√µes de data e hora da morte violenta COM VERIFICA√á√ÉO RIGOROSA"
    )
    
    victims: Victims = Field(
        ..., 
        description="Dados sobre as v√≠timas de morte violenta."
    )
    
    perpetrators: Optional[Perpetrators] = Field(
        None,
        description="Lista de autores/suspeitos da morte violenta, se identificados"
    )
    
    homicide_dynamic: HomicideDynamic = Field(
        ...,
        description="Din√¢mica completa da morte violenta incluindo t√≠tulo, classifica√ß√£o e descri√ß√£o t√©cnica"
    )
    
    additional_context: Optional[str] = Field(
        None,
        description="Contexto adicional relevante que n√£o se enquadra nas categorias acima"
    )
    


def extract_violent_death_from_news(
    content: str, 
    model_id: str = "gemini-2.5-flash",
    instructor_client=None
) -> ViolentDeathEvent:
    """
    Extrai informa√ß√µes estruturadas sobre morte violenta de artigo de not√≠cia usando Instructor.
    Implementa Chain of Verification para garantir que datas n√£o sejam inventadas.
    
    Args:
        content: Texto da not√≠cia sobre morte violenta
        model_id: ID do modelo a usar
        instructor_client: Cliente Instructor opcional
    
    Returns:
        ViolentDeathEvent: Objeto Pydantic com todas as informa√ß√µes estruturadas sobre a morte violenta
    """
    # Use provided client or global client
    if instructor_client is None:
        instructor_client = client

    if instructor_client is None:
        raise ValueError("Instructor client not initialized. Please set GEMINI_API_KEY in .env file.")

    # Create a new client with the specified model if different
    instructor_client = instructor.from_provider(
        f"google/{model_id}",
        api_key=GEMINI_API_KEY
    )

    # System prompt to guide the extraction
    system_prompt = """
    Voc√™ √© um assistente especializado em extrair informa√ß√µes de not√≠cias sobre mortes violentas 
    e convert√™-las em descri√ß√µes t√©cnicas seguindo padr√µes profissionais de escriv√£es 
    de pol√≠cia no Brasil.

    PRINC√çPIOS FUNDAMENTAIS:
    1. Use APENAS informa√ß√µes explicitamente presentes no texto
    2. NUNCA invente, calcule ou infira informa√ß√µes
    3. Para campos opcionais, deixe null se a informa√ß√£o n√£o estiver dispon√≠vel
    4. Mantenha objetividade e neutralidade absoluta
    5. Use terminologia jur√≠dica formal e precisa

    REGRA CR√çTICA SOBRE DATAS - LEIA COM ATEN√á√ÉO:
    
    Voc√™ DEVE preencher o campo date_verification PRIMEIRO, antes de qualquer extra√ß√£o de data.
    
    O campo date_verification funciona como um VERIFICADOR que impede datas inventadas:
    
    1. has_explicit_date = TRUE SOMENTE se o texto cont√©m data COMPLETA (dia/m√™s/ano)
       Exemplos de TRUE:
       - "15 de dezembro de 2025"
       - "em 12 de mar√ßo de 2024"
       - "no dia 20/11/2025"
       
    2. has_explicit_date = FALSE se o texto tem apenas:
       - Dias da semana: "sexta-feira (12)", "na segunda-feira (15)"
       - Termos relativos: "ontem", "hoje", "na semana passada"
       - Per√≠odos: "recentemente", "h√° tr√™s dias"
       
    3. Se has_explicit_date = FALSE, o campo date DEVE ser null
       N√£o h√° exce√ß√µes. O validador vai rejeitar se voc√™ tentar preencher date quando has_explicit_date √© FALSE.
       
    4. year_explicitly_mentioned deve ser TRUE apenas se o ANO aparece no texto da data
    
    5. verification_reasoning deve explicar claramente por que voc√™ decidiu TRUE ou FALSE
    
    IMPORTANTE: √â MELHOR deixar date como null do que inventar uma data.
    Dados incompletos s√£o prefer√≠veis a dados falsos.
    
    SOBRE T√çTULOS:
    - Se n√£o h√° data completa verificada, use "DATA N√ÉO INFORMADA" no t√≠tulo
    - Exemplo: "FEMINIC√çDIO - RESID√äNCIA SANTA CRUZ - DATA N√ÉO INFORMADA"
    """

    event = instructor_client.create(
        response_model=ViolentDeathEvent,
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": content}
        ],
        max_retries=3
    )

    return event

In [125]:
# Test extraction with Instructor
result = extract_violent_death_from_news(
    dfs['source'].loc[dfs['source']['id'] == 133, 'content'].iloc[0],
    model_id="gemini-2.5-flash"
)

print(result.model_dump_json(indent=2))

{
  "location_info": {
    "neighborhood": "Nova Aurora",
    "street": null,
    "establishment": "Morro do Avi√£o",
    "city": "Belford Roxo",
    "state": "RJ",
    "country": "Brasil",
    "full_location_description": "bairro Nova Aurora, em Belford Roxo, na Baixada Fluminense, no Rio de Janeiro (RJ), pr√≥ximo ao Morro do Avi√£o"
  },
  "date_time": {
    "date_verification": {
      "has_explicit_date": false,
      "date_text_quote": null,
      "year_explicitly_mentioned": false,
      "verification_reasoning": "O texto menciona 'Na tarde deste s√°bado (02)', que √© um dia da semana com um n√∫mero, mas n√£o uma data completa (dia/m√™s/ano). Portanto, n√£o √© uma data expl√≠cita."
    },
    "date": null,
    "date_precision": "parcial",
    "time": null,
    "time_of_day": "tarde"
  },
  "victims": {
    "identifiable_victims": [
      {
        "name": null,
        "age": null,
        "gender": "n√£o informado",
        "occupation": null,
        "relationship_to_perpetrato

In [114]:
print(dfs['source'].loc[dfs['source']['id'] == 1509, 'content'].iloc[0])


KALIL DE OLIVEIRA
FLORIAN√ìPOLIS, SC (FOLHAPRESS)
O Complexo da Mar√©, no Rio de Janeiro, amanheceu nesta quarta-feira (17) com uma nova opera√ß√£o policial. A Pol√≠cia Civil busca integrantes do Comando Vermelho que estariam envolvidos em crimes como com√©rcio ilegal de armas de fogo e muni√ß√µes, tr√°fico de drogas e associa√ß√£o criminosa.
Moradores relatam troca de tiros na regi√£o do Parque Uni√£o e da Nova Holanda. As buscas, que s√£o parte de nova fase da Opera√ß√£o Conten√ß√£o, tamb√©m acontecem em outros pontos da zona norte e da regi√£o dos Lagos. A a√ß√£o tem participa√ß√£o da Core (Coordenadoria de Recursos Especiais) e DGPE (Delegacia-Geral de Pol√≠cia Especializada).
Perfis em redes sociais mostram, desde cedo, viaturas na avenida Brasil, al√©m de relatar a presen√ßa de muitos agentes da pol√≠cia na regi√£o.
A Pol√≠cia Civil diz ter identificado n√∫cleos criminosos especializados na circula√ß√£o de armamentos de alto poder ofensivo, na log√≠stica de muni√ß√µes e no abaste

133
1509 --> 122 mortos

In [None]:
# Simple Violent Death Classifier
# Uses a lighter model for fast classification

from pydantic import BaseModel, Field
from typing import Literal

# Use a faster/lighter model for simple classification
# Note: gemini-2.0-flash-lite is the lightweight model for quick classification tasks
SELECTION_MODEL = "gemini-2.0-flash-lite"

class ViolentDeathClassification(BaseModel):
    """Classification result for whether news is about a violent death."""
    
    is_violent_death: bool = Field(
        ...,
        description="""
        TRUE if the news article is about one or more violent deaths (homicides, murders, killings).
        
        Examples of TRUE:
        - Someone was shot and killed
        - A body was found with signs of violence
        - Multiple people died in a shootout
        - Police operation resulted in deaths
        - Someone was stabbed to death
        
        Examples of FALSE:
        - Natural death (illness, old age)
        - Accidents without criminal intent (car crash without murder)
        - Missing persons without confirmed death
        - General violence without deaths (robbery, assault without fatalities)
        - News about violence prevention, security policies
        """
    )
    
    confidence: Literal["alta", "m√©dia", "baixa"] = Field(
        ...,
        description="""
        Confidence level in the classification:
        - "alta": Clear case, explicit mention of death by violence
        - "m√©dia": Death mentioned but circumstances unclear
        - "baixa": Ambiguous, might be referring to past events or general context
        """
    )
    
    reasoning: str = Field(
        ...,
        description="Brief explanation (1-2 sentences) of why this classification was made."
    )


def classify_violent_death(
    content: str,
    model_id: str = SELECTION_MODEL,
    api_key: str = None,
) -> ViolentDeathClassification:
    """
    Quickly classifies if a news article is about violent death.
    
    Args:
        content: Text of the news article
        model_id: Model to use for classification (default: lighter model)
        api_key: Gemini API key (optional, uses GEMINI_API_KEY env var if not provided)
    
    Returns:
        ViolentDeathClassification with is_violent_death, confidence, and reasoning
    """
    # Use provided key or global
    key = api_key or GEMINI_API_KEY
    if not key:
        raise ValueError("GEMINI_API_KEY not provided")
    
    # Create client for the selection model
    classifier_client = instructor.from_provider(
        f"google/{model_id}",
        api_key=key
    )
    
    system_prompt = """
    Voc√™ √© um classificador de not√≠cias. Sua √∫nica tarefa √© determinar se uma not√≠cia 
    trata de uma ou mais MORTES VIOLENTAS (homic√≠dios, assassinatos, execu√ß√µes).
    
    CLASSIFIQUE COMO MORTE VIOLENTA (is_violent_death = true):
    - Pessoa morta por arma de fogo
    - Pessoa morta por arma branca
    - Corpo encontrado com sinais de viol√™ncia
    - Morte em opera√ß√£o policial
    - Morte em confronto entre fac√ß√µes/criminosos
    - Feminic√≠dio, latroc√≠nio, homic√≠dio
    
    N√ÉO CLASSIFIQUE COMO MORTE VIOLENTA (is_violent_death = false):
    - Morte natural (doen√ßa, idade)
    - Acidente de tr√¢nsito sem inten√ß√£o criminosa
    - Pessoa desaparecida (sem confirma√ß√£o de morte)
    - Viol√™ncia sem morte (assalto, agress√£o sem √≥bito)
    - Not√≠cias sobre pol√≠ticas de seguran√ßa ou preven√ß√£o
    - Refer√™ncias a mortes passadas apenas como contexto hist√≥rico
    
    Seja objetivo e baseie-se apenas no texto fornecido.
    """
    
    result = classifier_client.create(
        response_model=ViolentDeathClassification,
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": f"Classifique esta not√≠cia:\n\n{content}"}
        ],
        max_retries=2
    )
    
    return result

print("Classifier ready! Using model:", SELECTION_MODEL)


In [None]:
# Test the classifier with a few examples

# Pick some source IDs to test
test_ids = [133, 1509, 57]  # Known violent death articles

print("=" * 80)
print("TESTING VIOLENT DEATH CLASSIFIER")
print("=" * 80)

for source_id in test_ids:
    content = dfs['source'].loc[dfs['source']['id'] == source_id, 'content'].iloc[0]
    
    print(f"\n--- Source ID: {source_id} ---")
    print(f"Content preview: {content[:200]}...")
    print()
    
    result = classify_violent_death(content)
    
    print(f"üîç Is Violent Death: {result.is_violent_death}")
    print(f"üìä Confidence: {result.confidence}")
    print(f"üí≠ Reasoning: {result.reasoning}")
    print("-" * 40)


In [None]:
# Batch test on a sample of sources
# Let's classify a random sample and see the distribution

import random

# Get a sample of sources
sample_size = 10
all_source_ids = dfs['source']['id'].tolist()
sample_ids = random.sample(all_source_ids, min(sample_size, len(all_source_ids)))

results = []

print(f"Classifying {len(sample_ids)} random sources...\n")

for source_id in sample_ids:
    try:
        content = dfs['source'].loc[dfs['source']['id'] == source_id, 'content'].iloc[0]
        if not content or len(content) < 50:
            continue
            
        result = classify_violent_death(content)
        results.append({
            'source_id': source_id,
            'is_violent_death': result.is_violent_death,
            'confidence': result.confidence,
            'reasoning': result.reasoning,
            'content_preview': content[:100] + "..."
        })
        
        status = "‚úÖ VIOLENT DEATH" if result.is_violent_death else "‚ùå NOT VIOLENT DEATH"
        print(f"[{source_id}] {status} ({result.confidence})")
        
    except Exception as e:
        print(f"[{source_id}] Error: {e}")

# Summary
violent_count = sum(1 for r in results if r['is_violent_death'])
print(f"\n{'='*40}")
print(f"SUMMARY: {violent_count}/{len(results)} classified as violent death")
print(f"{'='*40}")


In [None]:
# View results as DataFrame
results_df = pd.DataFrame(results)
results_df
