In [30]:
import requests
import pandas as pd
import random
import logging
from langchain import PromptTemplate, LLMChain
from langchain.llms import Ollama
from langchain.text_splitter import CharacterTextSplitter
from datetime import datetime, timedelta

text_splitter = CharacterTextSplitter(separator=" ", chunk_size=1000, chunk_overlap=200)  # smaller chunks
# Set up logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# Initialize the Ollama LLM through LangChain
llm = Ollama(model="llama3")

territories = [
    {"id": 4302105, "name": "Bento Gonçalves", "state": "RS"},
    {"id": 4303103, "name": "Cachoeira do Sul", "state": "RS"},
    {"id": 4303509, "name": "Camaquã", "state": "RS"},
    {"id": 4303905, "name": "Candelária", "state": "RS"},
    {"id": 4305108, "name": "Caxias do Sul", "state": "RS"},
    {"id": 4305207, "name": "Cerrito", "state": "RS"},
    {"id": 4306403, "name": "Dois Irmãos", "state": "RS"},
    {"id": 4307609, "name": "Estrela", "state": "RS"},
    {"id": 4309209, "name": "Gravataí", "state": "RS"},
    {"id": 4309605, "name": "Horizontina", "state": "RS"},
    {"id": 4311809, "name": "Marau", "state": "RS"},
    {"id": 4313904, "name": "Panambi", "state": "RS"},
    {"id": 4314902, "name": "Porto Alegre", "state": "RS"},
    {"id": 4316758, "name": "Santa Clara do Sul", "state": "RS"},
    {"id": 4317202, "name": "Santa Rosa", "state": "RS"},
    {"id": 4320800, "name": "Sobradinho", "state": "RS"},
    {"id": 4318705, "name": "São Francisco de Paula", "state": "RS"},
    {"id": 4318432, "name": "São João do Polêsine", "state": "RS"},
    {"id": 4321709, "name": "Três Arroios", "state": "RS"},
    {"id": 4322806, "name": "Vera Cruz", "state": "RS"},
]

# Step 1: Generate a random date between January 1, 2022, and August 31, 2024
def random_date(start_date, end_date):
    """Generate a random date between start_date and end_date."""
    random_days = random.randint(0, (end_date - start_date).days)
    return start_date + timedelta(days=random_days)

def random_date_range(start_year=2022, end_date="2024-08-31"):
    """Generate a valid random date range with start date before end date."""
    start_date = datetime(start_year, 1, 1)
    end_date = datetime.strptime(end_date, "%Y-%m-%d")
    random_start = random_date(start_date, end_date)
    random_end = random_date(random_start, end_date)
    return random_start.strftime("%Y-%m-%d"), random_end.strftime("%Y-%m-%d")

# Define the classification labels
class ClassificationEnum:
    NOT_FACT = "not-fact"
    FALSE = "false"
    MISLEADING = "misleading"
    UNSUSTAINABLE = "unsustainable"
    UNVERIFIABLE = "unverifiable"
    EXAGGERATED = "exaggerated"
    ARGUABLE = "arguable"
    TRUSTWORTHY_BUT = "trustworthy-but"
    TRUSTWORTHY = "trustworthy"

classification_labels = [
    ClassificationEnum.FALSE,
    ClassificationEnum.MISLEADING,
    ClassificationEnum.EXAGGERATED,
    ClassificationEnum.TRUSTWORTHY_BUT,
    ClassificationEnum.TRUSTWORTHY,
]

# Step 1: Function to query the API with territory_ids included
def query_gazettes(query=None, since=None, until=None, offset=0, size=10, territory_ids=None):
    url = "https://queridodiario.ok.org.br/api/gazettes"
    params = {
        "querystring": query,
        "published_since": since,
        "published_until": until,
        "offset": offset,
        "size": size,
        "territory_ids": territory_ids
    }
    
    logging.info(f"Querying gazettes with params: {params}")
    
    response = requests.get(url, params=params)
    
    if response.status_code == 200:
        logging.info("Gazettes retrieved successfully.")
        return response.json()
    else:
        logging.error(f"Failed to retrieve gazettes. Status code: {response.status_code}")
        return None

# Step 2: Function to download and read the text from gazette
def download_gazette_text(txt_url):
    logging.info(f"Downloading text from: {txt_url}")
    
    response = requests.get(txt_url)
    
    if response.status_code == 200:
        logging.info("Text downloaded successfully.")
        return response.text
    else:
        logging.error(f"Failed to download text from {txt_url}. Status code: {response.status_code}")
        return None

# Step 3: Function to use LLM for claim generation using LangChain
def generate_claims_from_gazette(text, num_claims=5):
    logging.info(f"Gerando {num_claims} afirmações a partir do texto do diário oficial.")
    
    # Define a prompt template in Portuguese
    prompt_template = PromptTemplate(
        input_variables=["text", "num_claims"],
        template=(
            """
            Extraia {num_claims} afirmações factuais potenciais do seguinte texto de um diário oficial municipal:\n\n{text}\n\n
            Apenas coloque no output as claims sem enumerar ou adicionar comentário sobre. O texto deve ser sempre em português.
            """
        ),
    )
    
    # Create an LLMChain
    chain = LLMChain(llm=llm, prompt=prompt_template)

    # Run the chain to generate claims
    claims_output = chain.run({"text": text, "num_claims": num_claims})
    
    # Log the output from the LLM
    logging.info(f"Afirmações geradas pelo LLM: {claims_output}")
    
    # Split the output into individual claims
    claims = [claim.strip() for claim in claims_output.split('\n') if claim.strip()]
    
    return claims


# Step 4: Generate classified claims with the new classification labels using LangChain
def generate_classified_claims(claims, metadata):
    logging.info("Gerando classificações para as afirmações.")
    
    dataset = []
    for claim in claims:
        classification = random.choice(classification_labels)
        
        # Optionally, modify the claim slightly based on the classification
        if classification != ClassificationEnum.TRUSTWORTHY:
            logging.info(f"Criando uma versão modificada da afirmação com a classificação: {classification}")
            
            prompt_template = PromptTemplate(
                input_variables=["claim", "classification"],
                template="""
                Você é um especialiasta em desinformação e seu papel é gerar um dataset sintético para treinar uma LLM checadora de fatos.
                Você vai receber informações de diários oficiais, encontrar afirmações e modificá-las para o dataset incorporando a classificação desejada.
                Sempre use a língua portuguesa para respostas.
                Não explique ou adicione qualquer formatção ou texto que não seja da afirmação modificada.
                Não escreva a afirmação original e como se transformou na modificada.
                
                <tarefa>Dada a afirmação: \"{claim}\", modifique-a para refletir a classificação \"{classification}\".</tarefa>
                """,
            )
            chain = LLMChain(llm=llm, prompt=prompt_template)
            claim = chain.run({"claim": claim, "classification": classification}).strip()
            logging.info(f"Afirmação modificada gerada: {claim}")
        
        # Combine the claim and classification with the metadata
        claim_data = {
            "claim": claim,
            "classification": classification,
            **metadata  # Add all metadata fields
        }
        dataset.append(claim_data)
    
    logging.info(f"Conjunto de dados gerado: {dataset}")
    return dataset

# Main function to create the synthetic dataset
def create_synthetic_dataset(query=None, territory=None, dates=None, num_gazettes=3, num_claims_per_gazette=2, num_random_chunks=10):
    logging.info("Starting synthetic dataset creation.")
    
    all_classified_claims = []
    
    for i in range(num_gazettes):
    # Generate random territories and dates
        random_date_range_values = random_date_range()
        dates = {"since": random_date_range_values[0], "until": random_date_range_values[1]}
        random_since = dates['since']
        random_until = dates['until']
    
        gazette_data = query_gazettes(since=random_since, until=random_until, size=num_gazettes, territory_ids=[territory["id"]])
        print(gazette_data)
        if gazette_data and 'gazettes' in gazette_data:
            total_gazettes = len(gazette_data['gazettes'])
            logging.info(f"Total gazettes to process: {total_gazettes}")
            
            all_classified_claims = []
            
            for idx, gazette in enumerate(gazette_data['gazettes'], start=1):
                txt_url = gazette.get('txt_url')
                gazette_url = gazette.get('url')
                date = gazette.get('date')
                territory_id = gazette.get('territory_id')
                territory_name = gazette.get('territory_name')
                state_code = gazette.get('state_code')
                is_extra_edition = gazette.get('is_extra_edition')
                
                if txt_url:
                    logging.info(f"Processing gazette {idx}/{total_gazettes}: {txt_url}")
                    
                    text = download_gazette_text(txt_url)
                    if text:
                        chunks = text_splitter.split_text(text)
                        logging.info(f"Text split into {len(chunks)} chunks for gazette {idx}.")
                        
                        # Select random chunks
                        selected_chunks = random.sample(chunks, min(num_random_chunks, len(chunks)))
                        
                        for chunk in selected_chunks:
                            claims = generate_claims_from_gazette(chunk, num_claims=num_claims_per_gazette)
                            
                            # Create metadata dictionary to pass along with the claims
                            metadata = {
                                "query": query,
                                "since": random_since,
                                "until": random_until,
                                "territory_id": territory_id,
                                "territory_name": territory_name,
                                "state_code": state_code,
                                "gazette_date": date,
                                "gazette_url": gazette_url,
                                "txt_url": txt_url,
                                "is_extra_edition": is_extra_edition
                            }
                            
                            classified_claims = generate_classified_claims(claims, metadata)
                            all_classified_claims.extend(classified_claims)
                
                logging.info(f"Finished processing gazette {idx}/{total_gazettes}")
            
            logging.info("Synthetic dataset created successfully.")
            return pd.DataFrame(all_classified_claims)
        else:
            logging.error("No data retrieved from the API.")
            return None

# Step 6: Generate and save the dataset
if __name__ == "__main__":
    logging.info("Running the synthetic dataset creation script.")
    
    all_synthetic_data = []  # List to accumulate all data

    for territory in territories:
        synthetic_dataset = create_synthetic_dataset(territory=territory, num_gazettes=1, num_claims_per_gazette=1, num_random_chunks=2)
        if synthetic_dataset is not None:
            all_synthetic_data.append(synthetic_dataset)  # Append the DataFrame to the list
            logging.info(f"Synthetic dataset for {territory['name']} created and appended.")
        else:
            logging.error(f"Failed to create synthetic dataset for {territory['name']}.")
    
    if all_synthetic_data is not None:
        combined_dataset = pd.concat(all_synthetic_data, ignore_index=True)
        combined_dataset.to_csv("synthetic_gazette_claims.csv", index=False)
        logging.info("Synthetic dataset created and saved as 'synthetic_gazette_claims.csv'.")
    else:
        logging.error("Failed to create synthetic dataset.")

2024-08-31 19:22:28,827 - INFO - Running the synthetic dataset creation script.
2024-08-31 19:22:28,828 - INFO - Starting synthetic dataset creation.
2024-08-31 19:22:28,829 - INFO - Querying gazettes with params: {'querystring': None, 'published_since': '2024-04-24', 'published_until': '2024-07-27', 'offset': 0, 'size': 1, 'territory_ids': [4302105]}
2024-08-31 19:22:29,262 - INFO - Gazettes retrieved successfully.
2024-08-31 19:22:29,263 - INFO - Total gazettes to process: 1
2024-08-31 19:22:29,263 - INFO - Processing gazette 1/1: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4302105/2024-05-29/8d9539d419d7bf7f0f0da7ed00ced1964fe50e41.txt
2024-08-31 19:22:29,263 - INFO - Downloading text from: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4302105/2024-05-29/8d9539d419d7bf7f0f0da7ed00ced1964fe50e41.txt


{'total_gazettes': 100, 'gazettes': [{'territory_id': '4302105', 'date': '2024-05-29', 'scraped_at': '2024-05-30T03:29:40.751442', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4302105/2024-05-29/8d9539d419d7bf7f0f0da7ed00ced1964fe50e41.pdf', 'territory_name': 'Bento Gonçalves', 'state_code': 'RS', 'excerpts': [], 'edition': '2481', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4302105/2024-05-29/8d9539d419d7bf7f0f0da7ed00ced1964fe50e41.txt'}]}


2024-08-31 19:22:30,330 - INFO - Text downloaded successfully.
2024-08-31 19:22:30,387 - INFO - Text split into 283 chunks for gazette 1.
2024-08-31 19:22:30,387 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:22:33,122 - INFO - Afirmações geradas pelo LLM: 1. Transferências da União e de suas Entidades: 2.872.273,00
Transferências dos Estados e do Distrito Federal e de suas Entidades: 7.410.000,00
Transferências de Instituições Privadas: 1.550.001,00
2024-08-31 19:22:33,122 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:22:33,124 - INFO - Criando uma versão modificada da afirmação com a classificação: exaggerated
2024-08-31 19:22:33,543 - INFO - Afirmação modificada gerada: "Trezentas milhões de reais transferidos pela União e suas entidades em apenas um ano!"
2024-08-31 19:22:33,544 - INFO - Criando uma versão modificada da afirmação com a classificação: trustworthy-but
2024-08-31 19:22:34,280 - INFO - Afirmação modificada gerada: "

{'total_gazettes': 0, 'gazettes': []}


2024-08-31 19:22:45,156 - INFO - Gazettes retrieved successfully.
2024-08-31 19:22:45,157 - INFO - Total gazettes to process: 1
2024-08-31 19:22:45,157 - INFO - Processing gazette 1/1: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4303509/2023-09-25/1d8bd9aca86e49edf6ef7c26adb23baec6264170.txt
2024-08-31 19:22:45,157 - INFO - Downloading text from: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4303509/2023-09-25/1d8bd9aca86e49edf6ef7c26adb23baec6264170.txt


{'total_gazettes': 1, 'gazettes': [{'territory_id': '4303509', 'date': '2023-09-25', 'scraped_at': '2023-11-18T05:03:57.143594', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4303509/2023-09-25/1d8bd9aca86e49edf6ef7c26adb23baec6264170.pdf', 'territory_name': 'Camaquã', 'state_code': 'RS', 'excerpts': [], 'edition': '333', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4303509/2023-09-25/1d8bd9aca86e49edf6ef7c26adb23baec6264170.txt'}]}


2024-08-31 19:22:45,399 - INFO - Text downloaded successfully.
2024-08-31 19:22:45,401 - INFO - Text split into 1 chunks for gazette 1.
2024-08-31 19:22:45,401 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:22:46,041 - INFO - Afirmações geradas pelo LLM: O estado do Rio Grande do Sul é a entidadidade governamental mais alta ao qual o município de Camaquã está subordinado.
2024-08-31 19:22:46,042 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:22:46,042 - INFO - Criando uma versão modificada da afirmação com a classificação: trustworthy-but
2024-08-31 19:22:46,750 - INFO - Afirmação modificada gerada: "O estado do Rio Grande do Sul é a entidade governamental mais importante em relação ao município de Camaquã, embora sua subordinação seja objeto de debates e discussões."
2024-08-31 19:22:46,751 - INFO - Conjunto de dados gerado: [{'claim': '"O estado do Rio Grande do Sul é a entidade governamental mais importante em relação ao município

{'total_gazettes': 0, 'gazettes': []}


2024-08-31 19:22:47,508 - INFO - Gazettes retrieved successfully.
2024-08-31 19:22:47,509 - INFO - Total gazettes to process: 1
2024-08-31 19:22:47,509 - INFO - Processing gazette 1/1: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4305108/2022-05-05/adbffd5451484fbed842b0cf0ba7b8af0197a22f.txt
2024-08-31 19:22:47,510 - INFO - Downloading text from: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4305108/2022-05-05/adbffd5451484fbed842b0cf0ba7b8af0197a22f.txt


{'total_gazettes': 31, 'gazettes': [{'territory_id': '4305108', 'date': '2022-05-05', 'scraped_at': '2022-11-22T13:39:01.905517', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4305108/2022-05-05/adbffd5451484fbed842b0cf0ba7b8af0197a22f.pdf', 'territory_name': 'Caxias do Sul', 'state_code': 'RS', 'excerpts': [], 'edition': '3047', 'is_extra_edition': True, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4305108/2022-05-05/adbffd5451484fbed842b0cf0ba7b8af0197a22f.txt'}]}


2024-08-31 19:22:47,744 - INFO - Text downloaded successfully.
2024-08-31 19:22:47,761 - INFO - Text split into 6 chunks for gazette 1.
2024-08-31 19:22:47,761 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:22:49,057 - INFO - Afirmações geradas pelo LLM: A nova data de recebimento dos documentos será até 23 de maio de 2022, às 16h.

O edital e retificação estão disponíveis na Central de Licitações – CENLIC ou no site www.caxias.rs.gov.br.

Maiores informações pelo fone (54) 32 18-6 000.
2024-08-31 19:22:49,058 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:22:49,058 - INFO - Criando uma versão modificada da afirmação com a classificação: misleading
2024-08-31 19:22:49,883 - INFO - Afirmação modificada gerada: "A data de recebimento dos documentos foi alterada novamente e agora os prazos são cada vez mais curtos. A nova data está prevista para os próximos 15 dias, sem precisar dizer qual é o exato dia e hora."
2024-08-31 19:22:49,884 

{'total_gazettes': 0, 'gazettes': []}


2024-08-31 19:22:52,497 - INFO - Gazettes retrieved successfully.
2024-08-31 19:22:52,498 - INFO - Total gazettes to process: 1
2024-08-31 19:22:52,498 - INFO - Processing gazette 1/1: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4306403/2023-05-22/44b71d024d8f5fc5dd786adda7c8a27f0a5c8ecf.txt
2024-08-31 19:22:52,499 - INFO - Downloading text from: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4306403/2023-05-22/44b71d024d8f5fc5dd786adda7c8a27f0a5c8ecf.txt


{'total_gazettes': 115, 'gazettes': [{'territory_id': '4306403', 'date': '2023-05-22', 'scraped_at': '2024-05-16T19:49:15.450959', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4306403/2023-05-22/44b71d024d8f5fc5dd786adda7c8a27f0a5c8ecf.pdf', 'territory_name': 'Dois Irmãos', 'state_code': 'RS', 'excerpts': [], 'edition': '663', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4306403/2023-05-22/44b71d024d8f5fc5dd786adda7c8a27f0a5c8ecf.txt'}]}


2024-08-31 19:22:52,720 - INFO - Text downloaded successfully.
2024-08-31 19:22:52,734 - INFO - Text split into 3 chunks for gazette 1.
2024-08-31 19:22:52,735 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:22:53,974 - INFO - Afirmações geradas pelo LLM: Aquisição de brinquedos pedagógicos.
Abertura dia 05/06/2023 as 9 horas.
O edital encontra-se à disposição no site do Município e no www.portaldecompraspublicas.com.br.
Informações, pelo fone (51)35-64-88-00.
2024-08-31 19:22:53,974 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:22:53,975 - INFO - Criando uma versão modificada da afirmação com a classificação: trustworthy-but
2024-08-31 19:22:54,692 - INFO - Afirmação modificada gerada: "Aquisição de brinquedos educacionais é um esforço público visando à melhoria da aprendizagem infantil, embora sua eficácia seja ainda objeto de estudos e debates."
2024-08-31 19:22:54,692 - INFO - Criando uma versão modificada da afirmação com a clas

{'total_gazettes': 0, 'gazettes': []}


2024-08-31 19:22:58,286 - INFO - Gazettes retrieved successfully.
2024-08-31 19:22:58,287 - INFO - Total gazettes to process: 1
2024-08-31 19:22:58,287 - INFO - Processing gazette 1/1: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4309209/2023-12-27/a3ddf3c1a1c6e0a055225855403d259b1e9ab4ca.txt
2024-08-31 19:22:58,288 - INFO - Downloading text from: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4309209/2023-12-27/a3ddf3c1a1c6e0a055225855403d259b1e9ab4ca.txt


{'total_gazettes': 56, 'gazettes': [{'territory_id': '4309209', 'date': '2023-12-27', 'scraped_at': '2024-05-16T21:43:14.342362', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4309209/2023-12-27/a3ddf3c1a1c6e0a055225855403d259b1e9ab4ca.pdf', 'territory_name': 'Gravataí', 'state_code': 'RS', 'excerpts': [], 'edition': '2150', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4309209/2023-12-27/a3ddf3c1a1c6e0a055225855403d259b1e9ab4ca.txt'}]}


2024-08-31 19:22:58,541 - INFO - Text downloaded successfully.
2024-08-31 19:22:58,564 - INFO - Text split into 64 chunks for gazette 1.
2024-08-31 19:22:58,565 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:23:01,329 - INFO - Afirmações geradas pelo LLM: Os seguintes são afirmações factuais potenciais extraídos do texto:

* Portaria 6.149 foi emitida em 11 de outubro de 2023.
* A servidora DAISY QUARTIERO TRAJANO DE SOUZA tem matrícula nº 14713-1.
* O Processo Digital nº 128.050/20 foi relacionado à concessão do saldo de férias regulamentares.
* A Portaria 6.149 retifica a Portaria nº 6.615/2023.
* O Decreto nº 15.872/2017 conferiu atribuições ao Secretário Municipal da Administração, Modernização e Transparência.
* O Processo nº 164.831/20 foi relacionado à solicitação da concessão do saldo de férias regulamentares.
2024-08-31 19:23:01,330 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:23:01,330 - INFO - Criando uma versão modifica

{'total_gazettes': 218, 'gazettes': [{'territory_id': '4309605', 'date': '2023-11-24', 'scraped_at': '2024-05-16T22:34:17.948260', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4309605/2023-11-24/9414f7ee1ef98c50e5d7973265ba263fabe60bb1.pdf', 'territory_name': 'Horizontina', 'state_code': 'RS', 'excerpts': [], 'edition': '1781', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4309605/2023-11-24/9414f7ee1ef98c50e5d7973265ba263fabe60bb1.txt'}]}


2024-08-31 19:23:07,252 - INFO - Text downloaded successfully.
2024-08-31 19:23:07,266 - INFO - Text split into 8 chunks for gazette 1.
2024-08-31 19:23:07,266 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:23:08,458 - INFO - Afirmações geradas pelo LLM: Aquisição de livros produzidos pelos alunos da rede municipal que participam do projeto “Jovens Autores” nas oficinas literárias, por R$ 2.700,00.
Aquisição de colchões para Educação Infantil, por R$ 10.800,00.
2024-08-31 19:23:08,459 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:23:08,459 - INFO - Criando uma versão modificada da afirmação com a classificação: false
2024-08-31 19:23:09,357 - INFO - Afirmação modificada gerada: Aquisição de livros não produzidos pelos alunos da rede municipal que participam do projeto “Jovens Autores” nas oficinas literárias, por R$ 2.700,00, e não há registro de compra desse valor em qualquer período.
2024-08-31 19:23:09,358 - INFO - Criando uma ve

{'total_gazettes': 154, 'gazettes': [{'territory_id': '4311809', 'date': '2023-10-16', 'scraped_at': '2024-05-09T09:47:31.050698', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4311809/2023-10-16/58653e0394986b478418a9639308453f8822bf02.pdf', 'territory_name': 'Marau', 'state_code': 'RS', 'excerpts': [], 'edition': '1449', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4311809/2023-10-16/58653e0394986b478418a9639308453f8822bf02.txt'}]}


2024-08-31 19:23:11,634 - INFO - Text downloaded successfully.
2024-08-31 19:23:11,652 - INFO - Text split into 53 chunks for gazette 1.
2024-08-31 19:23:11,653 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:23:12,802 - INFO - Afirmações geradas pelo LLM: As afirmações factuais potenciais são:

* Qualquer candidato que apresente informações e documentos incorretos será eliminado do processo, sem direito a recurso.
* Todos os atos decorrentes desde a inscrição serão anulados em caso de eliminação do candidato.
2024-08-31 19:23:12,803 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:23:12,803 - INFO - Criando uma versão modificada da afirmação com a classificação: misleading
2024-08-31 19:23:13,228 - INFO - Afirmação modificada gerada: "Afirmações que podem ser manipuladas para criar uma visão distorcida da realidade."
2024-08-31 19:23:13,228 - INFO - Criando uma versão modificada da afirmação com a classificação: misleading
2024-08-31 1

{'total_gazettes': 348, 'gazettes': [{'territory_id': '4313904', 'date': '2023-05-15', 'scraped_at': '2024-05-16T22:50:21.023833', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4313904/2023-05-15/b94c6ee5ce03d351259f1b40b9e4c4018a44bc3b.pdf', 'territory_name': 'Panambi', 'state_code': 'RS', 'excerpts': [], 'edition': '476', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4313904/2023-05-15/b94c6ee5ce03d351259f1b40b9e4c4018a44bc3b.txt'}]}


2024-08-31 19:23:18,379 - INFO - Text downloaded successfully.
2024-08-31 19:23:18,388 - INFO - Text split into 4 chunks for gazette 1.
2024-08-31 19:23:18,388 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:23:19,653 - INFO - Afirmações geradas pelo LLM: Registro de preços de desentupimento, limpeza de fossa/posso negro, dedetização e limpeza de caixa de água.

Preço do edital está disponível em www.bll.org.br e www.panambi.atende.net.

Data de abertura: dia 29 de maio 20XX às 14h.
2024-08-31 19:23:19,654 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:23:19,655 - INFO - Criando uma versão modificada da afirmação com a classificação: trustworthy-but
2024-08-31 19:23:20,347 - INFO - Afirmação modificada gerada: "Talvez o preço do edital esteja disponível em www.bll.org.br e www.panambi.atende.net, mas é recomendável verificar as fontes antes de fazer qualquer tipo de inferência."
2024-08-31 19:23:20,347 - INFO - Criando uma versão modi

{'total_gazettes': 168, 'gazettes': [{'territory_id': '4314902', 'date': '2024-04-02', 'scraped_at': '2024-04-03T00:36:10.519967', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4314902/2024-04-02/c11f8d5cfba43a27e283a1547fc850f1ab46d81b.pdf', 'territory_name': 'Porto Alegre', 'state_code': 'RS', 'excerpts': [], 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4314902/2024-04-02/c11f8d5cfba43a27e283a1547fc850f1ab46d81b.txt'}]}


2024-08-31 19:23:25,495 - INFO - Text downloaded successfully.
2024-08-31 19:23:25,534 - INFO - Text split into 201 chunks for gazette 1.
2024-08-31 19:23:25,534 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:23:27,283 - INFO - Afirmações geradas pelo LLM: Extraia as afirmações factuais potenciais:

- VALOR R$ 11.048.224,37.
- VALOR R$ 8.104.463,30.
- Porto Alegre, 1º de abril de 20[24].
- PROCESSO SEI 22.10.000005277-5.
- CONTRATO 22.10.000005277-5.
- PROCESSO 23.10.00[000]8[387]-0.
2024-08-31 19:23:27,283 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:23:27,284 - INFO - Criando uma versão modificada da afirmação com a classificação: false
2024-08-31 19:23:27,695 - INFO - Afirmação modificada gerada: "Não há evidências de que seja possível extraírem afirmações factuais potenciais."
2024-08-31 19:23:27,696 - INFO - Criando uma versão modificada da afirmação com a classificação: exaggerated
2024-08-31 19:23:27,992 - INFO - Afirmação m

{'total_gazettes': 173, 'gazettes': [{'territory_id': '4316758', 'date': '2022-10-18', 'scraped_at': '2024-05-09T10:05:35.180354', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4316758/2022-10-18/ae86d19d5c4b83c50d223a0630683f1f8cfd4fd8.pdf', 'territory_name': 'Santa Clara do Sul', 'state_code': 'RS', 'excerpts': [], 'edition': '1242', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4316758/2022-10-18/ae86d19d5c4b83c50d223a0630683f1f8cfd4fd8.txt'}]}


2024-08-31 19:23:35,747 - INFO - Text downloaded successfully.
2024-08-31 19:23:35,757 - INFO - Text split into 31 chunks for gazette 1.
2024-08-31 19:23:35,757 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:23:37,383 - INFO - Afirmações geradas pelo LLM: * Todas as coordenadas aqui descritas estão georreferenciadas ao Sistema Geodésico Brasileiro, e representam-se no Sistema de Coordenadas Universal de Trabalho (UTM), referenciadas ao Meridiano Central nº 51°00', fuso -22, tendo como datum o SIRGAS 2.000.
* Todos os azimutes e distâncias, área e perímetro foram calculados no plano de projeção UTM.
2024-08-31 19:23:37,384 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:23:37,385 - INFO - Criando uma versão modificada da afirmação com a classificação: trustworthy-but
2024-08-31 19:23:38,755 - INFO - Afirmação modificada gerada: "Coordenadas georreferenciadas ao Sistema Geodésico Brasileiro estão aqui apresentadas, representando-se no S

{'total_gazettes': 227, 'gazettes': [{'territory_id': '4317202', 'date': '2023-08-28', 'scraped_at': '2024-05-16T23:30:35.932900', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4317202/2023-08-28/590bbeca42a26d5dc9bb92963e467b53f17091ff.pdf', 'territory_name': 'Santa Rosa', 'state_code': 'RS', 'excerpts': [], 'edition': '252', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4317202/2023-08-28/590bbeca42a26d5dc9bb92963e467b53f17091ff.txt'}]}


2024-08-31 19:23:49,953 - INFO - Text downloaded successfully.
2024-08-31 19:23:49,972 - INFO - Text split into 24 chunks for gazette 1.
2024-08-31 19:23:49,972 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:23:52,109 - INFO - Afirmações geradas pelo LLM: * Os recursos financeiros do Governo Federal serão repassados através do Ministério de Cultura.
* O valor total da aquisição é de R$ 68.843,10.
* A vigência do contrato é de 25 de agosto de 2023 até 31 de dezembro de 2023.
* A base legal para o contrato é a Lei Federal nº 8.666/1993.
* O contrato foi assinado em 25 de agosto de 2023.
* O objeto do contrato é a aquisição de materiais esportivos diversos para uso no CEU das artes - Centro de Artes e Esportes Unificados.
2024-08-31 19:23:52,110 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:23:52,110 - INFO - Criando uma versão modificada da afirmação com a classificação: misleading
2024-08-31 19:23:52,715 - INFO - Afirmação modificada

{'total_gazettes': 0, 'gazettes': []}


2024-08-31 19:24:00,550 - INFO - Gazettes retrieved successfully.
2024-08-31 19:24:00,551 - INFO - Total gazettes to process: 0
2024-08-31 19:24:00,552 - INFO - Synthetic dataset created successfully.
2024-08-31 19:24:00,553 - INFO - Synthetic dataset for São Francisco de Paula created and appended.
2024-08-31 19:24:00,553 - INFO - Starting synthetic dataset creation.
2024-08-31 19:24:00,553 - INFO - Querying gazettes with params: {'querystring': None, 'published_since': '2023-11-19', 'published_until': '2023-12-04', 'offset': 0, 'size': 1, 'territory_ids': [4318432]}


{'total_gazettes': 0, 'gazettes': []}


2024-08-31 19:24:00,904 - INFO - Gazettes retrieved successfully.
2024-08-31 19:24:00,906 - INFO - Total gazettes to process: 1
2024-08-31 19:24:00,906 - INFO - Processing gazette 1/1: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4318432/2023-11-20/6e5150e85dbaecf2742692fe376c61f99c1a31d5.txt
2024-08-31 19:24:00,907 - INFO - Downloading text from: https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4318432/2023-11-20/6e5150e85dbaecf2742692fe376c61f99c1a31d5.txt


{'total_gazettes': 10, 'gazettes': [{'territory_id': '4318432', 'date': '2023-11-20', 'scraped_at': '2024-05-16T23:12:01.010062', 'url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4318432/2023-11-20/6e5150e85dbaecf2742692fe376c61f99c1a31d5.pdf', 'territory_name': 'São João do Polêsine', 'state_code': 'RS', 'excerpts': [], 'edition': '5', 'is_extra_edition': False, 'txt_url': 'https://querido-diario.nyc3.cdn.digitaloceanspaces.com/4318432/2023-11-20/6e5150e85dbaecf2742692fe376c61f99c1a31d5.txt'}]}


2024-08-31 19:24:01,211 - INFO - Text downloaded successfully.
2024-08-31 19:24:01,239 - INFO - Text split into 65 chunks for gazette 1.
2024-08-31 19:24:01,239 - INFO - Gerando 1 afirmações a partir do texto do diário oficial.
2024-08-31 19:24:02,898 - INFO - Afirmações geradas pelo LLM: Os fatos factuais potenciais do texto são:

MAURO ARAMI FLORES FAVERO é o contratado;
o valor da contratação é de R$ 17.000,00;
o objeto da contratação é a aquisição de uma estátua do Diácono João Luiz Pozzobon;
a estátua será fixada na praça Diácono João Luiz Pozzobon no centro de São João do Polêsine.
2024-08-31 19:24:02,899 - INFO - Gerando classificações para as afirmações.
2024-08-31 19:24:02,900 - INFO - Criando uma versão modificada da afirmação com a classificação: misleading
2024-08-31 19:24:03,550 - INFO - Afirmação modificada gerada: "Os fatos apresentados podem ser facilmente manipulados para sustentar uma visão parcial e enganadora sobre o assunto, levando a conclusões inverificáveis."
20

{'total_gazettes': 0, 'gazettes': []}


2024-08-31 19:24:12,631 - INFO - Gazettes retrieved successfully.
2024-08-31 19:24:12,631 - INFO - Total gazettes to process: 0
2024-08-31 19:24:12,631 - INFO - Synthetic dataset created successfully.
2024-08-31 19:24:12,632 - INFO - Synthetic dataset for Vera Cruz created and appended.
2024-08-31 19:24:12,636 - INFO - Synthetic dataset created and saved as 'synthetic_gazette_claims.csv'.


{'total_gazettes': 0, 'gazettes': []}
