In [5]:
!pip install PyMuPDF --quiet

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.0/20.0 MB[0m [31m40.8 MB/s[0m eta [36m0:00:00[0m
[?25h

In [6]:
# Import PyMuPDF library you've just installed (`fitz`) to work with PDF files
import fitz

In [7]:
#You can modify the filename below with any PDF path you upload
pdf_path = "/content/nos-gen-ai-hackathon/raw_data/document_to_anonymize.pdf"

In [8]:
# Define a function to extract all text from a PDF file. It reads every page and returns the combined text.

def extract_text_from_pdf(path: str) -> str:
    """
      Extracts text content from all pages of a PDF file.

      Parameters:
          path (str): The file path to the PDF document.

      Returns:
          str: The extracted text from the entire PDF.
    """
    text = ""
    with fitz.open(path) as doc:
        for page in doc:
            text += page.get_text()
    return text

In [9]:
#Defines a function to extract all the special characters in the text, in order to have a raw version of the text

import unicodedata
import re

def remove_all_special_characters(text: str) -> str:
    """
    Normalizes and cleans a text string by removing accents, punctuation, and special characters.

    Steps:
        1. Converts accented characters to their ASCII equivalents.
        2. Removes all characters except letters, numbers, and spaces.
        3. Collapses multiple spaces into a single space.

    Parameters:
        text (str): The input string to be cleaned.

    Returns:
        str: The cleaned and normalized string.
    """
    text = unicodedata.normalize("NFD", text)
    text = text.encode("ascii", "ignore").decode("utf-8")

    text = re.sub(r"[^a-zA-Z0-9\s]", "", text)
    text = re.sub(r"\s+", " ", text)

    return text.strip()

In [10]:
# 🚀 Run this function to extract the text on your chosen PDF!

raw_text = extract_text_from_pdf(pdf_path)

In [11]:

# 🚀 Run this function to remove all the special characters from the texrt you've extracted in the step before!

raw_text_cleaned = remove_all_special_characters(raw_text)

In [12]:
txt_path = pdf_path.replace(".pdf", ".txt")
with open(txt_path, "w", encoding="utf-8") as f:
    f.write(raw_text_cleaned)

print(f"✅ Text extracted and saved to: {txt_path}")

✅ Text extracted and saved to: /content/nos-gen-ai-hackathon/raw_data/document_to_anonymize.txt


In [13]:
print("\n--- Preview of Extracted Text ---\n")
print(raw_text_cleaned)


--- Preview of Extracted Text ---

Relatorio de Admissao Centro Medico Lisboa Data 15 de abril de 2025 Referencia ADM20250415089 Informacoes do Paciente Nome Maria Conceicao Oliveira Santos Data de Nascimento 12031978 Sexo Feminino NIF 097865413 Cartao de Cidadao 123456789ZX0 Morada Rua das Flores 123 Apt 45 Sacavem Lisboa Telefone 351 912 345 678 Email mariasantosemailpessoalpt Numero da Seguranca Social 11223344556 Historico Medico A paciente Maria Santos mulher caucasiana de 47 anos compareceu a consulta relatando dores abdominais intensas Tem historico de hipertensao e diabetes tipo 2 diagnosticada ha 5 anos E HIV positivo desde 2018 atualmente com carga viral indetectavel gracas ao tratamento com antirretrovirais A paciente relatou que sua familia tem historico de cancro da mama mae falecida aos 52 anos e doenca cardiaca pai e avo paterno Exames geneticos realizados em 2022 indicaram predisposicao ao cancro de mama mutacao BRCA1 positiva Informacoes Sociais e Comportamentais Esta

In [25]:
def processar_ficheiro(nome_ficheiro):
    try:
        # Abrir o arquivo em modo leitura
        with open(nome_ficheiro, 'r') as f:
            # Ler o conteúdo do arquivo
            conteudo = f.read()
            # Fazer algo com o conteúdo (exemplo: imprimir)
            return conteudo
    except FileNotFoundError:
        print(f"O arquivo '{nome_ficheiro}' não foi encontrado.")
    except Exception as e:
        print(f"Ocorreu um erro: {e}")

# Chamar a função com o nome do ficheiro
file = processar_ficheiro('/content/nos-gen-ai-hackathon/raw_data/document_to_anonymize.txt')

In [29]:
import requests

# Replace this with your actual API key
API_KEY = "AIzaSyDW2cfHZQQZtNkCn5PKa_Uw1ZbsgBTd3B8"
API_URL = f"https://generativelanguage.googleapis.com/v1beta/models/gemma-3-12b-it:generateContent?key={API_KEY}"

def generate_content(prompt_text: str, temperature: float) -> dict:
    """Generates content based on the given prompt text and temperature.

    Args:
        prompt_text (str): The text prompt to generate content from.
        temperature (float): The temperature parameter for controlling randomness.
    """

    headers = {
        "Content-Type": "application/json"
    }

    body = {
        "contents": [
            {
                "parts": [
                    {"text": prompt_text}
                ]
            }
        ],
        "generationConfig": {
            "temperature": temperature
        }
    }

    response = requests.post(API_URL, headers=headers, json=body)

    return response.json()

# Example usage
prompt = "Pega nas informações sensíveis do seguinte texto e substitui cada uma por '*':" + file
output = generate_content(prompt, 0.0)
# Get only the response text
print(output)
response_text = output['candidates'][0]['content']['parts'][0]['text']

print(response_text)

{'candidates': [{'content': {'parts': [{'text': 'Relatório de Admissão Centro Médico Lisboa Data 15 de abril de 2025 Referência ADM20250415089 Informações do Paciente Nome * Data de Nascimento * Sexo Feminino NIF * Cartão de Cidadão * Morada Rua das Flores 123 Apt 45 Sacavem Lisboa Telefone * Email ******* Número da Segurança Social * Histórico Médico A paciente * mulher caucasiana de 47 anos compareceu a consulta relatando dores abdominais intensas Tem histórico de hipertensão e diabetes tipo 2 diagnosticada há 5 anos E HIV positivo desde 2018 atualmente com carga viral indetectável graças ao tratamento com antirretrovirais A paciente relatou que sua família tem histórico de cancro da mama mãe falecida aos 52 anos e doença cardíaca pai e avô paterno Exames genéticos realizados em 2022 indicaram predisposição ao cancro de mama mutação BRCA1 positiva Informações Sociais e Comportamentais Estado civil Divorciada Filhos 2 Joao 15 anos e Ana 12 anos Religião Católica praticante Ocupação Pr