In [22]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
import pandas as pd


#### Teste de modelo

In [5]:
# Carregar modelo e tokenizer pré-treinados para NER
model_name = "vabatista/geological-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# Criar pipeline de NER
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")

# Texto de exemplo
# text = "The Santos Basin contains sandstone reservoirs and salt diapirs."
text = "A Bacia de Santos contem reservatorios de arenito e diapiros de sal."

# Rodar o NER
entities = ner_pipeline(text)

# Mostrar entidades encontradas
for entity in entities:
    print(f"{entity['word']} → {entity['entity_group']} ({entity['score']:.2f})")


Device set to use cpu
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Bacia de Santos → BACIA (1.00)
are → ROCHA (1.00)
##ni → ROCHA (0.98)


In [6]:
# Carregar modelo e tokenizer pré-treinados para NER
model_name = "vabatista/geological-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# Criar pipeline de NER
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")

# Texto de exemplo
text = "A Bacia de Campos é conhecida por sua produção de petróleo e extensos reservatórios de carbonato. Na região, fluxos de basalto recobrem sequências sedimentares, e falhas são comuns devido à atividade tectônica. Próxima dali, a Bacia do Espírito Santo também apresenta sistemas de turbiditos e formações de folhelho. Pesquisadores também identificaram corpos intrusivos e diapiros de sal nessas áreas."

# Rodar o NER
entities = ner_pipeline(text)

# Mostrar entidades encontradas
for entity in entities:
    print(f"{entity['word']} → {entity['entity_group']} ({entity['score']:.2f})")
    
# letras : t, s, 

Device set to use cpu
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Bacia de Campos → BACIA (1.00)
petróleo → FLUIDODATERRA_i (0.99)
carb → ROCHA (0.99)
##onato → ROCHA (0.94)
bas → ROCHA (1.00)
##alto → ROCHA (0.98)
falhas → ESTRUTURA_FÍSICA (1.00)
Bacia do Espírito Santo → BACIA (1.00)
folhe → ROCHA (1.00)
##lho → ROCHA (0.84)


#### Teste de transcrição

In [7]:
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

# Carregar modelo e tokenizer
model_name = "vabatista/geological-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# Pipeline
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")

Device set to use cpu


In [20]:
with open("./transcriptions/whisper-audio-imagem1.txt", "r", encoding="utf-8") as arquivo:
    texto = arquivo.read()
    
print(texto)

Essa imagem mostra a porção central da elevação do Rio Grande. Uma estrutura que fica localizada no Atlântico Sul é na sua porção ao este e está geologicamente relacionada à abertura do seu Atlântico Sul e teria a sua principal hipótese de origem a pluma, tristeão da cunha e gos. Em essa estrutura ela teria na porção ao este, uma a elevação do Rio Grande e uma estrutura correlata na porção leste que acadeia valos. Essas duas estruturas são cadeias de montanha, montanha e submarinas que estão relacionadas a este hotspot, essa pluma manteiga possivelmente. E as duas estruturas seriam correlatas, estariam relacionadas com a movimentação das placas tectônicas a medida que o océano foi abrindo. E esse hotspot, esse ponto fixo do manto que emitia esse magma, ele teria formado essas estruturas. Essa parte é mostrando a localização da elevação do Rio Grande na Atlântico Sul e a parte B é um zoom mostrando a porção central dessa montanha submarina a elevação do Rio Grande e também as figuras mo

In [None]:
# Texto de exemplo
# text = "The Santos Basin contains sandstone reservoirs and salt diapirs."
with open("./transcriptions/whisper-audio-imagem1.txt", "r", encoding="utf-8") as arquivo:
    text = arquivo.read()

# Rodar o NER
entities = ner_pipeline(text)

# Mostrar entidades encontradas
for entity in entities:
    print(f"{entity['word']} → {entity['entity_group']} ({entity['score']:.2f})")


Device set to use cpu
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


estrutura → ESTRUTURA_FÍSICA (1.00)
triste → ESTRUTURA_FÍSICA (0.59)
estrutura → ESTRUTURA_FÍSICA (0.99)
estrutura → ESTRUTURA_FÍSICA (0.99)
estruturas → ESTRUTURA_FÍSICA (0.99)
estruturas → ESTRUTURA_FÍSICA (0.99)
mag → ROCHA (0.94)
estruturas → ESTRUTURA_FÍSICA (0.99)
fra → ESTRUTURA_FÍSICA (0.99)
fra → ESTRUTURA_FÍSICA (0.99)
fra → ESTRUTURA_FÍSICA (0.97)
fra → ESTRUTURA_FÍSICA (0.99)
fra → ESTRUTURA_FÍSICA (0.99)


In [None]:
# Carregar texto
with open("./transcriptions/gemini-audio-imagem1.txt", "r", encoding="utf-8") as arquivo:
    text = arquivo.read()

# Dividir em chunks de 512 tokens
max_length = 512
tokens = tokenizer(text, return_tensors="pt", truncation=False)["input_ids"][0]
chunks = tokens.split(max_length - 2)  # espaço para [CLS] e [SEP]

# Processar cada chunk
entities = []
for chunk in chunks:
    # Reconstrói o texto desse pedaço
    chunk_text = tokenizer.decode(chunk, skip_special_tokens=True)
    chunk_entities = ner_pipeline(chunk_text)
    entities.extend(chunk_entities)

# Mostrar
for entity in entities:
    print(f"{entity['word']} → {entity['entity_group']} ({entity['score']:.2f})")


Device set to use cpu
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


estrutura → ESTRUTURA_FÍSICA (0.99)
estrutura → ESTRUTURA_FÍSICA (0.99)
estrutura → ESTRUTURA_FÍSICA (0.99)
estruturas → ESTRUTURA_FÍSICA (0.99)
estruturas → ESTRUTURA_FÍSICA (0.99)
mag → ROCHA (0.97)
estruturas → ESTRUTURA_FÍSICA (0.99)
fra → ESTRUTURA_FÍSICA (0.99)
##tura → ESTRUTURA_FÍSICA (0.49)
fra → ESTRUTURA_FÍSICA (0.98)
fra → ESTRUTURA_FÍSICA (0.99)
fra → ESTRUTURA_FÍSICA (0.98)
fra → ESTRUTURA_FÍSICA (0.99)


In [None]:
# Carregar texto
with open("./transcriptions/0005_transcription.gemini-1.5-flash.txt", "r", encoding="utf-8") as arquivo:
    text = arquivo.read()

# Dividir em chunks de 512 tokens
max_length = 512
tokens = tokenizer(text, return_tensors="pt", truncation=False)["input_ids"][0]
chunks = tokens.split(max_length - 2)  # espaço para [CLS] e [SEP]

# Processar cada chunk
entities = []
for chunk in chunks:
    # Reconstrói o texto desse pedaço
    chunk_text = tokenizer.decode(chunk, skip_special_tokens=True)
    chunk_entities = ner_pipeline(chunk_text)
    entities.extend(chunk_entities)

# Mostrar
for entity in entities:
    print(f"{entity['word']} → {entity['entity_group']} ({entity['score']:.2f})")


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


migração → EVENTO_PETRO (0.94)
mo → ESTRUTURA_FÍSICA (0.96)
mo → ESTRUTURA_FÍSICA (0.92)
falhas → ESTRUTURA_FÍSICA (1.00)
estruturas → ESTRUTURA_FÍSICA (1.00)
E → UNIDADE_CRONO (0.99)
##oceno → UNIDADE_CRONO (0.94)
em → UNIDADE_LITO (0.99)
##bas → UNIDADE_LITO (0.56)
em → UNIDADE_LITO (1.00)
##bas → UNIDADE_LITO (0.95)
estrutura → ESTRUTURA_FÍSICA (0.99)
em → UNIDADE_LITO (1.00)
##bas → UNIDADE_LITO (0.85)
estruturas → ESTRUTURA_FÍSICA (0.99)


In [29]:
# Carregar o CSV
df = pd.read_csv('./transcriptions/data-1745593712414.csv')

# Pegar a terceira coluna
coluna_terceira = df.iloc[:, 2]

indice = 12  # escolhe a linha (começa do 0)
texto = coluna_terceira.iloc[indice]

# Garantir que é string
if isinstance(texto, str):
    # Agora faz o processo normal
    max_length = 512
    tokens = tokenizer(texto, return_tensors="pt", truncation=False)["input_ids"][0]
    chunks = tokens.split(max_length - 2)  # espaço para [CLS] e [SEP]

    entities = []
    for chunk in chunks:
        chunk_text = tokenizer.decode(chunk, skip_special_tokens=True)
        chunk_entities = ner_pipeline(chunk_text)
        entities.extend(chunk_entities)

    # Mostrar resultados
    for entity in entities:
        print(f"{entity['word']} → {entity['entity_group']} ({entity['score']:.2f})")
else:
    print("A linha escolhida não é um texto válido.")


bas → ROCHA (1.00)
##altos → ROCHA (0.66)
em → UNIDADE_LITO (1.00)
##bas → UNIDADE_LITO (0.83)
calc → ROCHA (1.00)
##ários → ROCHA (0.97)
bre → ROCHA (0.99)
##chas vulc → ROCHA (0.79)
bas → ROCHA (1.00)
##alto → ROCHA (0.98)
idade Coniaciano → UNIDADE_CRONO (0.99)
calc → ROCHA (1.00)
##ários → ROCHA (0.97)
calc → ROCHA (1.00)
##ários → ROCHA (0.94)
arg → ROCHA (0.99)
##ili → ROCHA (0.99)
Pale → UNIDADE_CRONO (1.00)
##oceno superior → UNIDADE_CRONO (0.98)
Santo → UNIDADE_CRONO (0.99)
##niano → UNIDADE_CRONO (0.93)
Con → UNIDADE_CRONO (0.96)
##iaciano → UNIDADE_CRONO (0.79)
calc → ROCHA (1.00)
##ários → ROCHA (0.94)
Idade Eoceno médio → UNIDADE_CRONO (0.99)
Pale → UNIDADE_CRONO (1.00)
##oceno superior → UNIDADE_CRONO (0.89)
calc → ROCHA (1.00)
##ários → ROCHA (0.87)
cinzas → NÃOCONSOLID (0.81)
E → UNIDADE_CRONO (0.99)
##oceno médio → UNIDADE_CRONO (0.99)
Idade Oligoceno inferior → UNIDADE_CRONO (0.99)
E → UNIDADE_CRONO (0.99)
##oceno inferior → UNIDADE_CRONO (0.88)
Mi → UNIDADE_CRONO (0.

### Alguns modelos

In [None]:
classifier = pipeline("zero-shot-classification")
classifier(
    "The Santos Basin contains sandstone reservoirs and salt diapirs.",
    candidate_labels=["education", "geology", "rock"], # categorias candidatas para testar as relações
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision d7645e1 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cpu


{'sequence': 'The Santos Basin contains sandstone reservoirs and salt diapirs.',
 'labels': ['geology', 'rock', 'education'],
 'scores': [0.8048369288444519, 0.18419402837753296, 0.010969061404466629]}

In [None]:
generator = pipeline("text-generation")
generator("The Santos Basin contains sandstone reservoirs")

No model was supplied, defaulted to openai-community/gpt2 and revision 607a30d (https://huggingface.co/openai-community/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Device set to use cpu
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'The Santos Basin contains sandstone reservoirs for the cultivation of gold and natural gas. The area is home to about 6,000 megadields of natural gas.\n\nThe project has raised $500million and has provided a key source of income'}]

In [9]:
unmasker = pipeline("fill-mask") # pipeline que completa lacunas no texto onde aparece o token <mask>
unmasker("This course will teach you all about <mask> models.", top_k=2)

No model was supplied, defaulted to distilbert/distilroberta-base and revision fb53ab8 (https://huggingface.co/distilbert/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Some weights of the model checkpoint at distilbert/distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you exp

[{'score': 0.19619767367839813,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052715748548508,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

- tentar ajustar parâmetros:

In [16]:
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

# Configurações iniciais
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
model_name = "GiordanoB/mT5_multilingual_XLSum-sumarizacao-PTBR"

# Carregar modelo e tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# Configurar dispositivo (GPU se disponível)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

def resumir_texto(texto, max_length=200, min_length=75):
    """
    Função para resumir um texto em português usando o modelo mT5
    """
    try:
        # Pré-processamento do texto
        texto_processado = WHITESPACE_HANDLER(texto)
        
        # Tokenização
        input_ids = tokenizer(
            [texto_processado],
            return_tensors="pt",
            padding="max_length",
            truncation=True,
            max_length=512
        )["input_ids"].to(device)
        
        # Geração do resumo
        output_ids = model.generate(
            input_ids=input_ids,
            max_length=max_length,
            min_length=min_length,
            no_repeat_ngram_size=2,
            num_beams=5,
            early_stopping=True
        )
        
        # Decodificação do resumo
        summary = tokenizer.decode(
            output_ids[0],
            skip_special_tokens=True,
            clean_up_tokenization_spaces=True
        )
        
        return summary
    
    except Exception as e:
        print(f"Erro ao resumir o texto: {str(e)}")
        return None

def resumir_arquivo_txt(caminho_arquivo):
    """
    Função para ler um arquivo TXT e gerar um resumo
    """
    try:
        with open(caminho_arquivo, "r", encoding="utf-8") as file:
            texto = file.read()
        
        if not texto.strip():
            return "O arquivo está vazio."
        
        # Se o texto for muito longo, dividir em partes
        if len(texto.split()) > 1000:
            partes = [texto[i:i+1000] for i in range(0, len(texto), 1000)]
            resumos = []
            for i, parte in enumerate(partes):
                resumo = resumir_texto(parte)
                if resumo:
                    resumos.append(resumo)
                    print(f"Parte {i+1} resumida com sucesso!")
            return " ".join(resumos)
        else:
            return resumir_texto(texto)
            
    except FileNotFoundError:
        return f"Erro: Arquivo '{caminho_arquivo}' não encontrado."
    except Exception as e:
        return f"Ocorreu um erro: {str(e)}"

# Exemplo de uso
if __name__ == "__main__":
    caminho = "./transcriptions/whisper-audio-imagem1.txt"  # Substitua pelo seu caminho
    resultado = resumir_arquivo_txt(caminho)
    print("\nResumo gerado:")
    print(resultado)

  WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))



Resumo gerado:
O Furo de sondagem o 1516F mostra a localização da elevação do Rio Grande no Atlântico Sul e as áreas de fratura que afetam essa região. A imagem é feita com quatro partes círdicas. Estas são as duas estruturas de montanha submarinas que estão relacionadas à movimentação das placas tectônicas.


In [19]:
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

# Configurações iniciais
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
model_name = "GiordanoB/mT5_multilingual_XLSum-sumarizacao-PTBR"

# Carregar modelo e tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# Configurar dispositivo (GPU se disponível)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

def resumir_texto(texto, max_length=200, min_length=75):
    """
    Função para resumir um texto em português usando o modelo mT5
    """
    try:
        # Pré-processamento do texto
        texto_processado = WHITESPACE_HANDLER(texto)
        
        # Tokenização
        input_ids = tokenizer(
            [texto_processado],
            return_tensors="pt",
            padding="max_length",
            truncation=True,
            max_length=512
        )["input_ids"].to(device)
        
        # Geração do resumo
        output_ids = model.generate(
            input_ids=input_ids,
            max_length=200,
            min_length=100,
            no_repeat_ngram_size=3,
            num_beams=4,
            temperature=0.1,  # Reduz criatividade para evitar invenções
            do_sample=False   # Desativa geração aleatória
        )
        
        # Decodificação do resumo
        summary = tokenizer.decode(
            output_ids[0],
            skip_special_tokens=True,
            clean_up_tokenization_spaces=True
        )
        
        return summary
    
    except Exception as e:
        print(f"Erro ao resumir o texto: {str(e)}")
        return None

def resumir_arquivo_txt(caminho_arquivo):
    """
    Função para ler um arquivo TXT e gerar um resumo
    """
    try:
        with open(caminho_arquivo, "r", encoding="utf-8") as file:
            texto = file.read()
        
        if not texto.strip():
            return "O arquivo está vazio."
        
        # Se o texto for muito longo, dividir em partes
        if len(texto.split()) > 1000:
            partes = [texto[i:i+1000] for i in range(0, len(texto), 1000)]
            resumos = []
            for i, parte in enumerate(partes):
                resumo = resumir_texto(parte)
                if resumo:
                    resumos.append(resumo)
                    print(f"Parte {i+1} resumida com sucesso!")
            return " ".join(resumos)
        else:
            return resumir_texto(texto)
            
    except FileNotFoundError:
        return f"Erro: Arquivo '{caminho_arquivo}' não encontrado."
    except Exception as e:
        return f"Ocorreu um erro: {str(e)}"

# Exemplo de uso
if __name__ == "__main__":
    caminho = "./transcriptions/whisper-audio-imagem1.txt"  # Substitua pelo seu caminho
    resultado = resumir_arquivo_txt(caminho)
    print("\nResumo gerado:")
    print(resultado)

  WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))



Resumo gerado:
O Furo de sondagem o 1516F mostra a localização da elevação do Rio Grande no Atlântico Sul e a área de fratura que afeta a região. O furo é o furo da sondagem, o Furo da Sondagem ao 1515F, a sondagem que ocorreu no último sábado e que foi alvo de uma série de imagens feitas pela BBC Brasil.
