<a href="https://colab.research.google.com/github/osmarbraz/exemplos_Llama2/blob/main/RAG_RespondendoPergunta_Llama2_7B_4bit_HuggingFaceInstructEmbeddings_Langchain.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Exemplo de Respondendo Perguntas sobre Textos Longos usando Llama v2.0 7B 4bit, Longchain, Chroma e Transformers by HuggingFace

**Toda a execução ocorre no Google Colaboratory.**

Pré-requisitos:
- Lhama 2 não está acessível abertamente e requer solicitação  de acesso. Faça o cadastro no site do https://huggingface.co/join. Depois do login, gere um token de acesso no link https://huggingface.co/settings/tokens.
- Configurar o notebook para usar GPU- Acesse o menu 'Ambiente de Execução -> Alterar o tipo do ambiente de execução -> Acelerador de hardware -> T4 GPU


**Referências**

https://medium.com/@onkarmishra/using-langchain-for-question-answering-on-own-data-3af0a82789ed

**Lista dos modelos:**

https://huggingface.co/models


**Link biblioteca Huggingface:**

https://github.com/huggingface/transformers




# 0 - Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## Tratamento de logs

Método para tratamento dos logs.

In [None]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)

## Identificando o ambiente Colab

Cria uma variável para identificar que o notebook está sendo executado no Google Colaboratory.

In [None]:
# Biblioteca do sistema
import sys

# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

## Versão Python

In [None]:
# Biblioteca do sistema
import sys

print("Versão Python:", sys.version)

Versão Python: 3.10.12 (main, Jun 11 2023, 05:26:28) [GCC 11.4.0]


## Funções auxiliares

Função auxiliar para formatar o tempo como `hh: mm: ss`

In [None]:
# Import das bibliotecas.
import time
import datetime

def formataTempo(tempo):
    """
      Pega a tempo em segundos e retorna uma string hh:mm:ss
    """
    # Arredonda para o segundo mais próximo.
    tempo_arredondado = int(round((tempo)))

    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempo_arredondado))

Imprime linhas menores.

In [None]:
def print_linhas_menores(texto, tamanho=120):
  for i in range(0, len(texto), tamanho):
    print(texto[i:i+tamanho])

# 1 - Instalação das bibliotecas

Biblioteca para manipular pdf

https://pypi.org/project/pypdf/

In [None]:
!pip install pypdf==3.16.4

Collecting pypdf==3.16.4
  Downloading pypdf-3.16.4-py3-none-any.whl (276 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/276.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━[0m [32m174.1/276.6 kB[0m [31m5.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m276.6/276.6 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pypdf
Successfully installed pypdf-3.16.4


Bibliota de dependência para manipular os embeddings pelo Langchain.

https://pypi.org/project/sentence-transformers/

In [None]:
!pip install sentence_transformers==2.2.2

Collecting sentence_transformers==2.2.2
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/86.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━[0m [32m61.4/86.0 kB[0m [31m1.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.0/86.0 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting transformers<5.0.0,>=4.6.0 (from sentence_transformers==2.2.2)
  Downloading transformers-4.34.1-py3-none-any.whl (7.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.7/7.7 MB[0m [31m16.7 MB/s[0m eta [36m0:00:00[0m
Collecting sentencepiece (from sentence_transformers==2.2.2)
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Biblioteca que persiste os embeddings e realiza busca semântica.

https://pypi.org/project/chromadb/

In [None]:
!pip install chromadb==0.4.15

Collecting chromadb==0.4.15
  Downloading chromadb-0.4.15-py3-none-any.whl (479 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m479.8/479.8 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
Collecting chroma-hnswlib==0.7.3 (from chromadb==0.4.15)
  Downloading chroma_hnswlib-0.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m51.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting fastapi>=0.95.2 (from chromadb==0.4.15)
  Downloading fastapi-0.104.1-py3-none-any.whl (92 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting uvicorn[standard]>=0.18.3 (from chromadb==0.4.15)
  Downloading uvicorn-0.23.2-py3-none-any.whl (59 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.5/59.5 kB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting posthog>=2.4.0 (from chr

Bibioteca LangChain é um framework de código aberto para o desenvolvimento de aplicações usando modelos de linguagem grandes.

https://pypi.org/project/langchain/

In [None]:
!pip install langchain==0.0.323

Collecting langchain==0.0.323
  Downloading langchain-0.0.323-py3-none-any.whl (1.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m7.3 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain==0.0.323)
  Downloading dataclasses_json-0.6.1-py3-none-any.whl (27 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain==0.0.323)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl (12 kB)
Collecting langsmith<0.1.0,>=0.0.43 (from langchain==0.0.323)
  Downloading langsmith-0.0.54-py3-none-any.whl (43 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.7/43.7 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain==0.0.323)
  Downloading marshmallow-3.20.1-py3-none-any.whl (49 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.4/49.4 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting typing-inspect<1,>=0.4.

Dependências do xformers

https://pypi.org/project/lmdb/

In [None]:
!pip install lmdb==1.4.1
!pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 torchtext==0.15.2+cpu torchdata==0.6.1 --index-url https://download.pytorch.org/whl/cu118

Collecting lmdb==1.4.1
  Downloading lmdb-1.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (299 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m299.2/299.2 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: lmdb
Successfully installed lmdb-1.4.1
Looking in indexes: https://download.pytorch.org/whl/cu118
Collecting torch==2.0.1+cu118
  Downloading https://download.pytorch.org/whl/cu118/torch-2.0.1%2Bcu118-cp310-cp310-linux_x86_64.whl (2267.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.3/2.3 GB[0m [31m598.8 kB/s[0m eta [36m0:00:00[0m
[?25hCollecting torchvision==0.15.2+cu118
  Downloading https://download.pytorch.org/whl/cu118/torchvision-0.15.2%2Bcu118-cp310-cp310-linux_x86_64.whl (6.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.1/6.1 MB[0m [31m67.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting torchaudio==2.0.2
  Downloading https://download.pytorch.org/whl/c

Permite maior velocidade e menor consumo de memória nos transformers.

https://pypi.org/project/xformers/

In [None]:
!pip install xformers==0.0.22.post7

Collecting xformers==0.0.22.post7
  Downloading xformers-0.0.22.post7-cp310-cp310-manylinux2014_x86_64.whl (211.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.8/211.8 MB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Collecting torch==2.1.0 (from xformers==0.0.22.post7)
  Downloading torch-2.1.0-cp310-cp310-manylinux1_x86_64.whl (670.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m670.2/670.2 MB[0m [31m1.0 MB/s[0m eta [36m0:00:00[0m
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch==2.1.0->xformers==0.0.22.post7)
  Downloading nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.7/23.7 MB[0m [31m25.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting nvidia-cuda-runtime-cu12==12.1.105 (from torch==2.1.0->xformers==0.0.22.post7)
  Downloading nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━

O bitsandbytes é um wrapper leve em torno de funções personalizadas CUDA, em particular otimizadores de 8 bits, multiplicação de matrizes (LLM.int8()) e funções de quantização. É uma dependência do accelerate.

https://huggingface.co/blog/4bit-transformers-bitsandbytes

https://pypi.org/project/bitsandbytes/

In [None]:
!pip install bitsandbytes==0.41.1

Collecting bitsandbytes==0.41.1
  Downloading bitsandbytes-0.41.1-py3-none-any.whl (92.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.6/92.6 MB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.41.1


Accelerate é uma biblioteca que permite que o mesmo código PyTorch seja executado em qualquer configuração distribuída adicionando apenas quatro linhas de código. Otimiza as operações do PyTorch, especialmente na GPU.

https://pypi.org/project/accelerate/

In [None]:
!pip install accelerate==0.24.0

Collecting accelerate==0.24.0
  Downloading accelerate-0.24.0-py3-none-any.whl (260 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/261.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━[0m [32m153.6/261.0 kB[0m [31m4.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m261.0/261.0 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: accelerate
Successfully installed accelerate-0.24.0


Biblioteca do HuggingFaceInstructEmbeddings

In [None]:
!pip install InstructorEmbedding==1.0.1

Collecting InstructorEmbedding==1.0.1
  Downloading InstructorEmbedding-1.0.1-py2.py3-none-any.whl (19 kB)
Installing collected packages: InstructorEmbedding
Successfully installed InstructorEmbedding-1.0.1


A Biblioteca A Biblioteca Transformers fornece APIs e ferramentas para baixar e treinar facilmente modelos pré-treinados de última geração para Processamento de linguagem natural, Visão computacional, Áudio, etc.

Fornece uma maneira direta de usar modelos pré-treinados.

In [None]:
# Instala a última versão da biblioteca
# !pip install transformers

# A última versão do huggingface apresenta um problema:
# UserWarning: `do_sample` is set to `False`. However, `temperature` is set to `0.1`
# https://discuss.huggingface.co/t/help-with-llama-2-finetuning-setup/50035
# Usar a versão 4.31.0

# Instala uma versão específica da biblioteca
!pip install -U transformers==4.31.0

Collecting transformers==4.31.0
  Downloading transformers-4.31.0-py3-none-any.whl (7.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.4/7.4 MB[0m [31m55.6 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers==4.31.0)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m102.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, transformers
  Attempting uninstall: tokenizers
    Found existing installation: tokenizers 0.14.1
    Uninstalling tokenizers-0.14.1:
      Successfully uninstalled tokenizers-0.14.1
  Attempting uninstall: transformers
    Found existing installation: transformers 4.34.1
    Uninstalling transformers-4.34.1:
      Successfully uninstalled transformers-4.34.1
Successfully installed tokenizers-0.13.3 transformers-4.31.0


A Biblioteca huggingface-cli fornece vários comandos para interagir com o Hugging Face Hub a partir da linha de comando. Um desses comandos é o login, que permite aos usuários se autenticarem no Hub usando suas credenciais.

In [None]:
!pip install huggingface_hub==0.18.0

Collecting huggingface_hub==0.18.0
  Using cached huggingface_hub-0.18.0-py3-none-any.whl (301 kB)
Installing collected packages: huggingface_hub
  Attempting uninstall: huggingface_hub
    Found existing installation: huggingface-hub 0.17.3
    Uninstalling huggingface-hub-0.17.3:
      Successfully uninstalled huggingface-hub-0.17.3
Successfully installed huggingface_hub-0.18.0


## Versão bibliotecas instaladas

In [None]:
!pip freeze

absl-py==1.4.0
accelerate==0.24.0
aiohttp==3.8.6
aiosignal==1.3.1
alabaster==0.7.13
albumentations==1.3.1
altair==4.2.2
anyio==3.7.1
appdirs==1.4.4
argon2-cffi==23.1.0
argon2-cffi-bindings==21.2.0
array-record==0.5.0
arviz==0.15.1
astropy==5.3.4
astunparse==1.6.3
async-timeout==4.0.3
atpublic==4.0
attrs==23.1.0
audioread==3.0.1
autograd==1.6.2
Babel==2.13.1
backcall==0.2.0
backoff==2.2.1
bcrypt==4.0.1
beautifulsoup4==4.11.2
bidict==0.22.1
bigframes==0.10.0
bitsandbytes==0.41.1
bleach==6.1.0
blinker==1.4
blis==0.7.11
blosc2==2.0.0
bokeh==3.2.2
bqplot==0.12.42
branca==0.6.0
build==1.0.3
CacheControl==0.13.1
cachetools==5.3.2
catalogue==2.0.10
certifi==2023.7.22
cffi==1.16.0
chardet==5.2.0
charset-normalizer==3.3.1
chex==0.1.7
chroma-hnswlib==0.7.3
chromadb==0.4.15
click==8.1.7
click-plugins==1.1.1
cligj==0.7.2
cloudpickle==2.2.1
cmake==3.27.7
cmdstanpy==1.2.0
colorcet==3.0.1
coloredlogs==15.0.1
colorlover==0.3.0
colour==0.1.5
community==1.0.0b1
confection==0.1.3
cons==0.4.6
contextlib2==

# 2 - Carregando o LLM



## 2.1 - Login no huggingface

- Lhama 2 não está acessível abertamente e requer solicitação  de acesso. Faça o cadastro no site do https://huggingface.co/join. Depois do login, gere um token de acesso no link https://huggingface.co/settings/tokens.

Insira o token quando solicitado e depois digite Y para adicionar as credenciais.

In [None]:
# !huggingface-cli login

Se o seu notebook não for público e não desejar incluir o token de acesso toda vez que for executar o notebook preencha o método save_token.

In [None]:
from huggingface_hub.hf_api import HfFolder

ACCESS_TOKEN  = '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'

HfFolder.save_token(ACCESS_TOKEN)

Mostrando o usuário conectado

In [None]:
# !huggingface-cli whoami

## 2.2 - Nome do LLM

Define o nome do modelo a ser carregado
Lista dos modelos:
  - https://huggingface.co/meta-llama/Llama-2-7b-hf
  - https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
  - https://huggingface.co/meta-llama/Llama-2-13b-hf
  - https://huggingface.co/meta-llama/Llama-2-13b-chat-hf
  - https://huggingface.co/meta-llama/Llama-2-70b-hf
  - https://huggingface.co/meta-llama/Llama-2-70b-chat-hf

In [None]:
# Roda com 4 bits e 8 bits
#nome_modelo_llm = "meta-llama/Llama-2-7b-hf"
nome_modelo = "meta-llama/Llama-2-7b-chat-hf"

# Roda com 4 bits
#nome_modelo = "meta-llama/Llama-2-13b-hf"
# nome_modelo = "meta-llama/Llama-2-13b-chat-hf"

# Não roda pois exige GPU A100 e mais espaço em disco
#nome_modelo = "meta-llama/Llama-2-70b-hf"
# nome_modelo = "meta-llama/Llama-2-70b-chat-hf"

## 2.3 - Carrega o tokenizador do LLM

Carregando o **tokenizador** da comunidade.

In [None]:
# Importando as bibliotecas do Tokenizador
from transformers import AutoTokenizer

# Carregando o Tokenizador da comunidade
print('Carregando o tokenizador ' + nome_modelo + ' da comunidade...')

tokenizer = AutoTokenizer.from_pretrained(nome_modelo)

Carregando o tokenizador meta-llama/Llama-2-7b-chat-hf da comunidade...


(…)at-hf/resolve/main/tokenizer_config.json:   0%|          | 0.00/1.62k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

(…)2-7b-chat-hf/resolve/main/tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

(…)-hf/resolve/main/special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

Tamanho do vocabulário

In [None]:
print(len(tokenizer))

32000


## 2.4 - Carregando o LLM

Carregando o **LLM** da comunidade Huggingface.

Parametrização do from_pretrained
https://huggingface.co/docs/transformers/main/en/main_classes/quantization#offload-between-cpu-and-gpu

Carregamento LLama 2 com 4 bits

In [None]:
# Importando as bibliotecas do Modelo
from transformers import BitsAndBytesConfig, AutoModelForCausalLM
import torch
import time

# Guarda o tempo de início do carregamento do modelo
tempo_inicio = time.time()

# Carregando o Modelo da comunidade
print('Carregando o modelo ' + nome_modelo + ' da comunidade...')

# BitsAndBytes é um framework com funções customizadas para
# otimização com precisão 8-bit, multiplicações de matrizes e funções de quantização
quantization_config = BitsAndBytesConfig(
   load_in_4bit=True, # Habilita a quantização de 4 bits para comprimir o modelo
   bnb_4bit_quant_type="nf4", # Define o tipo de dados de quantização nas camadas (`fp4` e `nf4`).
   bnb_4bit_use_double_quant=True, # Quantização aninhada, onde as constantes de quantização da primeira quantização são quantizadas novamente.
   bnb_4bit_compute_dtype=torch.bfloat16 # # Os gradientes dos pesos são computados em 16-bit. Define o tipo computacional que pode ser diferente do tempo de entrada. Por exemplo, as entradas podem ser fp32, mas a computação pode ser definida como bf16 para acelerações.
)

# Carrega o modelo
model = AutoModelForCausalLM.from_pretrained(nome_modelo,
                                             #torch_dtype=torch.float16, #default
                                             trust_remote_code=True, # Carrega de um repositório confiável
                                             quantization_config=quantization_config,
                                             device_map="auto"
                                             )

# Coloca o modelo e modo avaliação
model.eval()

# Aumentar a velocidade
# https://huggingface.co/docs/transformers/main/perf_torch_compile
model = torch.compile(model)

print("Tempo de carregamento do modelo LLM:  {:} (h:mm:ss)".format(formataTempo(time.time() - tempo_inicio)))

Carregando o modelo meta-llama/Llama-2-7b-chat-hf da comunidade...


(…)ma-2-7b-chat-hf/resolve/main/config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

(…)esolve/main/model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

(…)t-hf/resolve/main/generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

Tempo de carregamento do modelo LLM:  0:02:58 (h:mm:ss)


Carregamento LLama 2 com 8 bits

In [None]:
# # Importando as bibliotecas do Modelo
# from transformers import BitsAndBytesConfig, AutoModelForCausalLM
# import torch
# import time

# # Guarda o tempo de início do carregamento do modelo
# tempo_inicio = time.time()

# # Carregando o Modelo da comunidade
# print('Carregando o modelo ' + nome_modelo + ' da comunidade...')

# # BitsAndBytes é um framework com funções customizadas para
# # otimização com precisão 8-bit, multiplicações de matrizes e funções de quantização
# quantization_config = BitsAndBytesConfig(
#    load_in_8bit=True, # Habilita a quantização de 8 bits
# )

# # Carrega o modelo
# model = AutoModelForCausalLM.from_pretrained(nome_modelo,
#                                              #torch_dtype=torch.float16, #default
#                                              trust_remote_code=True, # Carrega de um repositório confiável
#                                              quantization_config=quantization_config,
#                                              device_map="auto"
#                                              )

# # Coloca o modelo e modo avaliação
# model.eval()

# # Aumentar a velocidade
# # https://huggingface.co/docs/transformers/main/perf_torch_compile
# model = torch.compile(model)

# print("Tempo de carregamento do modelo LLM:  {:} (h:mm:ss)".format(formataTempo(time.time() - tempo_inicio)))

In [None]:
print(model)

OptimizedModule(
  (_orig_mod): LlamaForCausalLM(
    (model): LlamaModel(
      (embed_tokens): Embedding(32000, 4096, padding_idx=0)
      (layers): ModuleList(
        (0-31): 32 x LlamaDecoderLayer(
          (self_attn): LlamaAttention(
            (q_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
            (k_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
            (v_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
            (o_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
            (rotary_emb): LlamaRotaryEmbedding()
          )
          (mlp): LlamaMLP(
            (gate_proj): Linear4bit(in_features=4096, out_features=11008, bias=False)
            (up_proj): Linear4bit(in_features=4096, out_features=11008, bias=False)
            (down_proj): Linear4bit(in_features=11008, out_features=4096, bias=False)
            (act_fn): SiLUActivation()
          )
          (input_layernorm): LlamaR

In [None]:
print(model.config)

LlamaConfig {
  "_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "bos_token_id": 1,
  "eos_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 11008,
  "max_position_embeddings": 4096,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 32,
  "pad_token_id": 0,
  "pretraining_tp": 1,
  "quantization_config": {
    "bnb_4bit_compute_dtype": "bfloat16",
    "bnb_4bit_quant_type": "nf4",
    "bnb_4bit_use_double_quant": true,
    "llm_int8_enable_fp32_cpu_offload": false,
    "llm_int8_has_fp16_weight": false,
    "llm_int8_skip_modules": null,
    "llm_int8_threshold": 6.0,
    "load_in_4bit": true,
    "load_in_8bit": false
  },
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "tie_word_embeddings": false,
  "torch_dtype": "float16",
  "transformers_version": "4.31.0",
  "use_cache": true,
  "vocab_size": 32000
}



In [None]:
print(model.config.max_position_embeddings)

4096


Tamanho do vocabulário

In [None]:
print(model.config.vocab_size)

32000


## 2.5 - Configuração da geração de texto

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig

# Instância as configurações do modelo
generation_config = GenerationConfig.from_pretrained(nome_modelo)

print("GenerationConfig antes:\n",generation_config)
generation_config.max_new_tokens = 1024 #Preenche até um comprimento máximo especificado com o argumento max_length ou até o comprimento de entrada máximo aceitável para o modelo se esse argumento não for fornecido.
#generation_config.max_length = 4096 # (Default 4096)
generation_config.temperature = 0.2 # (Default 0.6) A temperatura é um parâmetro que controla a aleatoriedade da saída do LLM. Uma temperatura mais alta resultará em um texto mais criativo e imaginativo, enquanto uma temperatura mais baixa resultará em um texto mais preciso e factual.
generation_config.top_k = 5  # Top-k diz ao modelo para escolher o próximo token entre os 'k' tokens principais de sua lista, classificados por probabilidade.
generation_config.top_p = 0.75 # (Default 0.9) Top-p é mais dinâmico que top-k e é frequentemente usado para excluir resultados com probabilidades mais baixas. Portanto, se você definir p como 0,75, excluirá os 25% inferiores dos resultados prováveis.
#generation_config.do_sample = True # (Default True) Se definido como True, este parâmetro permite estratégias de decodificação como amostragem multinomial, amostragem multinomial de busca de feixe, amostragem Top-K e amostragem Top-p. Todas essas estratégias selecionam o próximo token da distribuição de probabilidade em todo o vocabulário com vários ajustes específicos da estratégia.
generation_config.repetition_penalty = 1.20 # Penaliza a repetição e visa evitar frases que se repetem sem nada de realmente interessante.
#generation_config.num_return_sequences=1, # Retorna uma única sentença da saída.
print("GenerationConfig depois:\n",generation_config)

GenerationConfig antes:
 GenerationConfig {
  "bos_token_id": 1,
  "do_sample": true,
  "eos_token_id": 2,
  "max_length": 4096,
  "pad_token_id": 0,
  "temperature": 0.6,
  "top_p": 0.9,
  "transformers_version": "4.31.0"
}

GenerationConfig depois:
 GenerationConfig {
  "bos_token_id": 1,
  "do_sample": true,
  "eos_token_id": 2,
  "max_length": 4096,
  "max_new_tokens": 1024,
  "pad_token_id": 0,
  "repetition_penalty": 1.2,
  "temperature": 0.2,
  "top_k": 5,
  "top_p": 0.75,
  "transformers_version": "4.31.0"
}



## 2.6 - Cria o pipeline usando Langchain

Cria o pipeline com a classe [HuggingFacePipeline](https://api.python.langchain.com/en/latest/llms/langchain.llms.huggingface_pipeline.HuggingFacePipeline.html) do langchain.

Passagem direta do pipeline Huggingface.

Configura o pipeline do Huggingface usando o modelo e tokenizador previamente carregado e passa para o HuggingFacePipeline do langchain.

In [None]:
# Import das bibliotecas
from langchain.llms import HuggingFacePipeline
from transformers import pipeline

# Configura o pipeline do HuggingFace
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    #return_full_text=True,  # (Default True) Langchain espera o texto completo
    generation_config=generation_config, # Passa as configurações da geração de texto para o pipeline
)

# Carrega o pipeline do Langchain
# https://python.langchain.com/docs/integrations/llms/huggingface_pipelines
model_llm = HuggingFacePipeline(
    pipeline=pipe,
)

The model 'OptimizedModule' is not supported for text-generation. Supported models are ['BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'CodeGenForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'ElectraForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'GitForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'LlamaForCausalLM', 'MarianForCausalLM', 'MBartForCausalLM', 'MegaForCausalLM', 'MegatronBertForCausalLM', 'MusicgenForCausalLM', 'MvpForCausalLM', 'OpenLlamaForCausalLM', 'OpenAIGPTLMHeadModel', 'OPTForCausalLM', 'PegasusForCausalLM', 'PLBartForCausalLM', 'ProphetNetForCausalLM', 'QDQBertLMHeadModel', 'ReformerModelWithLMHead', 'RemBertForCausalLM', 

In [None]:
print(model_llm)

[1mHuggingFacePipeline[0m
Params: {'model_id': 'gpt2', 'model_kwargs': None, 'pipeline_kwargs': None}


## 2.7 - Nome do LM BERT

In [None]:
# Modelos em Inglês
#nome_modelo_bert = "bert-large-cased"
#nome_modelo_bert = "bert-base-cased"

# Modelos em Português
nome_modelo_bert = "neuralmind/bert-large-portuguese-cased"
#nome_modelo_bert = "neuralmind/bert-base-portuguese-cased"

## 2.8 - Carregando o LM BERT


Alternativas para a geração dos Embeddings:
- HuggingFaceBgeEmbeddings
- HuggingFaceEmbeddings
- HuggingFaceInstructEmbeddings

In [None]:
# Import das bibliotecas
from langchain.embeddings import HuggingFaceInstructEmbeddings
from langchain.chains import RetrievalQA
from langchain.vectorstores import Chroma
import torch
import time

# Guarda o tempo de início do carregamento do modelo
tempo_inicio = time.time()

# Verifica se existe gpu disponível
dispositivo = "cuda" if torch.cuda.is_available() else "cpu"

# Carrega os embeddings diretamente do HuggingFace
model_lm = HuggingFaceInstructEmbeddings(
    model_name=nome_modelo_bert,
    model_kwargs={'device': dispositivo},
    encode_kwargs={'normalize_embeddings': False}
)

print("Tempo de carregamento do modelo LM:  {:} (h:mm:ss)".format(formataTempo(time.time() - tempo_inicio)))

(…)f7df9cad58bd272127b67ec28/.gitattributes:   0%|          | 0.00/391 [00:00<?, ?B/s]

(…)3b759f7df9cad58bd272127b67ec28/README.md:   0%|          | 0.00/3.62k [00:00<?, ?B/s]

(…)f9cad58bd272127b67ec28/added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

(…)759f7df9cad58bd272127b67ec28/config.json:   0%|          | 0.00/648 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

(…)8bd272127b67ec28/special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

(…)d58bd272127b67ec28/tokenizer_config.json:   0%|          | 0.00/155 [00:00<?, ?B/s]

(…)3b759f7df9cad58bd272127b67ec28/vocab.txt:   0%|          | 0.00/210k [00:00<?, ?B/s]



Tempo de carregamento do modelo LM:  0:00:16 (h:mm:ss)


In [None]:
print(model_lm)

client=INSTRUCTOR(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
) model_name='neuralmind/bert-large-portuguese-cased' cache_folder=None model_kwargs={'device': 'cuda'} encode_kwargs={'normalize_embeddings': False} embed_instruction='Represent the document for retrieval: ' query_instruction='Represent the question for retrieving supporting documents: '


Carrega o tokenizador do bert

In [None]:
# Importando as bibliotecas do Tokenizador
from transformers import AutoTokenizer

# Carregando o Tokenizador da comunidade
print('Carregando o tokenizador ' + nome_modelo_bert + ' da comunidade...')

tokenizer_bert = AutoTokenizer.from_pretrained(nome_modelo_bert)

Carregando o tokenizador neuralmind/bert-large-portuguese-cased da comunidade...


(…)cased/resolve/main/tokenizer_config.json:   0%|          | 0.00/155 [00:00<?, ?B/s]

(…)ortuguese-cased/resolve/main/config.json:   0%|          | 0.00/648 [00:00<?, ?B/s]

(…)-portuguese-cased/resolve/main/vocab.txt:   0%|          | 0.00/210k [00:00<?, ?B/s]

(…)ese-cased/resolve/main/added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

(…)sed/resolve/main/special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Tamanho do vocabulário BERT

In [None]:
print(len(tokenizer_bert))

29794


# 3 - Pergunta em texto longo

Artigos que auxiliaram a criar o recuperador de texto de perguntas em texto longo.

https://heidloff.net/article/retrieval-augmented-generation-chroma-langchain/

https://medium.com/@onkarmishra/using-langchain-for-question-answering-on-own-data-3af0a82789ed

## 3.1 - Carrega os Documentos

Carrega de PDF ou HTML.

Escolha uma das formas de carregar os dados.

Existem outros formas de carregamento.

https://python.langchain.com/docs/modules/data_connection/document_loaders/

### 3.1.1 - Carrega os documentos de PDF

https://python.langchain.com/docs/modules/data_connection/document_loaders/pdf

####  Download do PDF


Download do PDF do livro "As Vítimas Algozes".

PDF: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116977


Biblioteca: https://www.literaturabrasileira.ufsc.br/documentos/?id=142070


In [None]:
# Import das bibliotecas
# import subprocess

# # As Vítimas Algozes
# urlpdf = 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116977'

# destino = 'arquivo1.pdf'

# # Executa o comando wget no prompt
# subprocess.call(["wget", urlpdf, "-O", destino])

#### Carrega o PDF



In [None]:
# # Import das bibliotecas
# from langchain.document_loaders import PyPDFLoader, PyPDFDirectoryLoader

# # Define o diretório
# diretorio = '/content'

# # Cria o carregar dos documentos do diretório
# # Pode ser usado o PyPDFLoader para um arquivo
# carregador = PyPDFDirectoryLoader(diretorio)

# # Carrega os documentos
# documentos = carregador.load()

# print(f"Documentos carregados: {len(documentos)}")

### 3.1.2 - Carrega os documentos da WEB

https://python.langchain.com/docs/integrations/document_loaders/web_base

https://medium.com/@onkarmishra/using-langchain-for-question-answering-on-own-data-3af0a82789ed

#### Carrega o HTML

Carrega o HTML do livro "As Vítimas Algozes".

HTML: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979

Biblioteca: https://www.literaturabrasileira.ufsc.br/documentos/?id=142070



In [None]:
# Import das bibliotecas
from langchain.document_loaders import WebBaseLoader

urlhtml = "https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979"

# Cria o carregador da página
carregador = WebBaseLoader(urlhtml)

# Carrega os documentos
documentos = carregador.load()

print(f"Documentos carregados: {len(documentos)}")

Documentos carregados: 1


Exibe parte dos dados carregados do PDF ou HTML.

In [None]:
print("Quantidade de documentos(páginas):", len(documentos))
pagina = 0
print("Trecho página(", pagina, ") :", documentos[pagina].page_content[0:500])
print()
print("Medadados:", documentos[0].metadata)

Quantidade de documentos(páginas): 1
Trecho página( 0 ) : 















As vítimas algozes - Joaquim Manuel de Macedo



Fonte: Biblioteca Digital de Literatura de Países Lusófonos

LITERATURA BRASILEIRA 
Textos literários em
meio eletrônico
As
Vítimas-Algozes, de Joaquim Manuel de Macedo

Edição de base:
Biblioteca Nacional – setor de obras digitalizadas
ÍNDICE
SIMEÃO, O CRIOULO
PAI- RAIOL, O FEITICEIRO
LUCINDA, A
MUCAMA
CONCLUSÃO
I
SIMEÃO, O CRIOULO
I
No interior e principalmente longe da vila, ou da
freguesia e dos povoados há quase sempre uma ven

Medadados: {'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'title': 'As vítimas algozes - Joaquim Manuel de Macedo', 'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.'}


## 3.2 - Divide e sobrepõe os documentos em chuks

Carrega o documentos e realiza o divisão do documento em pedaços(chunks) e faz a sobreposição(overlap) para garantir o contexto semântico entre os pedaços.

Teste online da chunk(divisão) e overlap(overlap) usando um arquivo texto no link: https://chunkerizer.streamlit.app/

In [None]:
# Import das bibliotecas
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os
import time

# Parâmetros
chunk_tamanho = 500
chunk_sobreposicao = 100

# Configura o divisor
# text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
#     tokenizer_bert,
#     chunk_size = chunk_tamanho,
#     chunk_overlap  = chunk_sobreposicao, # Número de tokens sobrepostos entre chunks(pedaços)
#     add_start_index = True, # Adiciona o índice de início do chunk no documento
# )
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = chunk_tamanho,
    chunk_overlap  = chunk_sobreposicao, # Número de tokens sobrepostos entre chunks(pedaços)
    length_function = lambda x: len(tokenizer_bert.tokenize(x)), # Usa a quantidade de tokens gerados pelo tokenizador do BERT como medida de tamanho de palavras.
    add_start_index = True, # Adiciona o índice de início do chunk no documento
)

# Guarda o tempo de início
tempo_inicio = time.time()

# Calcula os chunks dos documentos
chunks = text_splitter.split_documents(documentos)

tempo_final = time.time()

print(f"Carregando e dividindo {len(documentos)} documentos html em {tempo_final - tempo_inicio} segundos!")
print(f"Quantidade de chunks: {len(chunks)}")

Carregando e dividindo 1 documentos html em 5.24771785736084 segundos!
Quantidade de chunks: 375


Mostra alguns chunks. A sobreposição se encontra ao final e início de cada pedaço(chunk). A variável 'start_index' define onde começa o texto sem a sobreposição.

In [None]:
for i, chunk in enumerate(chunks):
  if i < 20:
    # Divide o chunk pelo espaço em branco
    tokens = chunk.page_content.split(" ")

    # Divide o chunk pelo tokenizador do BERT
    tokens_bert = tokenizer_bert.tokenize(chunk.page_content)

    # Documento HTML
    print('chunk #',i,' Doc:',chunk.metadata['source'],' qtde char :', len(chunk.page_content),' qtde token :', len(tokens), ' qtde token bert:', len(tokens_bert), ' start_index:', chunk.metadata.get('start_index') )
    # Documento PDF
    # print('chunk #',i,' Doc:',chunk.metadata['source'],' Página:', chunk.metadata['page'], ' qtde char :', len(chunk.page_content),' qtde token :', len(tokens), ' qtde token bert:', len(tokens_bert), ' start_index:', chunk.metadata.get('start_index') )
    print()
    print(chunk.page_content)
    print('-----------------------------------------------------------------------')

chunk # 0  Doc: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979  qtde char : 217  qtde token : 25  qtde token bert: 50  start_index: 16

As vítimas algozes - Joaquim Manuel de Macedo



Fonte: Biblioteca Digital de Literatura de Países Lusófonos

LITERATURA BRASILEIRA 
Textos literários em
meio eletrônico
As
Vítimas-Algozes, de Joaquim Manuel de Macedo
-----------------------------------------------------------------------
chunk # 1  Doc: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979  qtde char : 1922  qtde token : 308  qtde token bert: 497  start_index: 235

Edição de base:
Biblioteca Nacional – setor de obras digitalizadas
ÍNDICE
SIMEÃO, O CRIOULO
PAI- RAIOL, O FEITICEIRO
LUCINDA, A
MUCAMA
CONCLUSÃO
I
SIMEÃO, O CRIOULO
I
No interior e principalmente longe da vila, ou da
freguesia e dos povoados há quase sempre uma venda perto da fazenda: é a
parasita que se apega à árvore; pior que isso, é a inimiga hipócrita que rende
v

In [None]:
maior_chunk_token = 0
maior_chunk_token_bert = 0
maior_chunk_character = 0

for i, chunk in enumerate(chunks):
    # Divide o chunk pelo espaço em branco
    tokens = chunk.page_content.split(" ")

    # Divide o chunk pelo tokenizador do BERT
    tokens_bert = tokenizer_bert.tokenize(chunk.page_content)

    # Documento HTML
    print('chunk #',i,' Doc:',chunk.metadata['source'],' qtde char :', len(chunk.page_content),' qtde token :', len(tokens), ' qtde token bert:', len(tokens_bert), ' start_index:', chunk.metadata.get('start_index') )
    # Documento PDF
    #print('chunk #',i,' Doc:',chunk.metadata['source'],' Página:', chunk.metadata['page'], ' qtde char :', len(chunk.page_content),' qtde token :', len(tokens), ' qtde token bert:', len(tokens_bert),' start_index:', chunk.metadata.get('start_index') )

    # Procura os maiores valores
    if len(tokens) > maior_chunk_token:
      maior_chunk_token = len(tokens)
    if len(tokens_bert) > maior_chunk_token_bert:
      maior_chunk_token_bert = len(tokens_bert)
    if len(chunk.page_content) > maior_chunk_character:
      maior_chunk_character = len(chunk.page_content)

print("Maior chunk token:", maior_chunk_token)
print("Maior chunk token bert:", maior_chunk_token_bert)
print("Maior chunk character:", maior_chunk_character)

chunk # 0  Doc: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979  qtde char : 217  qtde token : 25  qtde token bert: 50  start_index: 16
chunk # 1  Doc: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979  qtde char : 1922  qtde token : 308  qtde token bert: 497  start_index: 235
chunk # 2  Doc: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979  qtde char : 1956  qtde token : 316  qtde token bert: 494  start_index: 1824
chunk # 3  Doc: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979  qtde char : 1972  qtde token : 301  qtde token bert: 495  start_index: 3412
chunk # 4  Doc: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979  qtde char : 1907  qtde token : 299  qtde token bert: 483  start_index: 5000
chunk # 5  Doc: https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979  qtde char : 1907  qtde token : 297  qtde token ber

## 3.3 - Armazena os chunks

Utiliza o Chroma um banco de dados de embeddings de código aberto e leve.

https://www.trychroma.com/

https://heidloff.net/article/retrieval-augmented-generation-chroma-langchain/

In [None]:
# Import das bibliotecas
from langchain.vectorstores import Chroma

# Armazena os chunks usando o Chroma
vectorstore = Chroma.from_documents(documents=chunks, embedding=model_lm, persist_directory="./bancodedados", )

## 3.4 - Função com o prompt de envio ao LLM

Repositório de pompts: https://github.com/awesome-chatgpt-prompts/awesome-chatgpt-prompts-github

Chroma as_retriver: https://api.python.langchain.com/en/latest/vectorstores/langchain.vectorstores.chroma.Chroma.html

In [None]:
# Import das bibliotecas
from langchain.chains import RetrievalQA
from langchain import PromptTemplate
import torch
import gc

def avaliarContexto(texto):

  # Cria o texto de prompt
  prompt_template = """Você é um assistente de IA útil e fornece a resposta em língua portuguesa para a pergunta com base no contexto fornecido.
Contexto: {context}
>>PERGUNTA<< {question}
>>RESPOSTA<<"""

  # Cria o prompt
  # As variáveis "context" e "question" não podem ser alteradas
  # O parâmetro "context" recebe o contexto do carregado e armazenado no Chroma
  # O parâmetro "question" recebe a pergunta realizada sobre o contexto.
  prompt = PromptTemplate(input_variables=["context", "question"],
                          template=prompt_template)

  # Instancia o chain
  chain_type_kwargs = {"prompt": prompt}
  chain = RetrievalQA.from_chain_type(
        llm=model_llm,
        chain_type="stuff",
        return_source_documents = True, # Retorna o documento de origm
        retriever=vectorstore.as_retriever(), # Passa o contexto(livro carregado)
        #retriever=vectorstore.as_retriever(search_kwargs={'k':1}), # (Default 4) Quantidade de documentos a serem retornados.
        chain_type_kwargs=chain_type_kwargs
    )

  # Executa o prompt no llm
  resultado_llm = chain({"query":texto})

  # Esvazia a memória
  del chain
  gc.collect()
  torch.cuda.empty_cache()

  return resultado_llm

## 3.5 - Algumas perguntas usando o contexto

Guarda o tempo de início de realização das perguntas

In [None]:
# Importando as bibliotecas do Modelo
import time

# Guarda o tempo de início do carregamento do modelo
tempo_inicio = time.time()

### Perguntas sobre o tempo

In [None]:
texto = "Qual o período que ocorreu a história do texto?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 O texto "As Vítimas Algozes" de Joaquim Manuel de Macedo ocorre no final do século XIX, durante a Abolicionismo, movime
nto que buscou combater a escravidão no Brasil.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivament

In [None]:
texto = "Considerando o contexto em qual período que ocorreram os fatos?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Os fatos narrados ocorreram no século XIX, durante a época colonial brasileira.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sang

### Perguntas sobre personagens

In [None]:
texto = "Qual o nome de todos os personagens do texto?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Simeão, o Barbudo, Eufêmia, Paulo Borges, Esméria, o curandeiro.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desani

In [None]:
texto = "Considerando o contexto qual o nome de todos os personagens da história?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Os personagens da história são: Simeão, Eufêmia, o Barbudo, Paulo Borges, Esméria e o Curandeiro.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo 

In [None]:
texto = "Quem são os principais personagens do contexto?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Os principais personagens do contexto são Simeão, Esméria, Paulo Borges e o Barbadelo (Barbudo).

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo p

In [None]:
texto = "Quais os nomes dos principais personagens do contexto?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Os principais personagens do contexto são: Simeão, Eufêmia, o Barbudo e o Carrasco.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito 

In [None]:
texto = "Considerando o contexto quem são os principais personagens da história?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Os principais personagens da história são Simeão, Esméria, Paulo Borges e o curandeiro.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido mu

In [None]:
texto = "Considerando o contexto qual o nome dos principais personagens da história?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Os principais personagens da história são Simeão, Esméria, Paulo Borges e o Barbadelo (Barbudo).

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo p

### Perguntas sobre parentesco

In [None]:
texto = "Qual o nome do pai da Angêlica?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Simeão

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCONCLU

In [None]:
texto = "Qual o nome do pai da Florinda?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)

Resposta:
 Simeão

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCONCLU

In [None]:
texto = "Qual o nome do pai do Domingo?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 É difícil lembrar-se, mas creio que o nome era
Manoel.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quan

In [None]:
texto = "Qual o nome da mãe da Angêlica?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Simeão.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCONCL

In [None]:
texto = "Qual o nome da mãe da Florinda?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Simeão.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCONCL

In [None]:
texto = "Qual o nome da mãe do Domingo?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Aonde você quiser. Ninguém sabia.





Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava salt

In [None]:
texto = "Qual o nome da mãe do Simeão?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Eufêmia.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCONC

In [None]:
texto = "Qual o nome da pessoa casada com a Angêlica?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 O nome da pessoa casada com a Angêlica é Frederico.

Documentos de origem:
page_content='da se\xadnhora, esperou obumbrado o seu sábio curandeiro, e apenas o viu chegar,\ncorreu a ele, levou-o a examinar o cadáver, e disse por fim:\n– Minha mulher morreu envenenada, não é verdade? O\nsenhor tem obrigação de dizê-lo: fale! Em nome de Deus, diga-me a verdade.\nO curandeiro turbou-se: de novo e com absurdo processo\nfez o exame do triste e enregelado corpo da vítima, e incapaz de compreender os\nsin\xadtomas que haviam escapado à sua ignorância, incapaz de apelar para os meios\ncientíficos que vingam a sociedade, reconhecendo no cadáver as provas\nirrecusáveis do crime do envenenador, o curandeiro charlatão, vaidoso do seu\ndiagnóstico, acabou por dizer com desfaçada impostura:\n– Envenenada!... Quem o disse, mentiu.\n– Está absolutamente certo disso?\n– Juro-o...\n– Que Deus perdoe a quem tal suspeitou! \n– Quem foi?\n– A defunta.\n– Delírio de moribunda: ela morreu da febre q

In [None]:
texto = "Qual o nome da pessoa casada com a Florinda?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Frederico

Documentos de origem:
page_content='– O pajem foi pôr o sinal no lugar ajustado\n– Que pressa! – observou Cândida.\n– Mas se é preciso aproveitar ocasiões, minha senhora!\nO dia estava como destinado para o recebimento de cartas\nimpor\xadtantes.\nCândida recebera o assustador bilhete de Souvanel ao\ndespertar de manhã.\nÀ tarde chegaram, vindas pelo correio, cartas de\nFrederico para Cândida e Leonídia.\nEnquanto sua mãe lia a carta do filho adotivo, que muito\nlongamente lhe escrevera, Cândida foi para o seu quarto e com desconfiança e\ncuriosi\xaddade leu também a que lhe era dirigida e que dizia assim: “Minha irmã.\n– Já sei demais para te fazer chorar: o verdadeiro nome\ndo falso Souvanel é Paulo Dermany, que fugiu de Marselha, onde era caixeiro de\numa casa comercial, porque, frenético jogador, não só roubou avultada quantia\nao amo, como houve dinheiro, falsificando as firmas de diversos negocian\xadtes. O\nministro da França no Rio de Janeiro descobriu Der

In [None]:
texto = "Qual o nome da pessoa casada com o Domingo?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Simeão.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCONCL

In [None]:
texto = "Qual o nome da pessoa casada com o Simeão?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 É Esméria.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCO

In [None]:
texto = "Qual o nome dos filhos da Angêlica?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Os filhos da Angêlica eram Simeão, Abraão e José.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando pr

In [None]:
texto = "Qual o nome dos filhos da Florinda?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Os nomes dos filhos da Florinda eram Simeão, Abraão e José.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado,

In [None]:
texto = "Qual o nome dos filhos do Domingo?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Os nomes dos filhos do Domingo eram Simeão, José e Maria.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, q

In [None]:
texto = "Qual o nome dos filhos do Simeão?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Os nomes dos filhos do Simeão são:
1) António
2) Francisco
3) José

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desa

In [None]:
texto = "A Angêlica é filha de quem?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 A Angêlica é filha de Simeão.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cer

In [None]:
texto = "A Florinda é filha de quem?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 A Florinda é filha de Simeão.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cer

In [None]:
texto = "O Domingo é filho de quem?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 O Domingo é filho de Simeão.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerc

In [None]:
Dtexto = "O Simeão é filho de quem?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 O Domingo é filho de Simeão.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerc

In [None]:
texto = "Quais os nomes dos casais da história?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Os nomes dos casais da história são: Simeão e Eufêmia, Frederico e Cándida.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, 

### Perguntas diversas

In [None]:
texto = "Liste para mim as palavras que estão relacionadas com escravidão?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Ah, sim! Essas palavras estão relacionadas com a escravidão:
1. Escravos (plural)
2. Escravidão (singular)
3. Traidor(a
) (plural)
4. Pervertido/a (adjective)
5. Depravação (noun)
6. Opressão (noun)
7. Violence (noun)
8. Abuso (noun)
9. Cor
rupção (noun)
10. Assassinato (noun)
11. Morte (noun)
12. Peste (noun)
13. T Torpe (adjective)
14. Miserável (adjective)

15. Desonesto (adjective)
16. Empestear (verb)
17. Envenenar (verb)
18. Destruir (verb)
19. Malvada (adjective)
20. Imo
ral (adjective).

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'tit

In [None]:
texto = "Liste para mim a quantidade de  palavras que estão relacionadas com escravidão?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Vejo, aqui está a lista das palavras relacionadas com escravidão encontradas no texto:
1. Escravos (4x)
2. Escravidão (
3x)
3. Slave (1x)
4. Servitude (1x)
5. Bondage (1x)
6. Oppression (1x)
7. Abolition (1x)
8. Liberty (1x)
9. Freedom (1x)

10. Equality (1x)

Entendi, você quer que eu conte a quantidade de palavras relacionadas com escravidão presentes no te
xto.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da co

In [None]:
texto = "Considerando o contexto que palavras possuem relação com escravidão?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 As palavras "envenenamento" e "escravidão" estão relacionadas, pois o crime descrito no texto é um envenenamento perpet
rado por escravos. A obra faz uma crítica à escravidão e denuncia a crueldade e a injustiça sofridas pelos escravos.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'title': 'As vítimas algozes - Joaquim Manuel de Macedo'}
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na re

In [None]:
texto = "Considerando o contexto que palavras possuem relação semântica com escravidão?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Palavras relacionadas à escravidão podem incluir:
* Escravo(a) (servo/a): Refere-se a uma pessoa que está em situação d
e dependência e obediência a outro indivíduo ou grupo, geralmente por motivos econômicos ou políticos.
* Opressão (oppre
ssion): Refere-se à acção ou situação de explorar, manipular ou dominar someone against their will or without their cons
ent, often resulting in harm or inequality.
* Maldade (malice): Refers to the quality of being hostile, cruel, or malevo
lent towards another person or group.
* Depravação (depravation): Refers to the state of being corrupted or debased by s
inful behavior or practices.
* Injustiça (injustice): Refers to the act of doing something unjust or unfair, especially 
when it involves treating someone unfairly or violating their rights.
* Desonredamento (dishonor): Refers to the loss of
 reputation or honor due to immoral or illegal actions.
* Moral (moral): Refers to the principles and values that guide 
human behavior, includ

In [None]:
texto = "Considerando o contexto que palavras estão relacionadas a escravidão mas deixa isto implicito?"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Sim, as palavras "envenenamentos" e "tentativas de envenenamentos" podem ser consideradas como uma referência implícita
 à escravidão, pois elas são usadas para descrever crimes relacionados à opressão e violência infligida sobre pessoas es
cravizadas. Além disso, a frase "Em face de que Deus vos direyssenhos de homens..." suggeriu que a escravidão é um crime
 contra a humanidade e a dignidade humana, e que os escravos são tratados como objetos rather than como pessoas com dire
itos e dignidade.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte: Biblioteca Digital de Literatura de Países Lusófonos\n\nLITERATURA BRASILEIRA \nTextos literários em\nmeio eletrônico\nAs\nVítimas-Algozes, de Joaquim Manuel de Macedo' metadata={'description': 'As vítimas algozes - Joaquim Manuel de Macedo', 'language': 'No language found.', 'source': 'https://www.literaturabrasileira.ufsc.br/documentos/?action=download&id=116979', 'start_index': 16, 'ti

Textos do trabalho do **Leandro da Silveira Dias**

In [None]:
texto = "Considerando a palavra \"negro\" com alvo, identifique outras palavras no contexto que são semanticamente similares."

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 A partir da leitura da obra "As Vítimas Algozes", identificarei outras palavras que compartilham a mesma semantica que 
"negro". Alguns exemplos incluem:

1. Preto (esta palavra também pode referir-se a cor)
2. Escravo (embora este termo te
nha uma conotação diferente, ainda é usado para referir-se a pessoas negras)
3. Mulato (uma palavra controversa, pois po
de ser considerada offensive)
4. Moreno (outra palavra que pode ter conotações diferentes dependendo do contexto)
5. Ind
ígena (embora esta palavra tenha uma conotação diferente, também pode ser usada para referir-se a pessoas de origem afri
cana)
6. Caboclo (uma palavra que pode ser usada para referir-se a pessoas de origem africana, embora tenha conotações d
iferentes)
7. Zumbi (uma palavra que pode ser usada para referir-se a pessoas de origem africana, embora tenha conotaçõe
s diferentes)
8. Corujão (uma palavra que pode ser usada para referir-se a pessoas de origem africana, embora tenha cono
tações diferentes)
9. 

In [None]:
texto = "Considerando a palavra alvo \"negro\", identifique outras palavras no contexto que são semanticamente similares."

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 A partir da leitura da obra, identificarei outras palavras que possuem significado semelhante ao termo "negro". No enta
nto, é importante notar que o uso destas palavras podem ter conotações diferentes e potencialmente ofensivas, dependendo
 do contexto em que são usadas. Por favor, use palavras que estejam dentro do contexto histórico e cultural da época em 
que a obra foi escrita.
Exemplos de palavras semelhantes ao termo "negro" incluem:

* Africano (ou simplesmente "african
o")
* Indígena
* Escravo
* Mulatto
* Moreno
* Rubiço

É importante lembrar que a raça não é uma característica biológica
 fixa e permanente, mas sim uma construção social e cultural que varia ao longo do tempo e entre diferentes culturas. Al
ém disso, é fundamental evitar usar termos raciais que tenham sido historicamente utilizados para justificar a discrimin
ação e a opressão de grupos étnicos e racials.

Documentos de origem:
page_content='As vítimas algozes - Joaquim Manuel de Macedo\n\n\n\nFonte:

In [None]:
texto = " Na sentença \'Em falta de pundonor e de vergonha, que a escravidão não comporta, o escravo tem o rancor e o desejo da vingança.'\ liste as palavras possuem ligação com a palavra \'negro\'"

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
  As seguintes palavras possuem ligação com a palavra 'negro':

* pundonor
* vergonha
* negro

Documentos de origem:
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCONCLUSÃO\nO crime espantosamente horrível não ficou impune. A lei\nvingou as ví\xadtimas.\nO Barbudo,\nEufêmia e outros cúmplices acham-se na casa da correção pagando sua malvadeza.\nSimeão subiu à forca; estrebuchou e morreu\ndebaixo dos pés do car\xadrasco.\nA lei de exceção matou o escravo e deixou com\nvida o Barbudo tão ce\xadlerado como ele, ou, se é possível, mais celerado que\nele.\nTudo isto é profundamente imoral e perverte a

In [None]:
texto = " Na sentença \'Em falta de pundonor e de vergonha, que a escravidão não comporta, o escravo tem o rancor e o desejo da vingança.'\ liste as palavras possuem ligação com a palavra alvo \'negro\' considerando o contexto."

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
  As palavras "pundonor" e "vergonha" possuem conexão com a palavra alvo "negro", pois ambos são termos relacionados à m
oralidade e à dignidade humana. A expressão "em falta de..." sugere que a ausência desses valores em relação a um grupo 
social específico (neste caso, os escravos) é um problema grave e inaceitável. Além disso, a ideia de "vingança" também 
está associada à idea de justiça e equidade, que também são valores importantes para garantir a igualdade e a dignidade 
de todos os indivíduos, independentemente de sua raça ou origem étnica.

Documentos de origem:
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar 

In [None]:
texto = "Usando leitura distante realize a analise da sentença \'Em falta de pundonor e de vergonha, que a escravidão não comporta, o escravo tem o rancor e o desejo da vingança.'\ para encontrar e listar as palavras possuem ligação com a palavra alvo \'negro\'."

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Para realizar a análise da sentença 'Em falta de pundonor e de vergonha, que a escravidão não comporta, o escravo tem o
 rancor e o desejo da vingança', observamos que existem algumas palavras que ligam-se ao termo 'negro':

1. Escravo - ap
arece duas vezes na sentença e é claramente associado ao término 'negro' devido à relação histórica da escravidão com a 
população afro-americana.
2. Rancôr - este adjetivo está relacionado ao termo 'negro' por causa da associação histórica 
entre a cor preta e a escravidão.
3. Vergonha - esta palavra também é relevante para a discussão, pois a escravidão foi 
historicamente justificada pela ideologia de que os escravos eram "bons" e "auténticos", enquanto os proprietários eram 
"malignos" e "falsos".
4. Vingança - este termo é importante porque reflete a ideia de que os escravos tinham um desejo 
de retaliação contra seus proprietários, que haviam tratado-os cruelly e sem dignidade.

Dessa forma, podemos identifica
r quatro palavras que 

In [None]:
texto = "Considerando o contexto use leitura distante para realizar a analise da sentença \'Em falta de pundonor e de vergonha, que a escravidão não comporta, o escravo tem o rancor e o desejo da vingança.'\ para encontrar e listar as palavras possuem ligação com a palavra alvo \'negro\'."

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 Para encontrar e listar as palavras com ligação com a palavra alvo 'negro' na sentença 'Em falta de pundonor e de vergo
nha, que a escravidão não comporta, o escravo tem o rancor e o desejo da vingança', podemos utilizar a técnica de Leitur
a Distante. Aqui estão as palavras com ligação com a palavra alvo 'negro':
1. falta - tem link com 'negro' por estar ass
ociado a ideia de ausência ou deficiência de algo.
2. pundonor - tem link com 'negro' por estar relacionado a ideia de d
ignidade e respeito.
3. vergonha - tem link com 'negro' por estar associado a ideia de culpa ou deixa.
4. escravo - tem 
link com 'negro' por estar relacionado a ideia de pessoa escrava.
5. rancor - tem link com 'negro' por estar associado a
 ideia de dor ou mágoa.
6. desejo - tem link com 'negro' por estar relacionado a ideia de desejo ou longing.
7. vingança
 - tem link com 'negro' por estar associado a ideia de retaliação ou punho.
8. composição - tem link com 'negro' por est
ar relacionado a ideia

In [None]:
texto = "Usando leitura distante realize a analise da sentença: \'Em falta de pundonor e de vergonha, que a escravidão não comporta, o escravo tem o rancor e o desejo da vingança.'\ e liste as palavras possuem relação semântica com a palavra alvo \'negro\'."

resultado_llm = avaliarContexto(texto)

# Mostra o resultado
print("Resposta:")
print_linhas_menores(resultado_llm["result"])

# Verifique os documentos de origem usados
print("\nDocumentos de origem:")
for fonte in resultado_llm["source_documents"]:
  print(fonte)



Resposta:
 As palavras relacionadas com a palavra alvo 'negro' são:

* rancor (relaciona-se com a ideia de dor e odio)
* desejo (r
elaciona-se com a ideia de intenção ou voluntariado)
* vingança (relaciona-se com a ideia de retaliação ou castigo)

Documentos de origem:
page_content='carregados de ouro e prata, fugiram precipitados pela porta da cozinha, e\nganharam o campo abandonando os cúmplices, que se batiam.\nSó de muito longe assobiaram repetidas vezes anunciando\na retirada, e metendo-se logo pelo mato, cada qual cuidando exclusivamente de\nsi.\nSimeão contara demais com as suas forças: ferido, e\ntendo perdido muito sangue, caiu desanimado, quando procurava saltar a cerca da\nfazenda.\nCONCLUSÃO\nO crime espantosamente horrível não ficou impune. A lei\nvingou as ví\xadtimas.\nO Barbudo,\nEufêmia e outros cúmplices acham-se na casa da correção pagando sua malvadeza.\nSimeão subiu à forca; estrebuchou e morreu\ndebaixo dos pés do car\xadrasco.\nA lei de exceção matou o escravo e 

Tempo final de execução das perguntas

In [None]:
print("Tempo de execução das perguntas:  {:} (h:mm:ss)".format(formataTempo(time.time() - tempo_inicio)))

Tempo de execução das perguntas:  0:13:32 (h:mm:ss)
