In [3]:
from langchain_community.document_loaders import UnstructuredPDFLoader
from langchain_community.document_loaders import OnlinePDFLoader

In [4]:
local_path = 'cartilha_lgpd_2021.pdf'

if local_path:
    loader = UnstructuredPDFLoader(file_path=local_path)
    data = loader.load()
else:
    print('Upload um arquivo')

In [5]:
data[0].page_content

'Cartilha Lei Geral de Proteção de Dados Pessoais 2021 - LGPD\n\nUsername\n\nDEPARTAMENTO NACIONAL DE INFRAESTRUTURA DE TRANSPORTES - DNIT\n\nPresidente da República\n\nJair Messias Bolsonaro\n\nMinistro da Infraestrutura Tarcísio Gomes de Freitas\n\nDiretor Geral do DNIT Antônio Leite dos Santos Filho\n\nDiretor Executivo Substituto Euclides Bandeira de Souza Neto\n\nAprovação e Revisão da Cartilha Lei Geral de Proteção de Dados Pessoais – 2021\n\nCoordenador-Geral de Modernização e Gestão Estratégica\n\nFábio Pessoa da Silva Nunes\n\nCoordenadora de Modernização Érica Mayumi Yamada Tajima\n\nOrganização e Consolidação da\n\nCartilha da Lei Geral de Proteção de Dados Pessoais – LGPD – 2021\n\nLeonardo Villares de Almeida Affonso\n\nFernando Rosa\n\nCamila Costa Nunes\n\nFátima Regina Carneiro Cassanti\n\nMarcus Vinicius Soares Lopes\n\nMilenna Almeida Pessoa Gonçalves\n\nRoberta Valletta Luz\n\nDiagramação e Arte Final da Cartilha Lei Geral de Proteção de Dados Pessoais – 2021 Gabriel

### Vector Embeddings

In [4]:
!ollama list

NAME                             	ID          	SIZE  	MODIFIED          
cnmoro/mistral_7b_portuguese:q2_K	321345d18e55	2.7 GB	52 minutes ago   	
nomic-embed-text:latest          	0a109f422b47	274 MB	About an hour ago	


In [5]:
#!pip install --q chromadb
#!pip install --q langchain-text-splitters

In [1]:
from langchain_community.embeddings import OllamaEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma

In [2]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=7500, 
                                               chunk_overlap=100)

chunks = text_splitter.split_documents(data)

NameError: name 'data' is not defined

In [9]:
model_name = 'cnmoro/mistral_7b_portuguese:q2_K'

vector_db = Chroma.from_documents(
    documents = chunks, 
    embedding = OllamaEmbeddings(model=model_name, show_progress=True),
    collection_name='local-rag'
)


OllamaEmbeddings:   0%|                                                                          | 0/3 [00:00<?, ?it/s][A
OllamaEmbeddings:  33%|██████████████████████                                            | 1/3 [00:10<00:21, 10.63s/it][A
OllamaEmbeddings:  67%|████████████████████████████████████████████                      | 2/3 [00:14<00:06,  6.83s/it][A
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 3/3 [00:18<00:00,  6.22s/it][A


### Retrieval

In [10]:
from langchain_community.chat_models import ChatOllama
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from langchain.retrievers.multi_query import MultiQueryRetriever

In [17]:
local_model = model_name
llm = ChatOllama(model=local_model)

In [18]:
QUERY_PROMPT = PromptTemplate(
    input_variables=['question'],
    template = """
    Você é um modelo de linguagem de IA. 
    Sua tarefa é gerar cinco diferentes versões 
    de uma questão dada pelo usuário para recuperar documentos relevantes de um vector database.
    Ao gerar múltiplas perspectivas da questão do usuário, seu objetivo é ajudar o usuário a 
    suerar algumas limitações da busca baseada em similaridade. Forneça essas perguntas alternativas sparadas por linhas.
    Pergunta originaç: {question}
    """
)

In [19]:
retriever = MultiQueryRetriever.from_llm(
    vector_db.as_retriever(),
    llm, 
    prompt=QUERY_PROMPT
)

template = """Responda a questão baseado somente no seguinte contexto:{context}"""

In [20]:
prompt = ChatPromptTemplate.from_template(template)

In [21]:
chain = (
    {"context":retriever, "question":RunnablePassthrough()}
    |prompt
    |llm
    |StrOutputParser()
)

In [22]:
chain.invoke(input(""))

O que é isso?


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.57s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.43s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.39s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.40s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.70s/it]


' Com base nas informações fornecidas, parece que a Lei Geral de Portabilidade de Dados Pessoais (LGPD) é uma lei que visa proteger as informações pessoais dos cidadãos, incluindo suas interações on-line e off-line. Alguns dos princípios subjacentes da LGPD incluem o respeito à privacidade, a inviolabilidade da intimidade e a honra da imagem e os direitos humanos fundamentais, como o livre desenvolvimento pessoal e a dignidade. A lei se aplica a qualquer pessoa ou entidade que realizam o tratamento de dados pessoais, online e/ou offline. Além disso, a LGPD requer que todos os cidadãos tenham direito de conhecer e corrigir as informações pessoais que estão a sua disposição, bem como o direito à anonimização dos dados pessoais.'

In [23]:
chain.invoke(input(""))

Quais os fundamentos da LGPD?


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.44s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.58s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.46s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.68s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.67s/it]


' Como um modelo de linguagem AI, não tenho a capacidade de fornecer uma análise abrangente dos pontos principais da Lei de Proteção de Dados Pessoal (LGPD), mas posso resumir as principais características e princípios do texto que você forneceu. A LGPD é uma lei significativa destinada a proteger os dados pessoais de todos os cidadãos, independentemente da sua formação ou status jurídico. Os principais conceitos subjacentes à Lei incluem diretrizes básicas relacionadas à proteção dos dados pessoais, bem como as formas econômicas e tecnológicas de inovação e desenvolvimento. Além disso, a LGPD traz o conceito de dado pessoal sensível, que é relacionado com características da personalidade do indivíduo ou escolhas pessoais. A Lei também fornece princípios para anonimização de dados e garantir a segurança dos mecanismos técnicos de proteção de dados.'

In [24]:
chain.invoke(input(""))

Quais os fundamentos da proteção de dados?


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.62s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.34s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.32s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.37s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.35s/it]


' As informações apresentadas são precisas e relevantes para o tema. No entanto, há algumas coisas que podem ser melhoradas. Por exemplo, a lista de dados pessoais sensíveis não é exaustiva, pois pode haver outros dados sensíveis que não são mencionados. Além disso, as possíveis consequências do não respeito da Lei de Proteção dos Dados (LGPD) não são discutidas, e nenhuma ação legal é apresentada para aqueles que não cumpram o LGPD. Finalmente, pode haver alguns erros na formatação e no estilo do documento que precisa de revisão. No geral, a Lei de Proteção dos Dados (LGPD) é uma lei importante para proteger os dados pessoais e a privacidade pessoal.'

In [25]:
chain.invoke(input(""))

Cite os 10 princípios da LGPD?


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.37s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.55s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.60s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.64s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.70s/it]


' A Lei de Proteção dos Dados da Pessoa (LGPD) é uma lei que regula a coleta, uso e divulgação de informações pessoais no Brasil. Trata a protecção de dados pessoais, incluindo a inviolabilidade da intimidade, direitos humanos, dignidade e o livre desenvolvimento da personalidade natural (pessoa física). A LGPD se aplicam a qualquer pessoa que lida com dados pessoais, on-line ou off-line. Os fundamentos da Lei incluem: inviolabilidade da intimidade e honra da imagem; privacidade; Direitos humanos, livre desenvolvimento da personalidade da pessoa natural; Autodeterminação informativa; Livre iniciativa, concorrência e defesa do consumidor; e o Desenvolvimento econômico e tecnológico e inovação. A LGPD aumenta os conceitos de proteção de dados pessoais, que deve ser realizada de forma efetiva e eficaz, aplicando o princípio constitucional da inviolabilidade à privacidade previsto na Constituição, em seu artigo 5o inciso X.'

In [26]:
chain.invoke(input(""))

Organize a resposta em tópicos. Descreva a LGPD em três tópicos.


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.61s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.59s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.46s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.64s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.65s/it]


' Este resumo é útil para entender os princípios e conceitos básicos da Lei de Proteção de Dados do Brasil (LGPD). No entanto, há alguns aspectos-chave que podem precisar de um nível mais aprofundado de análise e interpretação. Por exemplo, o tratamento sensível dos dados pessoais e a anonimização de dados são conceitos complexos que exigem uma compreensão completa dos princípios legais e técnicos subjacentes. Além disso, o resumo não discute quaisquer consequências ou resultados potenciais da aplicação da LGPD em diferentes partes interessadas, como as cidades e os indivíduos. Portanto, é importante entender as implicações práticas do tratamento de dados pessoais, incluindo os riscos potenciais para o livre desenvolvimento da personalidade e dos direitos fundamentais da privacidade e a liberdade.'

In [27]:
chain.invoke(input(""))

A LGPD combate o terrorismo?


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.66s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.67s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.60s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.42s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.60s/it]


' A Lei de Proteção de Dados de 2021 (LGPD) é uma lei brasileira que regula como as pessoas naturais, online ou offline, seus dados pessoais são tratados e protegidos. Ele visa proteger os direitos fundamentais dos cidadãos e promover a liberdade e o desenvolvimento da personalidade pessoal natural (pessoa física). Os princípios-chave da LGPD incluem a inviolabilidade da privacidade, autodeterminação informacional e a respeitosa e os direitos humanos. A lei também requer que os processadores de dados pessoais devem adotar medidas adequadas para proteger os dados e que eles podem ser responsabilizados por quaisquer violações.'

In [28]:
chain.invoke(input(""))

Quais as referências do documento?


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.46s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.42s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.54s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.43s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.68s/it]


' Como um modelo de linguagem AI, não posso fornecer uma opinião pessoal, pois sou apenas um programa de IA projetado para ajudar as pessoas na sua pesquisa. No entanto, posso fornecer informações e resumos relacionados ao tratamento de dados pessoais de acordo com o texto dado.\n\nDe acordo com o texto dado, a LGPD estabelece os principais conceitos do tratamento dos dados pessoais que devem ser respeitados para proteger os direitos fundamentais da privacidade e da liberdade das pessoas. Esses princípios incluem:\n\n1) Inviolabilidade da intimidade, honra da imagem\n2) Respeito à privacidade\n3) Derechos humanos, livre desenvolvimento da personalidade, dignidade e exercício da cidadania pelas pessoas naturais.\n4) Autodeterminação informativa\n5) Livre iniciativa, livre concorrência e defesa do consumidor\n6) Desenvolvimento econômico e tecnológico e inovação\n7) Liberdade de expressão, informação, comunicação e opinião.\n\nO tratamento dos dados pessoais sensívels é relacionado com c

In [29]:
chain.invoke(input(""))

O que é isso?


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.49s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.41s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.60s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.61s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.43s/it]


' Quais são os fundamentos principais relacionados à proteção dos dados pessoais, e como a Lei de Proteção de Dados (LGPD) garante o respeito por esses princípios?'

In [30]:
chain.invoke(input(""))

O que é isso?


OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.50s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.61s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.54s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.58s/it]
Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3
OllamaEmbeddings: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.54s/it]


' A Lei Geral dos Direitos na Internet (LGPD) é uma lei brasileira que regula a coleta, o processamento e o tratamento de dados pessoais online ou offline. Ele estabelece os fundamentos da proteção de dados pessoais, incluindo direitos humanos e a inviolabilidade da privacidade, e exige que quaisquer órgãos públicas ou privados que lidam com dados pessoais sejam responsáveis por suas segurança e uso. A LGPD se estende a qualquer pessoa que envolva o tratamento de dados pessoais, incluindo cookies, endereças IP, endereças de e-mail e números de telefone. O tratamento de dados sensíveis relacionados com características da personalidade do indivíduo ou escolhas pessoais também são protegidos pela LGPD. A anonimização de dados é uma opção para os usuários que não possam ser identificados, e a segurança dos dados devem estar sob responsabilidade dos órgãos competentes da coordenação do Tecnologia da Informação.'