<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>IA Generativa e LLMs Para Processamento de Linguagem Natural</font>
## <font color='blue'>Projeto 1</font>
## <font color='blue'>Converse com Seus PDFs - Criando Assistente Pessoal de IA com LLM e VectorDB</font>

## Instalando e Carregando Pacotes

https://openai.com/product

In [1]:
!pip install -q -U openai

https://www.pinecone.io/

In [2]:
!pip install -q -U pinecone-client

https://www.langchain.com/

In [3]:
!pip install -q -U langchain

Para instalar todos os pacotes de uma vez, execute no terminal ou prompt de comando:

pip install -r requirements.txt

In [4]:
!pip install -q -U watermark

In [6]:
# Imports
import os
import openai
import langchain
import pinecone
from langchain.document_loaders import PyPDFDirectoryLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Pinecone
from langchain.llms import OpenAI
from langchain.chains.question_answering import load_qa_chain
import warnings
warnings.filterwarnings('ignore')

In [7]:
%reload_ext watermark
%watermark -a "Data Science Academy"

Author: Data Science Academy



## Extraindo Texto de Arquivos PDF

In [8]:
# Função para ler os arquivos em pdf
def dsa_read_pdf(directory_path):
    
    # Acessa a pasta com o arquivo pdf
    file_loader = PyPDFDirectoryLoader(directory_path)
    
    # Lê o documento da pasta
    documents = file_loader.load()
    
    return documents

In [9]:
# Executa a função
dsa_doc = dsa_read_pdf('arquivos/')

In [10]:
dsa_doc

[Document(page_content='A Habilidade Mais Importante na Era da Inteligência Artificial  \n \nA pandemia do COVID -19 acelerou o ritmo do desenvolvimento digital em todo o mundo, já que \ntudo, desde reuniões até consultas médicas, ficou online. Isso pode soar como algo super \npositivo.   \nPara dezenas de milhões de trabalhadores, não.  \nEles talvez não tenham as habilidades necessárias para competir nesse novo mundo. Eles são os \ncontadores, os digitadores, os secretários executivos, procurando trabalho em uma nova \neconomia na qual as pessoas contratadas têm títulos como “Engenheiro de Nuv em” ou “Hacker \nde Crescimento” em seus currículos. Sem um esforço concentrado para retreiná -los, descobriram \nos pesquisadores da RAND Europe, eles provavelmente serão deixados para trás.  \nE não apenas eles. O custo dessa crescente lacuna de habilidades será medido em trilhões de \ndólares e recairá mais fortemente em lugares que não possuem infraestrutura digital confiável, \ncomo acesso

In [11]:
len(dsa_doc)

3

## Definindo a API do LLM

Crie sua API na OpenAI e coloque no arquivo .env na mesma pasta onde está este Jupyter Notebook.

https://platform.openai.com/

https://platform.openai.com/api-keys

https://platform.openai.com/docs/quickstart?context=python

In [12]:
# Carregando as variáveis de ambiente definidas no arquivo .env
from dotenv import load_dotenv
load_dotenv()

True

## Criando o Gerador de Embeddings

In [13]:
# Criando o gerador de embeddings
gerador_embeddings = OpenAIEmbeddings(api_key = os.environ['OPENAI_API_KEY'])

O OpenAIEmbeddings é uma funcionalidade que permite obter representações vetoriais (embeddings) de texto, que são úteis para várias tarefas de processamento de linguagem natural, como comparação de semelhança de texto, agrupamento e classificação.

In [14]:
gerador_embeddings

OpenAIEmbeddings(client=<openai.resources.embeddings.Embeddings object at 0x1161205d0>, async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x11494ded0>, model='text-embedding-ada-002', deployment='text-embedding-ada-002', openai_api_version='', openai_api_base=None, openai_api_type='', openai_proxy='', embedding_ctx_length=8191, openai_api_key='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', openai_organization=None, allowed_special=set(), disallowed_special='all', chunk_size=1000, max_retries=2, request_timeout=None, headers=None, tiktoken_enabled=True, tiktoken_model_name=None, show_progress_bar=False, model_kwargs={}, skip_empty=False, default_headers=None, default_query=None, retry_min_seconds=4, retry_max_seconds=20, http_client=None)

In [15]:
type(gerador_embeddings)

langchain_community.embeddings.openai.OpenAIEmbeddings

## Testando os Vetores de Embeddings

In [16]:
# Testando o gerador de embeddings
vetores = gerador_embeddings.embed_query('Qual habilidade mais importante na era da IA?')

In [17]:
len(vetores)

1536

In [18]:
type(vetores)

list

In [19]:
vetores[1:10]

[-0.002467041402543643,
 0.020015055581565046,
 -0.012389957139306136,
 -0.0015835851875652545,
 0.02166085719248351,
 -0.020652139835772815,
 0.0009216150625081395,
 -0.006005844181685136,
 -0.02370483459963666]

## Definindo o Vector Store

Cria sua conta gratuita no Pinecone, valide a conta, crie um índice chamado dsa-index e crie a chave da API. A chave da API deve ser colocada no arquivo .env na mesma pasta onde está este Jupyter Notebook.

https://www.pinecone.io/

https://app.pinecone.io/

In [20]:
# Iniciando o Pinecone
pinecone.init(api_key = os.environ['PINECONE_API_KEY'], environment = 'gcp-starter')

Essa linha de código acima é usada para configurar a conexão entre o seu script Python e o Pinecone, permitindo que você utilize as funcionalidades do Pinecone, como inserir, consultar e gerenciar dados de vetores em suas aplicações. Lembre-se de que o uso do Pinecone e a exposição de chaves de API em scripts ou repositórios públicos deve ser feito com cautela para evitar acessos não autorizados ou uso indevido dos seus recursos no Pinecone.

In [21]:
# Definindo o nome do índice (criado no console do Pinecone)
index_name = 'dsa-index'

In [22]:
# Gerando os vetores no índice
index = Pinecone.from_documents(dsa_doc, gerador_embeddings, index_name = index_name)

In [23]:
type(index)

langchain_community.vectorstores.pinecone.Pinecone

In [24]:
# Define a função de busca por similaridade
def busca_similaridade(query, k = 2):
    
    # Utiliza o método 'similarity_search' do objeto 'index' para buscar os 'k' resultados 
    # mais semelhantes à 'query'
    matching_results = index.similarity_search(query, k)
    
    # Retorna os resultados correspondentes da busca de similaridade
    return matching_results

## Criando a App do Assistente Pessoal com LangChain

In [25]:
# Cria instância do LLM
llm_dsa = OpenAI(openai_api_key = os.environ['OPENAI_API_KEY'], temperature = 0.3)

https://python.langchain.com/docs/modules/chains/document/stuff

https://js.langchain.com/docs/use_cases/question_answering/

In [26]:
# Cria a chain para perguntas e respostas em documentos
chain = load_qa_chain(llm_dsa, chain_type = 'stuff')

In [27]:
# Define a função para obter resposta
def obter_resposta(query):

    # Chama a função 'busca_similaridade' com a 'query' fornecida e armazena o resultado em 'doc_search'
    doc_search = busca_similaridade(query)
        
    # Utiliza o objeto 'chain' para executar a função run e processar a 'query' e os documentos encontrados, 
    # armazenando a resposta em 'response'
    response = chain.run(input_documents = doc_search, question = query)
    
    # Retorna a resposta obtida do processamento anterior
    return response

## Executando o Assistente de IA e Conversando com PDFs

In [28]:
# Pergunta para o arquivo pdf
dsa_prompt1 = "O que a pesquisa recente da Salesforce descobriu?"

In [29]:
# Obtém a resposta
resposta1 = obter_resposta(dsa_prompt1)

In [30]:
print(resposta1)

 A pesquisa recente da Salesforce descobriu que três quartos dos trabalhadores do mundo se sentem despreparados para os empregos que podem encontrar do outro lado do marco em que o número de horas trabalhadas pelas máquinas será igual ao número de horas trabalhadas pelos humanos.


In [31]:
# Pergunta para o arquivo pdf
dsa_prompt2 = "Qual percentual de empregadores estão tendo problemas para preencher vagas digitais com candidatos qualificados?"

In [32]:
# Obtém a resposta
resposta2 = obter_resposta(dsa_prompt2)

In [33]:
print(resposta2)



Quase 60% dos empregadores estão tendo problemas para preencher vagas digitais com candidatos qualificados.


In [34]:
# Pergunta para o arquivo pdf
dsa_prompt3 = "Qual a habilidade mais importante na era da Inteligência Artificial?"

In [35]:
# Obtém a resposta
resposta3 = obter_resposta(dsa_prompt3)

In [36]:
print(resposta3)

 A habilidade mais importante na era da Inteligência Artificial é a capacidade de aprender constantemente e se adaptar a novas tecnologias rapidamente.


In [37]:
%watermark -a "Data Science Academy"

Author: Data Science Academy



In [38]:
#%watermark -v -m

In [39]:
#%watermark --iversions

# Fim