<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>IA Generativa e LLMs Para Processamento de Linguagem Natural</font>
## <font color='blue'>Projeto 1</font>
## <font color='blue'>Converse com Seus PDFs - Criando Assistente Pessoal de IA com LLM e VectorDB</font>

## Instalando e Carregando Pacotes

Para instalar todos os pacotes de uma vez, execute no terminal ou prompt de comando:

pip install -r requirements.txt

In [None]:
!pip install -q -r requirements.txt

In [None]:
!pip install -q -U watermark

In [None]:
# Imports
import os
import openai
import langchain
import chromadb
from langchain_community.document_loaders import PyPDFDirectoryLoader
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.llms import OpenAI
from langchain.chains.question_answering import load_qa_chain
import warnings
warnings.filterwarnings('ignore')

## Extraindo Texto de Arquivos PDF

In [None]:
# Função para ler os arquivos em pdf
def dsa_read_pdf(directory_path):
    
    # Acessa a pasta com o arquivo pdf
    file_loader = PyPDFDirectoryLoader(directory_path)
    
    # Lê o documento da pasta
    documents = file_loader.load()
    
    return documents

In [None]:
# Executa a função
dsa_doc = dsa_read_pdf('arquivos/')

In [None]:
dsa_doc

In [None]:
len(dsa_doc)

## Definindo a API do LLM

Crie sua API na OpenAI e coloque no arquivo .env na mesma pasta onde está este Jupyter Notebook.

https://platform.openai.com/

https://platform.openai.com/api-keys

https://platform.openai.com/docs/quickstart?context=python
<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
Veja mais detalhes no videobook do Capítulo 5 do curso.

In [None]:
# Carregando as variáveis de ambiente definidas no arquivo .env
from dotenv import load_dotenv
load_dotenv()

## Criando o Gerador de Embeddings

In [None]:
# Criando o gerador de embeddings
gerador_embeddings = OpenAIEmbeddings(api_key = os.environ['OPENAI_API_KEY'])

O OpenAIEmbeddings é uma funcionalidade que permite obter representações vetoriais (embeddings) de texto, que são úteis para várias tarefas de processamento de linguagem natural, como comparação de semelhança de texto, agrupamento e classificação.

In [None]:
type(gerador_embeddings)

## Testando os Vetores de Embeddings

In [None]:
# Testando o gerador de embeddings
vetores = gerador_embeddings.embed_query('Qual habilidade mais importante na era da IA?')

In [None]:
type(vetores)

In [None]:
vetores[1:10]

## Definindo o Vector Store

https://www.trychroma.com/

In [None]:
# Definindo o nome do índice
index_name = 'dsa-index'

In [None]:
# Cria o vector store
index = Chroma.from_documents(dsa_doc, gerador_embeddings, collection_name = index_name)

In [None]:
type(index)

Veja mais detalhes sobre o Chroma no videobook do Capítulo 5 do curso.

In [None]:
# Define a função de busca por similaridade
def dsa_busca_similaridade(query, k = 2):
    
    # Utiliza o método 'similarity_search' do objeto 'index' para buscar os 'k' resultados 
    # mais semelhantes à 'query'
    matching_results = index.similarity_search(query, k)
    
    # Retorna os resultados correspondentes da busca de similaridade
    return matching_results

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Criando a App do Assistente Pessoal com LangChain

In [None]:
# Cria instância do LLM
llm_dsa = OpenAI(openai_api_key = os.environ['OPENAI_API_KEY'], temperature = 0.3)

https://python.langchain.com/docs/modules/chains/document/stuff

https://js.langchain.com/docs/use_cases/question_answering/

In [None]:
# Cria a chain para perguntas e respostas em documentos
chain = load_qa_chain(llm_dsa, chain_type = 'stuff')

In [None]:
# Define a função para obter resposta
def obter_resposta(query):

    # Chama a função 'dsa_busca_similaridade' com a 'query' fornecida e armazena o resultado em 'doc_search'
    doc_search = dsa_busca_similaridade(query)
        
    # Utiliza o objeto 'chain' para executar a função run e processar a 'query' e os documentos encontrados, 
    # armazenando a resposta em 'response'
    response = chain.run(input_documents = doc_search, question = query)
    
    # Retorna a resposta obtida do processamento anterior
    return response

## Executando o Assistente de IA e Conversando com PDFs

In [None]:
# Pergunta para o arquivo pdf
dsa_prompt1 = "O que a pesquisa recente da Salesforce descobriu?"

In [None]:
# Obtém a resposta
resposta1 = obter_resposta(dsa_prompt1)

In [None]:
print(resposta1)

In [None]:
# Pergunta para o arquivo pdf
dsa_prompt2 = "Qual percentual de empregadores estão tendo problemas para preencher vagas digitais com candidatos qualificados?"

In [None]:
# Obtém a resposta
resposta2 = obter_resposta(dsa_prompt2)

In [None]:
print(resposta2)

In [None]:
# Pergunta para o arquivo pdf
dsa_prompt3 = "Qual a habilidade mais importante na era da Inteligência Artificial?"

In [None]:
# Obtém a resposta
resposta3 = obter_resposta(dsa_prompt3)

In [None]:
print(resposta3)

In [None]:
%watermark -a "Data Science Academy"

In [None]:
#%watermark -v -m

In [None]:
#%watermark --iversions

# Fim