### Information Retrieval
- Rodar com .venv (python 3.13.5)

In [1]:
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

### Passos 1 e 2: Document Loader & Text Splitting

In [2]:
caminhos = [
    "files/apostila.pdf",
    "files/LLM.pdf"
    ]

paginas = []

for caminho in caminhos:
    loader = PyPDFLoader(caminho)
    paginas.extend(loader.load())

recur_split = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n", "\n", ".", " ", ""]
)

documents = recur_split.split_documents(paginas)

Ignoring wrong pointing object 16 0 (offset 0)
Ignoring wrong pointing object 18 0 (offset 0)
Ignoring wrong pointing object 20 0 (offset 0)
Ignoring wrong pointing object 22 0 (offset 0)
Ignoring wrong pointing object 42 0 (offset 0)
Ignoring wrong pointing object 50 0 (offset 0)
Ignoring wrong pointing object 52 0 (offset 0)
Ignoring wrong pointing object 54 0 (offset 0)
Ignoring wrong pointing object 56 0 (offset 0)
Ignoring wrong pointing object 58 0 (offset 0)
Ignoring wrong pointing object 70 0 (offset 0)
Ignoring wrong pointing object 72 0 (offset 0)
Ignoring wrong pointing object 89 0 (offset 0)
Ignoring wrong pointing object 91 0 (offset 0)
Ignoring wrong pointing object 103 0 (offset 0)
Ignoring wrong pointing object 108 0 (offset 0)
Ignoring wrong pointing object 149 0 (offset 0)
Ignoring wrong pointing object 155 0 (offset 0)
Ignoring wrong pointing object 158 0 (offset 0)
Ignoring wrong pointing object 160 0 (offset 0)
Ignoring wrong pointing object 163 0 (offset 0)
Ignori

### Verificar organização dos documentos

In [3]:
for i, doc in enumerate(documents):
    doc.metadata['source'] = doc.metadata['source'].replace('files/', '')
    doc.metadata['doc_id'] = i

In [10]:
documents[2].metadata

{'producer': 'Microsoft® Word 2013',
 'creator': 'Microsoft® Word 2013',
 'creationdate': '2016-05-04T10:06:39-03:00',
 'author': 'lucas',
 'moddate': '2016-05-04T10:06:39-03:00',
 'source': 'apostila.pdf',
 'total_pages': 28,
 'page': 1,
 'page_label': '2',
 'doc_id': 2}

### Passos 3 e 4: Embedding & Vector Store

In [11]:
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores.chroma import Chroma

embeddings_model = OpenAIEmbeddings()

In [12]:
diretorio = 'files/chroma_retrival_bd'

vectordb = Chroma.from_documents(
    documents=documents,
    embedding=embeddings_model,
    persist_directory=diretorio
)

### Semantic Search

In [13]:
pergunta = "O que é LLM?"
docs = vectordb.similarity_search(pergunta, k=3)
for doc in docs:
    print(doc.page_content)
    print(f"========{doc.metadata}\n")

. Se você quiser se aprofundar um pouco mais e expandir seus conhecimentos e compreensão dos fundamentos dos LLMs, recomendamos conferir nosso curso sobre LLMs. Você aprenderá como desenvolver aplicativos prontos para produção com LLMs e se aprofundará na teoria por trás dos modelos de fundação

Introdução   Definição de LLM (tradução livre: grandes modelos de linguagem) LLMs são sistemas de IA desenvolvidos para processar e analisar enormes quantidades de dados de linguagem natural e, em seguida, usar essas informações para gerar respostas às solicitações dos usuários

Conclusão e diretrizes gerais Em última análise, cada organização terá desafios únicos a superar, e não existe uma abordagem única para os LLMs. À medida que o mundo se torna mais orientado a dados, tudo, incluindo os LLMs, dependerá de uma base sólida de dados. Os LLMs são ferramentas incríveis, mas devem ser usados e implementados sobre essa base sólida de dados



### Max Margina Relevance

In [14]:
pergunta = "O que é LLM?"
docs = vectordb.max_marginal_relevance_search(pergunta, k=3, fetch_k=10)
for doc in docs:
    print(doc.page_content)
    print(f"========{doc.metadata}\n")

. Se você quiser se aprofundar um pouco mais e expandir seus conhecimentos e compreensão dos fundamentos dos LLMs, recomendamos conferir nosso curso sobre LLMs. Você aprenderá como desenvolver aplicativos prontos para produção com LLMs e se aprofundará na teoria por trás dos modelos de fundação

E-BOOK 
Um guia compacto sobre Large Language Models (LLM)

.   ANÁLISE DE SENTIMENTO  Frequentemente, uma tarefa difícil de quantificar, os LLMs podem ajudar a analisar emoções e opiniões a partir de um texto. Isso pode ajudar as organizações a coletarem os dados e o feedback necessários para melhorar a satisfação dos clientes



### FIltragem

In [15]:
pergunta = "O que a apostila de LLM fala sobre a OpenAI e o ChatGPT?"

docs = vectordb.similarity_search(
    pergunta,
    k=3,
    filter={"source": "LLM.pdf"}
)
for doc in docs:
    print(doc.page_content)
    print(f"========{doc.metadata}\n")

.   Serviços proprietários Como o primeiro serviço amplamente disponível alimentado por LLM, o ChatGPT da OpenAI foi o catalisador explosivo que trouxe os LLMs para o mainstream. O ChatGPT fornece uma interface de usuário (ou API) em que os usuários podem enviar prompts para muitos modelos (GPT-3.5, GPT-4 e outros) e geralmente obter uma resposta rápida

.  2022 O ChatGPT foi lançado, transformando o GPT-3 e modelos semelhantes em um serviço amplamente acessível aos usuários por meio de uma interface web, o que iniciou um aumento significativo na conscientização pública sobre LLMs e IA generativa.  2023 Os LLMs de código aberto começam a apresentar resultados cada vez mais impressionantes, com lançamentos como Dolly 2.0, LLaMA, Alpaca e Vicuna

E-BOOK 
Um guia compacto sobre Large Language Models (LLM)



In [16]:
pergunta = 'O que a apostila de LLM fala sobre a OpenAI e o ChatGPT?'

docs = vectordb.similarity_search(
    pergunta, 
    k=3,
    filter={'$and':
            [{'source': {'$in': ['LLM.pdf']}},
            {'page': {'$in': [3, 4, 5, 6]}}],
            })
for doc in docs:
    print(doc.page_content)
    print(f'==========={doc.metadata}\n\n')

.   Serviços proprietários Como o primeiro serviço amplamente disponível alimentado por LLM, o ChatGPT da OpenAI foi o catalisador explosivo que trouxe os LLMs para o mainstream. O ChatGPT fornece uma interface de usuário (ou API) em que os usuários podem enviar prompts para muitos modelos (GPT-3.5, GPT-4 e outros) e geralmente obter uma resposta rápida


MAIOR ACESSIBILIDADE  O lançamento do ChatGPT abriu as portas para qualquer pessoa com acesso à internet interagir com um dos LLMs mais avançados por meio de uma interface web simples. Isso trouxe os impressionantes avanços dos LLMs para o centro das atenções, uma vez que anteriormente esses modelos mais poderosos estavam disponíveis apenas para pesquisadores com recursos significativos e conhecimento técnico profundo


. Comunidades como a Hugging Face reúnem centenas de milhares de modelos de contribuidores que podem ajudar a resolver muitos casos de uso específicos, como geração de texto, resumo e classificação. A comunidade de cód

### LLM Aided Retrieval

In [17]:
from langchain_openai.llms import OpenAI
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.schema import AttributeInfo

In [18]:
metadata_info = [
    AttributeInfo(
        name='source',
        description='Nome da apostila de onde o texto original foi retirado. Pode ser "apostila.pdf" ou "LLM.pdf".',
        type='string'
    ),
    AttributeInfo(
        name='page',
        description='A página da apostila de onde o texto foi extraído. Número da página.',
        type='integer'
    ),
]


In [19]:
document_description = 'Apostilas de informações'
llm = OpenAI()
retriever = SelfQueryRetriever.from_llm(
    llm,
    vectordb,
    document_description,
    metadata_info,
    verbose=True
)

In [20]:
pergunta = 'O que a apostila de LLM fala sobre a OpenAI, ChatGPT e Hugging Face?'

docs = retriever.get_relevant_documents(pergunta)
for doc in docs:
    print(doc.page_content)
    print(f'==========={doc.metadata}\n\n')

  docs = retriever.get_relevant_documents(pergunta)


. Comunidades como a Hugging Face reúnem centenas de milhares de modelos de contribuidores que podem ajudar a resolver muitos casos de uso específicos, como geração de texto, resumo e classificação. A comunidade de código aberto está rapidamente alcançando o desempenho dos modelos proprietários, mas ainda não conseguiu igualar o desempenho de algo como o GPT-4.


.   Serviços proprietários Como o primeiro serviço amplamente disponível alimentado por LLM, o ChatGPT da OpenAI foi o catalisador explosivo que trouxe os LLMs para o mainstream. O ChatGPT fornece uma interface de usuário (ou API) em que os usuários podem enviar prompts para muitos modelos (GPT-3.5, GPT-4 e outros) e geralmente obter uma resposta rápida


2018 O Google apresentou o BERT (Bidirectional Encoder Representations from Transformers), que foi um grande salto na arquitetura e abriu caminho para futuros grandes modelos de linguagem.  2020 A OpenAI lançou o GPT-3, que se tornou o maior modelo com 175 bilhões de parâmetr