# üìÑ **M√≥dulo 6: Document Loaders e Vector Stores**

## **Aula 6.1: Carregando Documentos - De PDF a YouTube**

---

### **T√°, mas o que s√£o Document Loaders?**

Imagina que voc√™ tem uma **biblioteca digital** que pode ler qualquer tipo de documento:

- üìÑ **PDFs** - Relat√≥rios, manuais, artigos
- üìä **CSVs** - Dados, planilhas, estat√≠sticas
- üé• **YouTube** - V√≠deos, palestras, tutoriais
- üåê **Websites** - P√°ginas, blogs, not√≠cias
- üìù **Word** - Documentos, contratos, propostas

**Document Loaders** s√£o como **tradutores especializados** que convertem qualquer formato em texto que a IA pode entender.

### **Por que Document Loaders s√£o Importantes?**

**Sem Document Loaders**: IA s√≥ sabe o que voc√™ digita
**Com Document Loaders**: IA pode ler e analisar qualquer documento!

√â como a diferen√ßa entre **ler apenas um livro** vs **ter acesso a uma biblioteca inteira**! üìö

---

**üñºÔ∏è Sugest√£o de imagem**: Uma biblioteca digital com diferentes tipos de documentos sendo processados

### **Setup Inicial - Preparando o Terreno**

In [None]:
# Instalando depend√™ncias para document loaders
!!pip install pypdf python-docx beautifulsoup4 requests youtube-transcript-api

# Importando bibliotecas
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain.document_loaders import (
    PyPDFLoader, 
    CSVLoader, 
    UnstructuredWordDocumentLoader,
    WebBaseLoader,
    YoutubeLoader
)
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Carregando vari√°veis
load_dotenv()

# Modelo
llm = ChatOpenAI(
    model="gpt-3.5-turbo",
    temperature=0.7,
    api_key=os.getenv('OPENAI_API_KEY')  # Configure sua API key no Colab
)

print("üìÑ Setup completo para Document Loaders!")
print(f"üöÄ Modelo: {llm.model_name}")

### **Criando Documentos de Exemplo**

Vamos criar alguns documentos de exemplo para testar:

In [None]:
# Criando arquivo CSV de exemplo
import csv

dados_produtos = [
    ['nome', 'preco', 'categoria', 'estoque'],
    ['iPhone 15', 'R$ 8.000', 'Smartphone', '50'],
    ['MacBook Pro', 'R$ 15.000', 'Notebook', '30'],
    ['AirPods Pro', 'R$ 2.500', 'Acess√≥rios', '100'],
    ['iPad Air', 'R$ 6.000', 'Tablet', '25']
]

with open('produtos.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerows(dados_produtos)

print("üìä Arquivo CSV 'produtos.csv' criado!")
print("üìù Cont√©m dados de produtos da Apple")

In [None]:
# Criando arquivo de texto de exemplo
texto_exemplo = """
LANGCHAIN - FRAMEWORK DE IA

LangChain √© um framework poderoso para desenvolvimento de aplica√ß√µes de IA.
Ele permite conectar diferentes modelos de linguagem e ferramentas de forma simples.

PRINCIPAIS CARACTER√çSTICAS:
- Prompts reutiliz√°veis
- Chains modulares
- Memory para conversas
- Agents inteligentes
- Document loaders

CASOS DE USO:
- Chatbots inteligentes
- An√°lise de documentos
- Automa√ß√£o de tarefas
- Sistemas de recomenda√ß√£o

LangChain √© especialmente √∫til para desenvolvedores que querem criar
aplica√ß√µes de IA sem reinventar a roda.
"""

with open('langchain_info.txt', 'w', encoding='utf-8') as file:
    file.write(texto_exemplo)

print("üìù Arquivo de texto 'langchain_info.txt' criado!")
print("üìö Cont√©m informa√ß√µes sobre LangChain")

### **Testando Diferentes Document Loaders**

Vamos testar como carregar diferentes tipos de documentos:

In [None]:
# Testando CSV Loader
# Como ler dados estruturados

print("üìä TESTE: CSV LOADER")
print("=" * 40)

try:
    # Carregando CSV
    csv_loader = CSVLoader('produtos.csv')
    documentos_csv = csv_loader.load()
    
    print(f"üìÑ Documentos carregados: {len(documentos_csv)}")
    
    for i, doc in enumerate(documentos_csv[:3], 1):
        print(f"\nüìã Documento {i}:")
        print(f"üìù Conte√∫do: {doc.page_content[:100]}...")
        print(f"üè∑Ô∏è  Metadados: {doc.metadata}")
        
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("=" * 40)

In [None]:
# Testando Text Loader
# Como ler arquivos de texto simples

from langchain.document_loaders import TextLoader

print("üìù TESTE: TEXT LOADER")
print("=" * 40)

try:
    # Carregando arquivo de texto
    text_loader = TextLoader('langchain_info.txt', encoding='utf-8')
    documentos_texto = text_loader.load()
    
    print(f"üìÑ Documentos carregados: {len(documentos_texto)}")
    
    for i, doc in enumerate(documentos_texto, 1):
        print(f"\nüìã Documento {i}:")
        print(f"üìù Conte√∫do: {doc.page_content[:200]}...")
        print(f"üè∑Ô∏è  Metadados: {doc.metadata}")
        
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("=" * 40)

In [None]:
# Testando Web Loader
# Como ler conte√∫do de websites

print("üåê TESTE: WEB LOADER")
print("=" * 40)

try:
    # Carregando conte√∫do de um website
    urls = ["https://python.org"]
    web_loader = WebBaseLoader(urls)
    documentos_web = web_loader.load()
    
    print(f"üìÑ Documentos carregados: {len(documentos_web)}")
    
    for i, doc in enumerate(documentos_web, 1):
        print(f"\nüìã Documento {i}:")
        print(f"üìù Conte√∫do: {doc.page_content[:200]}...")
        print(f"üè∑Ô∏è  Metadados: {doc.metadata}")
        
except Exception as e:
    print(f"‚ùå Erro: {e}")
    print("üí° Pode ser necess√°rio verificar a conex√£o com a internet")

print("=" * 40)

## **Aula 6.2: Vector Stores - A Mem√≥ria de Longo Prazo**

### **O que s√£o Vector Stores?**

Vector Stores s√£o como um **c√©rebro organizado** que:
1. **Converte texto em n√∫meros** (vetores)
2. **Organiza por similaridade**
3. **Permite busca inteligente**

**Analogia**: √â como ter uma **biblioteca onde os livros se organizam sozinhos** por assunto, e voc√™ pode encontrar qualquer informa√ß√£o rapidamente!

### **Por que Vector Stores s√£o Importantes?**

**Sem Vector Stores**: IA esquece o que leu
**Com Vector Stores**: IA pode buscar e lembrar de qualquer informa√ß√£o

√â como a diferen√ßa entre **ler um livro e esquecer** vs **ter uma biblioteca na cabe√ßa**! üß†

In [None]:
# Instalando depend√™ncias para vector stores
!!pip install chromadb sentence-transformers

# Importando bibliotecas
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter

print("üß† Setup completo para Vector Stores!")
print("üîç Embeddings e Chroma prontos")

In [None]:
# Criando embeddings e vector store
# Como organizar informa√ß√µes no c√©rebro da IA

# Text splitter para dividir documentos grandes
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # Tamanho de cada peda√ßo
    chunk_overlap=200,  # Sobreposi√ß√£o entre peda√ßos
    length_function=len
)

# Carregando e dividindo documentos
text_loader = TextLoader('langchain_info.txt', encoding='utf-8')
documentos = text_loader.load()

# Dividindo em peda√ßos menores
textos_divididos = text_splitter.split_documents(documentos)

print(f"üìÑ Documentos originais: {len(documentos)}")
print(f"üî™ Peda√ßos criados: {len(textos_divididos)}")

for i, texto in enumerate(textos_divididos[:2], 1):
    print(f"\nüìã Peda√ßo {i}: {texto.page_content[:100]}...")

In [None]:
# Criando embeddings e vector store
# Como organizar as informa√ß√µes no c√©rebro

try:
    # Criando embeddings
    embeddings = OpenAIEmbeddings(
        openai_api_key=os.getenv('OPENAI_API_KEY')  # Configure sua API key no Colab
    )
    
    # Criando vector store
    vectorstore = Chroma.from_documents(
        documents=textos_divididos,
        embedding=embeddings,
        collection_name="langchain_info"
    )
    
    print("üß† Vector Store criado com sucesso!")
    print(f"üìä Documentos armazenados: {len(textos_divididos)}")
    
except Exception as e:
    print(f"‚ùå Erro: {e}")
    print("üí° Verifique se sua API key est√° configurada")

In [None]:
# Testando busca sem√¢ntica
# Como encontrar informa√ß√µes por similaridade

print("üîç TESTE: BUSCA SEM√ÇNTICA")
print("=" * 40)

queries = [
    "O que √© LangChain?",
    "Quais s√£o as caracter√≠sticas principais?",
    "Para que serve LangChain?",
    "Como funciona o framework?"
]

for i, query in enumerate(queries, 1):
    print(f"\nüîç Busca {i}: {query}")
    
    try:
        # Buscando documentos similares
        docs = vectorstore.similarity_search(query, k=2)
        
        for j, doc in enumerate(docs, 1):
            print(f"\nüìÑ Resultado {j}:")
            print(f"üìù Conte√∫do: {doc.page_content[:150]}...")
            print(f"üìä Similaridade: {doc.metadata}")
            
    except Exception as e:
        print(f"‚ùå Erro: {e}")
    
    print("-" * 30)

### **Sistema de Busca Inteligente Completo**

Agora vamos criar um **sistema de busca inteligente** que combina document loaders com vector stores:

In [None]:
# Criando sistema de busca inteligente
# Como criar uma biblioteca digital inteligente

class SistemaBuscaInteligente:
    def __init__(self):
        self.embeddings = OpenAIEmbeddings(
            openai_api_key=os.getenv('OPENAI_API_KEY')  # Configure sua API key no Colab
        )
        self.vectorstore = None
        self.text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=1000,
            chunk_overlap=200
        )
    
    def carregar_documento(self, caminho_arquivo, tipo="texto"):
        """Carrega um documento e adiciona ao vector store"""
        try:
            if tipo == "csv":
                loader = CSVLoader(caminho_arquivo)
            elif tipo == "texto":
                loader = TextLoader(caminho_arquivo, encoding='utf-8')
            else:
                return "Tipo de documento n√£o suportado"
            
            documentos = loader.load()
            textos_divididos = self.text_splitter.split_documents(documentos)
            
            if self.vectorstore is None:
                self.vectorstore = Chroma.from_documents(
                    documents=textos_divididos,
                    embedding=self.embeddings,
                    collection_name="biblioteca_digital"
                )
            else:
                self.vectorstore.add_documents(textos_divididos)
            
            return f"‚úÖ Documento carregado! {len(textos_divididos)} peda√ßos adicionados."
            
        except Exception as e:
            return f"‚ùå Erro: {e}"
    
    def buscar(self, query, k=3):
        """Busca documentos similares"""
        try:
            if self.vectorstore is None:
                return "‚ùå Nenhum documento carregado ainda."
            
            docs = self.vectorstore.similarity_search(query, k=k)
            return docs
            
        except Exception as e:
            return f"‚ùå Erro na busca: {e}"

print("ü§ñ Sistema de Busca Inteligente criado!")
print("üìö Biblioteca digital pronta para uso")

In [None]:
# Testando o sistema completo
# Vamos ver a biblioteca digital em a√ß√£o!

print("üìö TESTE: SISTEMA DE BUSCA INTELIGENTE")
print("=" * 50)

# Criando inst√¢ncia do sistema
sistema = SistemaBuscaInteligente()

# Carregando documentos
print("üìÑ Carregando documentos...")
resultado1 = sistema.carregar_documento('langchain_info.txt', 'texto')
print(f"üìù {resultado1}")

resultado2 = sistema.carregar_documento('produtos.csv', 'csv')
print(f"üìä {resultado2}")

# Fazendo buscas
print("\nüîç Fazendo buscas...")
buscas = [
    "O que √© LangChain?",
    "Quais produtos da Apple est√£o dispon√≠veis?",
    "Como funciona o framework?",
    "Qual o pre√ßo do iPhone?"
]

for i, busca in enumerate(buscas, 1):
    print(f"\nüîç Busca {i}: {busca}")
    
    try:
        resultados = sistema.buscar(busca, k=2)
        
        if isinstance(resultados, str):
            print(f"‚ùå {resultados}")
        else:
            for j, doc in enumerate(resultados, 1):
                print(f"\nüìÑ Resultado {j}:")
                print(f"üìù {doc.page_content[:150]}...")
                
    except Exception as e:
        print(f"‚ùå Erro: {e}")
    
    print("-" * 30)

### **Na Pr√°tica, Meu Consagrado!** üí™

**O que aprendemos sobre Document Loaders e Vector Stores:**

1. ‚úÖ **Document Loaders** - Como ler diferentes tipos de arquivos
2. ‚úÖ **Text Splitting** - Como dividir documentos grandes
3. ‚úÖ **Vector Stores** - Como organizar informa√ß√µes por similaridade
4. ‚úÖ **Busca Sem√¢ntica** - Como encontrar informa√ß√µes inteligentemente
5. ‚úÖ **Sistema Completo** - Biblioteca digital inteligente

### **Compara√ß√£o: Com vs Sem LangChain**

**Sem LangChain**: Voc√™ teria que implementar cada loader manualmente
**Com LangChain**: Tudo pronto, s√≥ usar!

**üñºÔ∏è Sugest√£o de imagem**: Um diagrama mostrando documentos sendo processados e organizados em vector stores

**üéØ Pr√≥ximo m√≥dulo**: Vamos aprender sobre **RAG** - como combinar busca com gera√ß√£o de respostas!

**üí° Resumo do M√≥dulo 6**:
- ‚úÖ Document loaders para diferentes formatos
- ‚úÖ Vector stores para organiza√ß√£o
- ‚úÖ Busca sem√¢ntica inteligente
- ‚úÖ Sistema de biblioteca digital

**üìö Agora voc√™ pode fazer a IA ler qualquer documento!**