# 📄 **Módulo 6: Document Loaders e Vector Stores**

## **Aula 6.1: Carregando Documentos - De PDF a YouTube**

---

### **Tá, mas o que são Document Loaders?**

Imagina que você tem uma **biblioteca digital** que pode ler qualquer tipo de documento:

- 📄 **PDFs** - Relatórios, manuais, artigos
- 📊 **CSVs** - Dados, planilhas, estatísticas
- 🎥 **YouTube** - Vídeos, palestras, tutoriais
- 🌐 **Websites** - Páginas, blogs, notícias
- 📝 **Word** - Documentos, contratos, propostas

**Document Loaders** são como **tradutores especializados** que convertem qualquer formato em texto que a IA pode entender.

### **Por que Document Loaders são Importantes?**

**Sem Document Loaders**: IA só sabe o que você digita
**Com Document Loaders**: IA pode ler e analisar qualquer documento!

É como a diferença entre **ler apenas um livro** vs **ter acesso a uma biblioteca inteira**! 📚

---

**🖼️ Sugestão de imagem**: Uma biblioteca digital com diferentes tipos de documentos sendo processados

### **Setup Inicial - Preparando o Terreno**

In [None]:
# Instalando dependências para document loaders
!!pip install pypdf python-docx beautifulsoup4 requests youtube-transcript-api

# Importando bibliotecas
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain.document_loaders import (
    PyPDFLoader, 
    CSVLoader, 
    UnstructuredWordDocumentLoader,
    WebBaseLoader,
    YoutubeLoader
)
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Carregando variáveis
load_dotenv()

# Modelo
llm = ChatOpenAI(
    model="gpt-3.5-turbo",
    temperature=0.7,
    api_key=os.getenv('OPENAI_API_KEY')  # Configure sua API key no Colab
)

print("📄 Setup completo para Document Loaders!")
print(f"🚀 Modelo: {llm.model_name}")

### **Criando Documentos de Exemplo**

Vamos criar alguns documentos de exemplo para testar:

In [None]:
# Criando arquivo CSV de exemplo
import csv

dados_produtos = [
    ['nome', 'preco', 'categoria', 'estoque'],
    ['iPhone 15', 'R$ 8.000', 'Smartphone', '50'],
    ['MacBook Pro', 'R$ 15.000', 'Notebook', '30'],
    ['AirPods Pro', 'R$ 2.500', 'Acessórios', '100'],
    ['iPad Air', 'R$ 6.000', 'Tablet', '25']
]

with open('produtos.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerows(dados_produtos)

print("📊 Arquivo CSV 'produtos.csv' criado!")
print("📝 Contém dados de produtos da Apple")

In [None]:
# Criando arquivo de texto de exemplo
texto_exemplo = """
LANGCHAIN - FRAMEWORK DE IA

LangChain é um framework poderoso para desenvolvimento de aplicações de IA.
Ele permite conectar diferentes modelos de linguagem e ferramentas de forma simples.

PRINCIPAIS CARACTERÍSTICAS:
- Prompts reutilizáveis
- Chains modulares
- Memory para conversas
- Agents inteligentes
- Document loaders

CASOS DE USO:
- Chatbots inteligentes
- Análise de documentos
- Automação de tarefas
- Sistemas de recomendação

LangChain é especialmente útil para desenvolvedores que querem criar
aplicações de IA sem reinventar a roda.
"""

with open('langchain_info.txt', 'w', encoding='utf-8') as file:
    file.write(texto_exemplo)

print("📝 Arquivo de texto 'langchain_info.txt' criado!")
print("📚 Contém informações sobre LangChain")

### **Testando Diferentes Document Loaders**

Vamos testar como carregar diferentes tipos de documentos:

In [None]:
# Testando CSV Loader
# Como ler dados estruturados

print("📊 TESTE: CSV LOADER")
print("=" * 40)

try:
    # Carregando CSV
    csv_loader = CSVLoader('produtos.csv')
    documentos_csv = csv_loader.load()
    
    print(f"📄 Documentos carregados: {len(documentos_csv)}")
    
    for i, doc in enumerate(documentos_csv[:3], 1):
        print(f"\n📋 Documento {i}:")
        print(f"📝 Conteúdo: {doc.page_content[:100]}...")
        print(f"🏷️  Metadados: {doc.metadata}")
        
except Exception as e:
    print(f"❌ Erro: {e}")

print("=" * 40)

In [None]:
# Testando Text Loader
# Como ler arquivos de texto simples

from langchain.document_loaders import TextLoader

print("📝 TESTE: TEXT LOADER")
print("=" * 40)

try:
    # Carregando arquivo de texto
    text_loader = TextLoader('langchain_info.txt', encoding='utf-8')
    documentos_texto = text_loader.load()
    
    print(f"📄 Documentos carregados: {len(documentos_texto)}")
    
    for i, doc in enumerate(documentos_texto, 1):
        print(f"\n📋 Documento {i}:")
        print(f"📝 Conteúdo: {doc.page_content[:200]}...")
        print(f"🏷️  Metadados: {doc.metadata}")
        
except Exception as e:
    print(f"❌ Erro: {e}")

print("=" * 40)

In [None]:
# Testando Web Loader
# Como ler conteúdo de websites

print("🌐 TESTE: WEB LOADER")
print("=" * 40)

try:
    # Carregando conteúdo de um website
    urls = ["https://python.org"]
    web_loader = WebBaseLoader(urls)
    documentos_web = web_loader.load()
    
    print(f"📄 Documentos carregados: {len(documentos_web)}")
    
    for i, doc in enumerate(documentos_web, 1):
        print(f"\n📋 Documento {i}:")
        print(f"📝 Conteúdo: {doc.page_content[:200]}...")
        print(f"🏷️  Metadados: {doc.metadata}")
        
except Exception as e:
    print(f"❌ Erro: {e}")
    print("💡 Pode ser necessário verificar a conexão com a internet")

print("=" * 40)

## **Aula 6.2: Vector Stores - A Memória de Longo Prazo**

### **O que são Vector Stores?**

Vector Stores são como um **cérebro organizado** que:
1. **Converte texto em números** (vetores)
2. **Organiza por similaridade**
3. **Permite busca inteligente**

**Analogia**: É como ter uma **biblioteca onde os livros se organizam sozinhos** por assunto, e você pode encontrar qualquer informação rapidamente!

### **Por que Vector Stores são Importantes?**

**Sem Vector Stores**: IA esquece o que leu
**Com Vector Stores**: IA pode buscar e lembrar de qualquer informação

É como a diferença entre **ler um livro e esquecer** vs **ter uma biblioteca na cabeça**! 🧠

In [None]:
# Instalando dependências para vector stores
!!pip install chromadb sentence-transformers

# Importando bibliotecas
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter

print("🧠 Setup completo para Vector Stores!")
print("🔍 Embeddings e Chroma prontos")

In [None]:
# Criando embeddings e vector store
# Como organizar informações no cérebro da IA

# Text splitter para dividir documentos grandes
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # Tamanho de cada pedaço
    chunk_overlap=200,  # Sobreposição entre pedaços
    length_function=len
)

# Carregando e dividindo documentos
text_loader = TextLoader('langchain_info.txt', encoding='utf-8')
documentos = text_loader.load()

# Dividindo em pedaços menores
textos_divididos = text_splitter.split_documents(documentos)

print(f"📄 Documentos originais: {len(documentos)}")
print(f"🔪 Pedaços criados: {len(textos_divididos)}")

for i, texto in enumerate(textos_divididos[:2], 1):
    print(f"\n📋 Pedaço {i}: {texto.page_content[:100]}...")

In [None]:
# Criando embeddings e vector store
# Como organizar as informações no cérebro

try:
    # Criando embeddings
    embeddings = OpenAIEmbeddings(
        openai_api_key=os.getenv('OPENAI_API_KEY')  # Configure sua API key no Colab
    )
    
    # Criando vector store
    vectorstore = Chroma.from_documents(
        documents=textos_divididos,
        embedding=embeddings,
        collection_name="langchain_info"
    )
    
    print("🧠 Vector Store criado com sucesso!")
    print(f"📊 Documentos armazenados: {len(textos_divididos)}")
    
except Exception as e:
    print(f"❌ Erro: {e}")
    print("💡 Verifique se sua API key está configurada")

In [None]:
# Testando busca semântica
# Como encontrar informações por similaridade

print("🔍 TESTE: BUSCA SEMÂNTICA")
print("=" * 40)

queries = [
    "O que é LangChain?",
    "Quais são as características principais?",
    "Para que serve LangChain?",
    "Como funciona o framework?"
]

for i, query in enumerate(queries, 1):
    print(f"\n🔍 Busca {i}: {query}")
    
    try:
        # Buscando documentos similares
        docs = vectorstore.similarity_search(query, k=2)
        
        for j, doc in enumerate(docs, 1):
            print(f"\n📄 Resultado {j}:")
            print(f"📝 Conteúdo: {doc.page_content[:150]}...")
            print(f"📊 Similaridade: {doc.metadata}")
            
    except Exception as e:
        print(f"❌ Erro: {e}")
    
    print("-" * 30)

### **Sistema de Busca Inteligente Completo**

Agora vamos criar um **sistema de busca inteligente** que combina document loaders com vector stores:

In [None]:
# Criando sistema de busca inteligente
# Como criar uma biblioteca digital inteligente

class SistemaBuscaInteligente:
    def __init__(self):
        self.embeddings = OpenAIEmbeddings(
            openai_api_key=os.getenv('OPENAI_API_KEY')  # Configure sua API key no Colab
        )
        self.vectorstore = None
        self.text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=1000,
            chunk_overlap=200
        )
    
    def carregar_documento(self, caminho_arquivo, tipo="texto"):
        """Carrega um documento e adiciona ao vector store"""
        try:
            if tipo == "csv":
                loader = CSVLoader(caminho_arquivo)
            elif tipo == "texto":
                loader = TextLoader(caminho_arquivo, encoding='utf-8')
            else:
                return "Tipo de documento não suportado"
            
            documentos = loader.load()
            textos_divididos = self.text_splitter.split_documents(documentos)
            
            if self.vectorstore is None:
                self.vectorstore = Chroma.from_documents(
                    documents=textos_divididos,
                    embedding=self.embeddings,
                    collection_name="biblioteca_digital"
                )
            else:
                self.vectorstore.add_documents(textos_divididos)
            
            return f"✅ Documento carregado! {len(textos_divididos)} pedaços adicionados."
            
        except Exception as e:
            return f"❌ Erro: {e}"
    
    def buscar(self, query, k=3):
        """Busca documentos similares"""
        try:
            if self.vectorstore is None:
                return "❌ Nenhum documento carregado ainda."
            
            docs = self.vectorstore.similarity_search(query, k=k)
            return docs
            
        except Exception as e:
            return f"❌ Erro na busca: {e}"

print("🤖 Sistema de Busca Inteligente criado!")
print("📚 Biblioteca digital pronta para uso")

In [None]:
# Testando o sistema completo
# Vamos ver a biblioteca digital em ação!

print("📚 TESTE: SISTEMA DE BUSCA INTELIGENTE")
print("=" * 50)

# Criando instância do sistema
sistema = SistemaBuscaInteligente()

# Carregando documentos
print("📄 Carregando documentos...")
resultado1 = sistema.carregar_documento('langchain_info.txt', 'texto')
print(f"📝 {resultado1}")

resultado2 = sistema.carregar_documento('produtos.csv', 'csv')
print(f"📊 {resultado2}")

# Fazendo buscas
print("\n🔍 Fazendo buscas...")
buscas = [
    "O que é LangChain?",
    "Quais produtos da Apple estão disponíveis?",
    "Como funciona o framework?",
    "Qual o preço do iPhone?"
]

for i, busca in enumerate(buscas, 1):
    print(f"\n🔍 Busca {i}: {busca}")
    
    try:
        resultados = sistema.buscar(busca, k=2)
        
        if isinstance(resultados, str):
            print(f"❌ {resultados}")
        else:
            for j, doc in enumerate(resultados, 1):
                print(f"\n📄 Resultado {j}:")
                print(f"📝 {doc.page_content[:150]}...")
                
    except Exception as e:
        print(f"❌ Erro: {e}")
    
    print("-" * 30)

### **Na Prática, Meu Consagrado!** 💪

**O que aprendemos sobre Document Loaders e Vector Stores:**

1. ✅ **Document Loaders** - Como ler diferentes tipos de arquivos
2. ✅ **Text Splitting** - Como dividir documentos grandes
3. ✅ **Vector Stores** - Como organizar informações por similaridade
4. ✅ **Busca Semântica** - Como encontrar informações inteligentemente
5. ✅ **Sistema Completo** - Biblioteca digital inteligente

### **Comparação: Com vs Sem LangChain**

**Sem LangChain**: Você teria que implementar cada loader manualmente
**Com LangChain**: Tudo pronto, só usar!

**🖼️ Sugestão de imagem**: Um diagrama mostrando documentos sendo processados e organizados em vector stores

**🎯 Próximo módulo**: Vamos aprender sobre **RAG** - como combinar busca com geração de respostas!

**💡 Resumo do Módulo 6**:
- ✅ Document loaders para diferentes formatos
- ✅ Vector stores para organização
- ✅ Busca semântica inteligente
- ✅ Sistema de biblioteca digital

**📚 Agora você pode fazer a IA ler qualquer documento!**