# 📚 **Módulo 4: Document Loaders - Carregando Tudo que Existe**

> *Como um "detetive digital" que encontra informação em qualquer lugar*

---

## **Aula 4.1: Loaders Básicos - De PDF a Website**

---

### **Tá, mas o que são Document Loaders?**

Document Loaders são como **garçons universais** que sabem ler qualquer tipo de "menu" - PDFs, websites, documentos, etc. Eles transformam qualquer fonte de informação em texto que o RAG pode usar.

**🖼️ Sugestão de imagem**: Um detetive digital lendo diferentes tipos de documentos

### **Setup Inicial - Preparando o Terreno**

**⚠️ IMPORTANTE**: Se você não executou o notebook `00_setup_colab.ipynb` primeiro, execute a célula abaixo para instalar as dependências.

In [None]:
# 🚀 SETUP GRATUITO PARA COLAB
# Execute esta célula primeiro para configurar o ambiente!

# Instalando dependências (execute apenas se necessário)
!pip install langchain>=0.1.0
!pip install langchain-community>=0.0.10
!pip install langchain-core>=0.1.0
!pip install python-dotenv>=1.0.0
!pip install pypdf>=3.15.0
!pip install python-docx>=0.8.11
!pip install beautifulsoup4>=4.12.0
!pip install requests>=2.31.0
!pip install youtube-transcript-api>=0.6.0
!pip install pandas>=2.0.0
!pip install huggingface_hub>=0.19.0
!pip install sentence-transformers>=2.2.0

print("✅ Dependências instaladas com sucesso!")
print("🚀 Ambiente configurado para Document Loaders!")

In [None]:
# 📚 IMPORTAÇÕES PARA DOCUMENT LOADERS
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.document_loaders import TextLoader
from langchain_community.document_loaders import CSVLoader
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.document_loaders import YoutubeLoader
from langchain_community.document_loaders import UnstructuredWordDocumentLoader

import requests
import os
from pathlib import Path

print("✅ Document Loaders importados com sucesso!")
print("�� Pronto para carregar qualquer tipo de documento!")

### **Exemplo Prático - Carregando Texto Simples**

Vamos começar com o mais básico - carregar arquivos de texto:

In [None]:
# 🧪 EXEMPLO PRÁTICO: CARREGANDO TEXTO SIMPLES

# Criando um arquivo de texto de exemplo
texto_exemplo = """
RAG - Retrieval Augmented Generation

RAG é uma técnica revolucionária que combina busca de informações com geração de texto.
Em vez de gerar respostas baseadas apenas no conhecimento prévio, o RAG consulta
documentos relevantes antes de responder.

Vantagens do RAG:
1. Respostas mais precisas e atualizadas
2. Redução de alucinações
3. Capacidade de usar informações privadas
4. Flexibilidade para diferentes domínios

Componentes principais:
- Document Loaders: Carregam informações de diferentes fontes
- Embeddings: Transformam texto em números
- Vector Stores: Armazenam embeddings para busca rápida
- LLMs: Geram respostas baseadas nos documentos encontrados
"""

# Salvando arquivo de exemplo
with open("exemplo_rag.txt", "w", encoding="utf-8") as f:
    f.write(texto_exemplo)

print("�� Arquivo de exemplo criado: exemplo_rag.txt")

# Carregando com TextLoader
loader = TextLoader("exemplo_rag.txt", encoding="utf-8")
documentos = loader.load()

print(f"✅ Carregados {len(documentos)} documentos")
print(f"�� Primeiro documento: {documentos[0].page_content[:100]}...")

### **Carregando Websites**

Agora vamos carregar conteúdo de websites:

In [None]:
# 🌐 CARREGANDO WEBSITES

def carregar_website(url):
    """Carrega conteúdo de um website"""
    
    try:
        print(f"�� Carregando website: {url}")
        
        loader = WebBaseLoader(url)
        documentos = loader.load()
        
        print(f"✅ Carregados {len(documentos)} documentos")
        
        for i, doc in enumerate(documentos[:2], 1):
            print(f"\n�� Documento {i}:")
            print(f"   Título: {doc.metadata.get('title', 'N/A')}")
            print(f"   URL: {doc.metadata.get('source', 'N/A')}")
            print(f"   Conteúdo: {doc.page_content[:200]}...")
        
        return documentos
        
    except Exception as e:
        print(f"❌ Erro ao carregar website: {e}")
        return []

# Testando com um website simples
url_teste = "https://en.wikipedia.org/wiki/Retrieval-augmented_generation"
documentos_web = carregar_website(url_teste)

### **Carregando CSV**

Vamos carregar dados estruturados de arquivos CSV:

In [None]:
# 📊 CARREGANDO CSV

import pandas as pd

# Criando CSV de exemplo
dados_exemplo = {
    'produto': ['Smartphone', 'Laptop', 'Tablet', 'Smartwatch'],
    'preco': [1500, 3000, 800, 500],
    'categoria': ['Eletrônicos', 'Computadores', 'Eletrônicos', 'Acessórios'],
    'descricao': [
        'Smartphone com câmera de 48MP e bateria de 4000mAh',
        'Laptop com processador Intel i7 e 16GB de RAM',
        'Tablet com tela de 10 polegadas e 128GB de armazenamento',
        'Smartwatch com monitor cardíaco e GPS integrado'
    ]
}

df = pd.DataFrame(dados_exemplo)
df.to_csv('produtos_exemplo.csv', index=False)

print("�� CSV de exemplo criado: produtos_exemplo.csv")

# Carregando CSV
loader = CSVLoader('produtos_exemplo.csv')
documentos_csv = loader.load()

print(f"✅ Carregados {len(documentos_csv)} documentos do CSV")

for i, doc in enumerate(documentos_csv[:2], 1):
    print(f"\n📄 Produto {i}:")
    print(f"   {doc.page_content}")

## **Aula 4.2: Loaders Avançados - YouTube, APIs, Bancos de Dados**

---

### **Carregando YouTube**

Vamos carregar transcrições de vídeos do YouTube:

In [None]:
# �� CARREGANDO YOUTUBE

def carregar_youtube(url_video):
    """Carrega transcrição de um vídeo do YouTube"""
    
    try:
        print(f"🎥 Carregando vídeo: {url_video}")
        
        loader = YoutubeLoader.from_youtube_url(url_video, add_video_info=True)
        documentos = loader.load()
        
        print(f"✅ Carregados {len(documentos)} documentos")
        
        for i, doc in enumerate(documentos[:1], 1):
            print(f"\n�� Vídeo {i}:")
            print(f"   Título: {doc.metadata.get('title', 'N/A')}")
            print(f"   Duração: {doc.metadata.get('length', 'N/A')} segundos")
            print(f"   Transcrição: {doc.page_content[:300]}...")
        
        return documentos
        
    except Exception as e:
        print(f"❌ Erro ao carregar YouTube: {e}")
        return []

# Exemplo (substitua por um vídeo real)
# url_youtube = "https://www.youtube.com/watch?v=exemplo"
# documentos_youtube = carregar_youtube(url_youtube)

print("💡 Para testar YouTube, substitua a URL por um vídeo real")

### **Carregando APIs**

Vamos carregar dados de APIs externas:

In [None]:
# 🔌 CARREGANDO APIS

def carregar_api_json(url_api):
    """Carrega dados de uma API JSON"""
    
    try:
        print(f"🔌 Carregando API: {url_api}")
        
        response = requests.get(url_api)
        response.raise_for_status()
        
        dados = response.json()
        
        # Convertendo para documentos
        from langchain.schema import Document
        
        documentos = []
        for i, item in enumerate(dados[:5]):  # Limitando a 5 itens
            doc = Document(
                page_content=str(item),
                metadata={"source": url_api, "index": i}
            )
            documentos.append(doc)
        
        print(f"✅ Carregados {len(documentos)} documentos da API")
        
        return documentos
        
    except Exception as e:
        print(f"❌ Erro ao carregar API: {e}")
        return []

# Testando com API pública
url_api_teste = "https://jsonplaceholder.typicode.com/posts"
documentos_api = carregar_api_json(url_api_teste)

if documentos_api:
    print(f"\n�� Primeiro documento da API:")
    print(f"   {documentos_api[0].page_content[:200]}...")

### **Teste Rápido**

Vamos testar todos os loaders juntos:

In [None]:
# 🧪 TESTE RÁPIDO: TODOS OS LOADERS

def teste_rapido_loaders():
    """Testa todos os tipos de loaders"""
    
    print("�� TESTE RÁPIDO - DOCUMENT LOADERS:")
    print("=" * 50)
    
    todos_documentos = []
    
    # Teste 1: Texto
    print("\n📝 Teste 1: TextLoader")
    try:
        loader_texto = TextLoader("exemplo_rag.txt", encoding="utf-8")
        docs_texto = loader_texto.load()
        todos_documentos.extend(docs_texto)
        print(f"✅ Texto: {len(docs_texto)} documentos")
    except Exception as e:
        print(f"❌ Erro texto: {e}")
    
    # Teste 2: CSV
    print("\n�� Teste 2: CSVLoader")
    try:
        loader_csv = CSVLoader('produtos_exemplo.csv')
        docs_csv = loader_csv.load()
        todos_documentos.extend(docs_csv)
        print(f"✅ CSV: {len(docs_csv)} documentos")
    except Exception as e:
        print(f"❌ Erro CSV: {e}")
    
    # Teste 3: API
    print("\n🔌 Teste 3: API")
    try:
        docs_api = carregar_api_json("https://jsonplaceholder.typicode.com/posts")
        todos_documentos.extend(docs_api[:2])  # Limitando
        print(f"✅ API: {len(docs_api[:2])} documentos")
    except Exception as e:
        print(f"❌ Erro API: {e}")
    
    print(f"\n📊 TOTAL: {len(todos_documentos)} documentos carregados")
    
    return todos_documentos

# Executando teste
documentos_todos = teste_rapido_loaders()

### **Desafio do Módulo**

Agora é sua vez! Carregue seus próprios documentos:

In [None]:
# 🎯 DESAFIO DO MÓDULO

print("🎯 DESAFIO: Carregue seus próprios documentos!")
print("=" * 40)
print("1. Crie arquivos de texto, CSV ou outros formatos")
print("2. Use os loaders apropriados")
print("3. Combine diferentes fontes de dados")
print("4. Crie um dataset personalizado")
print("=" * 40)

# Exemplo de como carregar seus próprios documentos:
# def carregar_meus_documentos():
#     documentos = []
#     
#     # Seus arquivos aqui
#     if os.path.exists('meu_arquivo.txt'):
#         loader = TextLoader('meu_arquivo.txt')
#         documentos.extend(loader.load())
#     
#     if os.path.exists('meus_dados.csv'):
#         loader = CSVLoader('meus_dados.csv')
#         documentos.extend(loader.load())
#     
#     return documentos

print("💡 Descomente o código acima e adicione seus próprios arquivos!")

## **�� Módulo 4 Concluído!**

### **✅ O que aprendemos:**

1. **📚 Document Loaders**: Como carregar diferentes tipos de documentos
2. **�� TextLoader**: Para arquivos de texto simples
3. **🌐 WebBaseLoader**: Para websites
4. **📊 CSVLoader**: Para dados estruturados
5. **🎥 YoutubeLoader**: Para transcrições de vídeo
6. **�� APIs**: Para dados externos

### **�� Próximos Passos:**

No próximo módulo vamos aprender sobre **Text Splitting** - como dividir documentos grandes em pedaços menores!

### **💡 Dicas Importantes:**

- **Sempre verifique** se o arquivo existe antes de carregar
- **Trate erros** adequadamente para cada tipo de loader
- **Combine diferentes fontes** para datasets mais ricos
- **Mantenha metadados** para rastrear a origem dos dados

---

**🎯 Desafio do Módulo**: Carregue documentos de diferentes fontes!

**💡 Dica do Pedro**: Document Loaders são como tradutores universais - falam todas as línguas dos dados!

**🚀 Próximo módulo**: Text Splitting - Quebrando textos inteligentemente!