# üìö **M√≥dulo 4: Document Loaders - Carregando Tudo que Existe**

> *Como um "detetive digital" que encontra informa√ß√£o em qualquer lugar*

---

## **Aula 4.1: Loaders B√°sicos - De PDF a Website**

---

### **T√°, mas o que s√£o Document Loaders?**

Document Loaders s√£o como **gar√ßons universais** que sabem ler qualquer tipo de "menu" - PDFs, websites, documentos, etc. Eles transformam qualquer fonte de informa√ß√£o em texto que o RAG pode usar.

**üñºÔ∏è Sugest√£o de imagem**: Um detetive digital lendo diferentes tipos de documentos

### **Setup Inicial - Preparando o Terreno**

**‚ö†Ô∏è IMPORTANTE**: Se voc√™ n√£o executou o notebook `00_setup_colab.ipynb` primeiro, execute a c√©lula abaixo para instalar as depend√™ncias.

In [None]:
# üöÄ SETUP GRATUITO PARA COLAB
# Execute esta c√©lula primeiro para configurar o ambiente!

# Instalando depend√™ncias (execute apenas se necess√°rio)
!pip install langchain>=0.1.0
!pip install langchain-community>=0.0.10
!pip install langchain-core>=0.1.0
!pip install python-dotenv>=1.0.0
!pip install pypdf>=3.15.0
!pip install python-docx>=0.8.11
!pip install beautifulsoup4>=4.12.0
!pip install requests>=2.31.0
!pip install youtube-transcript-api>=0.6.0
!pip install pandas>=2.0.0
!pip install huggingface_hub>=0.19.0
!pip install sentence-transformers>=2.2.0

print("‚úÖ Depend√™ncias instaladas com sucesso!")
print("üöÄ Ambiente configurado para Document Loaders!")

In [None]:
# üìö IMPORTA√á√ïES PARA DOCUMENT LOADERS
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.document_loaders import TextLoader
from langchain_community.document_loaders import CSVLoader
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.document_loaders import YoutubeLoader
from langchain_community.document_loaders import UnstructuredWordDocumentLoader

import requests
import os
from pathlib import Path

print("‚úÖ Document Loaders importados com sucesso!")
print("ÔøΩÔøΩ Pronto para carregar qualquer tipo de documento!")

### **Exemplo Pr√°tico - Carregando Texto Simples**

Vamos come√ßar com o mais b√°sico - carregar arquivos de texto:

In [None]:
# üß™ EXEMPLO PR√ÅTICO: CARREGANDO TEXTO SIMPLES

# Criando um arquivo de texto de exemplo
texto_exemplo = """
RAG - Retrieval Augmented Generation

RAG √© uma t√©cnica revolucion√°ria que combina busca de informa√ß√µes com gera√ß√£o de texto.
Em vez de gerar respostas baseadas apenas no conhecimento pr√©vio, o RAG consulta
documentos relevantes antes de responder.

Vantagens do RAG:
1. Respostas mais precisas e atualizadas
2. Redu√ß√£o de alucina√ß√µes
3. Capacidade de usar informa√ß√µes privadas
4. Flexibilidade para diferentes dom√≠nios

Componentes principais:
- Document Loaders: Carregam informa√ß√µes de diferentes fontes
- Embeddings: Transformam texto em n√∫meros
- Vector Stores: Armazenam embeddings para busca r√°pida
- LLMs: Geram respostas baseadas nos documentos encontrados
"""

# Salvando arquivo de exemplo
with open("exemplo_rag.txt", "w", encoding="utf-8") as f:
    f.write(texto_exemplo)

print("ÔøΩÔøΩ Arquivo de exemplo criado: exemplo_rag.txt")

# Carregando com TextLoader
loader = TextLoader("exemplo_rag.txt", encoding="utf-8")
documentos = loader.load()

print(f"‚úÖ Carregados {len(documentos)} documentos")
print(f"ÔøΩÔøΩ Primeiro documento: {documentos[0].page_content[:100]}...")

### **Carregando Websites**

Agora vamos carregar conte√∫do de websites:

In [None]:
# üåê CARREGANDO WEBSITES

def carregar_website(url):
    """Carrega conte√∫do de um website"""
    
    try:
        print(f"ÔøΩÔøΩ Carregando website: {url}")
        
        loader = WebBaseLoader(url)
        documentos = loader.load()
        
        print(f"‚úÖ Carregados {len(documentos)} documentos")
        
        for i, doc in enumerate(documentos[:2], 1):
            print(f"\nÔøΩÔøΩ Documento {i}:")
            print(f"   T√≠tulo: {doc.metadata.get('title', 'N/A')}")
            print(f"   URL: {doc.metadata.get('source', 'N/A')}")
            print(f"   Conte√∫do: {doc.page_content[:200]}...")
        
        return documentos
        
    except Exception as e:
        print(f"‚ùå Erro ao carregar website: {e}")
        return []

# Testando com um website simples
url_teste = "https://en.wikipedia.org/wiki/Retrieval-augmented_generation"
documentos_web = carregar_website(url_teste)

### **Carregando CSV**

Vamos carregar dados estruturados de arquivos CSV:

In [None]:
# üìä CARREGANDO CSV

import pandas as pd

# Criando CSV de exemplo
dados_exemplo = {
    'produto': ['Smartphone', 'Laptop', 'Tablet', 'Smartwatch'],
    'preco': [1500, 3000, 800, 500],
    'categoria': ['Eletr√¥nicos', 'Computadores', 'Eletr√¥nicos', 'Acess√≥rios'],
    'descricao': [
        'Smartphone com c√¢mera de 48MP e bateria de 4000mAh',
        'Laptop com processador Intel i7 e 16GB de RAM',
        'Tablet com tela de 10 polegadas e 128GB de armazenamento',
        'Smartwatch com monitor card√≠aco e GPS integrado'
    ]
}

df = pd.DataFrame(dados_exemplo)
df.to_csv('produtos_exemplo.csv', index=False)

print("ÔøΩÔøΩ CSV de exemplo criado: produtos_exemplo.csv")

# Carregando CSV
loader = CSVLoader('produtos_exemplo.csv')
documentos_csv = loader.load()

print(f"‚úÖ Carregados {len(documentos_csv)} documentos do CSV")

for i, doc in enumerate(documentos_csv[:2], 1):
    print(f"\nüìÑ Produto {i}:")
    print(f"   {doc.page_content}")

## **Aula 4.2: Loaders Avan√ßados - YouTube, APIs, Bancos de Dados**

---

### **Carregando YouTube**

Vamos carregar transcri√ß√µes de v√≠deos do YouTube:

In [None]:
# ÔøΩÔøΩ CARREGANDO YOUTUBE

def carregar_youtube(url_video):
    """Carrega transcri√ß√£o de um v√≠deo do YouTube"""
    
    try:
        print(f"üé• Carregando v√≠deo: {url_video}")
        
        loader = YoutubeLoader.from_youtube_url(url_video, add_video_info=True)
        documentos = loader.load()
        
        print(f"‚úÖ Carregados {len(documentos)} documentos")
        
        for i, doc in enumerate(documentos[:1], 1):
            print(f"\nÔøΩÔøΩ V√≠deo {i}:")
            print(f"   T√≠tulo: {doc.metadata.get('title', 'N/A')}")
            print(f"   Dura√ß√£o: {doc.metadata.get('length', 'N/A')} segundos")
            print(f"   Transcri√ß√£o: {doc.page_content[:300]}...")
        
        return documentos
        
    except Exception as e:
        print(f"‚ùå Erro ao carregar YouTube: {e}")
        return []

# Exemplo (substitua por um v√≠deo real)
# url_youtube = "https://www.youtube.com/watch?v=exemplo"
# documentos_youtube = carregar_youtube(url_youtube)

print("üí° Para testar YouTube, substitua a URL por um v√≠deo real")

### **Carregando APIs**

Vamos carregar dados de APIs externas:

In [None]:
# üîå CARREGANDO APIS

def carregar_api_json(url_api):
    """Carrega dados de uma API JSON"""
    
    try:
        print(f"üîå Carregando API: {url_api}")
        
        response = requests.get(url_api)
        response.raise_for_status()
        
        dados = response.json()
        
        # Convertendo para documentos
        from langchain.schema import Document
        
        documentos = []
        for i, item in enumerate(dados[:5]):  # Limitando a 5 itens
            doc = Document(
                page_content=str(item),
                metadata={"source": url_api, "index": i}
            )
            documentos.append(doc)
        
        print(f"‚úÖ Carregados {len(documentos)} documentos da API")
        
        return documentos
        
    except Exception as e:
        print(f"‚ùå Erro ao carregar API: {e}")
        return []

# Testando com API p√∫blica
url_api_teste = "https://jsonplaceholder.typicode.com/posts"
documentos_api = carregar_api_json(url_api_teste)

if documentos_api:
    print(f"\nÔøΩÔøΩ Primeiro documento da API:")
    print(f"   {documentos_api[0].page_content[:200]}...")

### **Teste R√°pido**

Vamos testar todos os loaders juntos:

In [None]:
# üß™ TESTE R√ÅPIDO: TODOS OS LOADERS

def teste_rapido_loaders():
    """Testa todos os tipos de loaders"""
    
    print("ÔøΩÔøΩ TESTE R√ÅPIDO - DOCUMENT LOADERS:")
    print("=" * 50)
    
    todos_documentos = []
    
    # Teste 1: Texto
    print("\nüìù Teste 1: TextLoader")
    try:
        loader_texto = TextLoader("exemplo_rag.txt", encoding="utf-8")
        docs_texto = loader_texto.load()
        todos_documentos.extend(docs_texto)
        print(f"‚úÖ Texto: {len(docs_texto)} documentos")
    except Exception as e:
        print(f"‚ùå Erro texto: {e}")
    
    # Teste 2: CSV
    print("\nÔøΩÔøΩ Teste 2: CSVLoader")
    try:
        loader_csv = CSVLoader('produtos_exemplo.csv')
        docs_csv = loader_csv.load()
        todos_documentos.extend(docs_csv)
        print(f"‚úÖ CSV: {len(docs_csv)} documentos")
    except Exception as e:
        print(f"‚ùå Erro CSV: {e}")
    
    # Teste 3: API
    print("\nüîå Teste 3: API")
    try:
        docs_api = carregar_api_json("https://jsonplaceholder.typicode.com/posts")
        todos_documentos.extend(docs_api[:2])  # Limitando
        print(f"‚úÖ API: {len(docs_api[:2])} documentos")
    except Exception as e:
        print(f"‚ùå Erro API: {e}")
    
    print(f"\nüìä TOTAL: {len(todos_documentos)} documentos carregados")
    
    return todos_documentos

# Executando teste
documentos_todos = teste_rapido_loaders()

### **Desafio do M√≥dulo**

Agora √© sua vez! Carregue seus pr√≥prios documentos:

In [None]:
# üéØ DESAFIO DO M√ìDULO

print("üéØ DESAFIO: Carregue seus pr√≥prios documentos!")
print("=" * 40)
print("1. Crie arquivos de texto, CSV ou outros formatos")
print("2. Use os loaders apropriados")
print("3. Combine diferentes fontes de dados")
print("4. Crie um dataset personalizado")
print("=" * 40)

# Exemplo de como carregar seus pr√≥prios documentos:
# def carregar_meus_documentos():
#     documentos = []
#     
#     # Seus arquivos aqui
#     if os.path.exists('meu_arquivo.txt'):
#         loader = TextLoader('meu_arquivo.txt')
#         documentos.extend(loader.load())
#     
#     if os.path.exists('meus_dados.csv'):
#         loader = CSVLoader('meus_dados.csv')
#         documentos.extend(loader.load())
#     
#     return documentos

print("üí° Descomente o c√≥digo acima e adicione seus pr√≥prios arquivos!")

## **ÔøΩÔøΩ M√≥dulo 4 Conclu√≠do!**

### **‚úÖ O que aprendemos:**

1. **üìö Document Loaders**: Como carregar diferentes tipos de documentos
2. **ÔøΩÔøΩ TextLoader**: Para arquivos de texto simples
3. **üåê WebBaseLoader**: Para websites
4. **üìä CSVLoader**: Para dados estruturados
5. **üé• YoutubeLoader**: Para transcri√ß√µes de v√≠deo
6. **ÔøΩÔøΩ APIs**: Para dados externos

### **ÔøΩÔøΩ Pr√≥ximos Passos:**

No pr√≥ximo m√≥dulo vamos aprender sobre **Text Splitting** - como dividir documentos grandes em peda√ßos menores!

### **üí° Dicas Importantes:**

- **Sempre verifique** se o arquivo existe antes de carregar
- **Trate erros** adequadamente para cada tipo de loader
- **Combine diferentes fontes** para datasets mais ricos
- **Mantenha metadados** para rastrear a origem dos dados

---

**üéØ Desafio do M√≥dulo**: Carregue documentos de diferentes fontes!

**üí° Dica do Pedro**: Document Loaders s√£o como tradutores universais - falam todas as l√≠nguas dos dados!

**üöÄ Pr√≥ximo m√≥dulo**: Text Splitting - Quebrando textos inteligentemente!