# 🚀 **Setup Gratuito para RAG no Google Colab**

> *Porque RAG não precisa ser caro para ser poderoso*

---

## **🎯 O que vamos fazer aqui?**

Vamos configurar um ambiente **100% gratuito** para aprender RAG. Sem OpenAI pago, sem servidores caros - só o que funciona de graça!

**🖼️ Sugestão de imagem**: Um setup de laboratório com ferramentas gratuitas

### **Tá, mas por que RAG precisa de setup especial?**

RAG é tipo montar uma **biblioteca digital inteligente**. Você precisa de:
- 📚 **Ferramentas para ler documentos** (PDFs, websites, etc.)
- 🧠 **Modelos para entender texto** (embeddings)
- 🗄️ **Local para guardar informações** (vector stores)
- 🤖 **IA para gerar respostas** (LLMs)

**Por que RAG é importante?**

Imagine ter um assistente que **nunca mente** e sempre responde baseado em documentos reais. É isso que o RAG faz!

---

## **🆓 Nossa Estratégia Gratuita**

### **Opções de LLM (em ordem de preferência):**
1. **Hugging Face** (30.000 requisições/mês grátis)
2. **OpenAI** (se você tiver API key)

### **Vector Stores Gratuitos:**
1. **Chroma** (local, super rápido)
2. **FAISS** (local, para datasets grandes)

### **Embeddings Gratuitos:**
1. **Sentence Transformers** (local, qualidade excelente)
2. **Hugging Face Embeddings** (online, 30k/mês grátis)

---

## **🔧 Passo 1: Instalando as Dependências**

Primeiro, vamos instalar todas as bibliotecas que precisamos. É como montar uma caixa de ferramentas!

In [None]:
# 🛠️ INSTALANDO AS FERRAMENTAS DO RAG
# Execute esta célula primeiro!

!pip install langchain>=0.1.0
!pip install langchain-community>=0.0.10
!pip install langchain-core>=0.1.0
!pip install langchain-openai>=0.0.5
!pip install python-dotenv>=1.0.0

# Embeddings e Vector Stores
!pip install sentence-transformers>=2.2.0
!pip install chromadb>=0.4.0
!pip install faiss-cpu>=1.7.0

# Document Loaders
!pip install pypdf>=3.15.0
!pip install python-docx>=0.8.11
!pip install beautifulsoup4>=4.12.0
!pip install requests>=2.31.0
!pip install youtube-transcript-api>=0.6.0
!pip install pandas>=2.0.0

# LLMs
!pip install huggingface_hub>=0.19.0
!pip install openai>=1.0.0
!pip install transformers>=4.30.0
!pip install torch>=2.0.0

# Deploy e Interface
!pip install streamlit>=1.28.0
!pip install gradio>=4.0.0
!pip install fastapi>=0.100.0
!pip install uvicorn>=0.23.0

# Utilitários
!pip install numpy>=1.24.0
!pip install scikit-learn>=1.3.0
!pip install tiktoken>=0.5.0

print("✅ Todas as dependências instaladas com sucesso!")

## **🔑 Passo 2: Configurando as Chaves de API**

Agora vamos configurar as chaves de API. **Não se preocupe** - vamos usar opções gratuitas!

In [None]:
# 🔑 CONFIGURANDO AS CHAVES DE API
import os
from dotenv import load_dotenv

# Carregando variáveis de ambiente (se existirem)
load_dotenv()

print("🔧 Configurando ambiente RAG...")
print("📋 Verificando chaves de API disponíveis...")

# Verificando OpenAI (opcional)
openai_key = os.getenv("OPENAI_API_KEY")
if openai_key:
    print("✅ OpenAI API Key encontrada!")
else:
    print("ℹ️ OpenAI API Key não encontrada (vamos usar Hugging Face)")

# Verificando Hugging Face (recomendado)
huggingface_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
if huggingface_token:
    print("✅ Hugging Face Token encontrado!")
else:
    print("ℹ️ Hugging Face Token não encontrado (vamos usar modelos locais)")

print("\n🎯 Estratégia: Vamos usar modelos locais gratuitos!")
print("💡 Dica: Se quiser melhor qualidade, configure as chaves de API acima")

## **🤖 Passo 3: Configurando o LLM Gratuito**

Agora vamos configurar o LLM que vai gerar as respostas. Vamos usar o **melhor disponível**!

In [None]:
# 🤖 CONFIGURANDO O LLM GRATUITO
def get_llm_colab():
    """Retorna o melhor LLM disponível no Colab"""
    
    # Tentativa 1: OpenAI (se tiver chave)
    try:
        from langchain_openai import ChatOpenAI
        api_key = os.getenv("OPENAI_API_KEY")
        if api_key:
            print("🚀 Usando OpenAI GPT-3.5-turbo")
            return ChatOpenAI(
                model="gpt-3.5-turbo",
                temperature=0.7,
                api_key=api_key
            )
    except Exception as e:
        print(f"ℹ️ OpenAI não disponível: {e}")
    
    # Tentativa 2: Hugging Face (gratuito)
    try:
        from langchain_community.llms import HuggingFaceHub
        token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
        if token:
            print("🚀 Usando Hugging Face Hub (gratuito)")
            return HuggingFaceHub(
                repo_id="google/flan-t5-base",
                model_kwargs={"temperature": 0.7, "max_length": 512}
            )
    except Exception as e:
        print(f"ℹ️ Hugging Face Hub não disponível: {e}")
    
    # Tentativa 3: Modelo local (sempre funciona)
    try:
        from langchain_community.llms import HuggingFacePipeline
        from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
        
        print("🚀 Usando modelo local (gratuito e rápido)")
        
        # Modelo pequeno e rápido para demonstração
        model_name = "microsoft/DialoGPT-small"
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForCausalLM.from_pretrained(model_name)
        
        # Criando o pipeline
        pipe = pipeline(
            "text-generation",
            model=model,
            tokenizer=tokenizer,
            max_length=100,
            temperature=0.7,
            do_sample=True
        )
        
        return HuggingFacePipeline(pipeline=pipe)
        
    except Exception as e:
        print(f"❌ Erro ao carregar modelo local: {e}")
        return None

# Configurando o LLM
print("🔧 Configurando LLM...")
llm = get_llm_colab()

if llm:
    print("✅ LLM configurado com sucesso!")
    
    # Teste rápido
    try:
        print("\n🧪 Teste rápido do LLM:")
        response = llm.invoke("Diga 'Olá, RAG está funcionando!'")
        print(f"Resposta: {response}")
    except Exception as e:
        print(f"⚠️ Teste falhou (normal para alguns modelos): {e}")
else:
    print("❌ Não foi possível configurar o LLM")
    print("💡 Configure uma chave de API ou use o modelo local")

## **🧠 Passo 4: Configurando Embeddings Gratuitos**

Agora vamos configurar os embeddings - que são como "tradutores" que transformam texto em números que o computador entende.

In [None]:
# 🧠 CONFIGURANDO EMBEDDINGS GRATUITOS
def get_embeddings_colab():
    """Retorna o melhor modelo de embeddings disponível"""
    
    # Opção 1: Sentence Transformers (local, excelente qualidade)
    try:
        from langchain_community.embeddings import HuggingFaceEmbeddings
        
        print("🚀 Usando Sentence Transformers (local e gratuito)")
        
        # Modelo pequeno e rápido para demonstração
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2",
            model_kwargs={'device': 'cpu'}
        )
        
        return embeddings
        
    except Exception as e:
        print(f"❌ Erro ao carregar Sentence Transformers: {e}")
        return None

# Configurando embeddings
print("🔧 Configurando embeddings...")
embeddings = get_embeddings_colab()

if embeddings:
    print("✅ Embeddings configurados com sucesso!")
    
    # Teste rápido
    try:
        print("\n🧪 Teste rápido dos embeddings:")
        texts = ["Olá mundo", "Hello world", "Gato preto"]
        vectors = embeddings.embed_documents(texts)
        print(f"✅ Gerados {len(vectors)} embeddings de {len(texts)} textos")
        print(f"📏 Dimensão de cada embedding: {len(vectors[0])}")
    except Exception as e:
        print(f"⚠️ Teste falhou: {e}")
else:
    print("❌ Não foi possível configurar embeddings")
    print("💡 Verifique se as dependências foram instaladas corretamente")

## **🗄️ Passo 5: Configurando Vector Store Gratuito**

Agora vamos configurar onde vamos guardar as informações. Vamos usar o **Chroma** - que é local e super rápido!

In [None]:
# 🗄️ CONFIGURANDO VECTOR STORE GRATUITO
def setup_vector_store():
    """Configura o vector store para armazenar embeddings"""
    
    try:
        from langchain_community.vectorstores import Chroma
        
        print("🚀 Configurando Chroma (vector store local e gratuito)")
        
        # Criando um vector store temporário para teste
        texts = [
            "RAG é uma técnica de IA que combina busca e geração",
            "Embeddings são representações numéricas de texto",
            "Vector stores armazenam embeddings para busca rápida",
            "LangChain é um framework para construir aplicações de IA"
        ]
        
        # Criando o vector store
        vectorstore = Chroma.from_texts(
            texts=texts,
            embedding=embeddings,
            collection_name="test_collection"
        )
        
        print("✅ Vector store configurado com sucesso!")
        
        # Teste de busca
        print("\n🧪 Teste de busca no vector store:")
        query = "O que é RAG?"
        results = vectorstore.similarity_search(query, k=2)
        
        print(f"🔍 Busca por: '{query}'")
        for i, doc in enumerate(results, 1):
            print(f"  {i}. {doc.page_content}")
        
        return vectorstore
        
    except Exception as e:
        print(f"❌ Erro ao configurar vector store: {e}")
        return None

# Configurando vector store
print("🔧 Configurando vector store...")
vectorstore = setup_vector_store()

if vectorstore:
    print("\n🎉 Vector store funcionando perfeitamente!")
else:
    print("❌ Não foi possível configurar vector store")

## **🎯 Passo 6: Teste Completo do Sistema**

Agora vamos fazer um teste completo para ver se tudo está funcionando!

In [None]:
# 🎯 TESTE COMPLETO DO SISTEMA RAG
def test_rag_system():
    """Testa se o sistema RAG está funcionando"""
    
    print("🧪 Iniciando teste completo do sistema RAG...")
    
    # Verificando componentes
    checks = {
        "LLM": llm is not None,
        "Embeddings": embeddings is not None,
        "Vector Store": vectorstore is not None
    }
    
    print("\n📋 Status dos componentes:")
    for component, status in checks.items():
        status_icon = "✅" if status else "❌"
        print(f"  {status_icon} {component}")
    
    # Se tudo estiver OK, fazer teste de RAG simples
    if all(checks.values()):
        print("\n🚀 Todos os componentes OK! Fazendo teste de RAG...")
        
        try:
            # Buscando documentos relevantes
            query = "Explique o que é RAG"
            docs = vectorstore.similarity_search(query, k=2)
            
            # Criando contexto
            context = "\n".join([doc.page_content for doc in docs])
            
            # Gerando resposta
            prompt = f"""
            Com base no contexto abaixo, responda à pergunta:
            
            Contexto:
            {context}
            
            Pergunta: {query}
            
            Resposta:
            """
            
            response = llm.invoke(prompt)
            
            print(f"\n🔍 Pergunta: {query}")
            print(f"📚 Contexto encontrado: {len(docs)} documentos")
            print(f"🤖 Resposta: {response}")
            
            print("\n🎉 SISTEMA RAG FUNCIONANDO PERFEITAMENTE!")
            
        except Exception as e:
            print(f"⚠️ Teste de RAG falhou: {e}")
            print("💡 Isso é normal se o LLM não estiver configurado perfeitamente")
    else:
        print("\n❌ Alguns componentes não estão funcionando")
        print("💡 Verifique as configurações acima")

# Executando teste
test_rag_system()

## **🎉 Setup Concluído!**

### **✅ O que conseguimos configurar:**

1. **📦 Dependências**: Todas as bibliotecas necessárias
2. **🔑 APIs**: Configuração para opções gratuitas
3. **🤖 LLM**: Modelo de linguagem para gerar respostas
4. **🧠 Embeddings**: Transformação de texto em números
5. **🗄️ Vector Store**: Armazenamento inteligente de informações
6. **🧪 Teste**: Sistema RAG funcionando

### **🚀 Próximos Passos:**

Agora você pode:
1. **Ir para o Módulo 1**: Introdução ao RAG
2. **Aprender embeddings**: Como transformar texto em números
3. **Explorar vector stores**: Onde guardar informações
4. **Construir projetos**: Sistemas RAG completos

### **💡 Dicas Importantes:**

- **Este setup é 100% gratuito** - não precisa de dinheiro!
- **Funciona offline** - não depende de APIs externas
- **É escalável** - pode crescer conforme necessário
- **É profissional** - usado em empresas reais

---

**🎯 Desafio do Setup**: Tente fazer uma pergunta diferente no teste de RAG acima!

**💡 Dica do Pedro**: Se algo não funcionar, não se preocupe! RAG é como cozinhar - às vezes precisa ajustar o tempero.

**🚀 Próximo módulo**: Introdução ao RAG - O que é e por que é revolucionário!