# 🚀 **Setup Inicial - Curso de Fine Tuning**

## **Preparando o Terreno para Treinar IAs**

---

### **Tá, mas o que é este setup?**

Imagine que você vai cozinhar um prato especial. Antes de começar, você precisa:
- ✅ Ter todos os ingredientes
- ✅ Preparar a cozinha
- ✅ Verificar se o fogão funciona
- ✅ Ter as ferramentas certas

**Fine Tuning é a mesma coisa!** Precisamos preparar o "ambiente de cozinha" antes de começar a "cozinhar" nossos modelos.

**Por que este setup é importante?**

Fine Tuning é como treinar um atleta de alto nível. Você precisa de:
- **GPU** (como uma academia de ponta)
- **Bibliotecas certas** (como equipamentos de qualidade)
- **Configurações adequadas** (como um plano de treino)

---

**🖼️ Sugestão de imagem**: Cozinheiro preparando ingredientes e ferramentas

### **Setup Inicial - Preparando o Terreno**

## **1. Verificando se estamos no Colab**

Primeiro, vamos garantir que estamos no ambiente certo:

In [None]:
# Verificando se estamos no Google Colab
try:
    import google.colab
    print("✅ Estamos no Google Colab!")
    IN_COLAB = True
except ImportError:
    print("⚠️  Não estamos no Google Colab. Algumas funcionalidades podem não funcionar.")
    IN_COLAB = False

## **2. Instalando as Dependências**

Agora vamos instalar todas as bibliotecas que precisamos:

In [None]:
# Instalando as dependências principais
print("🔧 Instalando dependências...")

!pip install torch>=2.0.0 transformers>=4.30.0 datasets>=2.12.0
!pip install accelerate>=0.20.0 peft>=0.4.0 bitsandbytes>=0.41.0 trl>=0.7.0
!pip install langchain>=0.1.0 langchain-community>=0.0.10 langchain-core>=0.1.0
!pip install huggingface_hub>=0.19.0 python-dotenv>=1.0.0
!pip install numpy>=1.24.0 pandas>=2.0.0 matplotlib>=3.7.0 seaborn>=0.12.0
!pip install scikit-learn>=1.3.0 gradio>=3.40.0 wandb>=0.15.0

print("✅ Dependências instaladas com sucesso!")

## **3. Configurando GPU (se disponível)**

Fine Tuning é como correr uma maratona - você precisa de energia (GPU) para não ficar exausto:

In [None]:
# Verificando e configurando GPU
import torch

print("🔍 Verificando disponibilidade de GPU...")

if torch.cuda.is_available():
    print(f"✅ GPU disponível: {torch.cuda.get_device_name(0)}")
    print(f"   Memória total: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
    print(f"   Memória livre: {torch.cuda.memory_allocated(0) / 1e9:.1f} GB")
    DEVICE = "cuda"
else:
    print("⚠️  GPU não disponível. Vamos usar CPU (será mais lento, mas funciona!)")
    DEVICE = "cpu"

print(f"🎯 Dispositivo selecionado: {DEVICE}")

## **4. Configurando Hugging Face**

Vamos configurar o acesso ao Hugging Face (nossa "biblioteca de modelos"):

In [None]:
# Configurando Hugging Face
import os
from dotenv import load_dotenv

# Carregando variáveis de ambiente
load_dotenv()

# Verificando token do Hugging Face
hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")

if hf_token:
    print("✅ Token do Hugging Face configurado!")
else:
    print("⚠️  Token do Hugging Face não encontrado.")
    print("💡 Para obter um token gratuito:")
    print("   1. Acesse: https://huggingface.co/settings/tokens")
    print("   2. Crie um novo token")
    print("   3. Adicione como variável de ambiente HUGGINGFACEHUB_API_TOKEN")
    print("\n🔧 Por enquanto, vamos continuar sem o token (algumas funcionalidades serão limitadas)")

## **5. Testando as Importações**

Vamos verificar se tudo está funcionando:

In [None]:
# Testando importações principais
print("🧪 Testando importações...")

try:
    import transformers
    print(f"✅ Transformers: {transformers.__version__}")
except ImportError as e:
    print(f"❌ Erro ao importar transformers: {e}")

try:
    import torch
    print(f"✅ PyTorch: {torch.__version__}")
except ImportError as e:
    print(f"❌ Erro ao importar torch: {e}")

try:
    import datasets
    print(f"✅ Datasets: {datasets.__version__}")
except ImportError as e:
    print(f"❌ Erro ao importar datasets: {e}")

try:
    import peft
    print(f"✅ PEFT: {peft.__version__}")
except ImportError as e:
    print(f"❌ Erro ao importar PEFT: {e}")

try:
    import accelerate
    print(f"✅ Accelerate: {accelerate.__version__}")
except ImportError as e:
    print(f"❌ Erro ao importar accelerate: {e}")

print("\n🎉 Setup concluído com sucesso!")

## **6. Função Helper para LLMs**

Vamos criar uma função que nos ajuda a escolher o melhor LLM disponível:

In [None]:
def get_llm_colab():
    """
    Retorna o melhor LLM disponível no Colab
    
    É como escolher o melhor funcionário disponível para a tarefa!
    """
    
    # Tentativa 1: OpenAI (se tiver API key)
    try:
        from langchain_openai import ChatOpenAI
        api_key = os.getenv("OPENAI_API_KEY")
        if api_key:
            print("🤖 Usando OpenAI GPT-3.5-turbo")
            return ChatOpenAI(
                model="gpt-3.5-turbo",
                temperature=0.7,
                api_key=api_key
            )
    except Exception as e:
        print(f"⚠️  OpenAI não disponível: {e}")
    
    # Tentativa 2: Hugging Face (gratuito)
    try:
        from langchain_community.llms import HuggingFaceHub
        token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
        if token:
            print("🤖 Usando Hugging Face (gratuito)")
            return HuggingFaceHub(
                repo_id="google/flan-t5-base",
                model_kwargs={"temperature": 0.7, "max_length": 512}
            )
    except Exception as e:
        print(f"⚠️  Hugging Face não disponível: {e}")
    
    # Fallback: Modelo local simples
    print("🤖 Usando modelo local simples")
    return None

# Testando a função
print("🧪 Testando função de LLM...")
llm = get_llm_colab()
if llm:
    print("✅ LLM configurado com sucesso!")
else:
    print("⚠️  LLM não configurado. Vamos usar modelos locais no curso.")

## **7. Criando Estrutura de Pastas**

Vamos organizar nosso "espaço de trabalho":

In [None]:
# Criando estrutura de pastas
import os

pastas = ["datasets", "models", "checkpoints", "logs"]

for pasta in pastas:
    if not os.path.exists(pasta):
        os.makedirs(pasta)
        print(f"📁 Criada pasta: {pasta}")
    else:
        print(f"📁 Pasta já existe: {pasta}")

print("\n🏗️  Estrutura de pastas criada!")

## **8. Teste Final - Hello World do Fine Tuning**

Vamos fazer um teste rápido para garantir que tudo está funcionando:

In [None]:
# Teste final - Carregando um modelo pequeno
print("🧪 Teste final - Carregando modelo...")

try:
    from transformers import AutoTokenizer, AutoModelForCausalLM
    
    # Carregando um modelo pequeno para teste
    model_name = "microsoft/DialoGPT-small"
    
    print(f"📥 Baixando modelo: {model_name}")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name)
    
    print("✅ Modelo carregado com sucesso!")
    print(f"   Parâmetros: {model.num_parameters():,}")
    
    # Teste simples
    input_text = "Olá, como você está?"
    inputs = tokenizer(input_text, return_tensors="pt")
    
    print(f"✅ Tokenização funcionando!")
    print(f"   Input: {input_text}")
    print(f"   Tokens: {inputs['input_ids'].shape}")
    
except Exception as e:
    print(f"❌ Erro no teste final: {e}")
    print("💡 Não se preocupe, vamos resolver isso nos próximos módulos!")

## **🎉 Setup Concluído!**

### **O que fizemos:**

✅ **Verificamos o ambiente** (Colab + GPU)  
✅ **Instalamos todas as dependências**  
✅ **Configuramos Hugging Face**  
✅ **Testamos as importações**  
✅ **Criamos estrutura de pastas**  
✅ **Fizemos teste final**

### **Próximos Passos:**

🚀 **Módulo 1**: Entendendo Fine Tuning  
🚀 **Módulo 2**: Preparando Dados  
🚀 **Módulo 3**: Escolhendo Modelos  
🚀 **Módulo 4**: Treinando  
🚀 **Módulo 5**: Avaliando  
🚀 **Módulo 6**: Deploy

---

**💡 Dica do Instrutor**: Se algo deu errado, não se preocupe! Fine Tuning é como cozinhar - às vezes a primeira tentativa não sai perfeita, mas com prática você vira um chef! 😄

**🚀 Próximo módulo**: Vamos entender o que é Fine Tuning e por que você precisa saber!