# PRÉ PROCESSAMENTO (PLN)


| Técnica              | Como funciona                                                   | Prós                           | Contras                                                            | Quando usar                                             |
| -------------------- | --------------------------------------------------------------- | ------------------------------ | ------------------------------------------------------------------ | ------------------------------------------------------- |
| Lowercasing          | Converte todo texto para minúsculas                             | Simples; deixa tudo uniforme   | Pode perder informações quando maiúsculas têm significado (siglas) | Quase sempre                                            |
| Remover pontuação    | Remove vírgulas, pontos, etc.                                   | Simplifica tokens              | Pode remover significado (ex. "Olá!?" → emoção)                    | Quando o significado semântico não depende de pontuação |
| Remover stopwords    | Remove palavras comuns que não carregam significado             | Reduz ruído                    | Às vezes piora embeddings modernos                                 | Relevante para modelos clássicos (TF-IDF, Bag-of-words) |
| Lematização          | Reduz palavra à forma de dicionário (“caminhando” → “caminhar”) | Melhora consistência semântica | Mais lento; requer modelos                                         | Textos formais, análise semântica                       |
| Stemming             | Corta final da palavra (“caminhando” → “caminh”)                | Mais rápido que lemmatizer     | Resultado muitas vezes feio                                        | Quando performance importa                              |
| Remoção de HTML      | Remove tags como `<p>`, `<a>`                                   | Necessário em textos web       | Pode remover informação útil                                       | Quando dados vêm da web                                 |
| Normalização Unicode | Remove acentos e caracteres especiais                           | Evita erros de encoding        | Perde precisão linguística                                         | Quando sistema não suporta Unicode                      |


# TOKENIZAÇÃO

| Método                                        | Como funciona                                          | Prós                        | Contras                                    | Quando usar                    |
| --------------------------------------------- | ------------------------------------------------------ | --------------------------- | ------------------------------------------ | ------------------------------ |
| Tokenização por espaço                        | Divide por espaço (“texto simples”)                    | Rápido                      | Ignora pontuação, expressões               | Textos simples e curtos        |
| Tokenização NLTK                              | Usa regras linguísticas                                | Mais preciso                | Depende de idioma                          | Provas de PLN clássico         |
| spaCy tokenizer                               | Tokenização robusta por modelo                         | Muito preciso               | Mais pesado                                | Projetos profissionais         |
| Tokenização por sub-palavras (BPE, WordPiece) | Divide palavras em pedaços: “jogando” → “jog” + “ando” | Essencial para transformers | Tokens podem ficar difíceis de interpretar | Usado para embeddings modernos |


# CHUNKING

| Técnica                                    | Como funciona                                                 | Prós                                | Contras                      | Quando usar                      |
| ------------------------------------------ | ------------------------------------------------------------- | ----------------------------------- | ---------------------------- | -------------------------------- |
| Chunk por número de caracteres             | Ex.: 500–1.000 chars por bloco                                | Simples; rápido                     | Pode quebrar frases          | Arquivos simples (PDF, TXT)      |
| Chunk por número de tokens                 | Ex.: 200–500 tokens                                           | Evita ultrapassar limites do modelo | Requer tokenizador do modelo | Embeddings modernos (OpenAI, HF) |
| Chunk por parágrafos                       | Divide em blocos naturais do texto                            | Mantém contexto natural             | Parágrafos podem ser grandes | Textos formais (PDFs acadêmicos) |
| Chunk por frases                           | Usa modelo de segmentação (spaCy)                             | Alta coerência                      | Muito granular               | Perguntas de precisão alta       |
| RecursiveCharacterTextSplitter (LangChain) | Mistura vários métodos e tenta não cortar contexto importante | Melhor qualidade geral              | Implementação mais complexa  | Pipelines RAG profissionais      |


# EMBEDDING

| Tipo                                      | Como funciona                          | Prós                           | Contras                             | Quando usar                   |
| ----------------------------------------- | -------------------------------------- | ------------------------------ | ----------------------------------- | ----------------------------- |
| Word Embeddings (Word2Vec, GloVe)         | Cria um vetor por palavra              | Simples                        | Não entende contexto                | Conceitos básicos de NLP      |
| Sentence Embeddings (SBERT)               | Vetores para frases completas          | Muito bom para busca semântica | Mais pesado                         | RAG local, sem API            |
| Document Embeddings                       | Vetores grandes de documentos inteiros | Capta contexto geral           | Perde precisão em buscas finas      | Textos longos resumidos       |
| Embeddings proprietários (OpenAI, Cohere) | Modelos muito treinados                | Alta qualidade; contexto forte | Dependência externa                 | Quando precisão é prioritária |
| Embeddings multi-linguagem                | Aceita vários idiomas                  | Ideal para datasets mistos     | Pode ser pior que modelos dedicados | Dados multilíngues            |


# BANCO VETORIAL

| Banco        | Como funciona                      | Prós              | Contras                    | Quando usar                       |
| ------------ | ---------------------------------- | ----------------- | -------------------------- | --------------------------------- |
| ChromaDB     | Local, simples, Python puro        | Fácil de usar     | Não escalável para milhões | Estudo, protótipos, prova         |
| FAISS (Meta) | Biblioteca C++/Python para vetores | Muito rápido      | Sem metadados robustos     | Busca offline de alta performance |
| Pinecone     | SaaS de vetores                    | Escalável, rápido | Pago após certo limite     | Produção profissional             |
| Qdrant       | Open-source com API                | Muito robusto     | Requer setup               | Projetos intermediários           |
| Milvus       | Muito escalável                    | Industrial        | Complexo                   | Big Data, sistemas de busca       |


# Busca Semântica

| Técnica                            | Como funciona             | Prós                  | Contras                        | Quando usar                     |
| ---------------------------------- | ------------------------- | --------------------- | ------------------------------ | ------------------------------- |
| Cosine Similarity                  | Mede ângulo entre vetores | Ideal para embeddings | Costoso com milhões de vetores | RAG padrão                      |
| Dot Product                        | Produto escalar           | Muito rápido          | Menos intuitivo                | Modelos otimizados para isso    |
| L2 Distance (Euclidiana)           | Distância geométrica      | Útil para clusters    | Menos eficaz semanticamente    | Clustering, não busca semântica |
| Approximate Nearest Neighbor (ANN) | Busca aproximada          | Ultra-rápido          | Não garante 100% precisão      | Escala de milhões               |
