In [17]:
# C√âLULA DE RECUPERA√á√ÉO COMPLETA - Recria tudo do zero
print("üîÑ RECUPERA√á√ÉO COMPLETA DO SISTEMA RAG")
print("="*60)

# ========== PASSO 1: VERIFICAR BIBLIOTECAS ==========
print("1Ô∏è‚É£ Verificando bibliotecas...")
try:
    import sys
    from sentence_transformers import SentenceTransformer
    import chromadb
    from chromadb.config import Settings
    from langchain.document_loaders import PyPDFLoader, TextLoader
    from langchain.text_splitter import RecursiveCharacterTextSplitter
    from pathlib import Path
    print("‚úÖ Todas as bibliotecas importadas com sucesso")
except ImportError as e:
    print(f"‚ùå Erro de importa√ß√£o: {e}")
    exit()

# ========== PASSO 2: CARREGAR MODELO DE EMBEDDING ==========
print("\n2Ô∏è‚É£ Carregando modelo de embedding...")
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
print("‚úÖ Modelo carregado")

# ========== PASSO 3: RECARREGAR DOCUMENTOS ==========
print("\n3Ô∏è‚É£ Recarregando documentos da pasta data...")
data_path = Path("data")
documentos_reais = []
metadados_docs = []

if data_path.exists():
    # Carregar TXTs
    for arquivo_txt in data_path.glob("*.txt"):
        try:
            loader = TextLoader(str(arquivo_txt), encoding='utf-8')
            docs = loader.load()
            for doc in docs:
                documentos_reais.append(doc.page_content)
                metadados_docs.append({
                    'source': arquivo_txt.name,
                    'type': 'TXT',
                    'size': len(doc.page_content)
                })
            print(f"   ‚úÖ {arquivo_txt.name}: {len(docs[0].page_content)} chars")
        except Exception as e:
            print(f"   ‚ö†Ô∏è Erro em {arquivo_txt.name}: {e}")
    
    # Carregar PDFs
    for arquivo_pdf in data_path.glob("*.pdf"):
        try:
            loader = PyPDFLoader(str(arquivo_pdf))
            docs = loader.load()
            texto_completo = "\n\n".join([doc.page_content for doc in docs])
            documentos_reais.append(texto_completo)
            metadados_docs.append({
                'source': arquivo_pdf.name,
                'type': 'PDF',
                'pages': len(docs),
                'size': len(texto_completo)
            })
            print(f"   ‚úÖ {arquivo_pdf.name}: {len(docs)} p√°ginas")
        except Exception as e:
            print(f"   ‚ö†Ô∏è Erro em {arquivo_pdf.name}: {e}")

print(f"‚úÖ {len(documentos_reais)} documentos carregados")

# ========== PASSO 4: CRIAR CHUNKS ==========
print("\n4Ô∏è‚É£ Criando chunks...")
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    separators=["\n\n", "\n", ". ", " ", ""]
)

chunks_reais = []
for i, (doc_text, metadata) in enumerate(zip(documentos_reais, metadados_docs)):
    doc_chunks = text_splitter.split_text(doc_text)
    for j, chunk in enumerate(doc_chunks):
        chunk_info = {
            'id': f'doc_{i}_chunk_{j}',
            'text': chunk,
            'source_file': metadata['source'],
            'source_type': metadata['type'],
            'chunk_number': j,
            'char_count': len(chunk)
        }
        chunks_reais.append(chunk_info)

print(f"‚úÖ {len(chunks_reais)} chunks criados")

# ========== PASSO 5: CRIAR BANCO VETORIAL ==========
print("\n5Ô∏è‚É£ Criando banco vetorial...")
client = chromadb.Client(Settings(
    anonymized_telemetry=False,
    allow_reset=True
))

# Limpar collection anterior
try:
    client.delete_collection("meus_documentos_rag")
except:
    pass

collection = client.create_collection("meus_documentos_rag")

# Preparar dados
textos_chunks = [chunk['text'] for chunk in chunks_reais]
ids_chunks = [f"chunk_{i}" for i in range(len(chunks_reais))]

# Gerar embeddings
print("   Gerando embeddings...")
embeddings_chunks = embedding_model.encode(textos_chunks)

# Indexar
print("   Indexando no banco...")
collection.add(
    embeddings=embeddings_chunks.tolist(),
    documents=textos_chunks,
    ids=ids_chunks
)

total_items = collection.count()
print(f"‚úÖ {total_items} chunks indexados no banco vetorial")

# ========== VERIFICA√á√ÉO FINAL ==========
print("\n" + "="*60)
print("üéâ SISTEMA RAG COMPLETAMENTE RESTAURADO!")
print(f"   üìö Documentos: {len(documentos_reais)}")
print(f"   üß© Chunks: {len(chunks_reais)}")
print(f"   üíæ Banco vetorial: {total_items} itens")
print(f"   üß† Modelo embedding: all-MiniLM-L6-v2")

# Teste r√°pido
print("\nüß™ Teste r√°pido de busca:")
resultado_teste = collection.query(
    query_texts=["intelig√™ncia artificial"],
    n_results=1
)
print("‚úÖ Busca funcionando perfeitamente!")

print("\nüöÄ Agora voc√™ pode fazer buscas sem√¢nticas!")

üîÑ RECUPERA√á√ÉO COMPLETA DO SISTEMA RAG
1Ô∏è‚É£ Verificando bibliotecas...
‚úÖ Todas as bibliotecas importadas com sucesso

2Ô∏è‚É£ Carregando modelo de embedding...


incorrect startxref pointer(1)
parsing for Object Streams


‚úÖ Modelo carregado

3Ô∏è‚É£ Recarregando documentos da pasta data...
   ‚úÖ background.txt: 2079 chars
   ‚úÖ coddigo.txt: 59433 chars
   ‚úÖ 2506.11928v1.pdf: 71 p√°ginas
   ‚úÖ Facial_Emotion_Recognition_(FER)_Advances_and_Applications_(2022-2025).pdf: 5 p√°ginas
‚úÖ 4 documentos carregados

4Ô∏è‚É£ Criando chunks...
‚úÖ 325 chunks criados

5Ô∏è‚É£ Criando banco vetorial...
   Gerando embeddings...
   Indexando no banco...
‚úÖ 325 chunks indexados no banco vetorial

üéâ SISTEMA RAG COMPLETAMENTE RESTAURADO!
   üìö Documentos: 4
   üß© Chunks: 325
   üíæ Banco vetorial: 325 itens
   üß† Modelo embedding: all-MiniLM-L6-v2

üß™ Teste r√°pido de busca:
‚úÖ Busca funcionando perfeitamente!

üöÄ Agora voc√™ pode fazer buscas sem√¢nticas!


In [18]:
# C√©lula 1: Verifica√ß√£o basica e importa√ß√µes 
import sys
print(f"Phyton: {sys.version}")

# Verifica se estamos no ambiente correto
print("Verificando se as bibliotecas est√£o disponiveis...")

try:
    import langchain
    print(f"‚úÖ LangChain: {langchain.__version__}")
except ImportError:
    print("‚ùå LangChain n√£o encontrado")

try:
    import chromadb
    print(f"‚úÖ ChromaDB: {chromadb.__version__}")
except ImportError:
    print("‚ùå ChromaDB n√£o encontrado")

try:
    import sentence_transformers
    print(f"‚úÖ Sentence Transformers: {sentence_transformers.__version__}")
except ImportError:
    print("‚ùå Sentence Transformers n√£o encontrado")

Phyton: 3.13.3 (tags/v3.13.3:6280bb5, Apr  8 2025, 14:47:33) [MSC v.1943 64 bit (AMD64)]
Verificando se as bibliotecas est√£o disponiveis...
‚úÖ LangChain: 0.3.26
‚úÖ ChromaDB: 1.0.15
‚úÖ Sentence Transformers: 5.0.0


In [19]:
# C√©lula 2: Experimento com embeddings
from sentence_transformers import SentenceTransformer

# Carregar um modelo pequeno para entender embeddings
print("Carregando modelo de embedding...")
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")
print("‚úÖ Modelo Carregado!")

# Teste b√°sico com frases similares e diferentes
textos = [
    "O gato subiu no telhado",
    "Um felino escalou o teto de casa",
    "Hoje est√° chovendo muito",
    "Tempestade ocorreu com intensidade",
    "O cachorro late no quintal",
    "O canino ladra mas n√£o morde"
]

print(f"\nVamos analisar {len(textos)} frases:")
for i, texto in enumerate(textos):
    print(f"{i+1}. '{texto}'")

# Gerar embeddings
print("\nGerando embeddings...")
embeddings = embedding_model.encode(textos)
print(f"‚úÖ Shape dos embeddings: {embeddings.shape}")
print(f"‚úÖ Cada texto virou um vetor de {embeddings.shape[1]} dimens√µes")

Carregando modelo de embedding...
‚úÖ Modelo Carregado!

Vamos analisar 6 frases:
1. 'O gato subiu no telhado'
2. 'Um felino escalou o teto de casa'
3. 'Hoje est√° chovendo muito'
4. 'Tempestade ocorreu com intensidade'
5. 'O cachorro late no quintal'
6. 'O canino ladra mas n√£o morde'

Gerando embeddings...
‚úÖ Shape dos embeddings: (6, 384)
‚úÖ Cada texto virou um vetor de 384 dimens√µes


In [20]:
# C√©lula 3: Calculando a similaridade entre textos
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

print("üîç Analisando a similaridade entre os nossos 6 textos:")
print()

# Relembrar quais s√£o os textos
for i, texto in enumerate(textos):
    print(f"{i+1}. '{texto}'")

print("\n" + "="*60)

# Calcular similaridade entre todos os textos
similarities = cosine_similarity(embeddings)

print("üìä Matriz de similaridade:")
print("(1.0 = id√™ntico, 0.0 = neutro, -1.0 = oposto)")
print()

# Mostarr compara√ß√£o de forma organizada
for i, texto1 in enumerate(textos):
    for j, texto2 in enumerate(textos):
        if i < j: # evita repeti√ß√µes (s√≥ mostra a metade da matriz)
            sim = similarities[i][j]
            print(f"Texto {i+1} vs Texto {j+1}: {sim:.3f}")
            print(f"  '{texto1[:30]}...' ‚Üî '{texto2[:30]}...'")
        
            # Interpreta√ß√£o humana
            if sim > 0.7:
                print(f"  üíö Muito similares!")
            elif sim > 0.4:
                print(f"  üíõ Moderadamente similares")
            else:
                print(f"  ‚ù§Ô∏è Pouco similares")
            print()

üîç Analisando a similaridade entre os nossos 6 textos:

1. 'O gato subiu no telhado'
2. 'Um felino escalou o teto de casa'
3. 'Hoje est√° chovendo muito'
4. 'Tempestade ocorreu com intensidade'
5. 'O cachorro late no quintal'
6. 'O canino ladra mas n√£o morde'

üìä Matriz de similaridade:
(1.0 = id√™ntico, 0.0 = neutro, -1.0 = oposto)

Texto 1 vs Texto 2: 0.497
  'O gato subiu no telhado...' ‚Üî 'Um felino escalou o teto de ca...'
  üíõ Moderadamente similares

Texto 1 vs Texto 3: 0.469
  'O gato subiu no telhado...' ‚Üî 'Hoje est√° chovendo muito...'
  üíõ Moderadamente similares

Texto 1 vs Texto 4: 0.418
  'O gato subiu no telhado...' ‚Üî 'Tempestade ocorreu com intensi...'
  üíõ Moderadamente similares

Texto 1 vs Texto 5: 0.548
  'O gato subiu no telhado...' ‚Üî 'O cachorro late no quintal...'
  üíõ Moderadamente similares

Texto 1 vs Texto 6: 0.503
  'O gato subiu no telhado...' ‚Üî 'O canino ladra mas n√£o morde...'
  üíõ Moderadamente similares

Texto 2 vs Texto 3: 0.45

In [21]:
# C√©lula 4: Criando nossa "base de conhecimento"
documentos = [
    """
    Intelig√™ncia Artificial (IA) √© um campo da ci√™ncia da computa√ß√£o que se concentra 
    no desenvolvimento de sistemas capazes de realizar tarefas que normalmente 
    requerem intelig√™ncia humana. Isso inclui aprendizado, racioc√≠nio, 
    percep√ß√£o e tomada de decis√£o. A IA pode ser classificada em IA fraca 
    (sistemas espec√≠ficos) e IA forte (intelig√™ncia geral).
    """,

    """
    Machine Learning √© uma subcategoria da IA que permite que os computadores 
    aprendam e melhorem automaticamente a partir da experi√™ncia, sem serem 
    explicitamente programados. Utiliza algoritmos estat√≠sticos para 
    identificar padr√µes em dados. Os principais tipos s√£o: supervisionado, 
    n√£o supervisionado e por refor√ßo.
    """,

    """
     Python √© uma linguagem de programa√ß√£o de alto n√≠vel, interpretada e 
    de prop√≥sito geral. √â amplamente utilizada em ci√™ncia de dados, 
    desenvolvimento web, automa√ß√£o e intelig√™ncia artificial devido 
    √† sua sintaxe simples e rica biblioteca de pacotes como NumPy, 
    Pandas e TensorFlow.
    """,

    """
    LangChain √© um framework para desenvolver aplica√ß√µes com modelos de 
    linguagem. Ele fornece ferramentas para conectar LLMs com fontes de 
    dados externas, criar pipelines de processamento e construir 
    aplica√ß√µes inteligentes como chatbots e sistemas de pergunta-resposta.
    LangChain facilita a implementa√ß√£o de RAG.
    """,

    """
    Bancos vetoriais s√£o sistemas de banco de dados especializados em 
    armazenar e buscar vetores de alta dimensionalidade. Eles s√£o 
    fundamentais para aplica√ß√µes de IA que utilizam embeddings, como 
    sistemas de recomenda√ß√£o, busca sem√¢ntica e RAG. Exemplos incluem 
    ChromaDB, Pinecone e Weaviate.
    """
]

print("üìö Base de Conhecimetno Criada!")
print("="*50)

for i, doc in enumerate(documentos):
    palavras = len(doc.split())
    caracteres = len(doc.strip())
    print(f"Documento {i+1}:")
    print(f"  üìÑ {palavras} palavras, {caracteres} caracteres")
    print(f"  üìù Tema: {doc.strip()[:50]}...")
    print()

print(f"‚úÖ Total: {len(documentos)} documentos em nossa base")
    

üìö Base de Conhecimetno Criada!
Documento 1:
  üìÑ 50 palavras, 369 caracteres
  üìù Tema: Intelig√™ncia Artificial (IA) √© um campo da ci√™ncia...

Documento 2:
  üìÑ 42 palavras, 334 caracteres
  üìù Tema: Machine Learning √© uma subcategoria da IA que perm...

Documento 3:
  üìÑ 42 palavras, 299 caracteres
  üìù Tema: Python √© uma linguagem de programa√ß√£o de alto n√≠ve...

Documento 4:
  üìÑ 42 palavras, 329 caracteres
  üìù Tema: LangChain √© um framework para desenvolver aplica√ß√µ...

Documento 5:
  üìÑ 41 palavras, 309 caracteres
  üìù Tema: Bancos vetoriais s√£o sistemas de banco de dados es...

‚úÖ Total: 5 documentos em nossa base


In [22]:
# C√©lula 5: Entendendo Chunking (Divis√£o de Texto)
from langchain.text_splitter import RecursiveCharacterTextSplitter

print("üî™ Aprendendo sobre Chunking")
print("="*40)

# Configurar o divisor de texto
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200, # Tamanho m√°ximo de cada peda√ßo de texto (em caracteres)
    chunk_overlap=50, # Sobreposi√ß√£o entre peda√ßos
    separators=["\n\n", "\n", ". ", " ", ""] # Como dividir (ordem de prefer√™ncia)
)

print("‚öôÔ∏è Configura√ß√£o do Text Splitter:")
print(f"   üìè Tamanho m√°ximo do chunk: {text_splitter._chunk_size} caracteres")
print(f"   üîó Sobreposi√ß√£o: {text_splitter._chunk_overlap} caracteres")
print(f"   ‚úÇÔ∏è Separadores: {text_splitter._separators}")
print()

# Dividir nossos docuemntos
chunks = []
chunk_counter = 0

for i, doc in enumerate(documentos):
    doc_limpo = doc.strip()
    doc_chunks = text_splitter.split_text(doc_limpo)

    print(f"üìÑ Documento {i+1} ‚Üí {len(doc_chunks)} chunk(s)")
    
    for j, chunk in enumerate(doc_chunks):
         chunk_info = {
        'id': f"chunk_{chunk_counter}",
        'text': chunk,
        'source': f"documento_{i+1}",
        'chunk_num': j,
        'chars': len(chunk)
    }
    chunks.append(chunk_info)
    
    print(f" Chunk {j+1}: {len(chunk)} chars ‚Üí '{chunk[:60]}...'")
    chunk_counter += 1
print()

print("="*50)
print(f"üéØ Resultado Final:")
print(f"   üìö {len(documentos)} documentos originais")
print(f"   üß© {len(chunks)} chunks criados")
print(f"   üìä M√©dia de {len(chunks)/len(documentos):.1f} chunks por documento")

üî™ Aprendendo sobre Chunking
‚öôÔ∏è Configura√ß√£o do Text Splitter:
   üìè Tamanho m√°ximo do chunk: 200 caracteres
   üîó Sobreposi√ß√£o: 50 caracteres
   ‚úÇÔ∏è Separadores: ['\n\n', '\n', '. ', ' ', '']

üìÑ Documento 1 ‚Üí 3 chunk(s)
 Chunk 3: 55 chars ‚Üí '(sistemas espec√≠ficos) e IA forte (intelig√™ncia geral)....'
üìÑ Documento 2 ‚Üí 2 chunk(s)
 Chunk 2: 179 chars ‚Üí 'explicitamente programados. Utiliza algoritmos estat√≠sticos ...'
üìÑ Documento 3 ‚Üí 2 chunk(s)
 Chunk 2: 157 chars ‚Üí 'desenvolvimento web, automa√ß√£o e intelig√™ncia artificial dev...'
üìÑ Documento 4 ‚Üí 2 chunk(s)
 Chunk 2: 183 chars ‚Üí 'dados externas, criar pipelines de processamento e construir...'
üìÑ Documento 5 ‚Üí 2 chunk(s)
 Chunk 2: 171 chars ‚Üí 'fundamentais para aplica√ß√µes de IA que utilizam embeddings, ...'

üéØ Resultado Final:
   üìö 5 documentos originais
   üß© 5 chunks criados
   üìä M√©dia de 1.0 chunks por documento


In [23]:
# C√©lula 6: Explorando arquivos reais na pasta data
import os
from pathlib import Path

# Vrificar pasta data
data_path = Path("data")

if data_path.exists():
    print("üìÅ Arquivos encontrados na pasta 'data':")
    print("="*50)

    arquivo_pdf = []
    arquivo_txt = []
    outros_arquivos = []

    for arquivo in data_path.iterdir():
        if arquivo.is_file():
            tamanho_kb = arquivo.stat().st_size / 1024

            if arquivo.suffix.lower() == '.pdf':
                arquivo_pdf.append(arquivo)
                print(f"üìÑ PDF: {arquivo.name} ({tamanho_kb:.1f} KB)")
            elif arquivo.suffix.lower() == '.txt':
                arquivo_txt.append(arquivo)
                print(f"üìù TXT: {arquivo.name} ({tamanho_kb:.1f} KB)")
            else:
                outros_arquivos.append(arquivo)
                print(f"‚ùì Outro: {arquivo.name} ({tamanho_kb:.1f} KB)")
                
    print(f"\nüìä Resumo:")
    print(f"   üìÑ {len(arquivo_pdf)} arquivo(s) PDF")
    print(f"   üìù {len(arquivo_txt)} arquivo(s) TXT")
    print(f"   ‚ùì {len(outros_arquivos)} outro(s) arquivo(s)")

    if len(arquivo_pdf) + len(arquivo_txt) > 0:
        print("\n‚úÖ Vamos usar esses arquivos no nosso RAG!")
    else:
        print("\n‚ö†Ô∏è Nenhum PDF ou TXT encontrado. Vamos usar documentos sint√©ticos.")
else:
    print("‚ùå Pasta 'data' n√£o encontrada.")
    print("üí° Crie a pasta 'data' e coloque seus arquivos l√°, ou vamos continuar com documentos sint√©ticos.")

üìÅ Arquivos encontrados na pasta 'data':
üìÑ PDF: 2506.11928v1.pdf (712.0 KB)
üìù TXT: background.txt (2.1 KB)
üìù TXT: coddigo.txt (60.7 KB)
üìÑ PDF: Facial_Emotion_Recognition_(FER)_Advances_and_Applications_(2022-2025).pdf (78.3 KB)
‚ùì Outro: imagem (8).png (38.0 KB)

üìä Resumo:
   üìÑ 2 arquivo(s) PDF
   üìù 2 arquivo(s) TXT
   ‚ùì 1 outro(s) arquivo(s)

‚úÖ Vamos usar esses arquivos no nosso RAG!


In [24]:
# C√©lula 7: Carergando documentos reais
from langchain.document_loaders import PyPDFLoader, TextLoader
from langchain.schema import Document

print("üìö Carregando documentos reais...")
print("="*40)

documentos_reais = []
metadados_docs = []

# Carregar arquivos TXT
if arquivo_txt:
    print("üìù Carregando arquivos TXT:")
    for arquivos_txt in arquivo_txt:
        try:
            loader = TextLoader(str(arquivos_txt), encoding='utf-8')
            docs = loader.load()

            for doc in docs:
                documentos_reais.append(doc.page_content)
                metadados_docs.append({
                    'source': arquivos_txt.name,
                    'type': 'TXT',
                    'size': len(doc.page_content)
                })
                
            print(f"   ‚úÖ {arquivo_txt.name}: {len(docs[0].page_content)} caracteres")
            
        except Exception as e:
            print(f"   ‚ùå Erro ao carregar {arquivos_txt.name}: {e}")

# Carregar arquivo PDF
if arquivo_pdf:
    print("üìù Carregando arquivos PDF:")
    for arquivos_pdf in arquivo_pdf:
        try:
            loader = PyPDFLoader(str(arquivos_pdf))
            docs = loader.load()

            # Juntar todas as paginas do PDF
            texto_completo = "\n\n".join([doc.page_content for doc in docs])
            documentos_reais.append(texto_completo)

            metadados_docs.append({
                'source': arquivo_pdf.name,
                'type': 'PDF',
                'pages': len(docs),
                'size': len(texto_completo)
            })

            print(f"   ‚úÖ {arquivo_pdf.name}: {len(docs)} p√°ginas, {len(texto_completo)} caracteres")
        except Exception as e:
            print(f"   ‚ùå Erro ao carregar {arquivos_pdf.name}: {e}")

# Resultado final
print("\n" + "="*50)
print(f"üéØ Documentos carregados com sucesso:")
print(f"   üìÑ Total: {len(documentos_reais)} documento(s)")

for i, metadata in enumerate(metadados_docs):
    print(f"   {i+1}. {metadata['source']} ({metadata['type']}) - {metadata['size']} chars")

# Se n√£o conseguiu carregar nenhum, usar sint√©ticos
if not documentos_reais:
    print("\n‚ö†Ô∏è Nenhum documento foi carregado. Usando documentos sint√©ticos...")
    # (aqui poderia voltar aos documentos sint√©ticos se necess√°rio)
else:
    print(f"\n‚úÖ Vamos usar seus {len(documentos_reais)} documento(s) real(is) no RAG!")
    
    # Mostrar uma amostra do primeiro documento
    print(f"\nüìÑ Amostra do primeiro documento ({metadados_docs[0]['source']}):")
    print(f"'{documentos_reais[0][:200]}...'")

incorrect startxref pointer(1)
parsing for Object Streams


üìö Carregando documentos reais...
üìù Carregando arquivos TXT:
   ‚ùå Erro ao carregar background.txt: 'list' object has no attribute 'name'
   ‚ùå Erro ao carregar coddigo.txt: 'list' object has no attribute 'name'
üìù Carregando arquivos PDF:
   ‚ùå Erro ao carregar 2506.11928v1.pdf: 'list' object has no attribute 'name'
   ‚ùå Erro ao carregar Facial_Emotion_Recognition_(FER)_Advances_and_Applications_(2022-2025).pdf: 'list' object has no attribute 'name'

üéØ Documentos carregados com sucesso:
   üìÑ Total: 4 documento(s)
   1. background.txt (TXT) - 2079 chars
   2. coddigo.txt (TXT) - 59433 chars

‚úÖ Vamos usar seus 4 documento(s) real(is) no RAG!

üìÑ Amostra do primeiro documento (background.txt):
'j√° trabalhei com Llama inclusive tenho participa√ß√£o da primeira equipe de IA em uma competi√ß√£o no Kaggle, trabalho diariamente com OpenAI, Gemini e Claude da Anthopric.
Ainda n√£o tive oportunidade de ...'


In [25]:
# C√©lula 8: Aplicando chunking aos documentos reais
from langchain.text_splitter import RecursiveCharacterTextSplitter

print("üî™ Aplicando Chunking aos Documentos Reais")
print("="*50)

# Configurar splitter para documentos reais (chunks maiores)
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000, # Maior para documentos reais
    chunk_overlap = 200, # Overlap mairo para preservar contexto
    separators = ["\n\n", ". ", " ", ""]
)

print("‚öôÔ∏è Configura√ß√£o do Chunking:")
print(f"   üìè Tamanho m√°ximo: {text_splitter._chunk_size} caracteres")
print(f"   üîó Sobreposi√ß√£o: {text_splitter._chunk_overlap} caracteres")
print()

# Processar cada documento
chunk_reais = []
estatisticas = []

for i, (doc_text, metadata) in enumerate(zip(documentos_reais, metadados_docs)):
    print(f"üìÑ Processando: {metadata['source']}")
    print(f"   üìä Documento original: {len(doc_text):,} caracteres")

    # Aplicar chunking
    doc_chunks = text_splitter.split_text(doc_text)

    print(f"   üß© Resultado: {len(doc_chunks)} chunks")

    # Armazenar chunks com metadados
    for j, chunk in enumerate(doc_chunks):
        chunk_info = {
            'id': f'doc_{i}_chunk_{j}',
            'text': chunk,
            'source_file': metadata['source'],
            'source_type': metadata['type'],
            'chunk_number': j,
            'total_chunks': len(doc_chunks),
            'char_count': len(chunk)
        }
        chunk_reais.append(chunk_info)

    # Estatisticas para documento
    tamanhos_chunks = [len(chunk) for chunk in doc_chunks]
    stats = {
        'arquivo': metadata['source'],
        'chars_original': len(doc_text),
        'num_chunks': len(doc_chunks),
        'chunk_min': min(tamanhos_chunks),
        'chunk_max': max(tamanhos_chunks),
        'chunk_medio': sum(tamanhos_chunks) / len(tamanhos_chunks)
    }
    estatisticas.append(stats)

    print(f"   üìà Tamanho dos chunks: {stats['chunk_min']}-{stats['chunk_max']} chars (m√©dia: {stats['chunk_medio']:.0f})")

    # Mostrar amostra do primeiro chunk
    print(f"   üìù Primeiro chunk: '{doc_chunks[0][:100]}...'")
    print()

# Resumo final
print("="*60)
print("üéØ Resumo Final do Chunking:")
print(f"   üìö {len(documentos_reais)} documentos processados")
print(f"   üß© {len(chunk_reais)} chunks criados no total")
print(f"   üìä M√©dia de {len(chunk_reais)/len(documentos_reais):.1f} chunks por documento")

print("\nüìã Detalhes por arquivo:")
for stat in estatisticas:
    print(f"   üìÑ {stat['arquivo']}: {stat['num_chunks']} chunks (m√©dia {stat['chunk_medio']:.0f} chars)")

# Encontrar o documento com mais chunks
doc_mais_chunks = max(estatisticas, key=lambda x: x['num_chunks'])
print(f"\nüèÜ Documento com mais chunks: {doc_mais_chunks['arquivo']} ({doc_mais_chunks['num_chunks']} chunks)")

üî™ Aplicando Chunking aos Documentos Reais
‚öôÔ∏è Configura√ß√£o do Chunking:
   üìè Tamanho m√°ximo: 1000 caracteres
   üîó Sobreposi√ß√£o: 200 caracteres

üìÑ Processando: background.txt
   üìä Documento original: 2,079 caracteres
   üß© Resultado: 4 chunks
   üìà Tamanho dos chunks: 354-997 chars (m√©dia: 568)
   üìù Primeiro chunk: 'j√° trabalhei com Llama inclusive tenho participa√ß√£o da primeira equipe de IA em uma competi√ß√£o no Ka...'

üìÑ Processando: coddigo.txt
   üìä Documento original: 59,433 caracteres
   üß© Resultado: 71 chunks
   üìà Tamanho dos chunks: 355-998 chars (m√©dia: 894)
   üìù Primeiro chunk: '// >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<...'

üéØ Resumo Final do Chunking:
   üìö 4 documentos processados
   üß© 75 chunks criados no total
   üìä M√©dia de 18.8 chunks por documento

üìã Detalhes por arquivo:
   üìÑ background.txt: 4 chunks (m√©dia 568 chars)
   üìÑ coddigo.txt: 71 ch

In [26]:
# C√©lula 9: Banco vetorial simplificado (sem metadados complexos)
import chromadb
from chromadb.config import Settings
import time

print("üèóÔ∏è Criando Banco Vetorial - Vers√£o Simplificada")
print("="*60)

# Verificar dados antes de processar
print("üîç Verificando dados antes do processamento:")
print(f"   üìö documentos_reais: {len(documentos_reais)} itens")
print(f"   üß© chunks_reais: {len(chunks_reais)} itens")

# Mostrar estrutura do primeiro chunk
if len(chunks_reais) > 0:
    primeiro_chunk = chunks_reais[0]
    print(f"   üìÑ Estrutura do primeiro chunk:")
    for key, value in primeiro_chunk.items():
        print(f"      {key}: {type(value)} = {str(value)[:50]}...")
else:
    print("   ‚ùå Nenhum chunk encontrado!")
    exit()

# Configurar ChromaDB
client = chromadb.Client(Settings(
    anonymized_telemetry=False,
    allow_reset=True
))

# Limpar e criar cole√ß√£o
collection_name = "meus_documentos_rag"
try:
    client.delete_collection(collection_name)
except:
    pass

collection = client.create_collection(name=collection_name)
print(f"‚úÖ Cole√ß√£o '{collection_name}' criada")

# Extrair dados dos chunks
textos_chunks = []
ids_chunks = []
metadados_simples = []

for i, chunk in enumerate(chunks_reais):
    # Garantir que temos texto
    if 'text' in chunk and chunk['text'].strip():
        textos_chunks.append(chunk['text'])
        ids_chunks.append(f"chunk_{i}")  # ID simples
        
        # Metadados muito simples (apenas arquivo fonte)
        if 'source_file' in chunk:
            metadados_simples.append({'source': chunk['source_file']})
        else:
            metadados_simples.append({'source': 'unknown'})

print(f"\nüìä Dados preparados:")
print(f"   üìù {len(textos_chunks)} textos v√°lidos")
print(f"   üè∑Ô∏è {len(ids_chunks)} IDs criados") 
print(f"   üìã {len(metadados_simples)} metadados criados")

# Verificar se temos dados v√°lidos
if len(textos_chunks) == 0:
    print("‚ùå Nenhum texto v√°lido encontrado!")
    exit()

# Gerar embeddings
print(f"\nüß† Gerando embeddings...")
start_time = time.time()
embeddings_chunks = embedding_model.encode(textos_chunks)
embedding_time = time.time() - start_time

print(f"‚úÖ Embeddings gerados:")
print(f"   ‚è±Ô∏è Tempo: {embedding_time:.2f} segundos")
print(f"   üìä Shape: {embeddings_chunks.shape}")

# Adicionar ao ChromaDB
print(f"\nüíæ Adicionando ao banco vetorial...")
try:
    collection.add(
        embeddings=embeddings_chunks.tolist(),
        documents=textos_chunks,
        metadatas=metadados_simples,
        ids=ids_chunks
    )
    
    total_items = collection.count()
    print(f"‚úÖ Sucesso! {total_items} chunks indexados")
    
    # Testar uma busca r√°pida
    print(f"\nüß™ Teste r√°pido de busca:")
    resultados_teste = collection.query(
        query_texts=["intelig√™ncia artificial"],
        n_results=3
    )
    print(f"   ‚úÖ Busca funcionando: {len(resultados_teste['documents'][0])} resultados encontrados")
    
except Exception as e:
    print(f"‚ùå Erro ao adicionar: {e}")
    print("üí° Vamos tentar sem metadados...")
    
    # Tentar sem metadados
    try:
        collection.add(
            embeddings=embeddings_chunks.tolist(),
            documents=textos_chunks,
            ids=ids_chunks
            # Sem metadatas
        )
        
        total_items = collection.count()
        print(f"‚úÖ Sucesso sem metadados! {total_items} chunks indexados")
        
    except Exception as e2:
        print(f"‚ùå Erro mesmo sem metadados: {e2}")

print(f"\nüéâ Banco vetorial est√° pronto!")

üèóÔ∏è Criando Banco Vetorial - Vers√£o Simplificada
üîç Verificando dados antes do processamento:
   üìö documentos_reais: 4 itens
   üß© chunks_reais: 325 itens
   üìÑ Estrutura do primeiro chunk:
      id: <class 'str'> = doc_0_chunk_0...
      text: <class 'str'> = j√° trabalhei com Llama inclusive tenho participa√ß√£...
      source_file: <class 'str'> = background.txt...
      source_type: <class 'str'> = TXT...
      chunk_number: <class 'int'> = 0...
      char_count: <class 'int'> = 969...
‚úÖ Cole√ß√£o 'meus_documentos_rag' criada

üìä Dados preparados:
   üìù 325 textos v√°lidos
   üè∑Ô∏è 325 IDs criados
   üìã 325 metadados criados

üß† Gerando embeddings...
‚úÖ Embeddings gerados:
   ‚è±Ô∏è Tempo: 13.01 segundos
   üìä Shape: (325, 384)

üíæ Adicionando ao banco vetorial...
‚úÖ Sucesso! 325 chunks indexados

üß™ Teste r√°pido de busca:
   ‚úÖ Busca funcionando: 3 resultados encontrados

üéâ Banco vetorial est√° pronto!


In [33]:
# C√©lula 10: Buscas sem√¢nticas - VERS√ÉO CORRIGIDA
print("üîç Primeira Busca Sem√¢ntica Real")
print("="*50)

# Verificar se temos o banco vetorial
try:
    total_items = collection.count()
    print(f"‚úÖ Banco vetorial dispon√≠vel: {total_items} chunks")
except:
    print("‚ùå Banco vetorial n√£o encontrado!")
    exit()

# Fun√ß√£o corrigida para fazer buscas
def buscar_documentos(pergunta, num_resultados=3):
    print(f"\n‚ùì Pergunta: '{pergunta}'")
    print("-" * 60)
    
    try:
        # Fazer a busca
        resultados = collection.query(
            query_texts=[pergunta],
            n_results=num_resultados
        )
        
        # Debug: mostrar estrutura do resultado
        print(f"üîç Debug - Chaves do resultado: {list(resultados.keys())}")
        
        # Extrair informa√ß√µes de forma segura
        documentos_encontrados = resultados.get('documents', [[]])[0]
        ids = resultados.get('ids', [[]])[0]
        
        # ChromaDB pode retornar 'distances' ou n√£o, vamos verificar
        if 'distances' in resultados:
            distancias = resultados['distances'][0]
        else:
            # Se n√£o tem distances, simular com valores neutros
            distancias = [0.5] * len(documentos_encontrados)
            print("‚ö†Ô∏è Distances n√£o dispon√≠veis, usando valores simulados")
        
        # Verificar se temos resultados
        if not documentos_encontrados:
            print("‚ùå Nenhum resultado encontrado!")
            return [], []
        
        # Mostrar resultados
        for i, (doc, distancia, id_chunk) in enumerate(zip(documentos_encontrados, distancias, ids)):
            similaridade = 1 - distancia  # Converter dist√¢ncia em similaridade
            print(f"üìÑ Resultado {i+1} (ID: {id_chunk}):")
            print(f"   üéØ Similaridade: {similaridade:.3f} (quanto maior, mais similar)")
            print(f"   üìù Texto encontrado:")
            print(f"      '{doc[:300]}...'")
            print()
        
        return documentos_encontrados, distancias
        
    except Exception as e:
        print(f"‚ùå Erro na busca: {e}")
        return [], []

# Teste 1: Buscar informa√ß√µes sobre experi√™ncia profissional
print("üß™ TESTE 1: Experi√™ncia Profissional")
docs1, dist1 = buscar_documentos("experi√™ncia com intelig√™ncia artificial e machine learning")

# Teste 2: Buscar sobre Kaggle (mencionado no seu background)
print("\nüß™ TESTE 2: Competi√ß√µes e Kaggle") 
docs2, dist2 = buscar_documentos("participa√ß√£o em competi√ß√£o Kaggle")

# Teste 3: Buscar sobre c√≥digo/programa√ß√£o
print("\nüß™ TESTE 3: C√≥digo e Programa√ß√£o")
docs3, dist3 = buscar_documentos("c√≥digo Python machine learning")

# Teste 4: Buscar sobre ferramentas de IA
print("\nüß™ TESTE 4: Ferramentas de IA")
docs4, dist4 = buscar_documentos("OpenAI Gemini Claude LLM")

# An√°lise de resultados (s√≥ se temos dados v√°lidos)
print("\n" + "="*60)
print("üìä AN√ÅLISE DOS RESULTADOS:")

todos_testes = [
    ("Experi√™ncia IA", dist1),
    ("Kaggle", dist2), 
    ("C√≥digo Python", dist3),
    ("Ferramentas IA", dist4)
]

similaridades_validas = []
for nome, distancias in todos_testes:
    if distancias:  # Se tem resultados
        melhor_similaridade = 1 - min(distancias)
        similaridades_validas.append(melhor_similaridade)
        print(f"   {nome}: {melhor_similaridade:.3f}")
    else:
        print(f"   {nome}: Sem resultados")

if similaridades_validas:
    melhor_busca = max(similaridades_validas)
    print(f"\nüèÜ Melhor match encontrado: {melhor_busca:.3f}")
    
    if melhor_busca > 0.8:
        print("   üíö Excelente! O sistema entendeu muito bem a pergunta")
    elif melhor_busca > 0.6:
        print("   üíõ Bom! O sistema encontrou conte√∫do relevante")
    else:
        print("   üîç O sistema encontrou algo, mas pode n√£o ser muito espec√≠fico")
else:
    print("‚ö†Ô∏è Nenhum resultado v√°lido encontrado")

print("\n‚ú® Buscas sem√¢nticas conclu√≠das!")

üîç Primeira Busca Sem√¢ntica Real
‚úÖ Banco vetorial dispon√≠vel: 325 chunks
üß™ TESTE 1: Experi√™ncia Profissional

‚ùì Pergunta: 'experi√™ncia com intelig√™ncia artificial e machine learning'
------------------------------------------------------------
üîç Debug - Chaves do resultado: ['ids', 'embeddings', 'documents', 'uris', 'included', 'data', 'metadatas', 'distances']
üìÑ Resultado 1 (ID: chunk_323):
   üéØ Similaridade: -0.184 (quanto maior, mais similar)
   üìù Texto encontrado:
      '‚Ä¢ Explainable AI (XAI) in FER: Enhancing the interpretability of FER models to 
understand how they arrive at their predictions, which is crucial for building trust and 
addressing ethical concerns.
‚Ä¢ Edge AI for FER: Deploying FER models on edge devices for real-time, on-device 
processing, reducin...'

üìÑ Resultado 2 (ID: chunk_90):
   üéØ Similaridade: -0.347 (quanto maior, mais similar)
   üìù Texto encontrado:
      'the same rules as humans. This pipeline is detailed in Appen