# üé¨ Processamento e Indexa√ß√£o de Filmes

Este notebook processa os arquivos de filmes, divide em chunks, gera embeddings e salva no PostgreSQL.

**Importante:** Verifica duplicatas antes de inserir!

## 1. Importa√ß√µes e Configura√ß√µes

In [1]:
import os
import re
from pathlib import Path
from typing import List, Tuple
import psycopg2
from psycopg2.extras import execute_values
import numpy as np
from sentence_transformers import SentenceTransformer
from tqdm.notebook import tqdm
import pandas as pd

print("‚úì Bibliotecas importadas com sucesso")

  from tqdm.autonotebook import tqdm, trange


‚úì Bibliotecas importadas com sucesso


## 2. Configura√ß√µes do Sistema

In [2]:
DB_CONFIG = {
    'dbname': 'filmes_rag',
    'user': 'postgres',
    'password': 'senha123',
    'host': 'localhost',
    'port': '5432'
}

DIRETORIO_FILMES = 'filmestxts'
MODELO_EMBEDDING = 'sentence-transformers/paraphrase-multilingual-mpnet-base-v2'
TAMANHO_CHUNK = 500
OVERLAP_CHUNK = 100

print("‚úì Configura√ß√µes carregadas")

‚úì Configura√ß√µes carregadas


## 3. Fun√ß√µes Auxiliares

In [3]:
def limpar_texto(texto: str) -> str:
    texto = texto.encode('latin1').decode('utf-8', errors='ignore')
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

def criar_chunks(texto: str, tamanho: int, overlap: int) -> List[str]:
    chunks = []
    inicio = 0
    while inicio < len(texto):
        fim = inicio + tamanho
        chunk = texto[inicio:fim]
        if len(chunk.strip()) > 50:
            chunks.append(chunk.strip())
        inicio += (tamanho - overlap)
    return chunks

def extrair_titulo(nome_arquivo: str) -> str:
    return Path(nome_arquivo).stem

print("‚úì Fun√ß√µes auxiliares carregadas")

‚úì Fun√ß√µes auxiliares carregadas


## 4. Conectar ao Banco de Dados

In [4]:
try:
    conn = psycopg2.connect(**DB_CONFIG)
    cursor = conn.cursor()
    print("‚úì Conectado ao PostgreSQL")
    
    cursor.execute("SELECT extversion FROM pg_extension WHERE extname = 'vector';")
    versao = cursor.fetchone()
    if versao:
        print(f"‚úì pgVector vers√£o {versao[0]}")
    else:
        print("‚úó pgVector N√ÉO encontrada!")
except Exception as e:
    print(f"‚úó Erro: {e}")
    raise

‚úì Conectado ao PostgreSQL
‚úì pgVector vers√£o 0.5.1


## 5. Fun√ß√µes de Banco de Dados

In [5]:
def verificar_filme_existe(titulo: str) -> bool:
    cursor.execute("SELECT COUNT(*) FROM filmes WHERE titulo = %s;", (titulo,))
    return cursor.fetchone()[0] > 0

def obter_chunks_existentes(titulo: str) -> set:
    cursor.execute("SELECT chunk_index FROM filmes WHERE titulo = %s;", (titulo,))
    return {row[0] for row in cursor.fetchall()}

def remover_filme(titulo: str):
    cursor.execute("DELETE FROM filmes WHERE titulo = %s;", (titulo,))
    conn.commit()

def inserir_chunks(titulo: str, chunks: List[str], embeddings: np.ndarray, indices_existentes: set = None):
    if indices_existentes is None:
        indices_existentes = set()
    
    dados_novos = [
        (titulo, chunk, idx, embedding.tolist())
        for idx, (chunk, embedding) in enumerate(zip(chunks, embeddings))
        if idx not in indices_existentes
    ]
    
    if not dados_novos:
        return 0
    
    query = """INSERT INTO filmes (titulo, chunk_texto, chunk_index, vetor_embedding)
               VALUES %s ON CONFLICT (titulo, chunk_index) DO NOTHING;"""
    execute_values(cursor, query, dados_novos)
    conn.commit()
    return len(dados_novos)

def listar_filmes_indexados() -> pd.DataFrame:
    query = """SELECT titulo, COUNT(*) as num_chunks, MIN(data_insercao) as data_insercao
               FROM filmes GROUP BY titulo ORDER BY titulo;"""
    return pd.read_sql_query(query, conn)

print("‚úì Fun√ß√µes de BD carregadas")

‚úì Fun√ß√µes de BD carregadas


## 6. Carregar Modelo

In [6]:
print("Carregando modelo...")
modelo = SentenceTransformer(MODELO_EMBEDDING)

if modelo.device.type == 'cuda':
    import torch
    print(f"‚úì GPU: {torch.cuda.get_device_name(0)}")
else:
    print("‚úì CPU (mais lento)")

print(f"‚úì Dimens√£o: {modelo.get_sentence_embedding_dimension()}")

Carregando modelo...
‚úì GPU: NVIDIA GeForce RTX 3050 6GB Laptop GPU
‚úì Dimens√£o: 768


## 7. Ver Filmes Indexados

In [7]:
df_indexados = listar_filmes_indexados()
if len(df_indexados) > 0:
    print(f"üìä {len(df_indexados)} filmes indexados\n")
    display(df_indexados)
else:
    print("üìä Nenhum filme indexado")

üìä 73 filmes indexados



  return pd.read_sql_query(query, conn)


Unnamed: 0,titulo,num_chunks,data_insercao
0,007 - Opera√ß√£o Skyfall,15,2025-11-09 00:56:58.781004
1,A √Årvore da Vida,12,2025-11-09 00:59:27.686793
2,A Bela e a Fera,7,2025-11-09 00:59:26.680373
3,A Era do Gelo 3,9,2025-11-09 00:59:26.787437
4,A Grande Aposta,12,2025-11-09 00:59:26.909369
...,...,...,...
68,Tudo pelo Poder,6,2025-11-09 00:59:33.348992
69,Tudo Pode Dar Certo,6,2025-11-09 00:59:33.407283
70,Turma da M√¥nica - La√ßos,13,2025-11-09 00:59:33.459937
71,Uma Noite de 12 Anos,9,2025-11-09 00:59:33.611565


## 8. Listar Arquivos

In [9]:
caminho_filmes = Path(DIRETORIO_FILMES)
arquivos_txt = list(caminho_filmes.glob("*.txt")) if caminho_filmes.exists() else []

print(f"üìÅ {len(arquivos_txt)} arquivos em '{DIRETORIO_FILMES}'\n")

if arquivos_txt:
    filmes_info = []
    for arquivo in arquivos_txt:
        titulo = extrair_titulo(arquivo.name)
        existe = verificar_filme_existe(titulo)
        filmes_info.append({
            'Arquivo': arquivo.name,
            'T√≠tulo': titulo,
            'Tamanho (KB)': f"{arquivo.stat().st_size / 1024:.1f}",
            'Status': '‚úì Indexado' if existe else '‚è≥ Pendente'
        })
    
    df_arquivos = pd.DataFrame(filmes_info)
    display(df_arquivos)
    
    pendentes = len([f for f in filmes_info if '‚è≥' in f['Status']])
    print(f"\n{len(arquivos_txt) - pendentes} indexados, {pendentes} pendentes")

üìÅ 126 arquivos em 'filmestxts'



Unnamed: 0,Arquivo,T√≠tulo,Tamanho (KB),Status
0,007 - Opera√ß√£o Skyfall.txt,007 - Opera√ß√£o Skyfall,5.9,‚è≥ Pendente
1,1917.txt,1917,4.1,‚è≥ Pendente
2,A Bela e a Fera.txt,A Bela e a Fera,2.9,‚è≥ Pendente
3,A Ca√ßa.txt,A Ca√ßa,3.3,‚è≥ Pendente
4,A Era do Gelo 3.txt,A Era do Gelo 3,3.6,‚è≥ Pendente
...,...,...,...,...
121,Uma Noite de 12 Anos.txt,Uma Noite de 12 Anos,3.5,‚è≥ Pendente
122,Vidro.txt,Vidro,5.8,‚è≥ Pendente
123,Wall-E.txt,Wall-E,3.7,‚è≥ Pendente
124,Zona de Interesse.txt,Zona de Interesse,5.7,‚è≥ Pendente



0 indexados, 126 pendentes


## 9. Processar Novos Filmes

In [10]:
print("üöÄ Processando novos filmes...\n")

stats = {'processados': 0, 'pulados': 0, 'chunks': 0, 'erros': []}

for arquivo in tqdm(arquivos_txt, desc="Processando"):
    try:
        titulo = extrair_titulo(arquivo.name)
        
        if verificar_filme_existe(titulo):
            print(f"‚è≠Ô∏è {titulo}")
            stats['pulados'] += 1
            continue
        
        print(f"\nüìÑ {titulo}")
        
        with open(arquivo, 'r', encoding='utf-8') as f:
            conteudo = f.read()
        
        texto_limpo = limpar_texto(conteudo)
        chunks = criar_chunks(texto_limpo, TAMANHO_CHUNK, OVERLAP_CHUNK)
        print(f"   {len(chunks)} chunks")
        
        if not chunks:
            continue
        
        embeddings = modelo.encode(chunks, batch_size=32, show_progress_bar=False, convert_to_numpy=True)
        inseridos = inserir_chunks(titulo, chunks, embeddings)
        print(f"   ‚úì {inseridos} inseridos")
        
        stats['processados'] += 1
        stats['chunks'] += inseridos
        
    except Exception as e:
        print(f"   ‚úó Erro: {e}")
        stats['erros'].append(f"{arquivo.name}: {e}")

print("\n" + "="*60)
print("üìä RESUMO")
print("="*60)
print(f"Processados: {stats['processados']}")
print(f"Pulados: {stats['pulados']}")
print(f"Chunks: {stats['chunks']}")
print(f"Erros: {len(stats['erros'])}")
if stats['erros']:
    for erro in stats['erros']:
        print(f"  - {erro}")

üöÄ Processando novos filmes...



Processando:   0%|          | 0/126 [00:00<?, ?it/s]


üìÑ 007 - Opera√ß√£o Skyfall
   15 chunks
   ‚úì 15 inseridos

üìÑ 1917
   ‚úó Erro: 'latin-1' codec can't encode character '\u2013' in position 254: ordinal not in range(256)

üìÑ A Bela e a Fera
   7 chunks
   ‚úì 7 inseridos

üìÑ A Ca√ßa
   ‚úó Erro: 'latin-1' codec can't encode character '\u2013' in position 1044: ordinal not in range(256)

üìÑ A Era do Gelo 3
   9 chunks
   ‚úì 9 inseridos

üìÑ A Forma da √Ågua
   ‚úó Erro: 'latin-1' codec can't encode character '\u201c' in position 508: ordinal not in range(256)

üìÑ A Grande Aposta
   12 chunks
   ‚úì 12 inseridos

üìÑ A Grande Beleza
   10 chunks
   ‚úì 10 inseridos

üìÑ A Hora Mais Escura
   12 chunks
   ‚úì 12 inseridos

üìÑ A Inven√ß√£o de Hugo Cabret
   14 chunks
   ‚úì 14 inseridos

üìÑ A Juventude
   ‚úó Erro: 'latin-1' codec can't encode character '\u2013' in position 3713: ordinal not in range(256)

üìÑ A Origem
   7 chunks
   ‚úì 7 inseridos

üìÑ A Separa√ß√£o
   10 chunks
   ‚úì 10 inseridos

üìÑ A Subs

## 10. Reprocessar Filme Espec√≠fico

In [None]:
ARQUIVO_REPROCESSAR = "007 - Opera√ß√£o Skyfall.txt"

arquivo_path = caminho_filmes / ARQUIVO_REPROCESSAR

if arquivo_path.exists():
    titulo = extrair_titulo(ARQUIVO_REPROCESSAR)
    
    if verificar_filme_existe(titulo):
        print(f"üóëÔ∏è Removendo '{titulo}'...")
        remover_filme(titulo)
        print("‚úì Removido\n")
    
    print(f"üìÑ Reprocessando: {titulo}\n")
    
    with open(arquivo_path, 'r', encoding='utf-8') as f:
        conteudo = f.read()
    
    texto_limpo = limpar_texto(conteudo)
    chunks = criar_chunks(texto_limpo, TAMANHO_CHUNK, OVERLAP_CHUNK)
    embeddings = modelo.encode(chunks, show_progress_bar=True, convert_to_numpy=True)
    inseridos = inserir_chunks(titulo, chunks, embeddings)
    
    print(f"\n‚úì {inseridos} chunks inseridos")
else:
    print(f"‚úó Arquivo n√£o encontrado")

## 11. Limpar Tudo (CUIDADO!)

In [None]:
# Descomente para usar:
# resposta = input("‚ö†Ô∏è APAGAR TUDO? (digite SIM): ")
# if resposta == "SIM":
#     cursor.execute("TRUNCATE TABLE filmes RESTART IDENTITY;")
#     conn.commit()
#     print("‚úì Banco limpo")
# else:
#     print("‚ùå Cancelado")

print("‚ÑπÔ∏è C√©lula comentada por seguran√ßa")

## 12. Estat√≠sticas Finais

In [11]:
print("\nüìä ESTAT√çSTICAS")
print("="*60)

cursor.execute("SELECT COUNT(*) FROM filmes;")
total_chunks = cursor.fetchone()[0]
print(f"Chunks: {total_chunks}")

cursor.execute("SELECT COUNT(DISTINCT titulo) FROM filmes;")
total_filmes = cursor.fetchone()[0]
print(f"Filmes: {total_filmes}")

if total_filmes > 0:
    print(f"M√©dia: {total_chunks / total_filmes:.1f} chunks/filme")

cursor.execute("SELECT pg_size_pretty(pg_database_size('filmes_rag'));")
print(f"Tamanho: {cursor.fetchone()[0]}")

print("\n")
df_final = listar_filmes_indexados()
if len(df_final) > 0:
    display(df_final)


üìä ESTAT√çSTICAS
Chunks: 695
Filmes: 73
M√©dia: 9.5 chunks/filme
Tamanho: 14 MB




  return pd.read_sql_query(query, conn)


Unnamed: 0,titulo,num_chunks,data_insercao
0,007 - Opera√ß√£o Skyfall,15,2025-11-09 00:56:58.781004
1,A √Årvore da Vida,12,2025-11-09 00:59:27.686793
2,A Bela e a Fera,7,2025-11-09 00:59:26.680373
3,A Era do Gelo 3,9,2025-11-09 00:59:26.787437
4,A Grande Aposta,12,2025-11-09 00:59:26.909369
...,...,...,...
68,Tudo pelo Poder,6,2025-11-09 00:59:33.348992
69,Tudo Pode Dar Certo,6,2025-11-09 00:59:33.407283
70,Turma da M√¥nica - La√ßos,13,2025-11-09 00:59:33.459937
71,Uma Noite de 12 Anos,9,2025-11-09 00:59:33.611565


## 13. Testar Busca

In [8]:
def buscar_teste(query: str, top_k: int = 3):
    print(f"\nüîç '{query}'\n")
    
    emb = modelo.encode([query], convert_to_numpy=True)[0]
    
    sql = """SELECT titulo, chunk_texto, 1 - (vetor_embedding <=> %s::vector) as sim
             FROM filmes ORDER BY vetor_embedding <=> %s::vector LIMIT %s;"""
    
    cursor.execute(sql, (emb.tolist(), emb.tolist(), top_k))
    
    for i, (titulo, chunk, sim) in enumerate(cursor.fetchall(), 1):
        print(f"[{i}] {titulo} ({sim:.1%})")
        print(f"    {chunk[:120]}...\n")

buscar_teste("filme de gelo")
buscar_teste("com√©dia divertida")


üîç 'filme de gelo'

[1] Guerra Fria (53.6%)
    Guerra Fria Uma tela quadrada. Ao contrrio de muitos filmes histricos que preferem a imensido do widescreen para retrata...

[2] A Era do Gelo 3 (51.4%)
    ico "Yabadabadu!" (Flintstones) ao escorregar pelas costas de um dinossauro. Realizado tambm em 3D, o filme pode ser vis...

[3] A Era do Gelo 3 (46.9%)
    espectador questes como maternidade e "solteirice" de um jeito bem humorado e emocionante. E como Scrat parte indissociv...


üîç 'com√©dia divertida'

[1] Quanto Mais Quente Melhor (64.5%)
    rre esse risco. J tem seu lugar garantido na histria da stima arte como uma das melhores comdias de todos os tempos e v-...

[2] Capit√£o Fant√°stico (58.7%)
    e muito conhecedores de noes filosficas e sociolgicas, as crianas no possuem qualquer trato social.Captain Fantastic fun...

[3] O Lobo Atr√°s da Porta (58.5%)
    errogatrio, com um delegado desbocado (Juliano Cazarr), entram no territrio da comdia.Entre a seriedade e a descon

## 14. Fechar Conex√£o

In [17]:
cursor.close()
conn.close()
print("‚úì Conex√£o fechada")
print("\n‚úÖ Pronto!")
print("   Execute: streamlit run interface_busca.py")

‚úì Conex√£o fechada

‚úÖ Pronto!
   Execute: streamlit run interface_busca.py
