In [4]:
# Nesta célula eu instalei todas as bibliotecas que usei no projeto.

!pip install -q psycopg2-binary sqlalchemy pandas tqdm openai langchain langchain-openai
!pip install -q sentence-transformers scikit-learn

Imports e configuração de conexão com o PostgreSQL

In [5]:
# Nesta célula eu importei as bibliotecas principais e configurei a conexão com o PostgreSQL.

import os
import psycopg2
import pandas as pd
from sqlalchemy import create_engine, text
from tqdm.auto import tqdm

# Credenciais do PostgreSQL (as mesmas que você passou)
PGHOST = "localhost"
PGPORT = 5432
PGDATABASE = "postgres"
PGUSER = "postgres"
PGPASSWORD = "admin"

# Eu montei a string de conexão para usar com o SQLAlchemy
pg_conn_str = f"postgresql+psycopg2://{PGUSER}:{PGPASSWORD}@{PGHOST}:{PGPORT}/{PGDATABASE}"

# Aqui eu criei o engine do SQLAlchemy, que vou reutilizar nas consultas
engine = create_engine(pg_conn_str)
engine

Engine(postgresql+psycopg2://postgres:***@localhost:5432/postgres)

Teste rápido da conexão com o PostgreSQL

In [6]:
# Nesta célula eu testei se a conexão com o PostgreSQL está funcionando via psycopg2.

try:
    conn = psycopg2.connect(
        host=PGHOST,
        port=PGPORT,
        dbname=PGDATABASE,
        user=PGUSER,
        password=PGPASSWORD,
    )
    print("Conexão com PostgreSQL feita com sucesso!")
    conn.close()
except Exception as e:
    print(f"Erro ao conectar no PostgreSQL: {e}")

Conexão com PostgreSQL feita com sucesso!


Carregar o .env no notebook

In [7]:
# Nesta célula eu carreguei as variáveis do arquivo .env,
# incluindo MARITACA_API_KEY, PGHOST, etc.

!pip install -q python-dotenv

import os
from dotenv import load_dotenv

# Se o .env está na MESMA pasta do notebook (Entrega-slides-2),
# isso já resolve:
load_dotenv(dotenv_path=".env")

# Só para conferir se a variável veio (mostro só o começo da chave)
key = os.getenv("MARITACA_API_KEY")
print("MARITACA_API_KEY carregada?", key is not None)
if key:
    print("Início da chave:", key[:6] + "********")

MARITACA_API_KEY carregada? True
Início da chave: 100464********


Configurando a API da Maritaca (Sabiá-3) e testando

In [8]:
# Nesta célula eu configurei o cliente OpenAI apontando para a API da Maritaca (Sabiá-3).

import openai

# Eu peguei a chave da variável de ambiente.
# No Windows você pode definir antes de abrir o Jupyter:
#   setx MARITACA_API_KEY "SUA_CHAVE_AQUI"
MARITACA_API_KEY = os.getenv("MARITACA_API_KEY")

if not MARITACA_API_KEY:
    raise ValueError(
        "A variável de ambiente MARITACA_API_KEY não está definida. "
        "Defina a chave da Maritaca antes de rodar o notebook."
    )

# Aqui eu criei o client compatível com OpenAI, mas apontando para a URL da Maritaca.
client = openai.OpenAI(
    api_key=MARITACA_API_KEY,
    base_url="https://chat.maritaca.ai/api",
)

# Teste leve para validar a chave (consome poucos tokens)
try:
    resp = client.chat.completions.create(
        model="sabia-3.1",
        messages=[{"role": "user", "content": "Só teste: responda 'ok'."}],
        max_tokens=5,
    )
    print("Teste com Sabiá-3 OK ->", resp.choices[0].message.content)
except Exception as e:
    print("Erro ao chamar a API da Maritaca:", e)

Teste com Sabiá-3 OK -> ok


Carregando a tabela imdb_top_1000 do PostgreSQL

In [9]:
# Nesta célula eu carreguei os dados da tabela imdb_top_1000 para um DataFrame do pandas.

sql = "SELECT * FROM imdb_top_1000;"
movies_df = pd.read_sql(sql, engine)

print(movies_df.shape)
movies_df.head()

(1000, 18)


Unnamed: 0,id,poster_link,series_title,released_year,certificate,runtime_min,genre,imdb_rating,overview,meta_score,director,star1,star2,star3,star4,no_of_votes,gross_usd,fts
0,3,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008.0,UA,152,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444.0,'abil':33 'accept':22 'batman':20 'chao':14 'd...
1,4,https://m.media-amazon.com/images/M/MV5BMWMwMG...,The Godfather: Part II,1974.0,A,202,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000.0,'1920s':14 'career':9 'citi':17 'corleon':12 '...
2,5,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957.0,U,96,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000.0,'12':1 'angri':2 'attempt':7 'colleagu':17 'ev...
3,6,https://m.media-amazon.com/images/M/MV5BNzA5ZD...,The Lord of the Rings: The Return of the King,2003.0,U,201,"Action, Adventure, Drama",8.9,Gandalf and Aragorn lead the World of Men agai...,94.0,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905.0,'approach':33 'aragorn':13 'armi':22 'doom':35...
4,7,https://m.media-amazon.com/images/M/MV5BNGNhMD...,Pulp Fiction,1994.0,A,154,"Crime, Drama",8.9,"The lives of two mob hitmen, a boxer, a gangst...",94.0,Quentin Tarantino,John Travolta,Uma Thurman,Samuel L. Jackson,Bruce Willis,1826188,107928762.0,'bandit':21 'boxer':10 'diner':20 'fiction':2 ...


Criando coluna de Full-Text Search no PostgreSQL

In [10]:
# Nesta célula eu preparei a coluna de full-text search (fts) na tabela imdb_top_1000.

fts_sql_commands = [
    # 1. Eu garanti que a coluna fts exista
    """
    ALTER TABLE imdb_top_1000
    ADD COLUMN IF NOT EXISTS fts tsvector;
    """,
    # 2. Eu preenchi a coluna usando título + overview, em inglês
    """
    UPDATE imdb_top_1000
    SET fts = to_tsvector(
        'english',
        coalesce(series_title, '') || ' ' || coalesce(overview, '')
    );
    """,
    # 3. Eu criei (se não existir) um índice GIN para acelerar as buscas
    """
    CREATE INDEX IF NOT EXISTS imdb_top_1000_fts_idx
    ON imdb_top_1000
    USING GIN(fts);
    """
]

with engine.begin() as conn:
    for cmd in fts_sql_commands:
        conn.execute(text(cmd))

print("Coluna 'fts' e índice GIN configurados com sucesso.")

Coluna 'fts' e índice GIN configurados com sucesso.


Função de busca lexical (search_full_text)

In [11]:
# Nesta célula eu implementei a função de busca textual usando o full-text search do PostgreSQL.

def search_full_text(query: str, phrase: bool = False, limit: int = 10) -> pd.DataFrame:
    """
    Eu busco filmes na tabela imdb_top_1000 usando full-text search.
    Se phrase=True, eu transformo espaços em AND (&) para o to_tsquery.
    """

    # Aqui eu preparei a query para o to_tsquery
    if phrase:
        # Ex.: "science fiction" -> "science & fiction"
        query_ts = query.replace(" ", " & ")
    else:
        query_ts = query

    sql = text(
        """
        SELECT
            id        AS movie_id,
            series_title,
            overview,
            released_year,
            imdb_rating,
            ts_rank(fts, to_tsquery(:q)) AS relevance
        FROM imdb_top_1000
        WHERE fts @@ to_tsquery(:q)
        ORDER BY relevance DESC
        LIMIT :limit;
        """
    )

    with engine.connect() as conn:
        result = conn.execute(sql, {"q": query_ts, "limit": limit})
        df = pd.DataFrame(result.fetchall(), columns=result.keys())

    return df

Testando a busca lexical

In [12]:
# Nesta célula eu testei a função de busca lexical com alguns exemplos.

from IPython.display import display

print("--- Buscando por 'love' ---")
display(search_full_text("love", phrase=False))

print("\n--- Buscando por 'godfather | corleone' (eu passo a expressão pronta) ---")
display(search_full_text("godfather | corleone", phrase=False))

print("\n--- Buscando por 'science fiction' usando AND implícito ---")
display(search_full_text("science fiction", phrase=True))

--- Buscando por 'love' ---


Unnamed: 0,movie_id,series_title,overview,released_year,imdb_rating,relevance



--- Buscando por 'godfather | corleone' (eu passo a expressão pronta) ---


Unnamed: 0,movie_id,series_title,overview,released_year,imdb_rating,relevance
0,4,The Godfather: Part II,The early life and career of Vito Corleone in ...,1974,9.0,0.060793
1,975,The Godfather: Part III,"Follows Michael Corleone, now in his 60s, as h...",1990,7.6,0.060793
2,2,The Godfather,An organized crime dynasty's aging patriarch t...,1972,9.2,0.030396



--- Buscando por 'science fiction' usando AND implícito ---


Unnamed: 0,movie_id,series_title,overview,released_year,imdb_rating,relevance
0,754,Argo,Acting under the cover of a Hollywood producer...,2012,7.7,0.099103


Gerando embeddings em memória com SentenceTransformers

In [13]:
# Nesta célula eu carreguei um modelo local de embeddings e gerei vetores para todos os filmes.

from sentence_transformers import SentenceTransformer
import numpy as np

# Eu escolhi um modelo leve e bom para inglês/multilíngue
embedding_model_name = "sentence-transformers/all-MiniLM-L6-v2"

print(f"Carregando o modelo de embeddings '{embedding_model_name}'...")
embedder = SentenceTransformer(embedding_model_name)

def embed_corpus(df: pd.DataFrame) -> np.ndarray:
    """
    Aqui eu construí o texto base (título + overview) e gerei um embedding por filme.
    """
    texts = (df["series_title"].fillna("") + " " + df["overview"].fillna("")).tolist()
    embeddings = embedder.encode(
        texts,
        batch_size=64,
        show_progress_bar=True,
        convert_to_numpy=True,
    )
    return embeddings

# Eu gerei os embeddings de todos os filmes uma única vez
movie_embeddings = embed_corpus(movies_df)
embedding_dim = movie_embeddings.shape[1]

print("Formato dos embeddings:", movie_embeddings.shape)

  _torch_pytree._register_pytree_node(


Carregando o modelo de embeddings 'sentence-transformers/all-MiniLM-L6-v2'...


  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(


Batches:   0%|          | 0/16 [00:00<?, ?it/s]

Formato dos embeddings: (1000, 384)


Função de busca vetorial em memória (search_vector)

In [14]:
# Nesta célula eu implementei a busca vetorial em memória usando cosseno.

from sklearn.metrics.pairwise import cosine_similarity

def embed_query(text: str) -> np.ndarray:
    """Aqui eu gerei o embedding de uma consulta do usuário."""
    return embedder.encode([text], convert_to_numpy=True)[0]

def search_vector(query: str, k: int = 10) -> pd.DataFrame:
    """
    Eu busco filmes por similaridade semântica usando embeddings em memória.
    Retorno um DataFrame com os k mais similares.
    """
    # 1. Eu gerei o embedding da consulta
    q_emb = embed_query(query)  # shape (dim,)

    # 2. Eu calculei similaridade cosseno com todos os filmes
    sims = cosine_similarity([q_emb], movie_embeddings)[0]  # shape (n_filmes,)

    # 3. Eu peguei os índices dos k maiores
    top_idx = np.argsort(sims)[::-1][:k]

    # 4. Eu montei um DataFrame com os resultados
    result = movies_df.loc[top_idx, ["id", "series_title", "overview", "released_year", "imdb_rating"]].copy()
    result["similarity"] = sims[top_idx]
    result = result.rename(columns={"id": "movie_id"})

    return result.reset_index(drop=True)

Testando a busca vetorial

In [15]:
# Nesta célula eu testei a busca vetorial com alguns prompts em inglês.

print("--- Vetorial: 'a dramatic movie about car racing rivals' ---")
display(search_vector("a dramatic movie about car racing rivals", k=5))

print("\n--- Vetorial: 'a funny movie about friends on an adventure' ---")
display(search_vector("a funny movie about friends on an adventure", k=5))

--- Vetorial: 'a dramatic movie about car racing rivals' ---


Unnamed: 0,movie_id,series_title,overview,released_year,imdb_rating,similarity
0,218,Ford v Ferrari,American car designer Carroll Shelby and drive...,2019.0,8.1,0.49007
1,245,Amores perros,A horrific car accident connects three stories...,2000.0,8.1,0.422262
2,902,End of Watch,"Shot documentary-style, this film follows the ...",2012.0,7.6,0.410299
3,217,Rush,The merciless 1970s rivalry between Formula On...,2013.0,8.1,0.407789
4,776,Crash,Los Angeles citizens with vastly separate live...,2004.0,7.7,0.396436



--- Vetorial: 'a funny movie about friends on an adventure' ---


Unnamed: 0,movie_id,series_title,overview,released_year,imdb_rating,similarity
0,970,Dazed and Confused,The adventures of high school and junior high ...,1993.0,7.6,0.442128
1,506,Mystic River,The lives of three men who were childhood frie...,2003.0,7.9,0.412766
2,774,Brokeback Mountain,The story of a forbidden and secretive relatio...,2005.0,7.7,0.410009
3,913,Zombieland,A shy student trying to reach his family in Oh...,2009.0,7.6,0.408825
4,751,The Hangover,Three buddies wake up from a bachelor party in...,2009.0,7.7,0.408375


Função de Reciprocal Rank Fusion (RRF)

In [16]:
# Nesta célula eu implementei o algoritmo de Reciprocal Rank Fusion (RRF).

def reciprocal_rank_fusion(search_results, k: int = 60) -> pd.DataFrame:
    """
    Eu apliquei o RRF em uma lista de listas de IDs (ex: resultados lexical e vetorial).

    search_results: lista de listas de movie_id
    k: constante da fórmula RRF (padrão 60)
    """
    rrf_scores = {}

    for results in search_results:
        for rank, doc_id in enumerate(results):
            if doc_id not in rrf_scores:
                rrf_scores[doc_id] = 0.0
            rrf_scores[doc_id] += 1.0 / (k + rank + 1)

    sorted_scores = sorted(rrf_scores.items(), key=lambda x: x[1], reverse=True)
    fused_df = pd.DataFrame(sorted_scores, columns=["movie_id", "rrf_score"])

    return fused_df

Busca híbrida (lexical + vetorial) com RRF

In [17]:
# Nesta célula eu criei a função de busca híbrida combinando full-text e embeddings.

def search_hybrid(query: str, k: int = 10) -> pd.DataFrame:
    """
    Eu combino resultados da busca lexical e da busca vetorial usando RRF.
    """

    # 1. Eu busquei lexicalmente no PostgreSQL
    lexical_df = search_full_text(query, phrase=True, limit=k)
    lexical_ids = lexical_df["movie_id"].tolist()

    # 2. Eu busquei semanticamente em memória
    vector_df = search_vector(query, k=k)
    vector_ids = vector_df["movie_id"].tolist()

    # 3. Eu apliquei o RRF
    fused_df = reciprocal_rank_fusion([lexical_ids, vector_ids])

    # 4. Eu enriqueci com título / overview a partir do DataFrame original
    final_df = fused_df.merge(
        movies_df[["id", "series_title", "overview", "released_year", "imdb_rating"]],
        left_on="movie_id",
        right_on="id",
        how="left",
    )

    final_df = final_df.drop(columns=["id"])
    final_df = final_df.rename(columns={"series_title": "title", "released_year": "year"})

    return final_df.head(k).reset_index(drop=True)

Testando a busca híbrida

In [18]:
# Nesta célula eu testei a busca híbrida com um exemplo mais elaborado.

test_query = "classic sci-fi movie about space travel and aliens"
print("Consulta:", test_query)

print("\n--- 1. Resultados da busca lexical ---")
display(search_full_text(test_query, phrase=True))

print("\n--- 2. Resultados da busca vetorial ---")
display(search_vector(test_query, k=10))

print("\n--- 3. Resultados da busca híbrida (RRF) ---")
display(search_hybrid(test_query, k=10))

Consulta: classic sci-fi movie about space travel and aliens

--- 1. Resultados da busca lexical ---


Unnamed: 0,movie_id,series_title,overview,released_year,imdb_rating,relevance



--- 2. Resultados da busca vetorial ---


Unnamed: 0,movie_id,series_title,overview,released_year,imdb_rating,similarity
0,22,Interstellar,A team of explorers travel through a wormhole ...,2014.0,8.6,0.56819
1,76,Alien,After a space merchant vessel receives an unkn...,1979.0,8.4,0.441285
2,107,Aliens,Fifty-seven years after surviving an apocalypt...,1986.0,8.3,0.433312
3,477,Arrival,A linguist works with the military to communic...,2016.0,7.9,0.427602
4,689,E.T. the Extra-Terrestrial,A troubled child summons the courage to help a...,1982.0,7.8,0.415064
5,687,The Right Stuff,The story of the original Mercury 7 astronauts...,1983.0,7.8,0.374032
6,483,Edge of Tomorrow,A soldier fighting aliens gets to relive the s...,2014.0,7.9,0.371362
7,935,Mysterious Skin,A teenage hustler and a young man obsessed wit...,2004.0,7.6,0.36024
8,622,Drive,A mysterious Hollywood stuntman and mechanic m...,2011.0,7.8,0.349713
9,836,The Purple Rose of Cairo,"In New Jersey in 1935, a movie character walks...",1985.0,7.7,0.341653



--- 3. Resultados da busca híbrida (RRF) ---


Unnamed: 0,movie_id,rrf_score,title,overview,year,imdb_rating
0,22,0.016393,Interstellar,A team of explorers travel through a wormhole ...,2014.0,8.6
1,76,0.016129,Alien,After a space merchant vessel receives an unkn...,1979.0,8.4
2,107,0.015873,Aliens,Fifty-seven years after surviving an apocalypt...,1986.0,8.3
3,477,0.015625,Arrival,A linguist works with the military to communic...,2016.0,7.9
4,689,0.015385,E.T. the Extra-Terrestrial,A troubled child summons the courage to help a...,1982.0,7.8
5,687,0.015152,The Right Stuff,The story of the original Mercury 7 astronauts...,1983.0,7.8
6,483,0.014925,Edge of Tomorrow,A soldier fighting aliens gets to relive the s...,2014.0,7.9
7,935,0.014706,Mysterious Skin,A teenage hustler and a young man obsessed wit...,2004.0,7.6
8,622,0.014493,Drive,A mysterious Hollywood stuntman and mechanic m...,2011.0,7.8
9,836,0.014286,The Purple Rose of Cairo,"In New Jersey in 1935, a movie character walks...",1985.0,7.7


Configurando o LLM Sabiá-3 via LangChain

In [19]:
# Nesta célula eu configurei o LLM da Maritaca (Sabiá-3) usando LangChain.

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Eu criei a instância do ChatOpenAI apontando para a API da Maritaca
llm = ChatOpenAI(
    model="sabia-3.1",
    temperature=0,
    api_key=MARITACA_API_KEY,
    base_url="https://chat.maritaca.ai/api",
)

# Eu defini o template de prompt para o RAG
prompt_template = """
Você é um assistente especialista em recomendação de filmes.
Use APENAS o CONTEXTO abaixo para responder à PERGUNTA do usuário.
Se você não tiver informação suficiente no contexto, diga que não encontrou filmes adequados.

CONTEXTO:
{context}

PERGUNTA:
{question}

Responda em português, de forma clara e objetiva.
"""

prompt = ChatPromptTemplate.from_template(prompt_template)

# Aqui eu montei a cadeia (chain) completa: prompt -> LLM -> saída em texto
chain = prompt | llm | StrOutputParser()

Função de RAG usando a busca híbrida

In [20]:
# Nesta célula eu implementei a função que conecta a busca híbrida com o Sabiá-3.

def answer_question_with_rag(text_query: str, k: int = 5) -> str:
    """
    Eu executo o pipeline completo:
    1) recupero os k filmes mais relevantes (busca híbrida),
    2) monto o contexto textual,
    3) chamo o modelo Sabiá-3 via LangChain.
    """
    # 1. Eu recuperei os filmes mais relevantes
    fused_df = search_hybrid(text_query, k=k)
    display(fused_df)

    # 2. Eu montei o contexto para o prompt
    context_parts = []
    for _, row in fused_df.iterrows():
        context_parts.append(
            f"Título: {row['title']}\n"
            f"Ano: {row['year']}\n"
            f"Nota IMDB: {row['imdb_rating']}\n"
            f"Sinopse: {row['overview']}\n"
        )
    context_str = "\n---\n".join(context_parts)

    # 3. Eu invoquei a chain do LangChain para gerar a resposta
    response = chain.invoke({"context": context_str, "question": text_query})

    return response

Rodando o pipeline RAG completo

In [21]:
# Nesta célula eu executei o pipeline completo de RAG usando a tabela imdb_top_1000
# e o modelo Sabiá-3 da Maritaca.

user_question = (
    "Me recomende alguns filmes de ficção científica sobre viagens espaciais. "
    "Eu gosto de histórias com astronautas e exploração do espaço."
)

print("Pergunta do usuário:\n", user_question)
print("\n--- Gerando resposta com o pipeline RAG (PostgreSQL + embeddings + Sabiá-3) ---\n")

final_answer = answer_question_with_rag(user_question, k=5)
print(final_answer)

Pergunta do usuário:
 Me recomende alguns filmes de ficção científica sobre viagens espaciais. Eu gosto de histórias com astronautas e exploração do espaço.

--- Gerando resposta com o pipeline RAG (PostgreSQL + embeddings + Sabiá-3) ---



Unnamed: 0,movie_id,rrf_score,title,overview,year,imdb_rating
0,436,0.016393,La dolce vita,A series of stories following a week in the li...,1960.0,8.0
1,687,0.016129,The Right Stuff,The story of the original Mercury 7 astronauts...,1983.0,7.8
2,46,0.015873,Nuovo Cinema Paradiso,A filmmaker recalls his childhood when falling...,1988.0,8.5
3,346,0.015625,Tropa de Elite 2: O Inimigo Agora é Outro,"After a prison riot, former-Captain Nascimento...",2010.0,8.0
4,876,0.015385,Fantasia,A collection of animated interpretations of gr...,1940.0,7.7


Encontrei um filme adequado para você no contexto fornecido:

Título: The Right Stuff
Ano: 1983
Nota IMDB: 7.8
Sinopse: A história dos primeiros sete astronautas do programa Mercury e sua abordagem audaciosa e improvisada para o programa espacial.

Este filme conta a história dos primeiros astronautas americanos e suas aventuras no início da exploração espacial, o que deve agradar seu interesse por ficção científica com foco em viagens espaciais e astronautas.


Conexão com o Neo4j Aura no notebook

In [22]:
# Nesta célula eu carreguei o .env e mandei sobrescrever qualquer variável existente.

from dotenv import load_dotenv
import os

load_dotenv(dotenv_path=".env", override=True)

print("PGHOST     =", os.getenv("PGHOST"))
print("MARITACA   =", (os.getenv("MARITACA_API_KEY") or "")[:6] + "********")
print("NEO4J_URI  =", os.getenv("NEO4J_URI"))
print("NEO4J_USER =", os.getenv("NEO4J_USER"))

PGHOST     = localhost
MARITACA   = 100464********
NEO4J_URI  = neo4j+s://5736c0f1.databases.neo4j.io
NEO4J_USER = neo4j


In [23]:
# Nesta célula eu configurei o driver do Neo4j usando apenas as variáveis do .env.

from neo4j import GraphDatabase
import os

NEO4J_URI = os.getenv("NEO4J_URI")
NEO4J_USER = os.getenv("NEO4J_USER")
NEO4J_PASSWORD = os.getenv("NEO4J_PASSWORD")

if not NEO4J_URI:
    raise ValueError("NEO4J_URI não carregado do .env")

print("Conectando em:", NEO4J_URI)

driver_neo4j = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USER, NEO4J_PASSWORD))

try:
    driver_neo4j.verify_connectivity()
    print("Conexão com Neo4j Aura feita com sucesso! ✅")
except Exception as e:
    print("Erro ao conectar no Neo4j:", e)

Conectando em: neo4j+s://5736c0f1.databases.neo4j.io
Conexão com Neo4j Aura feita com sucesso! ✅


Enviando filmes + diretor/atores para o Neo4j

In [24]:
# Nesta célula eu construí um mini-grafo com filmes, diretores e atores a partir do DataFrame movies_df.

from tqdm.auto import tqdm

def carregar_mini_grafo(movies_df, n_filmes=300):
    """
    Eu envio um subconjunto de filmes para o Neo4j,
    criando nós (:Movie) e (:Person), e relações :DIRECTED e :ACTED_IN.
    """
    subset = movies_df.head(n_filmes).copy()

    with driver_neo4j.session() as session:
        # Eu criei constraints para evitar duplicação de nós
        session.run("""
            CREATE CONSTRAINT IF NOT EXISTS
            FOR (m:Movie) REQUIRE m.pg_id IS UNIQUE
        """)
        session.run("""
            CREATE CONSTRAINT IF NOT EXISTS
            FOR (p:Person) REQUIRE p.name IS UNIQUE
        """)

        # Eu limpei apenas este mini-grafo (opcional – cuidado em base de produção)
        session.run("MATCH (m:Movie) DETACH DELETE m")

        # Eu preparei os dados em lista de dicionários para usar UNWIND
        registros = []
        for row in subset.itertuples(index=False):
            registros.append({
                "pg_id": int(row.id),
                "title": row.series_title or "",
                "overview": row.overview or "",
                "year": int(row.released_year) if pd.notnull(row.released_year) else None,
                "rating": float(row.imdb_rating) if pd.notnull(row.imdb_rating) else None,
                "director": row.director or "",
                "star1": row.star1 or "",
                "star2": row.star2 or "",
                "star3": row.star3 or "",
                "star4": row.star4 or "",
            })

        # Aqui eu usei UNWIND para criar nós/relacionamentos em lote
        session.run("""
            UNWIND $filmes AS f
            MERGE (m:Movie {pg_id: f.pg_id})
              SET m.title = f.title,
                  m.overview = f.overview,
                  m.year = f.year,
                  m.rating = f.rating

            // Diretor
            FOREACH (_ IN CASE WHEN f.director <> '' THEN [1] ELSE [] END |
                MERGE (d:Person {name: f.director})
                MERGE (d)-[:DIRECTED]->(m)
            )

            // Atores
            FOREACH (_ IN CASE WHEN f.star1 <> '' THEN [1] ELSE [] END |
                MERGE (a1:Person {name: f.star1})
                MERGE (a1)-[:ACTED_IN]->(m)
            )
            FOREACH (_ IN CASE WHEN f.star2 <> '' THEN [1] ELSE [] END |
                MERGE (a2:Person {name: f.star2})
                MERGE (a2)-[:ACTED_IN]->(m)
            )
            FOREACH (_ IN CASE WHEN f.star3 <> '' THEN [1] ELSE [] END |
                MERGE (a3:Person {name: f.star3})
                MERGE (a3)-[:ACTED_IN]->(m)
            )
            FOREACH (_ IN CASE WHEN f.star4 <> '' THEN [1] ELSE [] END |
                MERGE (a4:Person {name: f.star4})
                MERGE (a4)-[:ACTED_IN]->(m)
            )
        """, filmes=registros)

    print(f"Mini-grafo carregado com {len(registros)} filmes, diretores e atores.")

# Eu chamei a função para montar o grafo
carregar_mini_grafo(movies_df, n_filmes=300)

Mini-grafo carregado com 300 filmes, diretores e atores.


Índice full-text e função de busca em grafo

In [25]:
# Nesta célula eu criei um índice full-text no Neo4j e implementei 2 funções de busca:
# 1) busca lexical no Neo4j
# 2) recomendação baseada em atores/diretor (grafo)

def criar_indice_fulltext_neo4j():
    with driver_neo4j.session() as session:
        session.run("""
            CREATE FULLTEXT INDEX movieTextIndex IF NOT EXISTS
            FOR (m:Movie)
            ON EACH [m.title, m.overview]
        """)
    print("Índice full-text movieTextIndex criado (ou já existia).")

criar_indice_fulltext_neo4j()

import pandas as pd

def search_lexical_neo4j(query_text: str, limit: int = 10) -> pd.DataFrame:
    """
    Aqui eu busco filmes no Neo4j usando o índice full-text movieTextIndex.
    """
    cypher = """
    CALL db.index.fulltext.queryNodes('movieTextIndex', $q, {limit: $limit})
    YIELD node, score
    RETURN node.pg_id AS movie_id, node.title AS title, score
    ORDER BY score DESC
    """
    with driver_neo4j.session() as session:
        result = session.run(cypher, q=query_text, limit=limit)
        rows = [r.data() for r in result]
    return pd.DataFrame(rows)

def search_graph_actors(seed_title: str, limit: int = 10) -> pd.DataFrame:
    """
    Aqui eu recomendo filmes que compartilham atores ou diretor
    com um filme semente (pelo título).
    """
    cypher = """
    MATCH (seed:Movie {title: $title})
    OPTIONAL MATCH (seed)<-[:DIRECTED|ACTED_IN]-(p:Person)-[:DIRECTED|ACTED_IN]->(rec:Movie)
    WHERE seed <> rec
    RETURN rec.pg_id AS movie_id, rec.title AS title, count(p) AS score
    ORDER BY score DESC
    LIMIT $limit
    """
    with driver_neo4j.session() as session:
        result = session.run(cypher, title=seed_title, limit=limit)
        rows = [r.data() for r in result]
    return pd.DataFrame(rows)

Índice full-text movieTextIndex criado (ou já existia).


Busca híbrida 3 fontes (Postgres + Vetor + Grafo) com RRF

In [26]:
# Nesta célula eu combinei:
# - busca lexical no Postgres (search_full_text)
# - busca vetorial em memória (search_vector)
# - busca em grafo (search_graph_actors)
# usando RRF.

def search_hybrid_com_grafo(text_query: str,
                            graph_seed_title: str,
                            k: int = 10) -> pd.DataFrame:
    """
    Eu executo:
      1) busca lexical em Postgres,
      2) busca vetorial em memória,
      3) recomendação por grafo no Neo4j,
    e depois junto tudo com RRF.
    """
    # 1. Lexical Postgres
    lexical_df = search_full_text(text_query, phrase=True, limit=k)
    lexical_ids = lexical_df["movie_id"].tolist()

    # 2. Vetorial em memória
    vector_df = search_vector(text_query, k=k)
    vector_ids = vector_df["movie_id"].tolist()

    # 3. Grafo (recomendação baseada no filme semente)
    graph_df = search_graph_actors(graph_seed_title, limit=k)
    graph_ids = graph_df["movie_id"].tolist()

    # 4. Fusão com RRF (já implementado antes)
    fused_df = reciprocal_rank_fusion([lexical_ids, vector_ids, graph_ids])

    # 5. Enriquecimento com título/overview a partir do movies_df
    fused_df["movie_id"] = fused_df["movie_id"].astype(int)
    final = fused_df.merge(
        movies_df[["id", "series_title", "overview", "released_year", "imdb_rating"]],
        left_on="movie_id",
        right_on="id",
        how="left",
    )

    final = final.drop(columns=["id"])
    final = final.rename(columns={"series_title": "title", "released_year": "year"})

    return final.head(k).reset_index(drop=True)

Exemplo de teste da busca híbrida com grafo

In [27]:
# Nesta célula eu simulei um teste de busca híbrida incluindo o grafo.
# (Você só roda se o Neo4j estiver configurado.)

text_query = "science fiction movie about space travel"
graph_seed_title = "Interstellar"  # ou algum filme que exista no seu mini-grafo

print(f"Consulta textual: {text_query}")
print(f"Filme semente para o grafo: {graph_seed_title}")

print("\n--- Resultados da busca lexical Neo4j ---")
display(search_lexical_neo4j(text_query))

print("\n--- Resultados da recomendação por grafo ---")
display(search_graph_actors(graph_seed_title))

print("\n--- Resultados híbridos (Postgres + Vetor + Grafo com RRF) ---")
display(search_hybrid_com_grafo(text_query, graph_seed_title, k=10))

Consulta textual: science fiction movie about space travel
Filme semente para o grafo: Interstellar

--- Resultados da busca lexical Neo4j ---


Unnamed: 0,movie_id,title,score
0,22,Interstellar,4.80335
1,107,Aliens,3.655941
2,7,Pulp Fiction,2.727712
3,299,Inherit the Wind,2.34956
4,191,All About Eve,2.340233
5,115,2001: A Space Odyssey,2.049146
6,225,A Wednesday,1.995406
7,92,Miracle in cell NO.7,1.951322
8,134,Talvar,1.94776
9,67,WALL·E,1.813601



--- Resultados da recomendação por grafo ---


Unnamed: 0,movie_id,title,score
0,64,The Dark Knight Rises,2
1,3,The Dark Knight,1
2,9,Inception,1
3,37,The Prestige,1
4,70,Memento,1
5,156,Batman Begins,1
6,148,The Wolf of Wall Street,1



--- Resultados híbridos (Postgres + Vetor + Grafo com RRF) ---


Unnamed: 0,movie_id,rrf_score,title,overview,year,imdb_rating
0,22,0.016393,Interstellar,A team of explorers travel through a wormhole ...,2014.0,8.6
1,64,0.016393,The Dark Knight Rises,Eight years after the Joker's reign of anarchy...,2012.0,8.4
2,67,0.016129,WALL·E,"In the distant future, a small waste-collectin...",2008.0,8.4
3,3,0.016129,The Dark Knight,When the menace known as the Joker wreaks havo...,2008.0,9.0
4,836,0.015873,The Purple Rose of Cairo,"In New Jersey in 1935, a movie character walks...",1985.0,7.7
5,9,0.015873,Inception,A thief who steals corporate secrets through t...,2010.0,8.8
6,687,0.015625,The Right Stuff,The story of the original Mercury 7 astronauts...,1983.0,7.8
7,37,0.015625,The Prestige,"After a tragic accident, two stage magicians e...",2006.0,8.5
8,689,0.015385,E.T. the Extra-Terrestrial,A troubled child summons the courage to help a...,1982.0,7.8
9,70,0.015385,Memento,A man with short-term memory loss attempts to ...,2000.0,8.4
