In [None]:
!pip install -q langchain openai langchain-community sentence-transformers gradio requests faiss-cpu

In [None]:
import gradio as gr
import os
import requests
from langchain.chat_models import ChatOpenAI
from langchain_community.vectorstores import FAISS
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from google.colab import userdata
from langchain.docstore.document import Document
import shutil

In [None]:
# --- Configura√ß√£o da API Key do OpenRouter e TMDB ---
OPENROUTER_API_KEY = userdata.get('OPENROUTER_API_KEY_AGENT')
os.environ["OPENAI_API_KEY"] = OPENROUTER_API_KEY
os.environ["OPENAI_API_BASE"] = "https://openrouter.ai/api/v1"

TMDB_API_KEY = userdata.get('TMDB_API_KEY')
TMDB_BASE_URL = "https://api.themoviedb.org/3"

# --- Inicializa o LLM da OpenRouter ---
llm = ChatOpenAI(
    model="deepseek/deepseek-chat-v3-0324:free",
    temperature=0.7,
    max_tokens=2000,
)

# --- Prompt Humanizado para Filmes e S√©ries (sem hist√≥rico de chat) ---
prompt_template = PromptTemplate(
    input_variables=["context", "question"], # Voltou a ser s√≥ context e question
    template="""
    Voc√™ √© um assistente virtual especialista em filmes e s√©ries.
    Seja gentil, educado e forne√ßa informa√ß√µes detalhadas e precisas, sempre que poss√≠vel.

    Sua principal fun√ß√£o √© **fornecer respostas objetivas e estritamente baseadas nas informa√ß√µes contidas no contexto fornecido**.
    Se a pergunta n√£o puder ser respondida com as informa√ß√µes do contexto, responda educadamente que voc√™ n√£o possui essa informa√ß√£o espec√≠fica no momento e, se souber, sugira onde o usu√°rio pode encontrar mais detalhes (ex: "Voc√™ pode tentar pesquisar em um site especializado em filmes.").
    **N√£o invente ou adivinhe respostas.**

    Contexto:
    {context}

    Pergunta:
    {question}

    Resposta:
    """
)

In [None]:
# --- Fun√ß√£o para buscar dados de filmes/s√©ries na TMDB e criar Documentos ---
def fetch_media_data_as_documents(media_ids):
    documents = []
    print("Buscando dados de filmes e s√©ries na TMDB...")
    for media_id in media_ids:
        media_type = None
        media_data = None

        # Tentar buscar como filme
        try:
            response = requests.get(f"{TMDB_BASE_URL}/movie/{media_id}", params={"api_key": TMDB_API_KEY, "language": "pt-BR"})
            response.raise_for_status()
            media_data = response.json()
            media_type = "Filme"
        except requests.exceptions.HTTPError as e:
            if e.response.status_code == 404:
                # Se n√£o for encontrado como filme, tentar como s√©rie de TV
                try:
                    response = requests.get(f"{TMDB_BASE_URL}/tv/{media_id}", params={"api_key": TMDB_API_KEY, "language": "pt-BR"})
                    response.raise_for_status()
                    media_data = response.json()
                    media_type = "S√©rie de TV"
                except requests.exceptions.RequestException as tv_e:
                    print(f"Erro ao buscar dados para ID {media_id} (filme ou s√©rie): {tv_e}")
                    continue # Pula para o pr√≥ximo ID
            else:
                print(f"Erro ao buscar dados para ID {media_id} (filme): {e}")
                continue # Pula para o pr√≥ximo ID
        except requests.exceptions.RequestException as e:
            print(f"Erro de conex√£o ao buscar dados para ID {media_id}: {e}")
            continue # Pula para o pr√≥ximo ID

        if media_data:
            try:
                if media_type == "Filme":
                    title = media_data.get("title", "T√≠tulo n√£o dispon√≠vel")
                    overview = media_data.get("overview", "Sinopse n√£o dispon√≠vel")
                    release_date = media_data.get("release_date", "Data de lan√ßamento n√£o dispon√≠vel")
                    genres = ", ".join([g["name"] for g in media_data.get("genres", [])]) if media_data.get("genres") else "G√™nero n√£o dispon√≠vel"
                    vote_average = media_data.get("vote_average", "Avalia√ß√£o n√£o dispon√≠vel")
                    tagline = media_data.get("tagline", "")
                    runtime = media_data.get("runtime", "Dura√ß√£o n√£o dispon√≠vel")

                    # Buscar cr√©ditos (diretor, elenco principal)
                    credits_response = requests.get(f"{TMDB_BASE_URL}/movie/{media_id}/credits", params={"api_key": TMDB_API_KEY, "language": "pt-BR"})
                    credits_response.raise_for_status()
                    credits_data = credits_response.json()

                    director = "Diretor(es) n√£o dispon√≠vel(eis)"
                    for crew_member in credits_data.get("crew", []):
                        if crew_member.get("job") == "Director":
                            director = crew_member.get("name")
                            break

                    cast_members = [actor.get("name") for actor in credits_data.get("cast", [])[:5]] # Top 5 atores
                    cast = ", ".join(cast_members) if cast_members else "Elenco n√£o dispon√≠vel"

                    content = (
                        f"Tipo: {media_type}\n"
                        f"T√≠tulo: {title}\n"
                        f"Sinopse: {overview}\n"
                        f"Slogan: {tagline}\n"
                        f"Data de Lan√ßamento: {release_date}\n"
                        f"G√™neros: {genres}\n"
                        f"Dura√ß√£o: {runtime} minutos\n"
                        f"Avalia√ß√£o M√©dia: {vote_average}/10\n"
                        f"Diretor: {director}\n"
                        f"Elenco Principal: {cast}\n"
                        f"Detalhes adicionais: O {media_type.lower()} {title} √© conhecido por sua {overview}. Lan√ßado em {release_date}, ele se enquadra nos g√™neros {genres} e possui uma avalia√ß√£o de {vote_average}. A dire√ß√£o ficou por conta de {director} e conta com {cast} no elenco principal."
                    )
                    doc = Document(page_content=content, metadata={"source": f"TMDB {media_type} ID: {media_id}", "title": title, "type": media_type})
                    documents.append(doc)
                    print(f"Dados do {media_type.lower()} '{title}' (ID: {media_id}) processados.")

                elif media_type == "S√©rie de TV":
                    title = media_data.get("name", "T√≠tulo n√£o dispon√≠vel") # Para s√©ries √© 'name'
                    overview = media_data.get("overview", "Sinopse n√£o dispon√≠vel")
                    first_air_date = media_data.get("first_air_date", "Data de lan√ßamento n√£o dispon√≠vel") # Para s√©ries √© 'first_air_date'
                    genres = ", ".join([g["name"] for g in media_data.get("genres", [])]) if media_data.get("genres") else "G√™nero n√£o dispon√≠vel"
                    vote_average = media_data.get("vote_average", "Avalia√ß√£o n√£o dispon√≠vel")
                    number_of_seasons = media_data.get("number_of_seasons", "N√£o dispon√≠vel")
                    number_of_episodes = media_data.get("number_of_episodes", "N√£o dispon√≠vel")

                    # Buscar cr√©ditos de s√©ries (criadores, elenco principal)
                    credits_response = requests.get(f"{TMDB_BASE_URL}/tv/{media_id}/credits", params={"api_key": TMDB_API_KEY, "language": "pt-BR"})
                    credits_response.raise_for_status()
                    credits_data = credits_response.json()

                    creators = ", ".join([c["name"] for c in media_data.get("created_by", [])]) if media_data.get("created_by") else "Criador(es) n√£o dispon√≠vel(eis)"
                    cast_members = [actor.get("name") for actor in credits_data.get("cast", [])[:5]] # Top 5 atores
                    cast = ", ".join(cast_members) if cast_members else "Elenco n√£o dispon√≠vel"

                    content = (
                        f"Tipo: {media_type}\n"
                        f"T√≠tulo: {title}\n"
                        f"Sinopse: {overview}\n"
                        f"Data de Lan√ßamento: {first_air_date}\n"
                        f"G√™neros: {genres}\n"
                        f"Avalia√ß√£o M√©dia: {vote_average}/10\n"
                        f"N√∫mero de Temporadas: {number_of_seasons}\n"
                        f"N√∫mero de Epis√≥dios: {number_of_episodes}\n"
                        f"Criador(es): {creators}\n"
                        f"Elenco Principal: {cast}\n"
                        f"Detalhes adicionais: A {media_type.lower()} {title} √© conhecida por sua {overview}. Lan√ßada em {first_air_date}, ela se enquadra nos g√™neros {genres} e possui uma avalia√ß√£o de {vote_average}. Tem {number_of_seasons} temporadas e {number_of_episodes} epis√≥dios. Foi criada por {creators} e conta com {cast} no elenco principal."
                    )
                    doc = Document(page_content=content, metadata={"source": f"TMDB {media_type} ID: {media_id}", "title": title, "type": media_type})
                    documents.append(doc)
                    print(f"Dados da {media_type.lower()} '{title}' (ID: {media_id}) processados.")

            except Exception as e:
                print(f"Erro ao processar dados de {media_type} ID {media_id}: {e}")
                continue

    return documents

# --- IDs de filmes e s√©ries para o exemplo ---
example_media_ids = [
    # Filmes - J√° existentes
    157336,
    278,
    680,
    550,
    10227,
    496243,
    299534,
    872585,
    934640,
    671,
    603,
    19995,
    4935,

    # --- Novos Filmes Sugeridos ---
    11,
    12,
    13,
    18,
    24,
    429,
    447332,
    155,
    76341,
    122906,
    934640,
    968051,
    786891,
    573437,
    1011985,
    453395,
    823464,
    872585,
    1086747,
    653346,

    # --- S√©ries Sugeridas (IDs de TV shows na TMDB) ---
    1399,
    71712,
    1402,
    66732,
    92749,
    84958,
    119051,
    60735,
    1396,
    1668,
    456,
    94605,
    100088,
    2316,
    1400,
    690,
    45634,
]

all_documents = fetch_media_data_as_documents(example_media_ids)

if not all_documents:
    print("Nenhum documento de filme ou s√©rie foi carregado. Verifique sua chave da TMDB e IDs v√°lidos.")
    all_documents.append(Document(page_content="Nenhum dado de filme ou s√©rie dispon√≠vel para este chatbot. Por favor, configure a TMDB API key e IDs v√°lidos.", metadata={"source": "Sistema"}))

In [None]:
# --- Dividir documentos em chunks ---
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
docs = text_splitter.split_documents(all_documents)

# --- Configurando explicitamente o modelo e a normaliza√ß√£o dos embeddings ---
model_name_embedding = "BAAI/bge-m3" # Mantendo BAAI/bge-m3
encode_kwargs_embedding = {'normalize_embeddings': True}

embeddings = HuggingFaceEmbeddings(
    model_name=model_name_embedding,
    encode_kwargs=encode_kwargs_embedding
)

# --- Criar ou carregar o Vectorstore com FAISS ---
faiss_index_path = './faiss_movie_index'

# Remover o √≠ndice FAISS existente para garantir um estado limpo se estiver recriando
if os.path.exists(faiss_index_path):
    print(f"Diret√≥rio '{faiss_index_path}' removido para recria√ß√£o do √≠ndice FAISS.")
    shutil.rmtree(faiss_index_path)

vectorstore = None
if os.path.exists(faiss_index_path + "/index.faiss"):
    print(f"Carregando √≠ndice FAISS existente de '{faiss_index_path}'...")
    vectorstore = FAISS.load_local(faiss_index_path, embeddings, allow_dangerous_deserialization=True)
    print("√çndice FAISS carregado com sucesso.")
else:
    print(f"Criando novo √≠ndice FAISS e persistindo documentos em '{faiss_index_path}'...")
    vectorstore = FAISS.from_documents(docs, embeddings)
    vectorstore.save_local(faiss_index_path)
    print("√çndice FAISS criado e documentos persistidos com sucesso.")

In [None]:
# --- Configura√ß√£o da Cadeia de QA (RetrievalQA) ---
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    chain_type_kwargs={"prompt": prompt_template}, # Usando o prompt sem hist√≥rico
    return_source_documents=True
)

# --- Fun√ß√£o de Resposta Principal (sem mem√≥ria) ---
def responder(pergunta):
    # Procura trechos similares nos documentos de filmes
    similares = vectorstore.similarity_search(pergunta, k=5)

    # Crit√©rio de confian√ßa: se n√£o houver trechos pr√≥ximos, nega a resposta
    if not similares or len(similares) == 0:
        return "Desculpe, n√£o encontrei informa√ß√µes relevantes sobre isso nos filmes e s√©ries que conhe√ßo. Tente perguntar sobre um t√≠tulo espec√≠fico da minha base de dados."

    # Executa a cadeia de QA para obter a resposta
    resultado = qa_chain.invoke({"query": pergunta})
    return resultado["result"]

# A fun√ß√£o de resposta para o Gradio.ChatInterface √© simplificada
def chat_responder(message, history):
    # Apenas passa a mensagem para a fun√ß√£o responder, sem se preocupar com o hist√≥rico
    return responder(message)

In [None]:
# --- Interface Gradio (Formato de Chat) ---
with gr.Blocks() as demo:
    gr.Markdown("## üé¨ Main, seu Assist√™nte Virtual de Filmes e S√©rie")

    gr.ChatInterface(
        fn=chat_responder,
        chatbot=gr.Chatbot(
            height=500,
            type="messages",
            value=[
                {"role": "assistant", "content": "Ol√°! Sou Main seu assistente de filmes e s√©ries. Pergunte-me sobre sinopses, elenco, diretores ou qualquer outra coisa que queira saber sobre os filmes e s√©ries que conhe√ßo!"}
            ]
        ),
        textbox=gr.Textbox(placeholder="Pergunte sobre um filme ou s√©rie...", container=False, scale=7),
        theme="soft",
        cache_examples=False,
    )

demo.launch(share=True)