<a href="https://colab.research.google.com/github/vitasantos/CineMood---PLN/blob/main/2025_Q3_PLN_PROJETO_PR%C3%81TICO_CINEMOOD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Processamento de Linguagem Natural [2025-Q3]**
Prof. Alexandre Donizeti Alves

### **PROJETO CINEMOOD** [LangChain + Grandes Modelos de Linguagem]


### **EQUIPE**

---

**Integrante 01:**

Gustavo Dias Marsili, RA: 11202130401

**Integrante 02:**

Gustavo Teodoro Bauke, RA: 11202130481

**Integrante 03:**

Vitória Cordeiro dos Santos, RA: 11202130706

### **GRANDE MODELO DE LINGUAGEM (*Large Language Model - LLM*)**

---

>


**LLM**: Gemini 2.5 Flash

>

**Link para a documentação oficial**:
https://ai.google.dev/gemini-api/docs?hl=pt-br


### **API**
---

**API**: TMDb API

**Site oficial**: https://www.themoviedb.org/

**Link para a documentação oficial**: https://developer.themoviedb.org/docs/getting-started






### **DESCRIÇÃO**
---

Este projeto aplica técnicas de Processamento de Linguagem Natural (PLN), integrando o framework LangChain, um Grande Modelo de Linguagem (LLM) e dados obtidos de uma API externa. O objetivo é criar um sistema capaz de analisar o relato diário de um usuário, extrair informações relevantes e gerar recomendações personalizadas de filmes com base no estado emocional e no conteúdo do texto.

O fluxo completo combina coleta de dados da API, análise semântica via LLM e um pipeline de prompts construído com LangChain.

### **MOTIVAÇÃO**
---

Aplicações modernas de recomendação precisam cada vez mais entender o contexto emocional, o significado e a intenção dos usuários. Em vez de depender apenas de histórico ou avaliações, este projeto demonstra como utilizar um LLM aliado a técnicas clássicas de PLN para interpretar textos do cotidiano e sugerir conteúdos adequados ao momento emocional do indivíduo.

A ideia surgiu da pergunta:
"Como um sistema poderia recomendar filmes levando em conta como o usuário está se sentindo e o que ele viveu no dia?"

Este projeto, portanto, ilustra como unir:

* LLM para interpretação profunda do texto;

* Técnicas de PLN para extrair informações estruturadas;

* Dados reais de uma API de filmes para produzir uma recomendação personalizada.

### **TÉCNICAS DE PLN UTILIZADAS**
---

#1. Classificação de Sentimentos

##O que é:

Técnica que identifica o tom emocional predominante em um texto (positivo, negativo, neutro etc.).

##Como utilizamos:

Criamos um PromptTemplate que instrui o LLM a classificar o texto do usuário em uma das categorias pré-definidas. Este prompt é processado com o LangChain usando LCEL.

##Resultado:

O sistema determina se o usuário está em um dia “positivo”, “negativo”, “neutro”, “muito positivo” ou “muito negativo”. Essa informação é utilizada posteriormente para guiar a recomendação de gêneros de filmes.

#2. Sumarização (em estilo “Logline”)

##O que é:

Condensar um texto longo em uma frase curta, mantendo seu núcleo de significado.

##Como utilizamos:

Criamos um segundo PromptTemplate, instruindo o LLM a atuar como um roteirista e transformar o relato original em uma logline cinematográfica (até 15 palavras), mantendo um tom dramático ou engraçado.

##Este resumo tem dois objetivos:

- Destacar o “tema central” do dia do usuário.

- Servir como um elemento narrativo para a etapa de recomendação de gêneros.

### **INTEGRAÇÃO COM API EXTERNA (TMDB)**
---

O sistema utiliza a API do The Movie Database (TMDB) para:

- Buscar a lista oficial de gêneros de filmes;

- Mapear cada gênero ao seu respectivo ID;

- Após a análise de sentimentos e resumo, solicitar ao LLM que escolha dois gêneros apropriados;

- Fazer uma consulta real à API buscando filmes populares nesses gêneros;

- Selecionar o filme mais relevante e apresentá-lo ao usuário.

Essa etapa garante que o sistema não apenas gere texto, mas também ofereça uma recomendação concreta baseada em dados reais.

### **USO DO LANGCHAIN**
---

O LangChain foi utilizado como camada de orquestração entre prompts, LLM e parsing. As principais funcionalidades empregadas foram:

- PromptTemplate → estruturação clara dos prompts;

- LCEL (|) → criação de pipelines de processamento;

- StrOutputParser → garantir saída textual consistente do LLM;

- ChatGoogleGenerativeAI → integração do LangChain com o LLM Gemini.

### **IMPLEMENTAÇÃO**
---

In [None]:
!pip install --upgrade langchain-google-genai google-generativeai

Collecting langchain-google-genai
  Downloading langchain_google_genai-3.1.0-py3-none-any.whl.metadata (2.7 kB)
Collecting filetype<2.0.0,>=1.2.0 (from langchain-google-genai)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting google-ai-generativelanguage<1.0.0,>=0.9.0 (from langchain-google-genai)
  Downloading google_ai_generativelanguage-0.9.0-py3-none-any.whl.metadata (10 kB)
Collecting langchain-core<2.0.0,>=1.0.5 (from langchain-google-genai)
  Downloading langchain_core-1.1.0-py3-none-any.whl.metadata (3.6 kB)
INFO: pip is looking at multiple versions of google-generativeai to determine which version is compatible with other requirements. This could take a while.
Collecting google-generativeai
  Downloading google_generativeai-0.8.5-py3-none-any.whl.metadata (3.9 kB)
  Downloading google_generativeai-0.8.4-py3-none-any.whl.metadata (4.2 kB)
  Downloading google_generativeai-0.8.3-py3-none-any.whl.metadata (3.9 kB)
  Downloading google_generativeai-0.8

In [None]:
import google.generativeai as genai
from google.colab import userdata

GEMINI_API_KEY = userdata.get('GEMINI_API_KEY')
genai.configure(api_key = GEMINI_API_KEY)

In [None]:
from langchain_google_genai import ChatGoogleGenerativeAI

modelo = ChatGoogleGenerativeAI(model="gemini-2.5-flash", google_api_key = GEMINI_API_KEY)

In [None]:
from langchain_core.prompts import PromptTemplate

In [None]:
!pip install requests



In [None]:
import requests

url = "https://api.themoviedb.org/3/genre/movie/list?language=pt"

headers = {
    "accept": "application/json",
    "Authorization": "Bearer eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiJhY2E5MTRmNDliZDBlYWVhYzM3NjAzMTU2MDBmZTY1MiIsIm5iZiI6MTc2MzMzNTUxOS4yNDEsInN1YiI6IjY5MWE1ZDVmZDA1ZmFkYzc3ZjgxYmVkMSIsInNjb3BlcyI6WyJhcGlfcmVhZCJdLCJ2ZXJzaW9uIjoxfQ.ImdO8p0rUZ_h9aI5K5vy8foPV4xx7Asg7vtAwJitaBk"
}

response = requests.get(url, headers=headers)
lista_generos = [genero['name'] for genero in response.json()['genres']]
lista_id_generos = [genero['id'] for genero in response.json()['genres']]
mapa_generos = {
    genero['name']: genero['id']
    for genero in response.json()['genres']
}



In [None]:
descricao_do_dia = input()

Cara, hoje foi aquele dia que parece que não acaba. Fiquei horas numa planilha de Excel que não batia os valores, meu chefe ficou me chamando toda hora no Teams. Almocei correndo um salgado frio. Cheguei em casa agora, joguei a mochila no sofá e tô com zero vontade de pensar.


In [None]:
from langchain_core.output_parsers import StrOutputParser
prompt = PromptTemplate(
    input_variables=["texto"],
    template=(
        "Classifique o sentimento do texto como muito positivo, positivo, neutro, negativo e muito negativo. Retorne apenas o sentimento\n\n"
        "Texto: {texto}\n\n"
        "Categoria:"
    )
)

# Construir o pipeline com LCEL (LangChain Expression Language)
chain = prompt | modelo | StrOutputParser()
sentimento = chain.invoke({"texto": descricao_do_dia})
print(f"Categoria: {sentimento.strip()}\n")

Categoria: muito negativo



In [None]:
prompt_resumo = PromptTemplate(
    input_variables=["texto"],
    template=(
        "Atue como um roteirista de cinema.\n"
        "Resuma o relato do dia do usuário em uma única frase dramática ou engraçada (máximo 15 palavras), "
        "como se fosse a 'Logline' (sinopse curta) de um filme sobre a vida dele.\n"
        "Ignore detalhes irrelevantes.\n\n"
        "Relato original: {texto}\n"
        "Sinopse (Logline):"
    )
)

chain_resumo = prompt_resumo | modelo | StrOutputParser()
# Aqui aplicamos a técnica de Sumarização
sinopse_do_dia = chain_resumo.invoke({"texto": descricao_do_dia})

print(f"Sinopse Gerada (Sumarização): {sinopse_do_dia.strip()}\n")

Sinopse Gerada (Sumarização): **Logline:** Um guerreiro corporativo enfrenta a épica batalha de Excel, Teams e um salgado frio, buscando apenas o fim.



In [None]:
prompt = PromptTemplate(
    input_variables=["texto","sentimento","sinopse","lista_generos"],
    template=(
        "Você é um especialista em cinema e psicologia. Analise o texto do usuário: '{texto}'.\n"
        "Baseado nesta sinopse: '{sinopse}'\n"
        "E neste sentimento detectado: {sentimento}.\n\n"
        "Regra de Recomendação:\n"
        "1. Se o usuário estiver entediado ou triste, você pode sugerir algo para animar OU algo catártico/profundo.\n"
        "2. Se o usuário estiver com energia, sugira Ação ou Suspense.\n"
        "3. NÃO recomende Comédia se o texto indicar tensão, raiva ou desejo de reflexão.\n\n"
        "Escolha 2 gêneros desta lista: {lista_generos}.\n"
        "Retorne APENAS os nomes dos gêneros separados por vírgula."
    )
)

# Construir o pipeline com LCEL (LangChain Expression Language)
chain = prompt | modelo
resposta = chain.invoke({"texto": descricao_do_dia, "sentimento":sentimento, "sinopse":sinopse_do_dia, "lista_generos":lista_generos})
print(f"Gênero: {resposta.content.strip()}\n")

Gênero: Animação, Fantasia



In [None]:
import re
lista_id = [mapa_generos.get(genero) for genero in re.split(r',\s*', resposta.content.strip())]
ids_formatados = ",".join(map(str, lista_id))
query_params = {
    "with_genres": ids_formatados,
    "sort_by": "popularity.desc",
    "vote_count.gte": 50,
    "language": "pt-BR",
    "vote_average.gte": 6.0
}

url_filmes = "https://api.themoviedb.org/3/discover/movie"
response_filmes = requests.get(url_filmes, headers=headers, params=query_params)
if response_filmes.status_code == 200:
    dados = response_filmes.json()
    melhor_filme = dados['results'][0]
    print("--- Melhor Filme Encontrado ---")
    print(f"Título: {melhor_filme.get('title')}")
    print(f"Média de Votos: {melhor_filme.get('vote_average')}")
    print(f"Visão Geral: {melhor_filme.get('overview')}")

else:
    print(f"Erro na requisição: {response_filmes.status_code}")


--- Melhor Filme Encontrado ---
Título: Demon Slayer: Kimetsu no Yaiba Castelo Infinito
Média de Votos: 7.583
Visão Geral: Enquanto os membros dos caçadores e os Hashira participavam de um rigoroso programa de fortalecimento coletivo, conhecido como Treinamento dos Hashira, em preparação para a batalha final contra os demônios, Muzan Kibutsuji aparece na Mansão Ubuyashiki. Com a vida do líder da organização em risco, Tanjiro e os Hashira correm até o quartel-general, mas acabam sendo lançados, pelas mãos de Muzan, em uma queda profunda rumo a um espaço misterioso para um confronto final, o Castelo Infinito.
