# Um simples sistema de recomenda√ß√£o de filmes utilizando o algoritmo KNN

O Fluxo de Dados (Pipeline)
Entrada (Input): Usu√°rio digita "Poderoso Chef√£o" (PT-BR).

Convers√£o (API): Seu c√≥digo busca na API do TMDB por "Poderoso Chef√£o" e pede o t√≠tulo original ou o ID.

Retorno: The Godfather.

Processamento (KNN): O KNN procura vizinhos de The Godfather no seu dataset do Kaggle.

Retorno: Goodfellas, Scarface, Casino.

Sa√≠da (Output): Seu c√≥digo pega essa lista em ingl√™s e consulta a API novamente pedindo os t√≠tulos em pt-BR.

Exibi√ß√£o final: "Os Bons Companheiros", "Scarface", "Cassino".

# Pipeline:
* Passo 1: Executar as c√©lulas de bibliotecas
* Passo 2: Limpa o dataset
* Passo 3: Treina o KNN
* Passo 4: Executa a classe de tradu√ß√£o
* Passo 5: Recebe o input do usu√°rio
* Passo 6: Fun√ß√£o de recomenda√ß√£o
* Passo 7: Ver as recomenda√ß√µes

In [None]:
!pip install tmdbv3api

In [None]:
import pandas as pd
import numpy as np
from tmdbv3api import TMDb, Movie
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import NearestNeighbors

# Importa√ß√£o do dataset

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("ggtejas/tmdb-imdb-merged-movies-dataset")

print("Path to dataset files:", path)

In [None]:
movie_dd = pd.read_csv("/root/.cache/kagglehub/datasets/ggtejas/tmdb-imdb-merged-movies-dataset/versions/300/TMDB  IMDB Movies Dataset.csv")

In [None]:
pd.set_option('display.max_columns', None)
movie_dd.head()

In [None]:
movie_dd.info()

#Filtragem do dataset



* Onehot encoding no g√™nero do filme
* Remover as colunas irrelevantes('revenue', 'budget', 'status', 'production_companies', 'production_countries', 'spoken_languages', 'overview')
* Remover os filmes com menos de 100 votos







In [None]:
movie_dd.drop(['revenue', 'budget', 'status', 'production_companies', 'production_countries', 'spoken_languages', 'overview', 'homepage', 'backdrop_path', 'tagline', 'poster_path', 'tconst', 'adult'], axis=1, inplace=True, errors='ignore')
movie_dd.head()

In [None]:
movie_dd.info()

# Filtrando por n√∫mero de votos(>100) e fazendo o one hot encoding utilizando o dummies do pandas

In [None]:
#Filtrando por filmes com mais de 100 votos
movie_dd_filtrado_votos = movie_dd[movie_dd['vote_count'] >= 100]
movie_dd_filtrado_votos = movie_dd_filtrado_votos.reset_index(drop=True)
#One hot encoding
movie_dd_filtrado_one_hot = movie_dd_filtrado_votos['genres'].str.get_dummies(sep=',')
movie_dd_filtrado_one_hot.head()

# Selecionando os valores num√©ricos e normalizando

In [None]:
valores_numericos = movie_dd_filtrado_votos[['vote_average', 'popularity']]
scaler = StandardScaler()
valores_numericos_normalizados = scaler.fit_transform(valores_numericos)
numeric_df = pd.DataFrame(valores_numericos_normalizados, columns=['vote_average', 'popularity'])

dataset_para_knn = pd.concat([numeric_df, movie_dd_filtrado_one_hot], axis=1)

dataset_referencia = movie_dd_filtrado_votos[['original_title', 'title']]
dataset_para_knn.head()

# Treinando o KNN para a recomenda√ß√£o

In [None]:
recomendacao_KNN = NearestNeighbors(n_neighbors=20,metric='cosine')
recomendacao_KNN.fit(dataset_para_knn)

# Tradu√ß√£o do input

In [None]:
class Traducao:
  def __init__(self, api_key):
    #Configura√ß√£o da API
    self.tmdb = TMDb()
    self.tmdb.api_key = api_key
    self.tmdb.language = 'pt-BR'
    self.movie_api = Movie()

  def busca_titulo_original(self, nome_filme_ptBr):
    try:
      filme_ptBr = self.movie_api.search(nome_filme_ptBr)
      if filme_ptBr:
        return filme_ptBr[0].original_title
      else:
        print(f"Filme n√£o encontrado na API: {nome_filme_ptBr}")
        return None
    except Exception as e:
      print(f"Erro ao buscar t√≠tulo original: {e}")
      return None


  def busca_titulo_ptBr(self, titulo_original):
    try:
      filme_original = self.movie_api.search(titulo_original)
      if filme_original:
        return filme_original[0].title
      print(f"Filme n√£o encontrado na API: {titulo_original}")
      return None
    except Exception as e:
      print(f"Erro ao buscar t√≠tulo original: {e}")
      return None


  def processar_lista_avaliacoes(self, lista_filmes_usuario):
    dados_para_KNN = {}
    for item in lista_filmes_usuario:
      nome_ptBr = item['filme']
      nota = item['nota_filme']
      titulo_original = self.busca_titulo_original(nome_ptBr)

      if titulo_original:
        dados_para_KNN[titulo_original] = nota
    return dados_para_KNN

# Input do usu√°rio

In [None]:
minha_api_key = 'Aqui entra a chave de API da TMDB'
tradutor = Traducao(minha_api_key)

filmes_avaliados = []
qnt_filmes = input("Quantos filmes deseja avaliar?\n")


for i in range(int(qnt_filmes)):
  filme = input(f"Qual o {i+1}¬∫ filme deseja avaliar?\n")
  nota_filme = float(input(f"Qual a nota de {filme} (0-10)?\n"))
  # Uma lista de dicion√°rio - Por qu√™ python √© doido?
  filmes_avaliados.append({
      'filme': filme,
      'nota_filme': nota_filme
      })

for filme_info in filmes_avaliados:
  print(f"Filme: {filme_info['filme']}, Nota: {filme_info['nota_filme']}")


dados_para_o_knn = tradutor.processar_lista_avaliacoes(filmes_avaliados)
print(dados_para_o_knn)

Quantos filmes deseja avaliar?
7
Qual o 1¬∫ filme deseja avaliar?
Senhor dos an√©is as duas torres
Qual a nota de Senhor dos an√©is as duas torres (0-10)?
10
Qual o 2¬∫ filme deseja avaliar?
Senhor dos an√©is o retorno do rei
Qual a nota de Senhor dos an√©is o retorno do rei (0-10)?
10
Qual o 3¬∫ filme deseja avaliar?
Batman o cavaleiro das trevas
Qual a nota de Batman o cavaleiro das trevas (0-10)?
10
Qual o 4¬∫ filme deseja avaliar?
Top gun maverick
Qual a nota de Top gun maverick (0-10)?
9
Qual o 5¬∫ filme deseja avaliar?
F1 o filme
Qual a nota de F1 o filme (0-10)?
9
Qual o 6¬∫ filme deseja avaliar?
Jurassic Park O Parque dos Dinossauros
Qual a nota de Jurassic Park O Parque dos Dinossauros (0-10)?
8
Qual o 7¬∫ filme deseja avaliar?
Tarzan
Qual a nota de Tarzan (0-10)?
10
Filme: Senhor dos an√©is as duas torres, Nota: 10.0
Filme: Senhor dos an√©is o retorno do rei, Nota: 10.0
Filme: Batman o cavaleiro das trevas, Nota: 10.0
Filme: Top gun maverick, Nota: 9.0
Filme: F1 o filme, Nota

# Fun√ß√£o para a recomenda√ß√£o

In [None]:
def recomendar_filmes(dados_usuario, df_ref, df_numerico, modelo):
    """
    dados_usuario: Dicion√°rio dos inputs do usu√°rio
    df_ref: dataset_referencia (S√≥ Textos)
    df_numerico: dataset_para_knn
    modelo: recomendacao_KNN o modelo treinado
    """

    perfil_usuario = np.zeros(df_numerico.shape[1])
    total_peso = 0
    encontrados = 0

    print("\n--- Calculando Perfil do Usu√°rio ---")

    for titulo, nota in dados_usuario.items():
        # Busca o filme no dataset de refer√™ncia ojgando tudo para min√∫sculo para evitar erro
        match = df_ref[df_ref['original_title'].str.lower() == titulo.lower()]

        if len(match) > 0:
            idx = match.index[0]

            # Pega os dados num√©ricos desse filme no OUTRO dataset
            vetor_filme = df_numerico.iloc[idx].values

            # A Matem√°tica da coisa: Soma o vetor do filme multiplicado pela nota (Peso)
            peso_real = nota - 5.0
            perfil_usuario += vetor_filme * peso_real
            total_peso += abs(peso_real)
            encontrados += 1
            print(f"Filme inclu√≠do: {titulo} com a nota do usu√°rio. (Nota: {nota})")
        else:
            print(f"Filme n√£o existe no Dataset local: {titulo}")

    if encontrados == 0:
        return []

    # 2. Normalizar o vetor do usu√°rio (M√©dia Ponderada)
    perfil_usuario = perfil_usuario / total_peso

    df_perfil_usuario = pd.DataFrame([perfil_usuario], columns=df_numerico.columns)

    # Vizinhos do filme usando o KNN
    distancias, indices = modelo.kneighbors(df_perfil_usuario)

    # 4. Traduzir os √≠ndices num√©ricos de volta para nomes de filmes
    recomendacoes = []
    for i in indices[0]:
        # Pega o t√≠tulo na tabela de refer√™ncia usando o √≠ndice que o KNN devolveu
        titulo = df_ref.iloc[i]['original_title']

        # Filtro: N√£o recomendar o que o usu√°rio j√° viu
        if titulo not in dados_usuario:
            recomendacoes.append(titulo)

    return recomendacoes

In [None]:
print("Traduzindo inputs...")

dados_input_knn = tradutor.processar_lista_avaliacoes(filmes_avaliados)

# Gerando a Recomenda√ß√£o ---
if len(dados_input_knn) > 0:
    sugestoes = recomendar_filmes(
        dados_input_knn,
        dataset_referencia,   # Tabela de nomes
        dataset_para_knn,     # Tabela de n√∫meros (Z-Score + OneHot)
        recomendacao_KNN      # Seu modelo treinado
    )

    print("\n" + "="*40)
    print("üé¨ FILMES RECOMENDADOS PARA VOC√ä üé¨")
    print("="*40)

    for i, filme_original in enumerate(sugestoes[:10]):
        # Traduz de volta para Portugu√™s s√≥ para exibir bonito
        nome_pt = tradutor.busca_titulo_ptBr(filme_original)
        print(f"{i+1}. {nome_pt} ({filme_original})")

else:
    print("Nenhum filme v√°lido foi encontrado para gerar recomenda√ß√µes.")

Traduzindo inputs...

--- Calculando Perfil do Usu√°rio ---
Filme inclu√≠do: The Lord of the Rings: The Two Towers com a nota do usu√°rio. (Nota: 10.0)
Filme inclu√≠do: The Lord of the Rings: The Return of the King com a nota do usu√°rio. (Nota: 10.0)
Filme inclu√≠do: The Dark Knight com a nota do usu√°rio. (Nota: 10.0)
Filme inclu√≠do: Top Gun: Maverick com a nota do usu√°rio. (Nota: 9.0)
Filme n√£o existe no Dataset local: F1
Filme inclu√≠do: Jurassic Park com a nota do usu√°rio. (Nota: 8.0)
Filme inclu√≠do: Tarzan com a nota do usu√°rio. (Nota: 10.0)

üé¨ FILMES RECOMENDADOS PARA VOC√ä üé¨
1. O Senhor dos An√©is: A Sociedade do Anel (The Lord of the Rings: The Fellowship of the Ring)
2. Harry Potter e o Prisioneiro de Azkaban (Harry Potter and the Prisoner of Azkaban)
3. Vingadores: Guerra Infinita (Avengers: Infinity War)
4. Vingadores: Ultimato (Avengers: Endgame)
5. Interestelar (Interstellar)
6. Guerra nas Estrelas (Star Wars)
7. Piratas do Caribe: A Maldi√ß√£o do P√©rola Negr