In [None]:
import pandas as pd

# Carregar os arquivos CSV
movies_df = pd.read_csv("tmdb_5000_movies.csv")
credits_df = pd.read_csv("tmdb_5000_credits.csv")

# Visualizar as primeiras linhas
movies_df.head()

In [None]:
# Renomear a coluna 'movies_id' para 'id' para permitir o merge
credits_df.rename(columns={'movie_id': 'id'}, inplace=True)

# Fazendo o merge e mantendo apenas a coluna 'title' do movies_df
movies = movies_df.merge(credits_df, on='id')
movies = movies [['id', 'title_x', 'overview', 'genres', 'keywords', 'cast', 'crew']]
movies.rename(columns={'title_x': 'title'}, inplace=True)

# Visualizar o resultado
movies.head(2)

In [None]:
import pandas as pd

# Tente carregar os arquivos
try:
    movies_df = pd.read_csv("tmdb_5000_movies.csv")
    credits_df = pd.read_csv("tmdb_5000_credits.csv")
    print("Arquivos carregados com sucesso!")
    print("movies_df", movies_df.shape)
    print("credits_df", credits_df.shape)
except Exception as e:
    print("Erro ao carregar os arquivos")

In [None]:
# Garantir que 'id' está nas duas tabelas
credits_df.rename(columns={'movie_id': 'id'}, inplace=True)

# Tentar fazer o merge
try:
    movies = movies_df.merge(credits_df, on='id')
    print("Merge feito com sucesso")
    print("movies", movies.shape)
    print("Colunas disponíveis", movies.columns.tolist())
except Exception as e:
    print("Erro ao carregar o merge", e)

In [None]:
movies.head()

In [None]:
# Colunas que vamos usar: genres, keywords, cast, crew
movies = movies [['id', 'title_x', 'overview', 'genres', 'keywords', 'cast', 'crew']]

movies.head()

In [None]:
import ast

def convert(obj):
    try:
        return [i['name'] for i in ast.literal_eval(obj)]
    except:
        return []
        
def get_director(obj):
    try:
        for i in ast.literal.eval(obj):
            if i['job'] == 'Director':
                return[i['name']]
            return []
    except Exception:
            return []

movies['genres'] = movies['genres'].apply(convert)
movies['keywords'] = movies['keywords'].apply(convert)
movies['cast'] = movies['cast'].apply(lambda x: convert(x)[:3]) # pegar só os 3 principais atores
movies['crew'] = movies['crew'].apply(get_director)

In [None]:
# Preencher overview nulo com string vazia
movies['overview'] = movies['overview'].fillna('')

# Juntar tudo em uma só coluna
movies['tags'] = movies['overview'] + '' + \
                 movies['genres'].apply(lambda x: ''.join(x)) + '' + \
                 movies['keywords'].apply(lambda x: ''.join(x)) + '' + \
                 movies['cast'].apply(lambda x: ''.join(x)) + '' + \
                 movies['crew'].apply(lambda x: ''.join(x))

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cv = CountVectorizer(max_features=5000, stop_words='english')
vectors = cv.fit_transform(movies['tags']).toarray()

similarity = cosine_similarity(vectors)

In [None]:
def recomendar(filme, n=5):
    print("Iniciando função...")

    print("Filme recebido:", filme)
    filme = filme.lower()
    print("Filme em minúsculo:", filme)

    print("Verificando títulos disponíveis...")
    titulos_lower = movies['title_x'].str.lower()
    print("Primeiros títulos:", titulos_lower.head().to_list())

    if filme not in titulos_lower.values:
        print(f"Filme '{filme}' não encontrado no banco de dados.")
        return

    print("Filme encontrado!")
    idx = titulos_lower[titulos_lower == filme].index[0]

    print("Calculando similaridade...")
    distancias = list(enumerate(similarity[idx]))
    distancias = sorted(distancias, key=lambda x: x[1], reverse=True)[1:n+1]
    
    print(f"\n Recomendação parecidas com '{movies.iloc[idx].title_x}':\n")
    for i, (index, score) in enumerate(distancias, 1):
        print(f"{i}. {movies.iloc[index].title_x}")

In [None]:
# Exemplo 01 de uso:

recomendar("Apollo 18")

In [None]:
# Exemplo 02 de uso:

recomendar("Avatar")