<a href="https://colab.research.google.com/github/rasecfaria/FinalProject/blob/main/projeto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# `Sistema de Recomenda√ß√£o de Filmes` üé¨

Este notebook implementa um sistema de recomenda√ß√£o de filmes utilizando dois m√©todos diferentes:
1. **Filtragem colaborativa** - baseada nas avalia√ß√µes dos usu√°rios
2. **Recomenda√ß√£o baseada em conte√∫do** - utilizando g√™neros e tags dos filmes

O dataset utilizado √© o [MovieLens](https://grouplens.org/datasets/movielens/) que cont√©m avalia√ß√µes de filmes feitas por usu√°rios. Este notebook demonstra conceitos importantes de sistemas de recomenda√ß√£o, que podem ser aplicados em diferentes contextos.

In [None]:
# Importar bibliotecas necess√°rias
import pandas as pd
import numpy as np
import os

## 1. Carregamento e An√°lise dos Dados

Primeiro, vamos carregar os datasets e explorar sua estrutura.

In [None]:
def carregar_dados(diretorio_dados='ml-latest-small'):
    """Carrega os datasets necess√°rios para o sistema de recomenda√ß√£o"""
    print("Carregando dados...")
    
    # Caminhos para os arquivos
    path_movies = os.path.join(diretorio_dados, 'movies.csv')
    path_ratings = os.path.join(diretorio_dados, 'ratings.csv')
    path_tags = os.path.join(diretorio_dados, 'tags.csv')
    path_dados = os.path.join(diretorio_dados, 'dados.csv')
    
    # Carregar datasets principais
    movies = pd.read_csv(path_movies)
    ratings = pd.read_csv(path_ratings)
    
    # Remover timestamp dos ratings pois n√£o ser√° utilizado
    ratings = ratings[['userId', 'movieId', 'rating']]
    
    # Informa√ß√µes sobre os datasets carregados
    print(f"Dimens√µes do dataset de filmes: {movies.shape}")
    print(f"Dimens√µes do dataset de avalia√ß√µes: {ratings.shape}")
    
    # Carregar datasets adicionais para recomenda√ß√£o baseada em conte√∫do
    try:
        tags = pd.read_csv(path_tags)
        dados = pd.read_csv(path_dados)
        print(f"Dimens√µes do dataset de tags: {tags.shape}")
        return movies, ratings, tags, dados
    except Exception as e:
        print(f"Aviso: N√£o foi poss√≠vel carregar dados adicionais: {e}")
        return movies, ratings, None, None

# Carregar os datasets
movies, ratings, tags, dados = carregar_dados()

# Exibir exemplos dos datasets
print("\nPrimeiras linhas do dataset de filmes:")
movies.head()

In [None]:
# Exibir as primeiras linhas do dataset de avalia√ß√µes
print("Dataset de avalia√ß√µes:")
ratings.head()

In [None]:
# An√°lise do n√∫mero de avalia√ß√µes por usu√°rio
usuario_ratings = ratings['userId'].value_counts()

print(f"N√∫mero m√©dio de avalia√ß√µes por usu√°rio: {usuario_ratings.mean():.2f}")
print(f"N√∫mero m√°ximo de avalia√ß√µes feitas por um usu√°rio: {usuario_ratings.max()}")
print(f"N√∫mero m√≠nimo de avalia√ß√µes feitas por um usu√°rio: {usuario_ratings.min()}")

# Visualizar a distribui√ß√£o de avalia√ß√µes pelos top 10 usu√°rios mais ativos
usuario_ratings.head(10)

(100836, 3)

In [None]:
# Juntar os datasets de filmes e avalia√ß√µes para an√°lise
df = movies.merge(ratings, on='movieId')
print(f"Dimens√µes do dataframe mesclado: {df.shape}")
df.head()

## 2. M√©todo de Filtragem Colaborativa

A filtragem colaborativa baseia-se na premissa de que usu√°rios que concordaram no passado tamb√©m concordar√£o no futuro. Neste caso, vamos usar a t√©cnica de item-item collaborative filtering, onde comparamos a similaridade entre filmes baseado nas avalia√ß√µes dadas pelos usu√°rios.

In [None]:
def preparar_dados_colaborativos(movies, ratings):
    """Prepara os dados para filtragem colaborativa"""
    print("Preparando dados para filtragem colaborativa...")
    
    # Mesclar datasets de filmes e avalia√ß√µes
    df = movies.merge(ratings, on='movieId')
    
    # Criar tabela pivot: filmes x usu√°rios com valores de avalia√ß√µes
    movies_table = df.pivot_table(index='title', columns='userId', values='rating').fillna(0)
    
    print(f"Tabela pivot criada com dimens√µes: {movies_table.shape}")
    return movies_table

# Criar tabela pivot para filtragem colaborativa
movies_table = preparar_dados_colaborativos(movies, ratings)
movies_table.head(5)

In [None]:
# Importar fun√ß√£o para calcular similaridade
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
def filtragem_colaborativa(movies_table, filme_referencia='Forrest Gump'):
    """Implementa o m√©todo de filtragem colaborativa usando similaridade de cosseno"""
    print(f"Calculando filmes similares a '{filme_referencia}' usando filtragem colaborativa...")
    
    # Calcular similaridade de cosseno entre todos os filmes
    rec = cosine_similarity(movies_table)
    rec_df = pd.DataFrame(rec, columns=movies_table.index, index=movies_table.index)
    
    # Filtrar e ordenar filmes similares ao filme de refer√™ncia
    if filme_referencia in rec_df.columns:
        cossine_df = pd.DataFrame(rec_df[filme_referencia].sort_values(ascending=False))
        cossine_df.columns = ['recomenda√ß√µes']
        return cossine_df
    else:
        print(f"Erro: Filme '{filme_referencia}' n√£o encontrado no dataset.")
        return None

# Calcular similaridade de cosseno entre todos os filmes
# Isso indica a similaridade entre cada filme, onde valores pr√≥ximos de 1 indicam alta similaridade
rec = cosine_similarity(movies_table)
rec_df = pd.DataFrame(rec, columns=movies_table.index, index=movies_table.index)
print("Amostra da matriz de similaridade:")
rec_df.iloc[:5, :5]

In [None]:
# Obter recomenda√ß√µes para um filme espec√≠fico usando filtragem colaborativa
filme_referencia = 'Forrest Gump'
recomendacoes_colaborativas = filtragem_colaborativa(movies_table, filme_referencia)

print(f"\nTop 10 recomenda√ß√µes para '{filme_referencia}' usando filtragem colaborativa:")
recomendacoes_colaborativas.head(10)

## 3. M√©todo Baseado em Conte√∫do

O m√©todo de recomenda√ß√£o baseado em conte√∫do utiliza caracter√≠sticas dos filmes para encontrar similaridades. Neste caso, usaremos principalmente os g√™neros e, quando dispon√≠veis, as tags dos filmes.

In [None]:
# Importar bibliotecas para processamento de texto e similaridade
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
if tags is not None:
    # Visualizar as primeiras linhas do dataset de tags
    print("Dataset de tags:")
    tags.head()
else:
    print("Dataset de tags n√£o dispon√≠vel")

In [None]:
def preparar_dados_conteudo(movies, tags, dados):
    """Prepara os dados para recomenda√ß√£o baseada em conte√∫do"""
    print("Preparando dados para recomenda√ß√£o baseada em conte√∫do...")
    
    # Converter movieId para string para garantir o merge correto
    movies['movieId'] = movies['movieId'].apply(lambda x: str(x))
    
    # Converter movieId em tags tamb√©m para evitar erros de tipo
    tags_copy = tags.copy()
    tags_copy['movieId'] = tags_copy['movieId'].apply(lambda x: str(x))
    
    # Mesclar datasets para criar um √∫nico DataFrame enriquecido
    df2 = movies.merge(dados, left_on='title', right_on='Name', how='left')
    df2 = df2.merge(tags_copy, left_on='movieId', right_on='movieId', how='left')
    
    # Usar g√™neros como base para informa√ß√µes de conte√∫do
    # Poderia ser expandido para incluir descri√ß√µes e tags
    df2['Infos'] = df2['genres']  # + str(df2['Discription']) + df2['tag']
    
    print(f"Dataset baseado em conte√∫do preparado com dimens√µes: {df2.shape}")
    return df2

# Converter movieId para string para garantir o merge correto
movies['movieId'] = movies['movieId'].apply(lambda x: str(x))

(45256, 2)

In [None]:
if tags is not None and dados is not None:
    # Preparar dataset para recomenda√ß√£o baseada em conte√∫do
    df2 = preparar_dados_conteudo(movies, tags, dados)
    df2.head()
else:
    print("Dados insuficientes para recomenda√ß√£o baseada em conte√∫do")

In [None]:
def recomendacao_baseada_em_conteudo(df2, filme_referencia='Forrest Gump'):
    """Implementa o m√©todo de recomenda√ß√£o baseada em conte√∫do usando TF-IDF e similaridade de cosseno"""
    print(f"Calculando filmes similares a '{filme_referencia}' baseado em conte√∫do...")
    
    # Criar matriz TF-IDF
    vec = TfidfVectorizer()
    tfidf = vec.fit_transform(df2['Infos'].apply(lambda x: np.str_(x)))
    print(f"Matriz TF-IDF criada com dimens√µes: {tfidf.shape}")
    
    # Calcular similaridade de cosseno
    sim = cosine_similarity(tfidf)
    sim_df2 = pd.DataFrame(sim, columns=df2['title'], index=df2['title'])
    
    # Filtrar e ordenar filmes similares ao filme de refer√™ncia
    if filme_referencia in sim_df2.columns:
        final_df = pd.DataFrame(sim_df2[filme_referencia].sort_values(ascending=False))
        final_df.columns = ['recomenda√ß√µes']
        return final_df
    else:
        print(f"Erro: Filme '{filme_referencia}' n√£o encontrado no dataset.")
        return None

if tags is not None and dados is not None:
    # Criar matriz TF-IDF para an√°lise de similaridade de texto
    vec = TfidfVectorizer()
    tfidf = vec.fit_transform(df2['Infos'].apply(lambda x: np.str_(x)))
    print(f"Matriz TF-IDF criada com dimens√µes: {tfidf.shape}")

Unnamed: 0,movieId,title,genres,year,Name,Year,Stars,Score,Time,Votes,Total,Tags,Directors_Cast,Discription,tag,Infos
0,1,Toy Story,Adventure|Animation|Children|Comedy|Fantasy,1995,Toy Story,1995.0,8.3,95.0,81.0,908794.0,$191.80,\nAnimation Adventure Comedy,John Lasseter Tom Hanks Tim Allen Don Rickles ...,\nA cowboy doll is profoundly threatened and j...,"Owned,imdb top 250,Pixar,Pixar,time travel,chi...",Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji,Adventure|Children|Fantasy,1995,Jumanji,1995.0,7.0,39.0,104.0,316485.0,$100.48,\nAdventure Comedy Family,Joe Johnston Robin Williams Kirsten Dunst Bonn...,\nWhen two kids find and play a magical board ...,"Robin Williams,time travel,fantasy,based on ch...",Adventure|Children|Fantasy
2,3,Grumpier Old Men,Comedy|Romance,1995,,,,,,,,,,,"funny,best friend,duringcreditsstinger,fishing...",Comedy|Romance
3,4,Waiting to Exhale,Comedy|Drama|Romance,1995,Waiting to Exhale,1995.0,6.0,,124.0,9911.0,$67.05,\nComedy Drama Romance,Forest Whitaker Whitney Houston Angela Bassett...,,"based on novel or book,chick flick,divorce,int...",Comedy|Drama|Romance
4,5,Father of the Bride Part II,Comedy,1995,Father of the Bride Part II,1995.0,6.1,49.0,106.0,35472.0,$76.59,\nComedy Family Romance,Charles Shyer Steve Martin Diane Keaton Martin...,\nGeorge Banks must deal not only with the pre...,"aging,baby,confidence,contraception,daughter,g...",Comedy


In [None]:
if tags is not None and dados is not None:
    # Calcular similaridade de cosseno entre conte√∫dos dos filmes
    sim = cosine_similarity(tfidf)
    print(f"Matriz de similaridade baseada em conte√∫do criada com dimens√µes: {sim.shape}")

In [None]:
if tags is not None and dados is not None:
    # Criar DataFrame com matriz de similaridade
    sim_df2 = pd.DataFrame(sim, columns=df2['title'], index=df2['title'])
    print("Amostra da matriz de similaridade baseada em conte√∫do:")
    sim_df2.iloc[:5, :5]

In [None]:
def mostrar_recomendacoes(recomendacoes, n=10, filme_referencia=None):
    """Exibe as recomenda√ß√µes de filmes"""
    if recomendacoes is not None and not recomendacoes.empty:
        print(f"\nTop {n} recomenda√ß√µes para '{filme_referencia}':")
        return recomendacoes.head(n)
    else:
        print("N√£o foi poss√≠vel gerar recomenda√ß√µes.")
        return None

if tags is not None and dados is not None:
    # Obter recomenda√ß√µes para um filme espec√≠fico usando conte√∫do
    filme_referencia = 'Forrest Gump'
    recomendacoes_conteudo = recomendacao_baseada_em_conteudo(df2, filme_referencia)
    
    print(f"\nTop 10 recomenda√ß√µes para '{filme_referencia}' baseadas em conte√∫do:")
    mostrar_recomendacoes(recomendacoes_conteudo, 10, filme_referencia)

## 4. Compara√ß√£o dos M√©todos

Vamos comparar os resultados dos dois m√©todos para ver como diferem nas recomenda√ß√µes para o mesmo filme.

In [None]:
# Fun√ß√£o para comparar os resultados dos dois m√©todos
def comparar_recomendacoes(filme_referencia='Forrest Gump', n=10):
    """Compara as recomenda√ß√µes dos dois m√©todos para um mesmo filme"""
    print(f"\nComparando recomenda√ß√µes para '{filme_referencia}':")
    print("-" * 50)
    
    # Obter recomenda√ß√µes usando filtragem colaborativa
    recomendacoes_colaborativas = filtragem_colaborativa(movies_table, filme_referencia)
    
    if tags is not None and dados is not None:
        # Obter recomenda√ß√µes usando m√©todo baseado em conte√∫do
        recomendacoes_conteudo = recomendacao_baseada_em_conteudo(df2, filme_referencia)
        
        # Criar um DataFrame para compara√ß√£o
        comparacao = pd.DataFrame({
            'Filtragem Colaborativa': recomendacoes_colaborativas.head(n).index,
            'Baseada em Conte√∫do': recomendacoes_conteudo.head(n).index
        })
        
        return comparacao
    else:
        print("N√£o foi poss√≠vel comparar os m√©todos. M√©todo baseado em conte√∫do n√£o dispon√≠vel.")
        return None

# Comparar recomenda√ß√µes para um filme espec√≠fico
if 'df2' in locals():
    comparacao = comparar_recomendacoes('Toy Story')
    if comparacao is not None:
        comparacao

## Conclus√£o

Neste notebook, implementamos dois m√©todos diferentes de recomenda√ß√£o de filmes:

1. **Filtragem Colaborativa**: Baseada nas avalia√ß√µes dos usu√°rios, usando similaridade de cosseno para encontrar filmes similares. Este m√©todo √© eficaz quando temos muitos dados de avalia√ß√£o, mas pode sofrer com o problema de "cold start" para novos filmes ou usu√°rios.

2. **Recomenda√ß√£o Baseada em Conte√∫do**: Utilizando os g√™neros e caracter√≠sticas dos filmes. Este m√©todo funciona bem mesmo para novos filmes, desde que tenhamos informa√ß√µes sobre seu conte√∫do.

Os dois m√©todos se complementam e podem ser usados juntos para criar sistemas de recomenda√ß√£o mais robustos e precisos.

Para uma aplica√ß√£o mais completa, foi criado um script Python (`recomendador_interativo.py`) que permite ao usu√°rio escolher filmes e receber recomenda√ß√µes personalizadas usando ambos os m√©todos.