<a href="https://colab.research.google.com/github/jrctechmind/exemplos/blob/main/Sistema_de_Recomenda%C3%A7%C3%A3o_de_Filmes_com_Fatora%C3%A7%C3%A3o_de_Matriz_N%C3%A3o_Negativa_(NMF).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.decomposition import NMF

# Carregamento dos dados
# Certifique-se de ter feito upload do arquivo 'movie_ratings.csv' antes de executar este código no Google Colab
# O arquivo 'movie_ratings.csv' deve conter três colunas: 'user_id', 'movie_id' e 'rating'
# Onde 'user_id' é o ID do usuário, 'movie_id' é o ID do filme e 'rating' é a classificação do filme pelo usuário
data = pd.read_csv('movie_ratings.csv', sep=';')

# Verificação dos dados
print("Dados carregados com sucesso!")
print("Amostra dos dados:")
print(data.head())

# Compreensão dos Dados
# Este conjunto de dados contém avaliações de filmes por usuários.
# Cada linha representa uma avaliação de um filme por um usuário.
# Os valores variam de 1 a 5, representando a classificação do filme.

# Data Science em Nuvem
# Este exemplo não requer computação em nuvem, pois os dados e as operações são pequenos o suficiente para serem realizados localmente.

# Modelagem de Dados
# Vamos utilizar um modelo de Fatoração de Matriz Não-Negativa (NMF) para fazer recomendações de filmes.

# Divisão dos dados em treino e teste
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

# Criando uma matriz de avaliações de usuários para itens
ratings_matrix = train_data.pivot(index='user_id', columns='movie_id', values='rating').fillna(0)

# Treinamento do modelo NMF
model = NMF(n_components=20, init='random', random_state=42)
W = model.fit_transform(ratings_matrix)
H = model.components_

# Função para fazer recomendações para um usuário
def recomendar(usuario):
    recomendacoes = np.argsort(H[:, usuario])[::-1][:5]
    return recomendacoes

# Avaliação do desempenho do modelo
recomendacoes = np.array([recomendar(usuario) for usuario in range(len(test_data))])
# Converter as recomendações para o formato esperado
recomendacoes_formatadas = np.array([[int(movie_id) for movie_id in usuario_recomendacoes] for usuario_recomendacoes in recomendacoes])

# Filtrar as avaliações dos filmes que foram recomendados
avaliacoes_recomendadas = test_data[test_data['movie_id'].isin(recomendacoes_formatadas.flatten())]

# Calcular o RMSE apenas se houver avaliações recomendadas suficientes
if len(avaliacoes_recomendadas) > 0:
    # Calcular o RMSE
    rmse = np.sqrt(mean_squared_error(avaliacoes_recomendadas['rating'], recomendacoes_formatadas.flatten()[:len(avaliacoes_recomendadas)]))
    print("RMSE (Erro Quadrático Médio):", rmse)
else:
    print("Não há avaliações de filmes recomendados para calcular o RMSE.")

# Interpretação dos Resultados
# O RMSE é uma medida do erro médio das recomendações do modelo em relação às avaliações reais dos filmes pelos usuários.
# Quanto menor o RMSE, melhor é o desempenho do modelo.

# Conclusão
# Este exemplo demonstra como usar técnicas de Data Science para recomendar filmes aos usuários com base em suas avaliações anteriores.
# O modelo NMF foi usado para fazer recomendações de filmes, e o desempenho do modelo foi avaliado usando RMSE.


Dados carregados com sucesso!
Amostra dos dados:
   user_id  movie_id  rating
0        1         1       5
1        1         2       4
2        1         3       0
3        1         4       0
4        2         1       4
RMSE (Erro Quadrático Médio): 6.020797289396148
