### Prática
##### ✦ Dataset: movies
##### ✦ Encontrar possíveis recomendações de filmes a partir do agrupamento de gêneros.
##### ✦ Fragmento do DataSet

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer  
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
df = pd.read_csv('movies.csv')

In [3]:
df.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [4]:
# Pré-processar a coluna de gêneros
df['genres'] = df['genres'].str.split('|')

# Criar um CountVectorizer para transformar a lista de gêneros em uma matriz binária
vectorizer = CountVectorizer(tokenizer=lambda x: x, lowercase=False)
genre_matrix = vectorizer.fit_transform(df['genres'])

# Calcular a similaridade entre os filmes com base nos gêneros
similarity_matrix = cosine_similarity(genre_matrix)

# Função para recomendar filmes baseados em um filme
def recomendar_filmes(movie_id, top_n=5):
    # Encontrar o índice do filme no dataframe
    idx = df[df['movieId'] == movie_id].index[0]
    
    # Obter as similaridades do filme selecionado com todos os outros filmes
    similarity_scores = list(enumerate(similarity_matrix[idx]))
    
    # Ordenar os filmes pela similaridade em ordem decrescente
    similarity_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)
    
    # Obter os filmes mais semelhantes
    recommended_movies = [df['title'].iloc[i[0]] for i in similarity_scores[1:top_n+1]]
    
    return recommended_movies

# Exemplo: recomendar filmes para o filme com movieId = 1
movie_id = 1
recomendacoes = recomendar_filmes(movie_id)
print(recomendacoes)



['Antz (1998)', 'Toy Story 2 (1999)', 'Adventures of Rocky and Bullwinkle, The (2000)', "Emperor's New Groove, The (2000)", 'Monsters, Inc. (2001)']
