In [6]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# Modelo de Similaridade de Cosseno com Word Embeddings:
# Carregar o DataFrame com os dados dos filmes
df = pd.read_csv('dados.csv')

# Carregar modelo de stop words do NLTK
nltk.download('stopwords')
nltk.download('punkt')

# Carregar stopwords e definir stopwords para inglês
stop_words = set(stopwords.words('english'))

# Pré-processamento de texto para sinopses
def preprocess_text(text):
    # Tokenização
    tokens = word_tokenize(text)
    # Remover stop words e palavras com menos de 3 caracteres
    tokens = [word.lower() for word in tokens if word.isalpha() and word.lower() not in stop_words and len(word) > 2]
    return ' '.join(tokens)

# Aplicar pré-processamento às sinopses
df['sinopse_processada'] = df['Sinopse'].apply(preprocess_text)

# Criar um vetorizador TF-IDF para converter o texto da sinopse em recursos numéricos
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(df['sinopse_processada'])

# Solicitar entrada do usuário
entrada_usuario = input("Digite suas preferências de filme: ")

# Pré-processar a entrada do usuário
entrada_usuario_processada = preprocess_text(entrada_usuario)

# Vetorizar a entrada do usuário
entrada_usuario_vector = vectorizer.transform([entrada_usuario_processada])

# Calcular similaridade de cosseno entre a entrada do usuário e as sinopses
similaridades = cosine_similarity(entrada_usuario_vector, X)

# Encontrar o filme mais similar
indice_filme_similar = similaridades.argmax()
filme_recomendado = df.loc[indice_filme_similar, 'Titulo']
print("Filme recomendado para você:", filme_recomendado)


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\arthu\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\arthu\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Digite suas preferências de filme:  guns


Filme recomendado para você: Rainbow Time
