### Instalação e importação das bibliotecas

In [122]:
pip install scikit-learn nltk


Note: you may need to restart the kernel to use updated packages.


In [123]:
import nltk
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
import re


### Definição de stopwords



In [124]:
nltk.download('stopwords')
stop_words = stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Dataset

In [125]:
filmes = {
    "Matrix": {
        "Gêneros": ["Ação", "Ficção"],
        "Diretor": "Lana Wachowski",
        "Resumo": "O jovem programador Thomas Anderson é atormentado por estranhos pesadelos em que está sempre conectado por cabos a um imenso sistema de computadores do futuro."
    },
    "Titanic": {
        "Gêneros": ["Drama"],
        "Diretor": "James Cameron",
        "Resumo": "Um artista pobre e uma jovem rica se conhecem e se apaixonam na fatídica viagem inaugural do Titanic em 1912. Embora esteja noiva do arrogante herdeiro de uma siderúrgica, a jovem desafia sua família e amigos em busca do verdadeiro amor."
    },
    "Top Gun": {
        "Gêneros": ["Ação", "Comédia"],
        "Diretores": ["Tony Scott", "Joseph Kosinski"],
        "Resumo": "Top Gun retrata a vida do Capitão da Marinha norte-americana que tem como objetivo treinar jovens pilotos para uma missão que é mortal e envolve muito sacrifício, trabalho em equipe e resiliência. O filme é repleto de efeitos visuais e de voos cheios de acrobacias aéreas realizadas no F-18, da Marinha dos EUA."
    },
    "Se beber não case": {
        "Gêneros": ["Comédia"],
        "Diretor": "Todd Phillips",
        "Resumo": "Doug Billings está prestes a se casar. Stu Price é um dentista que planeja pedir a namorada em casamento. Phil Wenneck é um professor colegial entediado com o matrimônio. Alan Garner é seu cunhado, que não tem qualquer responsabilidade e gosta de se embebedar. Juntos, eles viajam para Las Vegas para uma despedida de solteiro."
    },
    "A procura da felicidade":{
        "Gêneros": ["Drama"],
        "Diretor": "Gabriele Muccino",
        "Resumo": "Chris Gardner é um pai de família que enfrenta sérios problemas financeiros. Apesar de todas as tentativas em manter a família unida, Linda, sua esposa, decide partir. Chris agora é pai solteiro e precisa cuidar de Christopher, seu filho de apenas 5 anos. Ele tenta usar sua habilidade como vendedor para conseguir um emprego melhor, mas não consegue vaga em nenhuma empresa."
    }
}

# filmes = {
#     "Matrix": {
#         "Gêneros": ["Ação", "Ficção Científica", "Cyberpunk"],
#         "Diretor": ["Lana Wachowski", "Lilly Wachowski"],
#         "Resumo": "Um hacker descobre que o mundo em que vive é uma simulação e luta contra uma inteligência artificial opressora."
#     },
#     "Titanic": {
#         "Gêneros": ["Drama", "Romance", "Histórico"],
#         "Diretor": ["James Cameron"],
#         "Resumo": "Um romance proibido se desenrola durante a fatídica viagem do Titanic, desafiando convenções sociais e diferenças de classe."
#     },
#     "Top Gun": {
#         "Gêneros": ["Ação", "Aventura", "Drama Militar"],
#         "Diretores": ["Tony Scott", "Joseph Kosinski"],
#         "Resumo": "Pilotos da Marinha dos EUA enfrentam desafios mortais e testam suas habilidades em uma missão perigosa."
#     },
#     "Se beber não case": {
#         "Gêneros": ["Comédia", "Aventura"],
#         "Diretor": ["Todd Phillips"],
#         "Resumo": "Quatro amigos viajam a Las Vegas para uma despedida de solteiro e acordam sem memória da noite anterior, tentando juntar as peças de sua noite caótica."
#     },
#     "A procura da felicidade": {
#         "Gêneros": ["Drama", "Biográfico", "Motivacional"],
#         "Diretor": ["Gabriele Muccino"],
#         "Resumo": "Um pai solteiro luta para sobreviver financeiramente e criar seu filho, enquanto tenta alcançar uma vida melhor."
#     }
# }




### Construção BoW

In [126]:
def remover_pontuacao(texto):
    texto = re.sub(r'[^\w\s]', '', texto)
    texto = re.sub(r'\d+', '', texto)
    return texto



In [127]:
def combinar_dados(filmes):
    texto = []
    titulos = []

    for titulo, atributos in filmes.items():
        generos = " ".join(atributos.get("Gêneros", []))
        diretor = " ".join(atributos.get("Diretores", atributos.get("Diretor", "")))
        resumo = atributos.get("Resumo", "")

        generos = remover_pontuacao(generos)
        diretor = remover_pontuacao(diretor)
        resumo = remover_pontuacao(resumo)

        combinado = f"{generos} {diretor} {resumo}"
        texto.append(combinado)
        titulos.append(titulo)

    return texto, titulos

dados_combinados, titulos = combinar_dados(filmes)



###  Vetorização

In [128]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer


vectorizer = TfidfVectorizer(lowercase=True, stop_words=stop_words)

X = vectorizer.fit_transform(dados_combinados)

# vectorizer = CountVectorizer(lowercase=True, stop_words=stop_words)

# X = vectorizer.fit_transform(dados_combinados)

# print("Corpus")   
# print(vectorizer.get_feature_names_out())

# vetorização
print("\nMatriz Bag of Words:")
print(X.toarray())


Matriz Bag of Words:
[[0.         0.         0.         0.         0.         0.25563969
  0.         0.         0.         0.         0.         0.
  0.25563969 0.20624849 0.         0.         0.         0.25563969
  0.         0.         0.         0.         0.         0.
  0.         0.25563969 0.         0.25563969 0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.25563969 0.         0.         0.         0.25563969
  0.         0.         0.         0.25563969 0.         0.
  0.         0.         0.         0.         0.25563969 0.
  0.         0.20624849 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.25563969 0.         0.
  0.         0.         0.         0.         0.      

### Cálculo da similaridade

In [129]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

similaridade = cosine_similarity(X)

similaridade_df = pd.DataFrame(similaridade, index=titulos, columns=titulos)
print(similaridade_df)
11

                           Matrix   Titanic   Top Gun  Se beber não case  \
Matrix                   1.000000  0.069537  0.027618           0.000000   
Titanic                  0.069537  1.000000  0.000000           0.000000   
Top Gun                  0.027618  0.000000  1.000000           0.019626   
Se beber não case        0.000000  0.000000  0.019626           1.000000   
A procura da felicidade  0.000000  0.061577  0.000000           0.017846   

                         A procura da felicidade  
Matrix                                  0.000000  
Titanic                                 0.061577  
Top Gun                                 0.000000  
Se beber não case                       0.017846  
A procura da felicidade                 1.000000  


11

### Recomendação

In [130]:
def recomendar(filme_titulo, similaridade_matrix, titulos, top_n=2):
    idx = titulos.index(filme_titulo)

    similaridades = list(enumerate(similaridade_matrix[idx]))

    similaridades = sorted(similaridades, key=lambda x: x[1], reverse=True)[1:top_n+1]

    recomendacoes = [titulos[i[0]] for i in similaridades]
    return recomendacoes

recomendacoes = recomendar("Matrix", similaridade, titulos)
print(f"Recomendações para 'Matrix': {recomendacoes}")


Recomendações para 'Matrix': ['Titanic', 'Top Gun']
