# Instalação e Importação de Libs

Aqui vamos importar todos os pacotes necessários

In [110]:
import ast  # Importa o módulo 'ast' para trabalhar com árvores de sintaxe abstrata (análise e modificação de código Python).

import nltk  # Importa a biblioteca 'nltk' (Natural Language Toolkit) para processamento de linguagem natural.

import sklearn  # Importa a biblioteca 'sklearn' (scikit-learn), usada para tarefas de machine learning.

import numpy as np  # Importa a biblioteca 'numpy' como 'np', usada para operações matemáticas e manipulação de arrays.

import pandas as pd  # Importa a biblioteca 'pandas' como 'pd', usada para manipulação e análise de dados.

from nltk.stem.porter import PorterStemmer  # Importa o algoritmo 'PorterStemmer' da biblioteca 'nltk' para stemming de palavras.

from sklearn.feature_extraction.text import CountVectorizer  # Importa 'CountVectorizer' da 'sklearn' para converter texto em contagens de palavras.

from sklearn.metrics.pairwise import cosine_similarity  # Importa a função 'cosine_similarity' da 'sklearn' para calcular similaridade de cosseno entre vetores.

pd.options.mode.chained_assignment = None  # Desativa avisos de atribuição encadeada no pandas, prevenindo alertas sobre operações potencialmente perigosas.


# Dados

## Carregando e Compreendendo os Dados

Nessa parte lemos os arquivos na pasta 'dados' e armazenamos o conteúdo nos dataframes 'filmes' e 'elenco'.

- shape é usado para verificar quantas linhas e colunas existem nos DataFrames filmes e elenco.
- head() é usado para exibir uma amostra dos primeiros registros dos DataFrames, fornecendo uma visão rápida do conteúdo.

In [111]:
filmes = pd.read_csv("dados/dataset_filmes.csv")
elenco = pd.read_csv("dados/dataset_elenco.csv")

#Shape
filmes.shape


(4803, 20)

In [112]:
#Shape
elenco.shape

(4803, 4)

In [113]:
#Amostra dos Dados
filmes.head()

Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800
1,300000000,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...",http://disney.go.com/disneypictures/pirates/,285,"[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...",en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}, {""...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2007-05-19,961000000,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,6.9,4500
2,245000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.sonypictures.com/movies/spectre/,206647,"[{""id"": 470, ""name"": ""spy""}, {""id"": 818, ""name...",en,Spectre,A cryptic message from Bond’s past sends him o...,107.376788,"[{""name"": ""Columbia Pictures"", ""id"": 5}, {""nam...","[{""iso_3166_1"": ""GB"", ""name"": ""United Kingdom""...",2015-10-26,880674609,148.0,"[{""iso_639_1"": ""fr"", ""name"": ""Fran\u00e7ais""},...",Released,A Plan No One Escapes,Spectre,6.3,4466
3,250000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""nam...",http://www.thedarkknightrises.com/,49026,"[{""id"": 849, ""name"": ""dc comics""}, {""id"": 853,...",en,The Dark Knight Rises,Following the death of District Attorney Harve...,112.31295,"[{""name"": ""Legendary Pictures"", ""id"": 923}, {""...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2012-07-16,1084939099,165.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,The Legend Ends,The Dark Knight Rises,7.6,9106
4,260000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://movies.disney.com/john-carter,49529,"[{""id"": 818, ""name"": ""based on novel""}, {""id"":...",en,John Carter,"John Carter is a war-weary, former military ca...",43.926995,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}]","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2012-03-07,284139100,132.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"Lost in our world, found in another.",John Carter,6.1,2124


In [114]:
#Amostra dos Dados
elenco.head()

Unnamed: 0,movie_id,title,cast,crew
0,19995,Avatar,"[{""cast_id"": 242, ""character"": ""Jake Sully"", ""...","[{""credit_id"": ""52fe48009251416c750aca23"", ""de..."
1,285,Pirates of the Caribbean: At World's End,"[{""cast_id"": 4, ""character"": ""Captain Jack Spa...","[{""credit_id"": ""52fe4232c3a36847f800b579"", ""de..."
2,206647,Spectre,"[{""cast_id"": 1, ""character"": ""James Bond"", ""cr...","[{""credit_id"": ""54805967c3a36829b5002c41"", ""de..."
3,49026,The Dark Knight Rises,"[{""cast_id"": 2, ""character"": ""Bruce Wayne / Ba...","[{""credit_id"": ""52fe4781c3a36847f81398c3"", ""de..."
4,49529,John Carter,"[{""cast_id"": 5, ""character"": ""John Carter"", ""c...","[{""credit_id"": ""52fe479ac3a36847f813eaa3"", ""de..."


## Organização dos Dados de Texto

Nessa parte juntamos os dois dataframes através de uma coluna em comum, nesse caso a 'title'.

- Realizamos o merge
- Selecionamos apenas as colunas necessárias para o sistema de recomendação
- Checamos se há valores ausentes ou duplicados e tratamos isso.

In [115]:
filmes = filmes.merge(elenco, left_on='id', right_on='movie_id')
filmes.shape

(4803, 24)

In [116]:
#Pegar informação sobra nova tabela 'filmes'
filmes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4803 entries, 0 to 4802
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   budget                4803 non-null   int64  
 1   genres                4803 non-null   object 
 2   homepage              1712 non-null   object 
 3   id                    4803 non-null   int64  
 4   keywords              4803 non-null   object 
 5   original_language     4803 non-null   object 
 6   original_title        4803 non-null   object 
 7   overview              4800 non-null   object 
 8   popularity            4803 non-null   float64
 9   production_companies  4803 non-null   object 
 10  production_countries  4803 non-null   object 
 11  release_date          4802 non-null   object 
 12  revenue               4803 non-null   int64  
 13  runtime               4801 non-null   float64
 14  spoken_languages      4803 non-null   object 
 15  status               

In [117]:
# Verificar valores nulos em 'id' e 'movie_id'
filmes[['id', 'movie_id']].isnull().sum()

id          0
movie_id    0
dtype: int64

In [118]:
# Combinar 'id' e 'movie_id', mantendo valores não nulos
filmes['id'] = filmes['id'].combine_first(filmes['movie_id'])

# Remover a coluna 'movie_id'
filmes = filmes.drop(columns=['movie_id'])

In [119]:
# Verificar valores nulos em 'title_x' e 'title_y'
filmes[['title_x', 'title_y']].isnull().sum()

title_x    0
title_y    0
dtype: int64

In [120]:
# Combinar 'title_x' e 'title_y', mantendo valores não nulos
filmes['title'] = filmes['title_x'].combine_first(filmes['title_y'])

# Remover as colunas originais
filmes = filmes.drop(columns=['title_x', 'title_y'])

In [121]:
#Pegar informação sobra nova tabela 'filmes'
filmes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4803 entries, 0 to 4802
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   budget                4803 non-null   int64  
 1   genres                4803 non-null   object 
 2   homepage              1712 non-null   object 
 3   id                    4803 non-null   int64  
 4   keywords              4803 non-null   object 
 5   original_language     4803 non-null   object 
 6   original_title        4803 non-null   object 
 7   overview              4800 non-null   object 
 8   popularity            4803 non-null   float64
 9   production_companies  4803 non-null   object 
 10  production_countries  4803 non-null   object 
 11  release_date          4802 non-null   object 
 12  revenue               4803 non-null   int64  
 13  runtime               4801 non-null   float64
 14  spoken_languages      4803 non-null   object 
 15  status               

In [122]:
#Pegando apenas as colunas necessárias para o sistema de recomendação
filmes = filmes[['id', 'title', 'overview', 'genres', 'keywords', 'cast', 'crew']]

filmes.head()

Unnamed: 0,id,title,overview,genres,keywords,cast,crew
0,19995,Avatar,"In the 22nd century, a paraplegic Marine is di...","[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...","[{""cast_id"": 242, ""character"": ""Jake Sully"", ""...","[{""credit_id"": ""52fe48009251416c750aca23"", ""de..."
1,285,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...","[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...","[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...","[{""cast_id"": 4, ""character"": ""Captain Jack Spa...","[{""credit_id"": ""52fe4232c3a36847f800b579"", ""de..."
2,206647,Spectre,A cryptic message from Bond’s past sends him o...,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...","[{""id"": 470, ""name"": ""spy""}, {""id"": 818, ""name...","[{""cast_id"": 1, ""character"": ""James Bond"", ""cr...","[{""credit_id"": ""54805967c3a36829b5002c41"", ""de..."
3,49026,The Dark Knight Rises,Following the death of District Attorney Harve...,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""nam...","[{""id"": 849, ""name"": ""dc comics""}, {""id"": 853,...","[{""cast_id"": 2, ""character"": ""Bruce Wayne / Ba...","[{""credit_id"": ""52fe4781c3a36847f81398c3"", ""de..."
4,49529,John Carter,"John Carter is a war-weary, former military ca...","[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...","[{""id"": 818, ""name"": ""based on novel""}, {""id"":...","[{""cast_id"": 5, ""character"": ""John Carter"", ""c...","[{""credit_id"": ""52fe479ac3a36847f813eaa3"", ""de..."


In [123]:
# Checando valores ausentes
filmes.isnull().sum()

id          0
title       0
overview    3
genres      0
keywords    0
cast        0
crew        0
dtype: int64

In [124]:
# Removemos as 3 linhas com valores ausentes
filmes.dropna(inplace = True)

# Checando valores ausentes
filmes.isnull().sum()

id          0
title       0
overview    0
genres      0
keywords    0
cast        0
crew        0
dtype: int64

In [125]:
# Checando se há valores duplicados
filmes.duplicated().sum()

0

## Processamento de Texto com o Abstract Syntax Trees

Nessa parte usamos o 'ast' para ajustar as colunas com o que queremos (https://docs.python.org/3/library/ast.html). O módulo ast ajuda a descobrir programaticamente como é a gramática atual de um objeto, processando árvores da gramática de sintaxe abstrata.

- Ajustamos a coluna de gênero de filme. Nesta coluna precisamos apenas dos nomes e não dos ids.
- Ajustamos a coluna de keywords de filme. Nesta coluna precisamos apenas das palavras chaves.
- Ajustamos a coluna cast para termos até 5 atores na lista.
- Ajustamos a coluna crew para termos apenas o nome do diretor.

In [126]:
#Avaliando a lista de dicionários de strings das colunas
ast.literal_eval('[{"id": 28, "name": "Action"}, \
                   {"id": 12, "name": "Adventure"}, \
                   {"id": 14, "name": "Fantasy"}, \
                   {"id": 878, "name": "Science Fiction"}]')


# Função de conversão
# Este loop itera sobre os elementos de uma estrutura de dados. 
def converter(obj):
    L = []
    # Usamos ast.literal_eval(obj) para avaliar/converter a string obj em uma estrutura de dados Python. 
    for i in ast.literal_eval(obj):
        L.append(i['name'])
    return L

# Aplicamos então a função ao nosso dataframe, na coluna de gênero do filme
filmes['genres'] = filmes['genres'].apply(converter)

# Aplicamos então a função ao nosso dataframe, na coluna de keywords do filme
filmes['keywords'] = filmes['keywords'].apply(converter)

filmes.head()

Unnamed: 0,id,title,overview,genres,keywords,cast,crew
0,19995,Avatar,"In the 22nd century, a paraplegic Marine is di...","[Action, Adventure, Fantasy, Science Fiction]","[culture clash, future, space war, space colon...","[{""cast_id"": 242, ""character"": ""Jake Sully"", ""...","[{""credit_id"": ""52fe48009251416c750aca23"", ""de..."
1,285,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...","[Adventure, Fantasy, Action]","[ocean, drug abuse, exotic island, east india ...","[{""cast_id"": 4, ""character"": ""Captain Jack Spa...","[{""credit_id"": ""52fe4232c3a36847f800b579"", ""de..."
2,206647,Spectre,A cryptic message from Bond’s past sends him o...,"[Action, Adventure, Crime]","[spy, based on novel, secret agent, sequel, mi...","[{""cast_id"": 1, ""character"": ""James Bond"", ""cr...","[{""credit_id"": ""54805967c3a36829b5002c41"", ""de..."
3,49026,The Dark Knight Rises,Following the death of District Attorney Harve...,"[Action, Crime, Drama, Thriller]","[dc comics, crime fighter, terrorist, secret i...","[{""cast_id"": 2, ""character"": ""Bruce Wayne / Ba...","[{""credit_id"": ""52fe4781c3a36847f81398c3"", ""de..."
4,49529,John Carter,"John Carter is a war-weary, former military ca...","[Action, Adventure, Science Fiction]","[based on novel, mars, medallion, space travel...","[{""cast_id"": 5, ""character"": ""John Carter"", ""c...","[{""credit_id"": ""52fe479ac3a36847f813eaa3"", ""de..."


Abaixo vamos aplicar o ast à coluna de cast (elenco) para extrair sobre 5 membros do elenco.

In [127]:
# Função de conversão
def converterCast(obj):
    
    # Cria uma lista vazia chamada L para armazenar os nomes.
    L = []  
    
    # Inicializa um contador para controlar o número de elementos adicionados à lista.
    counter = 0
    
    # Usa ast.literal_eval para avaliar a string 'obj' e iterar sobre os elementos resultantes.
    for i in ast.literal_eval(obj):  
        
        # Verifica se o contador é diferente de 3.
        if counter != 5:  
            
            # Adiciona o valor da chave 'name' do dicionário atual à lista L.
            L.append(i['name'])  
            
            # Incrementa o contador.
            counter += 1  
        else:
            
            # Interrompe o loop se o contador chegar a 3.
            break  
    
    # Retorna a lista L com até 5 nomes.
    return L  

# Aplicamos então a função ao nosso dataframe, na coluna de cast (elenco) do filme
filmes['cast'] = filmes['cast'].apply(converterCast)


A função abaixo vai extrair o nome do diretor do filme.

In [128]:
# Função de conversão
def fetch_director(obj):
    
    # Cria uma lista vazia chamada L para armazenar o nome do diretor.
    L = []
    
    # Converte a string 'obj' em um objeto Python e itera sobre seus elementos.
    for i in ast.literal_eval(obj):
        
        # Verifica se o trabalho ('job') do elemento atual é 'Director'.
        if i['job'] == 'Director':
            
            # Adiciona o nome do diretor (valor da chave 'name') à lista L.
            L.append(i['name'])
            
            # Interrompe o loop após encontrar o primeiro diretor.
            break
            
    # Retorna a lista L, contendo o nome do diretor.
    return L

# Aplicamos então a função ao nosso dataframe, na coluna de crew (equipe) do filme
filmes['crew'] = filmes['crew'].apply(fetch_director)


filmes.head()

Unnamed: 0,id,title,overview,genres,keywords,cast,crew
0,19995,Avatar,"In the 22nd century, a paraplegic Marine is di...","[Action, Adventure, Fantasy, Science Fiction]","[culture clash, future, space war, space colon...","[Sam Worthington, Zoe Saldana, Sigourney Weave...",[James Cameron]
1,285,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...","[Adventure, Fantasy, Action]","[ocean, drug abuse, exotic island, east india ...","[Johnny Depp, Orlando Bloom, Keira Knightley, ...",[Gore Verbinski]
2,206647,Spectre,A cryptic message from Bond’s past sends him o...,"[Action, Adventure, Crime]","[spy, based on novel, secret agent, sequel, mi...","[Daniel Craig, Christoph Waltz, Léa Seydoux, R...",[Sam Mendes]
3,49026,The Dark Knight Rises,Following the death of District Attorney Harve...,"[Action, Crime, Drama, Thriller]","[dc comics, crime fighter, terrorist, secret i...","[Christian Bale, Michael Caine, Gary Oldman, A...",[Christopher Nolan]
4,49529,John Carter,"John Carter is a war-weary, former military ca...","[Action, Adventure, Science Fiction]","[based on novel, mars, medallion, space travel...","[Taylor Kitsch, Lynn Collins, Samantha Morton,...",[Andrew Stanton]


# Limpeza dos Dados de Texto

Nessa parte vamos remover todos os espaços das colunas:
- 'genres'
- 'keyword'
- 'cast'
- 'crew'
- 'overview' -> por conter texos com mais de uma palavra teremos que separar a string por espaço em branco

In [129]:
# Separamos a string da coluna overview por espaço em branco
filmes['overview'] = filmes['overview'].apply(lambda x:x.split())

# Replace de espaço por vazio (remove o espaço)
filmes['genres'] = filmes['genres'].apply(lambda x:[i.replace(" ","") for i in x])

# Replace de espaço por vazio (remove o espaço)
filmes['keywords'] = filmes['keywords'].apply(lambda x:[i.replace(" ","") for i in x])

# Replace de espaço por vazio (remove o espaço)
filmes['cast'] = filmes['cast'].apply(lambda x:[i.replace(" ","") for i in x])

# Replace de espaço por vazio (remove o espaço)
filmes['crew'] = filmes['crew'].apply(lambda x:[i.replace(" ","") for i in x])

filmes.head()

Unnamed: 0,id,title,overview,genres,keywords,cast,crew
0,19995,Avatar,"[In, the, 22nd, century,, a, paraplegic, Marin...","[Action, Adventure, Fantasy, ScienceFiction]","[cultureclash, future, spacewar, spacecolony, ...","[SamWorthington, ZoeSaldana, SigourneyWeaver, ...",[JamesCameron]
1,285,Pirates of the Caribbean: At World's End,"[Captain, Barbossa,, long, believed, to, be, d...","[Adventure, Fantasy, Action]","[ocean, drugabuse, exoticisland, eastindiatrad...","[JohnnyDepp, OrlandoBloom, KeiraKnightley, Ste...",[GoreVerbinski]
2,206647,Spectre,"[A, cryptic, message, from, Bond’s, past, send...","[Action, Adventure, Crime]","[spy, basedonnovel, secretagent, sequel, mi6, ...","[DanielCraig, ChristophWaltz, LéaSeydoux, Ralp...",[SamMendes]
3,49026,The Dark Knight Rises,"[Following, the, death, of, District, Attorney...","[Action, Crime, Drama, Thriller]","[dccomics, crimefighter, terrorist, secretiden...","[ChristianBale, MichaelCaine, GaryOldman, Anne...",[ChristopherNolan]
4,49529,John Carter,"[John, Carter, is, a, war-weary,, former, mili...","[Action, Adventure, ScienceFiction]","[basedonnovel, mars, medallion, spacetravel, p...","[TaylorKitsch, LynnCollins, SamanthaMorton, Wi...",[AndrewStanton]


# Preparando os Dados para Vetorização em outro Espaço Vetorial

Nessa parte criamos uma nova coluna e criamos um novo dataframe.

- Criamos uma coluna 'tags'
- Criamos um novo dataframe 'filmes_novos'
- Simplificamos o vetor
- Deixamos tudo em minusculo para evitar diferença de palavras maiúsculo/minúsculo

In [130]:
# Criamos a coluna de tags, nesse caso um vetor de strings com os valores das colunas
filmes['tags'] = filmes['overview'] + \
                        filmes['genres'] + \
                        filmes['keywords'] + \
                        filmes['cast'] + \
                        filmes['crew']

filmes.head()

Unnamed: 0,id,title,overview,genres,keywords,cast,crew,tags
0,19995,Avatar,"[In, the, 22nd, century,, a, paraplegic, Marin...","[Action, Adventure, Fantasy, ScienceFiction]","[cultureclash, future, spacewar, spacecolony, ...","[SamWorthington, ZoeSaldana, SigourneyWeaver, ...",[JamesCameron],"[In, the, 22nd, century,, a, paraplegic, Marin..."
1,285,Pirates of the Caribbean: At World's End,"[Captain, Barbossa,, long, believed, to, be, d...","[Adventure, Fantasy, Action]","[ocean, drugabuse, exoticisland, eastindiatrad...","[JohnnyDepp, OrlandoBloom, KeiraKnightley, Ste...",[GoreVerbinski],"[Captain, Barbossa,, long, believed, to, be, d..."
2,206647,Spectre,"[A, cryptic, message, from, Bond’s, past, send...","[Action, Adventure, Crime]","[spy, basedonnovel, secretagent, sequel, mi6, ...","[DanielCraig, ChristophWaltz, LéaSeydoux, Ralp...",[SamMendes],"[A, cryptic, message, from, Bond’s, past, send..."
3,49026,The Dark Knight Rises,"[Following, the, death, of, District, Attorney...","[Action, Crime, Drama, Thriller]","[dccomics, crimefighter, terrorist, secretiden...","[ChristianBale, MichaelCaine, GaryOldman, Anne...",[ChristopherNolan],"[Following, the, death, of, District, Attorney..."
4,49529,John Carter,"[John, Carter, is, a, war-weary,, former, mili...","[Action, Adventure, ScienceFiction]","[basedonnovel, mars, medallion, spacetravel, p...","[TaylorKitsch, LynnCollins, SamanthaMorton, Wi...",[AndrewStanton],"[John, Carter, is, a, war-weary,, former, mili..."


In [131]:
# Dataframe final
filmes_novos = filmes[['id', 'title', 'tags']]

filmes_novos.head(10)

Unnamed: 0,id,title,tags
0,19995,Avatar,"[In, the, 22nd, century,, a, paraplegic, Marin..."
1,285,Pirates of the Caribbean: At World's End,"[Captain, Barbossa,, long, believed, to, be, d..."
2,206647,Spectre,"[A, cryptic, message, from, Bond’s, past, send..."
3,49026,The Dark Knight Rises,"[Following, the, death, of, District, Attorney..."
4,49529,John Carter,"[John, Carter, is, a, war-weary,, former, mili..."
5,559,Spider-Man 3,"[The, seemingly, invincible, Spider-Man, goes,..."
6,38757,Tangled,"[When, the, kingdom's, most, wanted-and, most,..."
7,99861,Avengers: Age of Ultron,"[When, Tony, Stark, tries, to, jumpstart, a, d..."
8,767,Harry Potter and the Half-Blood Prince,"[As, Harry, begins, his, sixth, year, at, Hogw..."
9,209112,Batman v Superman: Dawn of Justice,"[Fearing, the, actions, of, a, god-like, Super..."


In [132]:
# Join das strings para simplificar o vetor
filmes_novos['tags'] = filmes_novos['tags'].apply(lambda x:" ".join(x))

# Coloca tudo em minúsculo para evitar diferença de palavras maiúsculo/minúsculo
filmes_novos['tags'] = filmes_novos['tags'].apply(lambda x:x.lower())

filmes_novos.head(10)

Unnamed: 0,id,title,tags
0,19995,Avatar,"in the 22nd century, a paraplegic marine is di..."
1,285,Pirates of the Caribbean: At World's End,"captain barbossa, long believed to be dead, ha..."
2,206647,Spectre,a cryptic message from bond’s past sends him o...
3,49026,The Dark Knight Rises,following the death of district attorney harve...
4,49529,John Carter,"john carter is a war-weary, former military ca..."
5,559,Spider-Man 3,the seemingly invincible spider-man goes up ag...
6,38757,Tangled,when the kingdom's most wanted-and most charmi...
7,99861,Avengers: Age of Ultron,when tony stark tries to jumpstart a dormant p...
8,767,Harry Potter and the Half-Blood Prince,"as harry begins his sixth year at hogwarts, he..."
9,209112,Batman v Superman: Dawn of Justice,fearing the actions of a god-like super hero l...


# Parse e Vetorização

Nessa parte fizemos um tratamento para reduzir as palavras, transformamos os textos em vetores numeicos e criamos vetores

In [133]:
# Criamos o parser
parser_ps = PorterStemmer()

# Função de stemming
def stem(text):
    
    # Cria uma lista vazia chamada y para armazenar as palavras após o stemming.
    y = []
    
    # Divide a string de entrada 'text' em palavras e itera sobre elas.
    for i in text.split():
        
        # Realiza o stemming na palavra atual 'i' e adiciona o resultado à lista y.
        y.append(parser_ps.stem(i))
    
    # Retorna as palavras processadas como uma string, unindo-as com espaços.
    return " ".join(y)

# Aplica a função à coluna de tags
filmes_novos['tags'] = filmes_novos['tags'].apply(stem)

# Cria o vetorizador com no máximo 5000 atributos
cv = CountVectorizer(max_features = 5000, stop_words = 'english')

# Cria os vetores para as tags
vectors = cv.fit_transform(filmes_novos['tags']).toarray()

# Para visualizar todas as colunas do array
np.set_printoptions(threshold = np.inf)

# Cálculo de Distância dos Vetores

In [134]:
# Calcula a similaridade entre os vetores calculando as distâncias entre eles
similaridades = cosine_similarity(vectors)

# Sistema de Recomedação

## Construindo o Sistema de Recomendação

In [135]:
# Função para o sistema de recomendação
def sistema_recomendacao(movie):
    
    # Obtém o índice do filme passado como argumento (o que o usuário assistiu)
    index = filmes_novos[filmes_novos['title'] == movie].index[0]
    
    # Verificamos então os filmes com vetores de menor distância para o filme passado como argumento
    distances = sorted(list(enumerate(similaridades[index])), reverse = True, key = lambda x: x[1])
    
    # E então consideramos os 5 filmes com menor distância, ou seja, maior similaridade
    for i in distances[1:6]:
        print(filmes_novos.iloc[i[0]].title)

## Área de execução do Sistema

In [136]:
sistema_recomendacao('The Lord of the Rings: The Two Towers')

The Lord of the Rings: The Return of the King
The Lord of the Rings: The Fellowship of the Ring
The Hobbit: The Desolation of Smaug
The Hobbit: The Battle of the Five Armies
The Hobbit: An Unexpected Journey


In [137]:
sistema_recomendacao('Harry Potter and the Order of the Phoenix')

Harry Potter and the Chamber of Secrets
Harry Potter and the Goblet of Fire
Harry Potter and the Philosopher's Stone
Harry Potter and the Half-Blood Prince
Harry Potter and the Prisoner of Azkaban


In [138]:
sistema_recomendacao('The Wolverine')

X2
Iron Man 2
X-Men Origins: Wolverine
X-Men
Superman Returns
