## 0.0 Pacotes e Bibliotecas

In [1]:
import ast
import nltk
import numpy  as np
import pandas as pd
from nltk.stem.porter                import PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise         import cosine_similarity
pd.options.mode.chained_assignment = None

### 0.1 Função Auxiliares

In [2]:
# Função de conversão e extração
def converter_extrair(obj):
    
    """
    O objetivo desta função é transformar um objeto em uma estrutura de dados
    Python utilizando o método literal_eval da biblioteca de processamento de 
    texto AST.
    
    Após essa conversão, e com o objeto convertido para uma estrutura de dados
    de lista e dicionário, extraímos o conteúdo necessário dessa lista e arma-
    zenamos em uma outra lista.
    
    Por fim, retornamos o valor.
    """
    
    # Definindo uma lista vazia para armazenar a extração
    L = list()
    
    # Execução do Loop para converter o objeto em uma estrutura Python e 
    # extrair o nome do gênero do filme
    for i in ast.literal_eval(obj):
        L.append(i["name"])
        
    # Retornando o Valor
    return L

# ======== Função de conversão e extração 3 atores principais ==============

def converter_extrair_3(obj):
    
    """
    O objetivo desta função é transformar um objeto em uma estrutura de dados
    Python utilizando o método literal_eval da biblioteca de processamento de 
    texto AST.
    
    Após essa conversão, e com o objeto convertido para uma estrutura de dados
    de lista e dicionário, extraímos o conteúdo necessário dessa lista e arma-
    zenamos em uma outra lista.
    
    Aqui, vamos extrair apenas os três elementos.
    
    Por fim, retornamos o valor.
    """
    # Definindo uma lista vazia para armazenar a extração
    extract_actors = list()
    
    # contador
    
    # Execução do Loop para converter o objeto em uma estrutura Python e 
    # extrair o nome dos 3 primeiros atores
    for i in ast.literal_eval(obj):

        extract_actors.append(i["name"])
        
    # Retornando o Valor
    return extract_actors

# ======== Função de conversão e extração diretor ==============


def conveter_extrair_diretor(obj):
    
    """
    O objetivo desta função é obter o nome do diretor. A estratégia aqui é,
    com o método literal_eval do pacote ast, processar o texto e converter um
    estrutura de dados Python.
    
    Após isso, utilizamos loops e os recursos de lista e dicionários para 
    extrair o nome do diretor e, por fim, retornar o valor tratado a coluna 
    original.
    """
    extract_director = list()
    
    # Acessando a lista de membros da equipe
    for crew in ast.literal_eval(obj):
        
        # Acessando a chave direto
        if crew['job'] == 'Director':
            
            # Extraindo o nome
            extract_director.append(crew['name'])
        else:
            pass
        
    return extract_director

# =================================== Função para Stemming ===================

# Criando o Parser. Instanciando o Stemmer
parser_ps = PorterStemmer()

# Função de Stemming
def stem(text):
    
    """
    O objetivo desta função é realizar o a redução das palavras aos seus radicais.
    Nesse caso, a função recebe o texto. É realizado o split por espaço para que 
    ocorra, de forma correta, a redução da palavra ao seu radical e, em seguida,
    é armazenada em uma lista e mesma é armazenada.
    """
    
    # Lista vazia para armazenar palavras após stemming
    words_stem = list()
    
    # bloco que realiza o stemming
    for word in text.split():
        
        # stemming
        words_stem.append(parser_ps.stem(word))
    
    # Retornando a lista de palavras stemmadas
    return " ".join(words_stem)

### 0.2 Load dos Dados

In [3]:
# Dataset de filmes
df_filmes = pd.read_csv('dados/dataset_filmes.csv')

# Dataset de Elenco
df_elencos = pd.read_csv('dados/dataset_elenco.csv')

# Dimensão dos Dados
print(f'Quantidade de Linhas: {df_filmes.shape[0]}; Quantidade de Colunas: {df_filmes.shape[1]}.')
# Amostra de filmes
df_filmes.sample(1)

Quantidade de Linhas: 4803; Quantidade de Colunas: 20.


Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
2723,0,"[{""id"": 18, ""name"": ""Drama""}, {""id"": 9648, ""na...",,25208,"[{""id"": 187056, ""name"": ""woman director""}]",en,The Caveman's Valentine,In this spine-tingling and visually stunning t...,4.722403,"[{""name"": ""Franchise Pictures"", ""id"": 1403}, {...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2001-01-19,0,105.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,,The Caveman's Valentine,6.0,27


In [4]:
# Dimensão dos Dados
print(f'Quantidade de Linhas: {df_elencos.shape[0]}; Quantidade de Colunas: {df_elencos.shape[1]}.')

# Amostra
df_elencos.sample(1)

Quantidade de Linhas: 4803; Quantidade de Colunas: 4.


Unnamed: 0,movie_id,title,cast,crew
282,36955,True Lies,"[{""cast_id"": 2, ""character"": ""Harry Tasker"", ""...","[{""credit_id"": ""52fe461d9251416c91049963"", ""de..."


## 1.0 Descrição dos Dados

**Dicionário de Dados: Filmes**

**budget:** Orçamento do filmes

**genres:** Gênero do filme

**homepage:** Página onde o filme se encontra

**id:** id do filme

**keywords:** palavras chave do filme

**original_language:** Idioma do filme

**original_title:** Título Original do filme

**overview:** Opiniões de pessoas que assistiram os filmes.

**popularity:** Métrica que mede a popularidade do filme

**production_companies:** Empresa que produziu o filme

**production_countries:** País em que o filme foi produzido

**release_date:** data de lançamento

**revenue:** faturmento do filme

**runtime:** tempo de duração do filme

**spoken_language:** idioma em que foi dublado

**status:** status do filme

**tagline:** slogan do filme

**title:** título do filme

**vote_average:** média de votos

**count_vote:** total de votos

**Dicionário de Dados: Elenco**

**movie id:** Id do filme

**title:** Título do filme

**cast:** Elenco do filme

**crew:** Equipe

## 2.0 Preparação dos Dados 

Para iniciar o tratamento e limpeza dos dados, vamos juntar todos os dados necessários e selecionar apenas os atributos que precisamos.

In [5]:
# Merge das Tabelas
df_completo_filmes = df_filmes.merge(df_elencos, on='title')

# Dimensionalidade dos Dados
print(f'Quantidade de Linhas: {df_completo_filmes.shape[0]}; Quantidade de Colunas: {df_completo_filmes.shape[1]}.')

# Detalhes das variáveis
df_completo_filmes.info()

Quantidade de Linhas: 4809; Quantidade de Colunas: 23.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4809 entries, 0 to 4808
Data columns (total 23 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   budget                4809 non-null   int64  
 1   genres                4809 non-null   object 
 2   homepage              1713 non-null   object 
 3   id                    4809 non-null   int64  
 4   keywords              4809 non-null   object 
 5   original_language     4809 non-null   object 
 6   original_title        4809 non-null   object 
 7   overview              4806 non-null   object 
 8   popularity            4809 non-null   float64
 9   production_companies  4809 non-null   object 
 10  production_countries  4809 non-null   object 
 11  release_date          4808 non-null   object 
 12  revenue               4809 non-null   int64  
 13  runtime               4807 non-null   float64
 14  spoken_languages 

**Colunas Relevantes para o Sistema de Recomendação**

In [6]:
# Filtrando as colunas
filtro = ['movie_id', 'title', 'overview', 
          'genres', 'keywords', 'cast', 'crew']

df_filter_filmes = df_completo_filmes[filtro].copy()

# Exibição dos dados
df_filter_filmes.head(1)

Unnamed: 0,movie_id,title,overview,genres,keywords,cast,crew
0,19995,Avatar,"In the 22nd century, a paraplegic Marine is di...","[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...","[{""cast_id"": 242, ""character"": ""Jake Sully"", ""...","[{""credit_id"": ""52fe48009251416c750aca23"", ""de..."


### 3.1 Tratamento dos Dados de Texto

**Volumetria dos Dados**

In [7]:
# Volumetria
print('Quantidade de Linhas: {}'.format(df_filter_filmes.shape[0]))
print('Quantidade de Colunas: {}'.format(df_filter_filmes.shape[1]))

Quantidade de Linhas: 4809
Quantidade de Colunas: 7


**Valores Ausentes**

In [8]:
# Verificando de quantidade de nulos por atributo
df_filter_filmes.isna().sum()

movie_id    0
title       0
overview    3
genres      0
keywords    0
cast        0
crew        0
dtype: int64

Como a quantidade de nulos é irrelevante, vamos eliminá-los.

In [9]:
# Deletando dados nulos
df_filter_filmes.dropna(inplace=True)

# Volumetria
print('Quantidade de Linhas: {}'.format(df_filter_filmes.shape[0]))
print('Quantidade de Colunas: {}'.format(df_filter_filmes.shape[1]))

Quantidade de Linhas: 4806
Quantidade de Colunas: 7


**Duplicidades**

In [10]:
# Verificação de dados duplicados
df_filter_filmes.duplicated().sum()

0

**Processamento de Texto com Abstract Syntax Trees - AST**

In [11]:
# Exibição dos dados
df_filter_filmes.head(2)

Unnamed: 0,movie_id,title,overview,genres,keywords,cast,crew
0,19995,Avatar,"In the 22nd century, a paraplegic Marine is di...","[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...","[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...","[{""cast_id"": 242, ""character"": ""Jake Sully"", ""...","[{""credit_id"": ""52fe48009251416c750aca23"", ""de..."
1,285,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...","[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...","[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...","[{""cast_id"": 4, ""character"": ""Captain Jack Spa...","[{""credit_id"": ""52fe4232c3a36847f800b579"", ""de..."


In [12]:
# Estrutura dos dados na coluna genres 
df_filter_filmes['genres'][0]

'[{"id": 28, "name": "Action"}, {"id": 12, "name": "Adventure"}, {"id": 14, "name": "Fantasy"}, {"id": 878, "name": "Science Fiction"}]'

Observe que na coluna 'genres' temos muitas informações, mas também temos muita sujeira. Nesse caso, de cada dicionário, precisamos extrair apenas o nome de cada gênero e o restante podemos dispensar.

Para isso, precisamos inicialmente conseguir identificar a parte da gramática atual de um objeto. 

Quando verificamos o tipo de dados que as colunas são, verificamos que a coluna genres é de tipo texto. Para iniciarmos a limpeza de dados e extrair apenas o que precisamos, é necessário transformar a string em uma estrutura de dados python para facilitar o nosso trabalho. O que permite essa detecção é o método literal_eval do pacote

In [13]:
# Testando a função
converter_extrair(df_filter_filmes['genres'][0])

['Action', 'Adventure', 'Fantasy', 'Science Fiction']

In [14]:
# Processamento de texto na coluna 'genres'
df_filter_filmes['genres'] = df_filter_filmes['genres'].apply(converter_extrair)

# Exibição do Resultado
df_filter_filmes['genres'].head(2)

0    [Action, Adventure, Fantasy, Science Fiction]
1                     [Adventure, Fantasy, Action]
Name: genres, dtype: object

In [15]:
# Processamento de texto na coluna 'keywords'
df_filter_filmes['keywords'] = df_filter_filmes['keywords'].apply(converter_extrair)

# Exibição do Resultado
df_filter_filmes['keywords'].head(2)

0    [culture clash, future, space war, space colon...
1    [ocean, drug abuse, exotic island, east india ...
Name: keywords, dtype: object

In [16]:
# Vamos agora iniciar o tratamento de dados da coluna 'cast'
ast.literal_eval(df_filter_filmes['cast'][0])

[{'cast_id': 242,
  'character': 'Jake Sully',
  'credit_id': '5602a8a7c3a3685532001c9a',
  'gender': 2,
  'id': 65731,
  'name': 'Sam Worthington',
  'order': 0},
 {'cast_id': 3,
  'character': 'Neytiri',
  'credit_id': '52fe48009251416c750ac9cb',
  'gender': 1,
  'id': 8691,
  'name': 'Zoe Saldana',
  'order': 1},
 {'cast_id': 25,
  'character': 'Dr. Grace Augustine',
  'credit_id': '52fe48009251416c750aca39',
  'gender': 1,
  'id': 10205,
  'name': 'Sigourney Weaver',
  'order': 2},
 {'cast_id': 4,
  'character': 'Col. Quaritch',
  'credit_id': '52fe48009251416c750ac9cf',
  'gender': 2,
  'id': 32747,
  'name': 'Stephen Lang',
  'order': 3},
 {'cast_id': 5,
  'character': 'Trudy Chacon',
  'credit_id': '52fe48009251416c750ac9d3',
  'gender': 1,
  'id': 17647,
  'name': 'Michelle Rodriguez',
  'order': 4},
 {'cast_id': 8,
  'character': 'Selfridge',
  'credit_id': '52fe48009251416c750ac9e1',
  'gender': 2,
  'id': 1771,
  'name': 'Giovanni Ribisi',
  'order': 5},
 {'cast_id': 7,
  'c

Observe que a lista de elenco de cada filme é gigantesca! Claramente, quando você escolhe um filme, você não leva em consideração todas as pessoas do elenco. Geralmente, estou supondo, levamos em consideração os três ou cinco primeiros atores/atrizes do elenco, pois eles são os mais relevantes. 

Assumindo que o dicionário da coluna 'cast' esteja ordenado dessa forma, vamos extrair apenas os 3 primeiros atores.

In [17]:
# Processamento de texto na coluna 'cast'
df_filter_filmes['cast'] =df_filter_filmes['cast'].apply(converter_extrair_3)

# Exibição do Resultado
df_filter_filmes['cast'].head(2)

0    [Sam Worthington, Zoe Saldana, Sigourney Weave...
1    [Johnny Depp, Orlando Bloom, Keira Knightley, ...
Name: cast, dtype: object

A equipe de um filme é composta por várias pessoas. São sonoplastas, maquiadores, estilista, roteirista, músicos, designer gráfico e etc. Essa lista pode ser infinita. Entretanto, quando vamos escolher um filme, dificilmente escolhemos pelo sonoplasta ou pelo maquiador. Nessa situação, o diretor é o principal peso na escolha de um filme. Sendo assim, da coluna 'crew', vamos extrair apenas o nome do diretor.

In [18]:
# Processamento de texto na coluna 'crew' e extração de informação
df_filter_filmes['crew'] = df_filter_filmes['crew'].apply(conveter_extrair_diretor)

# Exibição dos Resultados
df_filter_filmes['crew'].head(2)

0     [James Cameron]
1    [Gore Verbinski]
Name: crew, dtype: object

In [19]:
# Tratamento Final
df_filter_filmes.head()

Unnamed: 0,movie_id,title,overview,genres,keywords,cast,crew
0,19995,Avatar,"In the 22nd century, a paraplegic Marine is di...","[Action, Adventure, Fantasy, Science Fiction]","[culture clash, future, space war, space colon...","[Sam Worthington, Zoe Saldana, Sigourney Weave...",[James Cameron]
1,285,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...","[Adventure, Fantasy, Action]","[ocean, drug abuse, exotic island, east india ...","[Johnny Depp, Orlando Bloom, Keira Knightley, ...",[Gore Verbinski]
2,206647,Spectre,A cryptic message from Bond’s past sends him o...,"[Action, Adventure, Crime]","[spy, based on novel, secret agent, sequel, mi...","[Daniel Craig, Christoph Waltz, Léa Seydoux, R...",[Sam Mendes]
3,49026,The Dark Knight Rises,Following the death of District Attorney Harve...,"[Action, Crime, Drama, Thriller]","[dc comics, crime fighter, terrorist, secret i...","[Christian Bale, Michael Caine, Gary Oldman, A...",[Christopher Nolan]
4,49529,John Carter,"John Carter is a war-weary, former military ca...","[Action, Adventure, Science Fiction]","[based on novel, mars, medallion, space travel...","[Taylor Kitsch, Lynn Collins, Samantha Morton,...",[Andrew Stanton]


### 3.2 Limpeza dos Dados de Texto

In [20]:
# Limpeza da coluna 'overview'
df_filter_filmes['overview'] = df_filter_filmes['overview'].apply(lambda x: x.split())

# Removendo espaços desnecessários
df_filter_filmes['overview'] = df_filter_filmes['overview'].apply(lambda x: [i.replace(" ", "") for i in x])


# Limpeza da coluna 'genres'
# Removendo espaços desnecessários
df_filter_filmes['genres'] = df_filter_filmes['genres'].apply(lambda x: [i.replace(" ", "") for i in x])


# Limpeza 'keywords'
# Removendo espaços desnecessários
df_filter_filmes['keywords'] = df_filter_filmes['keywords'].apply(lambda x: [i.replace(" ", "") for i in x])


# Limpeza 'keywords'
# Removendo espaços desnecessários
df_filter_filmes['cast'] = df_filter_filmes['cast'].apply(lambda x: [i.replace(" ", "") for i in x])


# Limpeza 'keywords'
# Removendo espaços desnecessários
df_filter_filmes['crew'] = df_filter_filmes['crew'].apply(lambda x: [i.replace(" ", "") for i in x])

# Exibição do Resultado
df_filter_filmes.head()

Unnamed: 0,movie_id,title,overview,genres,keywords,cast,crew
0,19995,Avatar,"[In, the, 22nd, century,, a, paraplegic, Marin...","[Action, Adventure, Fantasy, ScienceFiction]","[cultureclash, future, spacewar, spacecolony, ...","[SamWorthington, ZoeSaldana, SigourneyWeaver, ...",[JamesCameron]
1,285,Pirates of the Caribbean: At World's End,"[Captain, Barbossa,, long, believed, to, be, d...","[Adventure, Fantasy, Action]","[ocean, drugabuse, exoticisland, eastindiatrad...","[JohnnyDepp, OrlandoBloom, KeiraKnightley, Ste...",[GoreVerbinski]
2,206647,Spectre,"[A, cryptic, message, from, Bond’s, past, send...","[Action, Adventure, Crime]","[spy, basedonnovel, secretagent, sequel, mi6, ...","[DanielCraig, ChristophWaltz, LéaSeydoux, Ralp...",[SamMendes]
3,49026,The Dark Knight Rises,"[Following, the, death, of, District, Attorney...","[Action, Crime, Drama, Thriller]","[dccomics, crimefighter, terrorist, secretiden...","[ChristianBale, MichaelCaine, GaryOldman, Anne...",[ChristopherNolan]
4,49529,John Carter,"[John, Carter, is, a, war-weary,, former, mili...","[Action, Adventure, ScienceFiction]","[basedonnovel, mars, medallion, spacetravel, p...","[TaylorKitsch, LynnCollins, SamanthaMorton, Wi...",[AndrewStanton]


### 3.3 Preparação dos Dados - Vetorização

In [21]:
# Criando a coluna tags
df_filter_filmes['tags'] = df_filter_filmes['overview'] + \
                           df_filter_filmes['genres']   + \
                           df_filter_filmes['keywords'] + \
                           df_filter_filmes['cast']     + \
                           df_filter_filmes['crew']   

# Exibição dos Dados
df_filter_filmes.head()

Unnamed: 0,movie_id,title,overview,genres,keywords,cast,crew,tags
0,19995,Avatar,"[In, the, 22nd, century,, a, paraplegic, Marin...","[Action, Adventure, Fantasy, ScienceFiction]","[cultureclash, future, spacewar, spacecolony, ...","[SamWorthington, ZoeSaldana, SigourneyWeaver, ...",[JamesCameron],"[In, the, 22nd, century,, a, paraplegic, Marin..."
1,285,Pirates of the Caribbean: At World's End,"[Captain, Barbossa,, long, believed, to, be, d...","[Adventure, Fantasy, Action]","[ocean, drugabuse, exoticisland, eastindiatrad...","[JohnnyDepp, OrlandoBloom, KeiraKnightley, Ste...",[GoreVerbinski],"[Captain, Barbossa,, long, believed, to, be, d..."
2,206647,Spectre,"[A, cryptic, message, from, Bond’s, past, send...","[Action, Adventure, Crime]","[spy, basedonnovel, secretagent, sequel, mi6, ...","[DanielCraig, ChristophWaltz, LéaSeydoux, Ralp...",[SamMendes],"[A, cryptic, message, from, Bond’s, past, send..."
3,49026,The Dark Knight Rises,"[Following, the, death, of, District, Attorney...","[Action, Crime, Drama, Thriller]","[dccomics, crimefighter, terrorist, secretiden...","[ChristianBale, MichaelCaine, GaryOldman, Anne...",[ChristopherNolan],"[Following, the, death, of, District, Attorney..."
4,49529,John Carter,"[John, Carter, is, a, war-weary,, former, mili...","[Action, Adventure, ScienceFiction]","[basedonnovel, mars, medallion, spacetravel, p...","[TaylorKitsch, LynnCollins, SamanthaMorton, Wi...",[AndrewStanton],"[John, Carter, is, a, war-weary,, former, mili..."


In [22]:
# Dataset final
df_final_filmes = df_filter_filmes[['movie_id', 'title', 'tags']].copy()

# A estratégia aqui foi concatenar as colunas que selecionamos e, a partir disso,
# armazená-las em uma coluna e, assim, realizar a vetorização dessa coluna.
# Esse é o método para que se consiga realizar uma vetorização mais eficiente.

# Exibição do resulta
df_final_filmes.head()

Unnamed: 0,movie_id,title,tags
0,19995,Avatar,"[In, the, 22nd, century,, a, paraplegic, Marin..."
1,285,Pirates of the Caribbean: At World's End,"[Captain, Barbossa,, long, believed, to, be, d..."
2,206647,Spectre,"[A, cryptic, message, from, Bond’s, past, send..."
3,49026,The Dark Knight Rises,"[Following, the, death, of, District, Attorney..."
4,49529,John Carter,"[John, Carter, is, a, war-weary,, former, mili..."


In [23]:
# Vamos remover os colchetes da coluna tags, juntar as palavras com espaços
df_final_filmes['tags'] = df_final_filmes['tags'].apply(lambda x: " ".join(x))

# Afim de evitar pequenos desvios de interpretação na vetorização. Vamos colocar todas
# as strings em minúsculo
df_final_filmes['tags'] = df_final_filmes['tags'].apply(lambda x: x.lower())

# Exibição
df_final_filmes.head()

Unnamed: 0,movie_id,title,tags
0,19995,Avatar,"in the 22nd century, a paraplegic marine is di..."
1,285,Pirates of the Caribbean: At World's End,"captain barbossa, long believed to be dead, ha..."
2,206647,Spectre,a cryptic message from bond’s past sends him o...
3,49026,The Dark Knight Rises,following the death of district attorney harve...
4,49529,John Carter,"john carter is a war-weary, former military ca..."


### 3.4 Parse e Vetorização

In [24]:
# Realizando o stem da coluna 
df_final_filmes['tags'] = df_final_filmes['tags'].apply(stem)

# Vetorizando a coluna com no máximo 5000 atributos
# Instanciando o método de vetorização
cv = CountVectorizer(max_features=5000,    # Máximo de atributos mais frequentes 
                     stop_words='english'  # Palavras que não agregam que devem ser removidas.(is, the, and, ...) 
                    )

# Aplicando a técnica
vectors = cv.fit_transform(df_final_filmes['tags']).toarray()

# Exibição da quantidade de features que alimentam a vetorização
print('Quantidade de Features: {}'.format(len(cv.get_feature_names_out())))
print('Tipo do Objeto: {}'.format(type(vectors)))

## 4.0 Sistema de Recomendação

### 4.1 Cálculo da Distância dos Vetores

In [26]:
# Calcula a distância entre os vetores calculando as distâncias entre eles
similaridades = cosine_similarity(vectors)

### 4.2 Sistema de Recomendação

In [None]:
# Função para o sistema de recomendação
def sistema_recomendacao(movie):
    
    """
    O objetivo desta função é realizar a recomendação de filmes. Obtemos o nome
    do filme assistido pelo usuário pelo parâmetro movie. Em seguida, obtemos o
    index desse filme no conjunto de dados df_final_filmes. 
    
    Obtido o index, passamos para o objeto similaridades, que contém o cálculo 
    de todas as distâncias para cada vetor em relação a todos os vetores do conjunto,
    e com isso conseguimos saber qual a distância de cada vetor em relação ao 
    vetor que está atrelado ao filme que inputamos na função.
    
    Organizamos a lista com as distâncias, sendo que essas distâncias são do menor
    para o maior e extraímos apenas os 5 primeiros. A função vai nos retornar os indexes
    dos filmes mais próximos e, para obter os nomes dos filmes, basta passarmos o esse 
    index para o nosso conjunto de dados df_final_filmes.
    """
    
    # Dado o parâmetro movie, filtramos o filme no dataset, para obter o index,
    # isto é, o posicionamento do filme, e consequentemente, o posicionamento do
    # vetor.
    index = df_final_filmes[df_final_filmes['title'] == movie].index[0]
    
    # Passamos o index para a classe similaridades, que contém o cálculo das 
    # distâncias de todos os vetores e, ela vai retornar a distância dos
    # vetores próximo ao vetor do indíce passado em ordem crescente.
    distances = sorted(list(enumerate(similaridades[index])), 
                       reverse=True, key=lambda x: x[1])
    
    # Extraindo as 5 primeiras distâncias
    for i in distances[1:6]:
        print(df_final_filmes.iloc[i[0]].title)


## 5.0 Sistema de Recomendação - Aplicação

In [36]:
sistema_recomendacao("The Chronicles of Narnia: Prince Caspian")

The Chronicles of Narnia: The Lion, the Witch and the Wardrobe
The Chronicles of Narnia: The Voyage of the Dawn Treader
The Croods
The Wizard of Oz
Inkheart


In [37]:
sistema_recomendacao("Spectre")

Skyfall
Quantum of Solace
Never Say Never Again
From Russia with Love
Safe Haven


In [38]:
sistema_recomendacao("John Carter")

Krrish
Riddick
The Other Side of Heaven
The Legend of Hercules
Get Carter
