<a href="https://colab.research.google.com/github/giuliabugatti09/Movie-Recommendation-System/blob/main/Movie_Recommendation_System.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **📌 Sistema de Recomendação de Filmes/Livros**  

## **🔥 1. Descrição**  

Os sistemas de recomendação são amplamente utilizados por plataformas como **Netflix, Amazon e Spotify** para sugerir conteúdos personalizados aos usuários.

Esse projeto tem como objetivo desenvolver um sistema de recomendação de **filmes ou livros**, baseado em diferentes abordagens, como **filtragem colaborativa, filtragem baseada em conteúdo e modelos híbridos**.  

Os dados utilizados neste estudo são provenientes do conjunto de dados do **TMDb** (The Movie Database), uma das principais fontes globais de informações sobre filmes, incluindo elenco, equipe de produção, popularidade e outros atributos relevantes.

- *movie_id* : Identificador único de cada filme na base de dados.
- *title* : Título original do filme.
- *cast* : Lista de atores principais que participaram do filme.
- *crew* : Lista da equipe de produção do filme, incluindo diretores, roteiristas, produtores, entre outros.

---

## **🔥 2. Tecnologias Utilizadas**  
✅ **Python**  
✅ **Pandas, NumPy**  
✅ **Scikit-learn** (para modelos de recomendação)  
✅ **Natural Language Processing (NLP)**  
✅ **TensorFlow/PyTorch** (para abordagens mais avançadas)  
✅ **Streamlit/Flask** (para interface web, se aplicável)  

---

## **📊 3. Métodos de Recomendação**  

### 🔹 **Filtragem Baseada em Conteúdo**  
- Recomenda itens **semelhantes** aos que o usuário já gostou, com base em atributos como **gênero, descrição, palavras-chave e atores**.  
- Usa técnicas como **TF-IDF, similaridade do cosseno ou embeddings**.  

### 🔹 **Filtragem Colaborativa**  
- Analisa o **comportamento de outros usuários** com gostos semelhantes para sugerir novos conteúdos.  
- Algoritmos como **kNN, SVD e Matrix Factorization**.  

### 🔹 **Modelo Híbrido**  
- **Combina** os dois métodos para um desempenho mais robusto.  

---

## **🚀 4. O Que Esse Projeto Demonstra?**  
✔️ Aplicação de **Machine Learning** e **Data Science**  
✔️ Conhecimento em **NLP e embeddings**  
✔️ Manipulação e **análise de grandes volumes de dados**  
✔️ Implementação de **sistemas inteligentes e personalizados**  

---


## **🚀 5. Carregando dados**  



In [27]:
!pip install pandas openpyxl
from IPython.display import display
import pandas as pd
import numpy as np



### **5.1 Carregando e visualizando dados**  


In [None]:
# Links corretos para os arquivos CSV
credits_csv = "https://raw.githubusercontent.com/giuliabugatti09/Movie-Recommendation-System/main/tmdb_5000_credits.csv"
movies_url = "https://raw.githubusercontent.com/giuliabugatti09/Movie-Recommendation-System/main/tmdb_5000_movies.csv"

# Lendo os arquivos corretamente
credits = pd.read_csv(credits_csv, encoding='utf-8', on_bad_lines='skip')
movies = pd.read_csv(movies_url, encoding='utf-8')

# Visualizando as primeiras linhas em formato de tabela
print("Tabela Credits:")
display(credits.head()) #Mostra a tabela credits
print("\nTabela Movies:")
display(movies.head()) # Mostra a tabela movies

### **5.2 Visualizando tamanho do DataSet**  


In [None]:
print("Credits:",credits.shape)
print("Movies Dataframe:",movies.shape)

Credits: (4795, 4)
Movies Dataframe: (4803, 20)


### **5.3 Renomemando colunas**

In [29]:
credits_column_renamed = credits.rename(index=str, columns={"movie_id": "id"})
movies_merge = movies.merge(credits_column_renamed, on='id')
display(movies_merge.head())

Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,...,runtime,spoken_languages,status,tagline,title_x,vote_average,vote_count,title_y,cast,crew\t
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...",...,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800,Avatar,"[{""cast_id"": 242, ""character"": ""Jake Sully"", ""...","[{""credit_id"": ""52fe48009251416c750aca23"", ""de..."
1,300000000,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...",http://disney.go.com/disneypictures/pirates/,285,"[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...",en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}, {""...",...,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,6.9,4500,Pirates of the Caribbean: At World's End,"[{""cast_id"": 4, ""character"": ""Captain Jack Spa...","[{""credit_id"": ""52fe4232c3a36847f800b579"", ""de..."
2,245000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.sonypictures.com/movies/spectre/,206647,"[{""id"": 470, ""name"": ""spy""}, {""id"": 818, ""name...",en,Spectre,A cryptic message from Bond’s past sends him o...,107.376788,"[{""name"": ""Columbia Pictures"", ""id"": 5}, {""nam...",...,148.0,"[{""iso_639_1"": ""fr"", ""name"": ""Fran\u00e7ais""},...",Released,A Plan No One Escapes,Spectre,6.3,4466,Spectre,"[{""cast_id"": 1, ""character"": ""James Bond"", ""cr...","[{""credit_id"": ""54805967c3a36829b5002c41"", ""de..."
3,250000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""nam...",http://www.thedarkknightrises.com/,49026,"[{""id"": 849, ""name"": ""dc comics""}, {""id"": 853,...",en,The Dark Knight Rises,Following the death of District Attorney Harve...,112.31295,"[{""name"": ""Legendary Pictures"", ""id"": 923}, {""...",...,165.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,The Legend Ends,The Dark Knight Rises,7.6,9106,The Dark Knight Rises,"[{""cast_id"": 2, ""character"": ""Bruce Wayne / Ba...","[{""credit_id"": ""52fe4781c3a36847f81398c3"", ""de..."
4,260000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://movies.disney.com/john-carter,49529,"[{""id"": 818, ""name"": ""based on novel""}, {""id"":...",en,John Carter,"John Carter is a war-weary, former military ca...",43.926995,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}]",...,132.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"Lost in our world, found in another.",John Carter,6.1,2124,John Carter,"[{""cast_id"": 5, ""character"": ""John Carter"", ""c...","[{""credit_id"": ""52fe479ac3a36847f813eaa3"", ""de..."


## **6. Limpando os dados**

In [32]:
movies_cleaned = movies_merge.drop(columns=['homepage', 'title_x', 'title_y', 'status','production_countries'])

display(movies_cleaned.head())
display(movies_cleaned.info())
display(movies_cleaned.head(1)['overview'])


Unnamed: 0,budget,genres,id,keywords,original_language,original_title,overview,popularity,production_companies,release_date,revenue,runtime,spoken_languages,tagline,vote_average,vote_count,cast,crew\t
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Enter the World of Pandora.,7.2,11800,"[{""cast_id"": 242, ""character"": ""Jake Sully"", ""...","[{""credit_id"": ""52fe48009251416c750aca23"", ""de..."
1,300000000,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...",285,"[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...",en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}, {""...",2007-05-19,961000000,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]","At the end of the world, the adventure begins.",6.9,4500,"[{""cast_id"": 4, ""character"": ""Captain Jack Spa...","[{""credit_id"": ""52fe4232c3a36847f800b579"", ""de..."
2,245000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",206647,"[{""id"": 470, ""name"": ""spy""}, {""id"": 818, ""name...",en,Spectre,A cryptic message from Bond’s past sends him o...,107.376788,"[{""name"": ""Columbia Pictures"", ""id"": 5}, {""nam...",2015-10-26,880674609,148.0,"[{""iso_639_1"": ""fr"", ""name"": ""Fran\u00e7ais""},...",A Plan No One Escapes,6.3,4466,"[{""cast_id"": 1, ""character"": ""James Bond"", ""cr...","[{""credit_id"": ""54805967c3a36829b5002c41"", ""de..."
3,250000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""nam...",49026,"[{""id"": 849, ""name"": ""dc comics""}, {""id"": 853,...",en,The Dark Knight Rises,Following the death of District Attorney Harve...,112.31295,"[{""name"": ""Legendary Pictures"", ""id"": 923}, {""...",2012-07-16,1084939099,165.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",The Legend Ends,7.6,9106,"[{""cast_id"": 2, ""character"": ""Bruce Wayne / Ba...","[{""credit_id"": ""52fe4781c3a36847f81398c3"", ""de..."
4,260000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",49529,"[{""id"": 818, ""name"": ""based on novel""}, {""id"":...",en,John Carter,"John Carter is a war-weary, former military ca...",43.926995,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}]",2012-03-07,284139100,132.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]","Lost in our world, found in another.",6.1,2124,"[{""cast_id"": 5, ""character"": ""John Carter"", ""c...","[{""credit_id"": ""52fe479ac3a36847f813eaa3"", ""de..."


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4795 entries, 0 to 4794
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   budget                4795 non-null   int64  
 1   genres                4795 non-null   object 
 2   id                    4795 non-null   int64  
 3   keywords              4795 non-null   object 
 4   original_language     4795 non-null   object 
 5   original_title        4795 non-null   object 
 6   overview              4792 non-null   object 
 7   popularity            4795 non-null   float64
 8   production_companies  4795 non-null   object 
 9   release_date          4794 non-null   object 
 10  revenue               4795 non-null   int64  
 11  runtime               4793 non-null   float64
 12  spoken_languages      4795 non-null   object 
 13  tagline               3951 non-null   object 
 14  vote_average          4795 non-null   float64
 15  vote_count           

None

Unnamed: 0,overview
0,"In the 22nd century, a paraplegic Marine is di..."


## **7. Sistema de recomendação baseado em conteúdo**

Agora vamos fazer recomendações com base nos **resumos** do enredo do filme fornecidos na coluna de visão geral.

Portanto, se nosso usuário nos fornecer o título de um filme, nosso objetivo será **recomendar** filmes que compartilhem resumos de enredo semelhantes.

In [36]:
# fill in the np.nan values with empty string
movies_cleaned['overview'] = movies_cleaned['overview'].fillna('')

tfv = TfidfVectorizer(min_df=3,  max_features=None,
            strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}',
            ngram_range=(1, 3),
            stop_words = 'english')

# Fitting the TF-IDF on the 'overview' text
tfv_matrix = tfv.fit_transform(movies_cleaned['overview'])
print(tfv_matrix)
print(tfv_matrix.shape)

  (0, 146)	0.30911029245789606
  (0, 1510)	0.2011521227741935
  (0, 5646)	0.2610201841921773
  (0, 2628)	0.28187202463859373
  (0, 5960)	0.27470742304680185
  (0, 6531)	0.2958881065327588
  (0, 9701)	0.24432375585238747
  (0, 5895)	0.1804784981157966
  (0, 9378)	0.24141157089415421
  (0, 3573)	0.2178485511139833
  (0, 6435)	0.25664940447544116
  (0, 7042)	0.2686498387134565
  (0, 430)	0.2108125797971266
  (0, 1665)	0.27812666683259524
  (0, 147)	0.30911029245789606
  (1, 1404)	0.2532644401154845
  (1, 5386)	0.2177267249332225
  (1, 970)	0.319742771804221
  (1, 2313)	0.21887217206509482
  (1, 1801)	0.21073311275443551
  (1, 5252)	0.13330153600177838
  (1, 4196)	0.30798877417672393
  (1, 2865)	0.32320880809522073
  (1, 2841)	0.21587786417287214
  (1, 9593)	0.3354796075204093
  :	:
  (4794, 3229)	0.16235162160640887
  (4794, 6976)	0.1281488061872422
  (4794, 2747)	0.11412036901105956
  (4794, 8123)	0.12003249328618083
  (4794, 1248)	0.15169424486780872
  (4794, 3471)	0.14336407234445545
 

In [37]:
from sklearn.metrics.pairwise import sigmoid_kernel

# Compute the sigmoid kernel
sig = sigmoid_kernel(tfv_matrix, tfv_matrix)
print(sig[0])

[0.76163454 0.76159416 0.76159416 ... 0.76159416 0.76159416 0.76159416]


### **7.1 Mapeamento reverso de índices e títulos de filmes**

In [39]:
# Reverse mapping of indices and movie titles
indices = pd.Series(movies_cleaned.index, index=movies_cleaned['original_title']).drop_duplicates()
print(indices)
print(indices['Newlyweds'])

# Determine the valid range of indices by the shape of the matrix
max_index = sig.shape[0] -1
# Print the maximum index value
print(f"The maximum index is: {max_index}")
# Verify if the value is inside the matrix, if not, print the maximum value available
if max_index > 0:
    print(sig[max_index])
else:
    print(f"The matrix is empty or does not have valid indexes")

print(list(enumerate(sig[indices['Newlyweds']])))
print(sorted(list(enumerate(sig[indices['Newlyweds']])), key=lambda x: x[1], reverse=True))

original_title
Avatar                                         0
Pirates of the Caribbean: At World's End       1
Spectre                                        2
The Dark Knight Rises                          3
John Carter                                    4
                                            ... 
El Mariachi                                 4790
Newlyweds                                   4791
Signed, Sealed, Delivered                   4792
Shanghai Calling                            4793
My Date with Drew                           4794
Length: 4795, dtype: int64
4791
The maximum index is: 4794
[0.76159416 0.76159416 0.76159455 ... 0.76159473 0.76159462 0.76163454]
[(0, 0.7615941559557649), (1, 0.7615941559557649), (2, 0.7615943796278922), (3, 0.7615945575650105), (4, 0.7615945791843198), (5, 0.7615943258374955), (6, 0.7615948210331112), (7, 0.7615943473907839), (8, 0.7615943910375165), (9, 0.7615946898349643), (10, 0.7615941559557649), (11, 0.7615941559557649), (12, 0.76159

### **7.2 Função de recomendação**

In [40]:
def give_recomendations(title, sig=sig):
    # Get the index corresponding to original_title
    idx = indices[title]

    # Get the pairwsie similarity scores
    sig_scores = list(enumerate(sig[idx]))

    # Sort the movies
    sig_scores = sorted(sig_scores, key=lambda x: x[1], reverse=True)

    # Scores of the 10 most similar movies
    sig_scores = sig_scores[1:11]

    # Movie indices
    movie_indices = [i[0] for i in sig_scores]

    # Top 10 most similar movies
    return movies_cleaned['original_title'].iloc[movie_indices]

### **7.3 Testando nosso sistema de recomendação baseado em conteúdo com o filme seminal Avatar**

In [43]:
print(give_recomendations('Avatar'))

1333                Obitaemyy Ostrov
627                       The Matrix
3596                       Apollo 18
2122                    The American
767                        Supernova
522                 Tears of the Sun
149                          Beowulf
305     The Adventures of Pluto Nash
839                         Semi-Pro
934                 The Book of Life
Name: original_title, dtype: object


#  **🎯 8. Conclusão**

Os **sistemas de recomendação** desempenham um papel essencial na personalização da experiência do usuário, ajudando a filtrar o vasto volume de informações disponíveis e sugerindo conteúdos relevantes. Neste projeto, exploramos diferentes abordagens, como **filtragem baseada em conteúdo, filtragem colaborativa e modelos híbridos**, aplicando **técnicas de Machine Learning e NLP** para melhorar a precisão das recomendações.  

Além disso, utilizamos **Python, bibliotecas de ciência de dados e frameworks de IA** para processar e analisar grandes volumes de dados, demonstrando a aplicação prática dessas tecnologias no desenvolvimento de soluções inteligentes.  

Com esse projeto, conseguimos compreender melhor os desafios e vantagens dos sistemas de recomendação, além de desenvolver um modelo que pode ser aprimorado e adaptado para diversas aplicações reais. 🚀🎬📚