In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/movie-recommendation-system/movies.csv
/kaggle/input/movie-recommendation-system/ratings.csv


In [2]:
from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt
import gc
from IPython.display import Markdown
import pickle
from scipy.sparse import csr_matrix
np.random.seed(3213)

# (An√°lise Complementar) Recomenda√ß√µes baseadas nas similaridades entre os usu√°rios
**Objetivo da Abordagem**
- *Essa t√©cnica utiliza a `Similaridade do Cosseno` para identificar quais usu√°rios tem os gostos mais parecidos. Com isso √© poss√≠vel recomendar filmes que usu√°rios parecidos gostaram, mas que ainda n√£o foram assistidos pelo usu√°rio em quest√£o.*
- *Isso permite gerar recomenda√ß√µes do tipo ***outros usu√°rios tamb√©m gostaram de‚Ä¶*** com baixo custo computacional, ou seja, apenas guardando os resultados em um aquivo ou um banco de dados, por exemplo.*

**Como Funciona**
- *Filtramos apenas filmes e usu√°rios muitas avalia√ß√µes atreladas. Assim teremos an√°lises com maior confiabilidade devido ao maior n√∫mero de amostras individuas, ao mesmo tempo que reduzimos drasticamente o custo computacional.*
- *Ap√≥s isso, extra√≠mos as avalia√ß√µes de cada usu√°rio, verificando a similaridade entre elas.*
- *Depois, para cada usu√°rio similar verificamos os filmes que eles mais gostaram.*
- *Quanto maior a nota atribu√≠da, maior a chance de usu√°rios parecidos tamb√©m gostarem.*
- > Essa abordagem entrega recomenda√ß√µes de alto valor com um custo computacional significativamente menor (ideal para ambientes em nuvem e/ou com recursos limitados).


In [3]:
ratings = pd.read_csv('/kaggle/input/movie-recommendation-system/ratings.csv', engine="pyarrow")
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,296,5.0,1147880044
1,1,306,3.5,1147868817
2,1,307,5.0,1147868828
3,1,665,5.0,1147878820
4,1,899,3.5,1147868510


In [4]:
movies = pd.read_csv("/kaggle/input/movie-recommendation-system/movies.csv", engine="pyarrow")
movies.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [5]:
ratings.dtypes

userId         int64
movieId        int64
rating       float64
timestamp      int64
dtype: object

In [6]:
ratings['userId'] = ratings['userId'].astype("int32")
ratings['movieId'] = ratings['movieId'].astype("int32")
ratings['rating'] = ratings['rating'].astype("float32")

# Essa coluna sem signific√¢ncia relevante tamb√©m pode comprometer computacionalmente nossas an√°lises por isso iremos remov√™-la
ratings.drop('timestamp', axis=1, inplace=True)
print(ratings.dtypes)

userId       int32
movieId      int32
rating     float32
dtype: object


In [7]:
# Filtrar usu√°rios e filmes com pelo menos n avalia√ß√£o
gc.collect()
df_before = len(ratings)
user_counts = ratings['userId'].value_counts()
movie_counts = ratings['movieId'].value_counts()
filtered_ratings = ratings[
    ratings['userId'].isin(user_counts[user_counts >= 150].index) &
    ratings['movieId'].isin(movie_counts[movie_counts >= 250].index)
]
df_after = len(filtered_ratings)
print("Tamanho do Dataset antes da filtragem: {:d}. Tamanho ap√≥s a filtragem: {:d}. Redu√ß√£o de {:d} registros".
     format(df_before, df_after, (df_before - df_after)))

Tamanho do Dataset antes da filtragem: 25000095. Tamanho ap√≥s a filtragem: 17023636. Redu√ß√£o de 7976459 registros


##### Motivos para a redu√ß√£o acima: 
1) A redu√ß√£o acima foi necess√°ria pois os recursos no ambiente do kaggle s√£o limitados e o desempenho poderia ser comprometido com uma matriz t√£o grande.
2) A matriz gerada seria muito grande e densa, comprometendo tamb√©m o desemp√©nho em um ambiente na nuvem com recursos ainda mais limitados.
3) Filtrando usu√°rios

In [8]:
filtered_ratings.head(5)

Unnamed: 0,userId,movieId,rating
70,2,1,3.5
71,2,62,0.5
72,2,110,5.0
73,2,150,4.0
74,2,151,4.5


In [9]:
gc.collect()
user_movie_matrix = filtered_ratings.pivot_table(index='userId',
                                                 aggfunc='mean', columns='movieId', values='rating').fillna(0)
gc.collect()
sparse_matrix = csr_matrix(user_movie_matrix)
gc.collect()
sparse_similarity = cosine_similarity(sparse_matrix, dense_output=False)

In [10]:
# Remove a similaridade entre um usu√°rio e ele mesmo
sparse_similarity.setdiag(0)
sparse_similarity.eliminate_zeros()

In [11]:
rows, cols, sims = [], [], []

for i in range(sparse_similarity.shape[0]):
    gc.collect()
    row = sparse_similarity.getrow(i)
    if row.nnz == 0:
        continue
    top_indices = row.data.argsort()[::-1][:3]  # top-3 maiores
    top_cols = row.indices[top_indices]
    top_sims = row.data[top_indices]
    
    rows.extend([i]*len(top_cols))
    cols.extend(top_cols)
    sims.extend(top_sims)

df_top3 = pd.DataFrame({
    "userId": rows,
    "similarUserId": cols,
    "similarity": sims
})

In [12]:
try:
    del user_movie_matrix, sparse_matrix
except:
    print("Objetos n√£o encontrados no ambiente")

In [13]:
df_top3.loc[df_top3['userId'].isin([12, 13])]

Unnamed: 0,userId,similarUserId,similarity
36,12,18029,0.728193
37,12,16870,0.712215
38,12,24170,0.660484
39,13,38933,0.65135
40,13,30543,0.637096
41,13,17252,0.617841


## üîç Interpreta√ß√£o
**A tabela acima mostra os usu√°rios mais semelhantes com base na `similaridade do cosseno`, uma m√©trica que compara o perfil de prefer√™ncias entre usu√°rios. Quanto mais pr√≥ximo de 1, maior a semelhan√ßa.**

1) *Na matriz acima o usu√°rio `12` √© mais parecido com o usu√°rio `18029` com uma similaridade de (0.72...), ou seja, quase 73%*
2) *J√° para usu√°rio `13` o usu√°rio mais similar √© o n√∫mero `38933` com uma similaridade de (0.65...) mais de 65%*

> ***Essa matriz √© √∫til para sistemas de `recomenda√ß√£o colaborativa`, pois permite sugerir itens com base nas prefer√™ncias de usu√°rios semelhantes.***

In [14]:
gc.collect()
similar_users = df_top3['similarUserId'].unique()
similar_user_ratings = filtered_ratings[filtered_ratings['userId'].isin(similar_users)]
similar_user_ratings.sort_values(by=["userId", "rating"], ascending=[True, False]).head(3)

Unnamed: 0,userId,movieId,rating
257,3,50,5.0
261,3,214,5.0
263,3,293,5.0


In [15]:
# Ordena por userId e rating decrescente
sorted_ratings = similar_user_ratings.sort_values(by=["userId", "rating"], ascending=[True, False])

# Agrupa por usu√°rio e pega os 3 primeiros de cada grupo
top3_by_user = sorted_ratings.groupby("userId").head(3).reset_index(drop=True)

# Exibe o resultado
print(top3_by_user)

       userId  movieId  rating
0           3       50     5.0
1           3      214     5.0
2           3      293     5.0
3           8       47     5.0
4           8       69     5.0
...       ...      ...     ...
16288   43917       32     5.0
16289   43917       36     5.0
16290   43918      861     5.0
16291   43918     1907     5.0
16292   43918     3000     5.0

[16293 rows x 3 columns]


In [16]:
movies

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
62418,209157,We (2018),Drama
62419,209159,Window of the Soul (2001),Documentary
62420,209163,Bad Poems (2018),Comedy|Drama
62421,209169,A Girl Thing (2001),(no genres listed)


In [17]:
# Filtra o registro dos usu√°rios 12 e 13
filtered = top3_by_user[top3_by_user['userId'].isin([12,13])]

# Pega o Id Dos filmes recomendados
movie_ids = filtered['movieId'].unique()

# Recupera os t√≠tulos recomendados
recommended_titles = movies[movies["movieId"].isin(movie_ids)]

recommended_titles

Unnamed: 0,movieId,title,genres
15,16,Casino (1995),Crime|Drama
49,50,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
174,176,Living in Oblivion (1995),Comedy
228,231,Dumb & Dumber (Dumb and Dumber) (1994),Adventure|Comedy
292,296,Pulp Fiction (1994),Comedy|Crime|Drama|Thriller
351,356,Forrest Gump (1994),Comedy|Drama|Romance|War


**Interpreta√ß√£o**
+ *Esta tabela mostra os filmes mais bem avaliados pelos usu√°rios.*
+ *Por exemplo, os filme `Casino`, `Usual Suspects` e `Living in Oblivion` receberam a avalia√ß√£o m√°xima (5.0) do usu√°rio 12, indicando que essas podem ser boas recomenda√ß√µes para usu√°rios com gostos similares.*
+ *J√° o usu√°rio 13 tem entre suas prefer√™ncias filmes como `Dumb e Dumber`, `Pulp Fiction` e `Forrest Gump`*
+ *Ou seja, esses s√£o os candidatos ideais para aparecer como ***‚Äúoutros usu√°rios tamb√©m gostaram de‚Ä¶‚Äù*** na interface do sistema.*

In [18]:
top3_by_user.to_parquet("top3_by_user.parquet", compression="snappy")

In [19]:
df_top3.to_parquet("user_similarity_top3.parquet", compression="snappy")

**Nesse ponto, j√° podemos recomendar filmes baseados em usu√°rios similares.**
**üé¨ Funciona assim**
1) **Um Id de usu√°rio √© escolhido.**
2) **A tabela de similaridade √© consultada para encontrar os usu√°rios mais similares ao usu√°rio atual.**
3) **Os filmes mais bem avaliados pelos usu√°rios similares s√£o recomendados para o usu√°rio atual.**
+ > Essa t√©cnica pode ser utilizada como uma `recomenda√ß√£o complementar` de modelos pr√©-treinados como SVD (√© necess√°rio um hardware mais robusto).
+ > Essa t√©cnica tamb√©m pode ser utilizada como `recomenda√ß√£o principal` em um sistema de recomenda√ß√£o, sendo ideal para ambientes com recursos limitados.

**Vantagens da Abordagem**
+ 	‚úÖ Muito mais leve que modelos baseados em vetores ou fatora√ß√£o (como SVD).
+ 	‚úÖ Ideal para ambientes com pouca mem√≥ria e CPU, como ambientes na nuvem com recursos limitados.
+ 	‚úÖ F√°cil de pr√©-computar e salvar em arquivos simples (CSV, JSON, parquet).
+ 	‚úÖ Permite enriquecer a interface com recomenda√ß√µes sociais (‚Äúoutros usu√°rios tamb√©m gostaram de‚Ä¶‚Äù).