#Filtragem Colaborativa
## Item-Item
A filtragem colaborativa item-item é uma abordagem para a construção de sistemas de recomendação baseados na similaridade entre os itens. A principal vantagem de usar a filtragem colaborativa item a item é que ela pode lidar bem com dados esparsos. Em um sistema de recomendação, é comum que os usuários classifiquem apenas uma pequena porcentagem dos itens, resultando em um conjunto de dados esparso onde a maioria das entradas é desconhecida ou zero. A filtragem colaborativa item a item pode fazer uso da similaridade entre itens para fazer recomendações para itens que um usuário não avaliou, mesmo quando os dados são escassos.

Outra vantagem da filtragem colaborativa item a item é que ela pode ser mais interpretável do que outros métodos, pois faz recomendações com base na similaridade entre os itens. Isso permite entender melhor por que um determinado item está sendo recomendado a um usuário.

Além disso, a filtragem colaborativa item-item é computacionalmente menos complexa do que a filtragem colaborativa usuário-usuário, o que a torna mais escalável para grandes conjuntos de dados.

Em resumo, a filtragem colaborativa item a item é uma maneira eficiente de lidar com dados esparsos e fazer recomendações interpretáveis ​​com base na similaridade do item

Esse código usa o método pivot_table da biblioteca Pandas para criar uma tabela dinâmica com os títulos dos filmes como índice e o user_id como as colunas, que representam as avaliações de cada usuário para cada filme. Em seguida, ele calcula a correlação entre cada par de filmes usando o método corr() com o parâmetro do método definido como 'pearson'. Depois disso, o código define o filme para o qual você deseja fazer uma recomendação e obtém os valores de correlação para o filme de destino. Em seguida, classifica os valores de correlação em ordem decrescente e obtém os 10 filmes mais semelhantes. Por fim, imprime as recomendações. É importante observar que este é apenas um exemplo e você deve ajustá-lo para corresponder à estrutura de seus dados e

In [None]:
import pandas as pd

In [None]:
movies = pd.read_csv("/content/drive/MyDrive/recomendacao/movies_small.csv")

In [None]:
ratings = pd.read_csv("/content/drive/MyDrive/recomendacao/ratings_small.csv")

In [None]:
filmes_ratings = list(ratings.movieId.unique())

In [None]:
movies = movies[movies["movieId"].isin(filmes_ratings)]

In [None]:
data = pd.merge(movies, ratings, on = "movieId")

In [None]:
data = data[["movieId", "title", "userId", "rating"]]

In [None]:
data.head()

Unnamed: 0,movieId,title,userId,rating
0,1,Toy Story (1995),1,4.0
1,1,Toy Story (1995),5,4.0
2,1,Toy Story (1995),7,4.5
3,1,Toy Story (1995),15,2.5
4,1,Toy Story (1995),17,4.5


In [None]:
# Criando uma tabela pivotada com os titulos dos filmes como index e os user_id como colunas
ratings_table = data.pivot_table(values='rating', index='movieId', columns='userId')

In [None]:
ratings_table

userId,1,2,3,4,5,6,7,8,9,10,...,601,602,603,604,605,606,607,608,609,610
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4.0,,,,4.0,,4.5,,,,...,4.0,,4.0,3.0,4.0,2.5,4.0,2.5,3.0,5.0
2,,,,,,4.0,,4.0,,,...,,4.0,,5.0,3.5,,,2.0,,
3,4.0,,,,,5.0,,,,,...,,,,,,,,2.0,,
4,,,,,,3.0,,,,,...,,,,,,,,,,
5,,,,,,5.0,,,,,...,,,,3.0,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
193581,,,,,,,,,,,...,,,,,,,,,,
193583,,,,,,,,,,,...,,,,,,,,,,
193585,,,,,,,,,,,...,,,,,,,,,,
193587,,,,,,,,,,,...,,,,,,,,,,


Em seguida, ele calcula a correlação entre cada par de filmes usando o método corr() com o parâmetro do método definido como 'pearson', o que gerará a matriz de correlação.

In [None]:
# Calcula a correlação entre cada par de filmes
correlation_matrix = ratings_table.corr(method='pearson')

Depois disso, o código define o filme para o qual você deseja fazer uma recomendação e obtém os valores de correlação para o filme de destino. Em seguida, classifica os valores de correlação em ordem decrescente e obtém os 10 filmes mais semelhantes.

In [None]:
correlation_matrix 

userId,1,2,3,4,5,6,7,8,9,10,...,601,602,603,604,605,606,607,608,609,610
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1.000000,,0.079819,0.207983,0.268749,-0.291636,-0.118773,0.469668,0.918559,-0.037987,...,9.157371e-02,-1.597727e-16,-0.061503,-0.407556,-0.164871,0.066378,0.174557,0.268070,-0.175412,-0.032086
2,,1.000000,,,,,-0.991241,,,0.037796,...,-3.873468e-01,,-1.000000,,,0.583333,,-0.125000,,0.623288
3,0.079819,,1.000000,,,,,,,,...,,,0.433200,,,-0.791334,-0.333333,-0.395092,,0.569562
4,0.207983,,,1.000000,-0.336525,0.148498,0.542861,0.117851,,0.485794,...,-2.221127e-01,3.966413e-01,0.090090,-0.080296,0.400124,0.144603,0.116518,-0.170501,-0.277350,-0.043786
5,0.268749,,,-0.336525,1.000000,0.043166,0.158114,0.028347,,-0.777714,...,2.719480e-16,1.533034e-01,0.234743,0.067791,-0.364156,0.244321,0.231080,-0.020546,0.384111,0.040582
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
606,0.066378,0.583333,-0.791334,0.144603,0.244321,-0.049192,0.137771,0.253582,0.572700,-0.382955,...,2.904896e-01,1.406134e-01,0.318473,0.682949,0.167062,1.000000,0.114191,0.240842,0.533002,0.389185
607,0.174557,,-0.333333,0.116518,0.231080,0.255639,0.402792,0.251280,,-0.241121,...,6.982411e-01,2.172105e-01,0.192787,0.035806,-0.299641,0.114191,1.000000,0.200814,0.190117,0.106605
608,0.268070,-0.125000,-0.395092,-0.170501,-0.020546,0.125428,0.008081,0.434423,0.336625,-0.571043,...,4.739665e-01,2.976461e-01,0.086423,0.053986,-0.075673,0.240842,0.200814,1.000000,0.488929,0.147606
609,-0.175412,,,-0.277350,0.384111,0.193649,0.420288,0.141860,,,...,1.000000e+00,1.885115e-01,0.343303,0.641624,-0.550000,0.533002,0.190117,0.488929,1.000000,-0.521773


In [None]:
# Define o filme no qual queremos fazer recomendação
movie = 10

In [None]:
# Toma as correlações com o filme alvo
correlation_values = correlation_matrix[movie]

In [None]:
correlation_values

userId
1     -0.037987
2      0.037796
3           NaN
4      0.485794
5     -0.777714
         ...   
606   -0.382955
607   -0.241121
608   -0.571043
609         NaN
610   -0.205081
Name: 10, Length: 610, dtype: float64

In [None]:
# Coloca os filmes mais correlacionados na frente
correlation_values = correlation_values.sort_values(ascending=False)

In [None]:
correlation_values

userId
574    1.0
478    1.0
179    1.0
384    1.0
56     1.0
      ... 
576    NaN
577    NaN
589    NaN
595    NaN
609    NaN
Name: 10, Length: 610, dtype: float64

In [None]:
# Pega os 10 filmes mais similares ao filme 10
top_10_movies = correlation_values.head(11).index[1:]

In [None]:
movies[movies["movieId"]==10]

Unnamed: 0,movieId,title,genres
9,10,GoldenEye (1995),Action|Adventure|Thriller


In [None]:
# Print the recommendations
print(f'Recomenda filmes para {movie}: {top_10_movies}')

Recomenda filmes para 10: Int64Index([478, 179, 384, 56, 146, 192, 136, 568, 575, 315], dtype='int64', name='userId')


In [None]:
movies[movies["movieId"].isin([478, 179, 384, 56, 146, 192, 136, 568, 575, 315])]

Unnamed: 0,movieId,title,genres
119,146,"Amazing Panda Adventure, The (1995)",Adventure|Children
151,179,Mad Love (1995),Drama|Romance
274,315,"Specialist, The (1994)",Action|Drama|Thriller
341,384,Bad Company (1995),Action|Crime|Drama
416,478,Jimmy Hollywood (1994),Comedy|Crime|Drama
493,568,Bhaji on the Beach (1993),Comedy|Drama
497,575,"Little Rascals, The (1994)",Children|Comedy


É importante observar que este é apenas um exemplo e você deve ajustá-lo para corresponder à estrutura de seus dados e também o número de recomendações que deseja obter.