# Interações com matérias

In [3]:
import os
import glob
import pandas as pd

import numpy as np
from scipy.sparse import coo_matrix

In [4]:
# Carregar arquivo "interactions.csv"
df_interactions = pd.read_csv("../data/intermediary/interactions.csv")
df_interactions.head()

Unnamed: 0,userId,userType,itemId,timestamp,clicks,visits
0,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,80aa7bb2-adce-4a55-9711-912c407927a1,1657908085200,0,1
1,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,d9e5f15d-b441-4d8b-bee4-462b106d3916,1659634203762,0,1
2,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,19ba89fc-1e06-4c5d-9c57-4a3088dc0511,1657111508570,68,1
3,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,e273dba4-136c-45fb-bdd6-0cc57b13aaf0,1657481309920,12,1
4,528a8d7a2af73101da8d6709c1ec875b449a5a58749a99...,Non-Logged,59a61a8a-cc52-453f-b1cd-2bd019e9d574,1657823890328,55,1


In [5]:
# Carregar todos os arquivos "items" da pasta "../data/items" e junta-los em um único DataFrame
items = []
for file in glob.glob("../data/items/*.csv"):
    items.append(pd.read_csv(file))
df_items = pd.concat(items)

# Salvar o DataFrame em um arquivo "items.csv"
df_items.to_csv("../data/intermediary/items.csv", index=False)

df_items.head()

Unnamed: 0,page,url,issued,modified,title,body,caption
0,7371a9b5-5824-4c57-8704-00a74feebe79,http://g1.globo.com/al/alagoas/noticia/2018/09...,2018-09-13 14:52:55+00:00,2018-09-14 16:14:49+00:00,Corpo de motorista da Uber é encontrado em can...,Corpo de motorista de aplicativo desaparecido ...,"Segundo a polícia, Antônio Vitor foi solicitad..."
1,7a5ea08f-4583-49e2-ba52-a71999443f7b,http://g1.globo.com/am/amazonas/noticia/detent...,2018-05-20 20:42:40+00:00,2018-05-20 20:42:40+00:00,Detento recapturado após fuga por túnel volta ...,Detento disse que passou nome falso ao dar ent...,Ele tinha registro em presídio com nome falso....
2,6afc8bbb-4f36-43d5-8a44-a2917df5621a,http://g1.globo.com/ap/amapa/noticia/audios-mo...,2017-07-30 00:37:17+00:00,2017-07-30 00:48:42+00:00,Áudios mostram conversa entre bandidos durante...,Áudios mostram possível conversa entre bandido...,Revista realizada na sexta-feira (28) no Iapen...
3,5cc3bd27-80c7-457d-a807-2e8e7fddf031,http://g1.globo.com/ap/amapa/noticia/2020/11/0...,2020-11-06 12:54:00+00:00,2020-11-12 21:22:52+00:00,FOTOS: Apagão no Amapá,"Moradores da capital do Amapá, em Macapá, faze...",Incêndio em subestação de energia deixa 13 dos...
4,d6956177-db96-42f5-9f68-dd0d6e930661,http://g1.globo.com/ap/amapa/noticia/2019/05/2...,2019-05-27 13:43:03+00:00,2019-05-27 18:19:06+00:00,Profissionais da educação no AP paralisam ativ...,Profissionais da educação paralisam atividades...,Ato comprometeu aulas em escolas nesta segunda...


In [6]:
# Renomear coluna "page" para "itemId" para facilitar a junção dos DataFrames
df_items.rename(columns={"page": "itemId"}, inplace=True)
df_items.head()

Unnamed: 0,itemId,url,issued,modified,title,body,caption
0,7371a9b5-5824-4c57-8704-00a74feebe79,http://g1.globo.com/al/alagoas/noticia/2018/09...,2018-09-13 14:52:55+00:00,2018-09-14 16:14:49+00:00,Corpo de motorista da Uber é encontrado em can...,Corpo de motorista de aplicativo desaparecido ...,"Segundo a polícia, Antônio Vitor foi solicitad..."
1,7a5ea08f-4583-49e2-ba52-a71999443f7b,http://g1.globo.com/am/amazonas/noticia/detent...,2018-05-20 20:42:40+00:00,2018-05-20 20:42:40+00:00,Detento recapturado após fuga por túnel volta ...,Detento disse que passou nome falso ao dar ent...,Ele tinha registro em presídio com nome falso....
2,6afc8bbb-4f36-43d5-8a44-a2917df5621a,http://g1.globo.com/ap/amapa/noticia/audios-mo...,2017-07-30 00:37:17+00:00,2017-07-30 00:48:42+00:00,Áudios mostram conversa entre bandidos durante...,Áudios mostram possível conversa entre bandido...,Revista realizada na sexta-feira (28) no Iapen...
3,5cc3bd27-80c7-457d-a807-2e8e7fddf031,http://g1.globo.com/ap/amapa/noticia/2020/11/0...,2020-11-06 12:54:00+00:00,2020-11-12 21:22:52+00:00,FOTOS: Apagão no Amapá,"Moradores da capital do Amapá, em Macapá, faze...",Incêndio em subestação de energia deixa 13 dos...
4,d6956177-db96-42f5-9f68-dd0d6e930661,http://g1.globo.com/ap/amapa/noticia/2019/05/2...,2019-05-27 13:43:03+00:00,2019-05-27 18:19:06+00:00,Profissionais da educação no AP paralisam ativ...,Profissionais da educação paralisam atividades...,Ato comprometeu aulas em escolas nesta segunda...


In [7]:
# Merge entre os DataFrames "df_interactions" e "df_items" utilizando a coluna "itemId"
df = pd.merge(df_interactions, df_items, on="itemId", how="left")
df.head()

Unnamed: 0,userId,userType,itemId,timestamp,clicks,visits,url,issued,modified,title,body,caption
0,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,80aa7bb2-adce-4a55-9711-912c407927a1,1657908085200,0,1,http://g1.globo.com/politica/noticia/2022/08/0...,2022-08-03 21:32:51+00:00,2022-09-19 19:58:15+00:00,Câmara aprova projeto que acaba com saída temp...,A Câmara dos Deputados aprovou nesta quarta-fe...,Relator defende que 'saidinhas' causam 'sentim...
1,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,d9e5f15d-b441-4d8b-bee4-462b106d3916,1659634203762,0,1,http://g1.globo.com/sp/sao-paulo/noticia/2021/...,2021-11-06 20:35:20+00:00,2021-11-06 23:23:25+00:00,Primeiro dia do Parque Augusta em SP tem 'cach...,Cachorródromo na inauguração do Parque Augusta...,Local foi inaugurado pelo prefeito Ricardo Nun...
2,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,19ba89fc-1e06-4c5d-9c57-4a3088dc0511,1657111508570,68,1,http://g1.globo.com/rn/rio-grande-do-norte/not...,2022-07-09 14:15:29+00:00,2022-07-10 12:12:21+00:00,Jovem de 21 anos é morto e mãe é baleada duran...,"João Victor Queiroz Munai Dantas, de 21 anos, ...",Caso aconteceu na madrugada deste sábado (9) n...
3,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,e273dba4-136c-45fb-bdd6-0cc57b13aaf0,1657481309920,12,1,http://g1.globo.com/mundo/noticia/2022/06/04/j...,2022-06-04 11:12:43+00:00,2022-06-04 11:18:12+00:00,Jubileu da rainha Elizabeth 2ª: como Harry e M...,Meghan Markle e Harry na chega à missa oficial...,O duque e a duquesa de Sussex sentaram do lado...
4,528a8d7a2af73101da8d6709c1ec875b449a5a58749a99...,Non-Logged,59a61a8a-cc52-453f-b1cd-2bd019e9d574,1657823890328,55,1,http://g1.globo.com/pr/parana/noticia/2021/10/...,2021-10-20 11:17:14+00:00,2021-10-20 20:27:48+00:00,Taxa para emissão da 2ª via do RG pode ser pag...,Taxa para emissão do RG poderá ser paga por PI...,"Guia de pagamento, de R$ 38,30, é gerada logo ..."


In [8]:
# Tratar valores nulos
df['title'] = df['title'].fillna('Título Desconhecido')
df['body'] = df['body'].fillna('Body Desconhecido')

df.head()

Unnamed: 0,userId,userType,itemId,timestamp,clicks,visits,url,issued,modified,title,body,caption
0,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,80aa7bb2-adce-4a55-9711-912c407927a1,1657908085200,0,1,http://g1.globo.com/politica/noticia/2022/08/0...,2022-08-03 21:32:51+00:00,2022-09-19 19:58:15+00:00,Câmara aprova projeto que acaba com saída temp...,A Câmara dos Deputados aprovou nesta quarta-fe...,Relator defende que 'saidinhas' causam 'sentim...
1,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,d9e5f15d-b441-4d8b-bee4-462b106d3916,1659634203762,0,1,http://g1.globo.com/sp/sao-paulo/noticia/2021/...,2021-11-06 20:35:20+00:00,2021-11-06 23:23:25+00:00,Primeiro dia do Parque Augusta em SP tem 'cach...,Cachorródromo na inauguração do Parque Augusta...,Local foi inaugurado pelo prefeito Ricardo Nun...
2,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,19ba89fc-1e06-4c5d-9c57-4a3088dc0511,1657111508570,68,1,http://g1.globo.com/rn/rio-grande-do-norte/not...,2022-07-09 14:15:29+00:00,2022-07-10 12:12:21+00:00,Jovem de 21 anos é morto e mãe é baleada duran...,"João Victor Queiroz Munai Dantas, de 21 anos, ...",Caso aconteceu na madrugada deste sábado (9) n...
3,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,e273dba4-136c-45fb-bdd6-0cc57b13aaf0,1657481309920,12,1,http://g1.globo.com/mundo/noticia/2022/06/04/j...,2022-06-04 11:12:43+00:00,2022-06-04 11:18:12+00:00,Jubileu da rainha Elizabeth 2ª: como Harry e M...,Meghan Markle e Harry na chega à missa oficial...,O duque e a duquesa de Sussex sentaram do lado...
4,528a8d7a2af73101da8d6709c1ec875b449a5a58749a99...,Non-Logged,59a61a8a-cc52-453f-b1cd-2bd019e9d574,1657823890328,55,1,http://g1.globo.com/pr/parana/noticia/2021/10/...,2021-10-20 11:17:14+00:00,2021-10-20 20:27:48+00:00,Taxa para emissão da 2ª via do RG pode ser pag...,Taxa para emissão do RG poderá ser paga por PI...,"Guia de pagamento, de R$ 38,30, é gerada logo ..."


In [9]:
# Converter coluna "timestamp" para o tipo datetime
df['timestamp'] = pd.to_datetime(df['timestamp'], unit='ms')
df['timestamp'] = pd.to_datetime(df['timestamp']).dt.strftime('%d-%m-%Y %H:%M:%S')
df['issued'] = pd.to_datetime(df['issued'])
df['modified'] = pd.to_datetime(df['modified'])
df.head()

Unnamed: 0,userId,userType,itemId,timestamp,clicks,visits,url,issued,modified,title,body,caption
0,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,80aa7bb2-adce-4a55-9711-912c407927a1,15-07-2022 18:01:25,0,1,http://g1.globo.com/politica/noticia/2022/08/0...,2022-08-03 21:32:51+00:00,2022-09-19 19:58:15+00:00,Câmara aprova projeto que acaba com saída temp...,A Câmara dos Deputados aprovou nesta quarta-fe...,Relator defende que 'saidinhas' causam 'sentim...
1,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,d9e5f15d-b441-4d8b-bee4-462b106d3916,04-08-2022 17:30:03,0,1,http://g1.globo.com/sp/sao-paulo/noticia/2021/...,2021-11-06 20:35:20+00:00,2021-11-06 23:23:25+00:00,Primeiro dia do Parque Augusta em SP tem 'cach...,Cachorródromo na inauguração do Parque Augusta...,Local foi inaugurado pelo prefeito Ricardo Nun...
2,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,19ba89fc-1e06-4c5d-9c57-4a3088dc0511,06-07-2022 12:45:08,68,1,http://g1.globo.com/rn/rio-grande-do-norte/not...,2022-07-09 14:15:29+00:00,2022-07-10 12:12:21+00:00,Jovem de 21 anos é morto e mãe é baleada duran...,"João Victor Queiroz Munai Dantas, de 21 anos, ...",Caso aconteceu na madrugada deste sábado (9) n...
3,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,e273dba4-136c-45fb-bdd6-0cc57b13aaf0,10-07-2022 19:28:29,12,1,http://g1.globo.com/mundo/noticia/2022/06/04/j...,2022-06-04 11:12:43+00:00,2022-06-04 11:18:12+00:00,Jubileu da rainha Elizabeth 2ª: como Harry e M...,Meghan Markle e Harry na chega à missa oficial...,O duque e a duquesa de Sussex sentaram do lado...
4,528a8d7a2af73101da8d6709c1ec875b449a5a58749a99...,Non-Logged,59a61a8a-cc52-453f-b1cd-2bd019e9d574,14-07-2022 18:38:10,55,1,http://g1.globo.com/pr/parana/noticia/2021/10/...,2021-10-20 11:17:14+00:00,2021-10-20 20:27:48+00:00,Taxa para emissão da 2ª via do RG pode ser pag...,Taxa para emissão do RG poderá ser paga por PI...,"Guia de pagamento, de R$ 38,30, é gerada logo ..."


In [10]:
# Encontrar items cujo "timestamp" seja menor que "issued"
df_interaction_before_issued = df[df['timestamp'] < df['issued']]
df_interaction_before_issued.head()

Unnamed: 0,userId,userType,itemId,timestamp,clicks,visits,url,issued,modified,title,body,caption
0,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,80aa7bb2-adce-4a55-9711-912c407927a1,15-07-2022 18:01:25,0,1,http://g1.globo.com/politica/noticia/2022/08/0...,2022-08-03 21:32:51+00:00,2022-09-19 19:58:15+00:00,Câmara aprova projeto que acaba com saída temp...,A Câmara dos Deputados aprovou nesta quarta-fe...,Relator defende que 'saidinhas' causam 'sentim...
2,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,19ba89fc-1e06-4c5d-9c57-4a3088dc0511,06-07-2022 12:45:08,68,1,http://g1.globo.com/rn/rio-grande-do-norte/not...,2022-07-09 14:15:29+00:00,2022-07-10 12:12:21+00:00,Jovem de 21 anos é morto e mãe é baleada duran...,"João Victor Queiroz Munai Dantas, de 21 anos, ...",Caso aconteceu na madrugada deste sábado (9) n...
7,2dd18b58a634a4e77181a202cf152df6169dfb3e4230ef...,Non-Logged,037155f4-4db8-4f07-8d0a-3e559605b8ad,06-07-2022 07:18:08,0,1,http://g1.globo.com/fantastico/noticia/2022/07...,2022-07-04 02:08:02+00:00,2022-08-02 11:02:20+00:00,Luva de Pedreiro sobre a polêmica com o antigo...,"'Eu não quero mal dele', diz Luva de Pedreiro ...",Influenciador digital possui mais de 15 milhõe...
12,fb345f6ed8cbda76989ef0833b8fae3bd45fef79f29817...,Non-Logged,93627535-13eb-4e00-a44e-93dfd85ad64f,06-07-2022 16:27:29,0,1,http://g1.globo.com/tecnologia/quiz/sabe-tudo-...,2022-07-23 09:00:33+00:00,2022-07-23 09:00:33+00:00,Sabe tudo sobre o significado dos emojis? Faça...,Emojis podem ser interpretados de várias manei...,As carinhas usadas em mensagens na internet po...
17,ca1b94bdaa439fbf9804ec591c1f8751d8fd83f5815a37...,Non-Logged,7a19661e-9c1b-4bc0-837f-9eeba915916a,01-08-2022 16:41:44,12,1,http://g1.globo.com/loterias/noticia/2022/06/1...,2022-06-11 00:47:21+00:00,2022-06-11 00:47:21+00:00,"Lotofácil, concurso 2.544: 4 apostas acertam o...",Lotofácil\nFoto: Marcelo Brandt/g1\nQuatro apo...,Veja os números sorteados: 03 - 05 - 06 - 07 -...


In [62]:
df_interaction_before_issued.shape

(3865086, 12)

In [63]:
# Encontrar items cujo "timestamp" seja maior que "issued"
df_interaction_after_issued = df[df['timestamp'] >= df['issued']]
df_interaction_after_issued.head()

Unnamed: 0,userId,userType,itemId,timestamp,clicks,visits,url,issued,modified,title,body,caption
1,fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27...,Non-Logged,d9e5f15d-b441-4d8b-bee4-462b106d3916,04-08-2022 17:30:03,0,1,http://g1.globo.com/sp/sao-paulo/noticia/2021/...,2021-11-06 20:35:20+00:00,2021-11-06 23:23:25+00:00,Primeiro dia do Parque Augusta em SP tem 'cach...,Cachorródromo na inauguração do Parque Augusta...,Local foi inaugurado pelo prefeito Ricardo Nun...
3,17f1083e6079b0f28f7820a6803583d1c1b405c0718b11...,Non-Logged,e273dba4-136c-45fb-bdd6-0cc57b13aaf0,10-07-2022 19:28:29,12,1,http://g1.globo.com/mundo/noticia/2022/06/04/j...,2022-06-04 11:12:43+00:00,2022-06-04 11:18:12+00:00,Jubileu da rainha Elizabeth 2ª: como Harry e M...,Meghan Markle e Harry na chega à missa oficial...,O duque e a duquesa de Sussex sentaram do lado...
4,528a8d7a2af73101da8d6709c1ec875b449a5a58749a99...,Non-Logged,59a61a8a-cc52-453f-b1cd-2bd019e9d574,14-07-2022 18:38:10,55,1,http://g1.globo.com/pr/parana/noticia/2021/10/...,2021-10-20 11:17:14+00:00,2021-10-20 20:27:48+00:00,Taxa para emissão da 2ª via do RG pode ser pag...,Taxa para emissão do RG poderá ser paga por PI...,"Guia de pagamento, de R$ 38,30, é gerada logo ..."
5,528a8d7a2af73101da8d6709c1ec875b449a5a58749a99...,Non-Logged,a0562805-c7d1-4ffd-b622-87c50ae006f4,10-08-2022 14:24:04,9,1,http://g1.globo.com/go/goias/noticia/2022/07/1...,2022-07-14 14:28:35+00:00,2022-07-14 14:29:47+00:00,\nMais de 6 mil classificados em processo sele...,Mais de 6 mil classificados em processo selet...,Convocação é para cargo de recenseador do Cens...
6,2dd18b58a634a4e77181a202cf152df6169dfb3e4230ef...,Non-Logged,233f8238-2ce0-470f-a9d5-0e0ac530382a,04-07-2022 19:36:13,0,1,http://g1.globo.com/pop-arte/noticia/jim-carre...,2018-02-02 09:50:34+00:00,2018-02-02 09:50:35+00:00,Jim Carrey não será julgado pela morte da namo...,Jim Carrey carrega caixão da ex-namorada Cathr...,Ex-marido e mãe de Cathriona White haviam denu...


In [64]:
df_interaction_after_issued.shape

(4258865, 12)

In [9]:
df_interactions.shape

(8123951, 6)

# Treinar modelo usando o Implicit

### Mapear `userId` e `itemId` para índices

In [15]:
# Vamos usar "visits" como sinal de feedback
df_interactions['visits'] = df_interactions['visits'].fillna(0).astype(float)

# Coletar todos os usuários e itens
unique_users = df_interactions['userId'].unique()
unique_items = df_interactions['itemId'].unique()

# Criar dicionários: user -> index e item -> index
user_to_idx = {user_id: idx for idx, user_id in enumerate(unique_users)}
item_to_idx = {item_id: idx for idx, item_id in enumerate(unique_items)}

# Inverso, se quisermos recuperar IDs originais
idx_to_user = {v: k for k, v in user_to_idx.items()}
idx_to_item = {v: k for k, v in item_to_idx.items()}

### Montar a matriz esparsa

In [16]:
rows = []
cols = []
vals = []

for _, row in df_interactions.iterrows():
    u = user_to_idx[row['userId']]
    i = item_to_idx[row['itemId']]
    v = row['visits']  # feedback implícito (pode ser visits ou clicks)
    rows.append(u)
    cols.append(i)
    vals.append(v)

num_users = len(unique_users)
num_items = len(unique_items)

# Cria uma matriz esparsa no formato COO
user_item_matrix = coo_matrix((vals, (rows, cols)), shape=(num_users, num_items))

In [17]:
user_item_matrix

<COOrdinate sparse matrix of dtype 'float64'
	with 8123951 stored elements and shape (577942, 255603)>

### Treinando o modelo com Implicit

In [18]:
import implicit

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
# Converte a matriz para formato CSR (recomendado para o treino)
user_item_csr = user_item_matrix.tocsr()

# Cria o modelo
model = implicit.als.AlternatingLeastSquares(
    factors=50,        # número de fatores latentes
    regularization=0.01,
    iterations=15,
    random_state=42
)

# Treina o modelo
# Observe que para feedback implícito, a biblioteca implicit recomenda
# que a matriz de "confiança" seja = alpha * user_item_matrix.
# Mas como simplificação, podemos chamar 'model.fit' direto.
model.fit(user_item_csr)

100%|██████████| 15/15 [00:31<00:00,  2.11s/it]


In [None]:
def recomendar_para_usuario(model, user_item_csr, user_id, N=5):
    # Converte ID externo do usuário para índice interno
    if user_id not in user_to_idx:
        print(f"Usuário {user_id} não encontrado. Usar fallback...")
        return []

    user_idx = user_to_idx[user_id]

    # Extrair a linha correspondente ao usuário específico
    user_interactions = user_item_csr[user_idx]

    # O método recommend retorna pares (item_idx, score)
    # Precisamos passar a matriz de interações para calcular a filtragem de itens já consumidos
    recommended, scores = model.recommend(
        userid=user_idx,
        user_items=user_interactions,  # matriz do histórico do usuário
        N=N
    )

    # Converte índices internos de item para IDs originais
    recommended_items = [idx_to_item[i] for i in recommended]

    return recommended_items

user_id_exemplo = df_interactions['userId'].iloc[0]  # Pega primeiro userId do dataset, por exemplo

recs = recomendar_para_usuario(model, user_item_csr, user_id_exemplo, N=5)
print(f"Recomendações para o usuário {user_id_exemplo}: {recs}")

Recomendações para o usuário fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27288434101e7252ef57: ['f0a78e58-ec7e-494c-9462-fbd6446a9a89', 'd8e96969-c9d9-4c28-a9a8-403abc1e784a', 'bf257382-74fb-4392-ad6a-143240e39f81', 'b0803304-62b4-4428-a333-e9bf623c8a98', '8c246d2b-81bd-4c1f-b563-2c905675f984']
