In [30]:
import pandas as pd
import os
import glob
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse import hstack
import scipy.sparse
import numpy as np
import re


In [3]:

# Caminho relativo ao notebook atual
file_path_itens = "../data/preprocessed/itens/dados_preprocessados.csv"

# Carregar o CSV para um DataFrame
df_itens = pd.read_csv(file_path_itens)

# Exibir as primeiras linhas para conferir os dados
print(df_itens.head())


                                   page  \
0  13db0ab1-eea2-4603-84c4-f40a876c7400   
1  92907b73-5cd3-4184-8d8c-e206aed2bf1c   
2  61e07f64-cddf-46f2-b50c-ea0a39c22050   
3  30e2e6c5-554a-48ed-a35f-6c6691c8ac9b   
4  9dff71eb-b681-40c7-ac8d-68017ac36675   

                                                 url  \
0  http://g1.globo.com/am/amazonas/noticia/2022/0...   
1  http://g1.globo.com/pa/santarem-regiao/noticia...   
2  http://g1.globo.com/mundo/noticia/2022/07/08/e...   
3  http://g1.globo.com/politica/noticia/2021/09/0...   
4  http://g1.globo.com/politica/noticia/2021/09/1...   

                      issued                   modified  \
0  2022-06-18 20:37:45+00:00  2023-04-15 00:02:08+00:00   
1  2019-06-20 17:19:52+00:00  2023-06-16 20:19:15+00:00   
2  2022-07-08 08:55:52+00:00  2023-04-15 04:25:39+00:00   
3  2021-09-09 19:06:46+00:00  2023-06-07 17:44:54+00:00   
4  2021-09-15 19:16:13+00:00  2023-06-07 17:43:39+00:00   

                                               ti

In [4]:
print("Número total de linhas no DataFrame:", len(df_itens))
print(df_itens.count())  # Conta os valores NÃO NULOS por coluna
print(df_itens.isnull().sum())  # Mostra quantos valores nulos há por coluna


Número total de linhas no DataFrame: 255603
page        255603
url         255603
issued      255603
modified    255603
title       255340
body        255603
caption     255520
dtype: int64
page          0
url           0
issued        0
modified      0
title       263
body          0
caption      83
dtype: int64


In [5]:
df_itens = df_itens.dropna()


In [6]:
print("Número total de linhas no DataFrame:", len(df_itens))
print(df_itens.count())  # Conta os valores NÃO NULOS por coluna
print(df_itens.isnull().sum())  # Mostra quantos valores nulos há por coluna


Número total de linhas no DataFrame: 255275
page        255275
url         255275
issued      255275
modified    255275
title       255275
body        255275
caption     255275
dtype: int64
page        0
url         0
issued      0
modified    0
title       0
body        0
caption     0
dtype: int64


In [7]:
df_itens = df_itens.drop(columns=["modified"])


In [8]:
df_itens.head()

Unnamed: 0,page,url,issued,title,body,caption
0,13db0ab1-eea2-4603-84c4-f40a876c7400,http://g1.globo.com/am/amazonas/noticia/2022/0...,2022-06-18 20:37:45+00:00,caso bruno dom suspeito prisão temporário decr...,audiência custódio amazona decretar sábado pri...,lima escoltar agente polícia federal Fórum Jus...
1,92907b73-5cd3-4184-8d8c-e206aed2bf1c,http://g1.globo.com/pa/santarem-regiao/noticia...,2019-06-20 17:19:52+00:00,linguajar santareno diferenciar cheio identida...,vista aéreo santarém ádrio produção paraense v...,expressão santareno significar significar cois...
2,61e07f64-cddf-46f2-b50c-ea0a39c22050,http://g1.globo.com/mundo/noticia/2022/07/08/e...,2022-07-08 08:55:52+00:00,premiê shinzo abe morrer balear Japão,vídeo mostrar assassino shinzo abe atirar cost...,ministro atingir caseira discursar campanha ci...
3,30e2e6c5-554a-48ed-a35f-6c6691c8ac9b,http://g1.globo.com/politica/noticia/2021/09/0...,2021-09-09 19:06:46+00:00,relator stf fachin vota marco temporal demarca...,relator stf fachin vota marco temporal demarca...,ministro defender posse indígena diferente pos...
4,9dff71eb-b681-40c7-ac8d-68017ac36675,http://g1.globo.com/politica/noticia/2021/09/1...,2021-09-15 19:16:13+00:00,voto pedir vista suspender julgamento stf dema...,pedir vista análiser processo ministro moraes ...,reivindicar demarcação terro ocupar data const...


In [None]:
# Criar diretório se não existir
output_dir = "../data/tfidf/itens/"
os.makedirs(output_dir, exist_ok=True)

# Função para calcular TF-IDF e salvar em CSV
def calculate_tfidf_and_save(df, columns, output_prefix):
    for column in columns:
        if column not in df.columns:
            print(f"⚠️ Coluna {column} não encontrada no DataFrame. Pulando...")
            continue
        
        print(f"📌 Processando TF-IDF para coluna: {column}")

        # Criando o modelo TF-IDF (max_features pode ser ajustado conforme necessário)
        vectorizer = TfidfVectorizer(max_features=500)
        tfidf_matrix = vectorizer.fit_transform(df[column].fillna("").astype(str))
        
        # Convertendo matriz esparsa para DataFrame
        tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())

        # Adicionando colunas principais
        tfidf_df.insert(0, "page", df["page"])
        tfidf_df.insert(1, "url", df["url"])
        tfidf_df.insert(2, "issued", df["issued"])
        
        # Definindo nome do arquivo
        filename = os.path.join(output_dir, f"{output_prefix}_{column}.csv")
        
        # Salvando o arquivo
        tfidf_df.to_csv(filename, index=False, encoding='utf-8')
        print(f"✅ Arquivo salvo: {filename}")

# Lista de colunas a processar
columns_to_process = ["title", "body", "caption"]

# Chamando a função
calculate_tfidf_and_save(df_itens, columns_to_process, "tfidf_result")


📌 Processando TF-IDF para coluna: title
✅ Arquivo salvo: ../data/tfidf/itens/tfidf_result_title.csv
📌 Processando TF-IDF para coluna: body
✅ Arquivo salvo: ../data/tfidf/itens/tfidf_result_body.csv
📌 Processando TF-IDF para coluna: caption
✅ Arquivo salvo: ../data/tfidf/itens/tfidf_result_caption.csv


Carregando dataset de vallidação

In [9]:
file_path_validacao = "../data/validacao/validacao.csv"

# Carregar o CSV removendo quebras de linha e espaços extras
df_validacao = pd.read_csv(file_path_validacao, sep=",", skipinitialspace=True, engine="python")



Selecionando a coluna UserId

In [10]:
# Selecionar apenas a coluna userId e salvar em uma variável
user_ids_validacao = df_validacao["userId"]

# Exibir as primeiras linhas para conferir
print(user_ids_validacao.head())



0    e25fbee3a42d45a2914f9b061df3386b2ded2d8cc1f3d4...
1    d0afad7ea843d86597d822f0df1d39d31a3fea7c39fdee...
2    755062dd39a48809880cf363b04268c3af2c003088cde0...
3    ec1639851d99586c7f4da928deb49187303aec6e3b8d66...
4    a120515626fe5d12b22b7d5a7c5008912cc69284aa26cc...
Name: userId, dtype: object


Carregando dataset de Treino

In [11]:
# Caminho da pasta onde os arquivos CSV estão armazenados
folder_path_treino = "../data/files/treino/" 

# Encontrar todos os arquivos CSV na pasta
csv_files = glob.glob(os.path.join(folder_path_treino, "*.csv"))

# Lista para armazenar os DataFrames
dataframes = []

# Ler cada arquivo CSV e adicioná-lo à lista de DataFrames
for file in csv_files:
    df_treino = pd.read_csv(file)
    dataframes.append(df_treino)

# Concatenar todos os DataFrames em um único DataFrame
df_final_treino = pd.concat(dataframes, ignore_index=True)

# Exibir as primeiras linhas do DataFrame final
print(df_final_treino.head())


                                              userId    userType  historySize  \
0  f98d1132f60d46883ce49583257104d15ce723b3bbda21...  Non-Logged            3   
1  2c1080975e257ed630e26679edbe4d5c850c65f3e09f65...  Non-Logged           60   
2  0adffd7450d3b9840d8c6215f0569ad942e782fb19b805...      Logged          107   
3  c1e8d644329a78ea1f994292db624c57980b2886cfbc2d...  Non-Logged           56   
4  e777d1f31d4d955b63d60acc13df336d3903f52ab8f8f4...  Non-Logged            4   

                                             history  \
0  c8aab885-433d-4e46-8066-479f40ba7fb2, 68d2039c...   
1  3325b5a1-979a-4cb3-82b6-63905c9edbe8, fe856057...   
2  04756569-593e-4133-a95a-83d35d43dbbd, 29b6b142...   
3  1f2b9c2f-a2d2-4192-b009-09065da8ec23, 04756569...   
4  bebdeb3e-1699-43e0-a1b8-989f5a6ab679, f4b484a7...   

                                    timestampHistory  \
0        1657146417045, 1657146605778, 1657146698738   
1  1656684240278, 1656761266729, 1656761528085, 1...   
2  16566

Filtrar os ids do dataset de validação no dataset de treino

In [12]:
# Filtrar o dataset de treino para manter apenas os IDs que estão na validação

df_filtrado = df_final_treino[df_final_treino["userId"].isin(user_ids_validacao)]

# Exibir as primeiras linhas do novo dataset filtrado
print(df_filtrado.head())

                                              userId    userType  historySize  \
3  c1e8d644329a78ea1f994292db624c57980b2886cfbc2d...  Non-Logged           56   
4  e777d1f31d4d955b63d60acc13df336d3903f52ab8f8f4...  Non-Logged            4   
5  6aa5109374f6534b0400ccbbdb9c7b7d64c40a663fe51c...  Non-Logged            4   
7  c33bcbcaf32fe895fb0a854c94531120657ad5adabe3e1...  Non-Logged            3   
8  3c23b4ee53e663cb2d47eed9b5e7216cb7e6784e7f7722...  Non-Logged            4   

                                             history  \
3  1f2b9c2f-a2d2-4192-b009-09065da8ec23, 04756569...   
4  bebdeb3e-1699-43e0-a1b8-989f5a6ab679, f4b484a7...   
5  7fe849c0-4a55-429d-b480-11ee216909dd, 2de36771...   
7  0b8f3728-4ef7-40e7-85ac-367d8039bb6d, c8ade35b...   
8  7adf8ddd-3ad8-4dc3-a55b-395beb8aac5e, bf257382...   

                                    timestampHistory  \
3  1658333312180, 1658404553818, 1658408449062, 1...   
4  1658766608801, 1658766608801, 1660084035094, 1...   
5  16582

teste para confirmar a filtragem

In [22]:
# Verificar se todos os userIds filtrados realmente pertencem ao dataset de validação
print("Todos os IDs do dataset filtrado estão no dataset de validação?", df_filtrado["userId"]
      .isin(user_ids_validacao).all())

# Mostrar a contagem de IDs no dataset filtrado
print("Número de registros antes do filtro:", len(df_final_treino))
print("Número de registros após o filtro:", len(df_filtrado))


Todos os IDs do dataset filtrado estão no dataset de validação? True
Número de registros antes do filtro: 577942
Número de registros após o filtro: 112184


Salvar o dataset cruzado

In [20]:
df_filtrado.to_csv("../data/filtered/filtered_dataset.csv", index=False)

print("\nDataset atualizado salvo ")


PermissionError: [Errno 13] Permission denied: '../data/filtered/filtered_dataset.csv'

In [21]:
df_filtrado.head()


Unnamed: 0,userId,userType,historySize,history,timestampHistory,numberOfClicksHistory,timeOnPageHistory,scrollPercentageHistory,pageVisitsCountHistory,timestampHistory_new
3,c1e8d644329a78ea1f994292db624c57980b2886cfbc2d49cc3ae12fb5a533af,Non-Logged,56,"1f2b9c2f-a2d2-4192-b009-09065da8ec23, 04756569-593e-4133-a95a-83d35d43dbbd, b03986b4-7887-45f2-8269-a66b9d73a361, 9958aafa-3a3a-416c-a2b9-5d96769bad83, 69990b31-a6f9-4db0-80c3-1d4733f9e619, d4303151-c778-461b-8207-2e443db4b255, 722623f2-349b-4e8b-a974-ad8995f747ff, 9930ad3b-a506-4129-8efd-20c573365d74, faac2a94-565a-4fad-9db6-3abbb6e39c8a, 6dfb5395-decf-4b1f-ae70-959bde7417e2, 09d074f5-0cc9-4c31-9bb4-bc1c0d315675, b4070b48-1df6-4e82-ab9d-f7547c8a6da7, f89f8706-ffd4-4d86-af65-b2d0236996f4, 197de720-5810-4e35-b50c-02a1692f0e5a, 39410577-0d94-4790-ac41-81362bc8c915, 5db25cd8-32e2-4502-9208-b62d0e13b015, 14a54c8d-3155-4045-83bc-ae01af95a034, bcb7755a-5046-4bd7-81cd-8ead61a27ba7, f0a78e58-ec7e-494c-9462-fbd6446a9a89, ab93d775-dc30-45a2-b885-9dfcc26fd154, 470ccd72-1478-4a82-9e75-ecb6f732772a, 73ed314a-a9f3-4b76-83f1-67063a4ca520, 4154f103-9e39-49f5-8982-cdf13c576928, 4e9c2825-ff13-41ca-8e91-edd848060d19, 8c246d2b-81bd-4c1f-b563-2c905675f984, e6574d0d-a7c2-4830-a544-7497929d044b, e4dbb7c9-fd80-4da8-b4f4-6d144442a2af, 1d22f204-4cea-4b1d-95da-f6fbe57cd622, 8c828218-85b4-4df3-a8e5-c0274eb897dc, 2463b085-fab1-4d06-b557-614e28ba71fc, 58f350e5-cf09-4958-9703-84c0e56468ea, a79fd177-614b-4ef1-a36a-f721e33342eb, 7b056bf6-c232-46bd-8903-59145ff7ce46, cc716c8c-c1da-406e-b01c-de23437fbdec, 3d983e49-8950-4f14-900e-fb180da36f6a, d5c906e0-eb98-49c9-b57b-5abffc102023, abcfbc97-6d80-4488-9453-84387a0c51bd, 539c0c29-885e-452d-86dc-562209ba9f3f, c21a2041-10d9-4e8f-b6ba-d64759439301, a09b778a-7da6-412e-adb5-aed7fefb3b16, 8028e556-734b-42dc-9af8-ded9f48c6505, 73b9f4e5-3047-4b2a-acce-3232b959c41a, 77da2d63-b7ba-4b63-b246-90e8eb417d2e, 8003f303-f544-4ee4-8842-b9bd172da1e8, ec7dbae8-2ef3-4fa0-8b70-22b425f09f5f, 696c06e7-a338-4cf5-b9c3-ea8b9e775a94, a2ef8430-00b6-49de-852d-2c72596c5917, f883145c-70cc-4c51-8c7f-acd17e35160e, 2d02962a-7705-40e3-b5dd-e3217995c239, 4cc037f3-0d83-4086-9642-fcd4a5feea55, 3c941fc4-43eb-482e-9160-e186bd71f66f, 99024585-0a13-4374-860d-112e7debfa29, b954a1b6-d613-4012-8bb5-d60ffb9e94e6, 08a14cc3-ca3a-4f4a-ac12-6c21dc50c432, e60f86b4-d9b7-47e5-ab2b-5459dbcceccc, 96aebf6e-817d-4a3d-9e21-f5357ecebab0","1658333312180, 1658404553818, 1658408449062, 1658511068726, 1658756733747, 1658757180359, 1658768075695, 1658772367650, 1658773524807, 1658846346087, 1658846693913, 1658862376653, 1658928761751, 1658929260168, 1659355491071, 1659358112743, 1659359811944, 1659361237442, 1659362150720, 1659374329873, 1659376300104, 1659377625577, 1659379283573, 1659379707182, 1659379962483, 1659380084831, 1659381704138, 1659382226285, 1659440072909, 1659443430578, 1659443736663, 1659459829731, 1659463236436, 1659463804033, 1659463979923, 1659464533390, 1659464691044, 1659557808312, 1659613319167, 1659617052733, 1659703708605, 1659707524329, 1659710841635, 1659711071269, 1659711286168, 1659959407060, 1659959908176, 1659961430300, 1659962676838, 1659963073051, 1659963915711, 1659988621132, 1659988735546, 1660054807002, 1660319817092, 1660319856986","8, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 2, 0, 1, 1, 1, 3, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 1, 0, 22, 3, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0","182696, 91925, 30000, 273655, 126409, 42980, 140000, 54084, 8538, 30000, 70000, 49205, 53377, 40000, 110000, 90000, 190000, 140000, 150000, 100000, 165618, 70000, 284685, 159049, 47469, 50000, 90000, 50000, 30750, 100000, 60000, 195761, 100000, 86076, 144248, 31631, 267494, 83800, 12218, 120000, 210000, 97608, 50199, 125304, 352528, 160000, 100000, 200000, 70000, 160000, 260000, 72383, 60000, 24294, 16780, 13569","58.26, 72.66, 22.57, 59.89, 40.36, 36.35, 14.7, 48.69, 47.47, 10.47, 44.72, 15.61, 36.01, 41.63, 19.11, 17.84, 16.56, 14.89, 16.02, 16.31, 25.3, 70.91, 66.57, 50.33, 48.33, 60.74, 12.38, 46.99, 18.23, 13.68, 18.29, 69.47, 59.27, 33.22, 65.06, 30.45, 68.86, 66.92, 7.02, 50.75, 11.97, 62.67, 44.2, 58.91, 70.95, 16.49, 19.6, 21.13, 14.36, 18.38, 12.92, 37.54, 18.66, 43.67, 37.7, 33.47","1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1","1658333312180, 1658404553818, 1658408449062, 1658511068726, 1658756733747, 1658757180359, 1658768075695, 1658772367650, 1658773524807, 1658846346087, 1658846693913, 1658862376653, 1658928761751, 1658929260168, 1659355491071, 1659358112743, 1659359811944, 1659361237442, 1659362150720, 1659374329873, 1659376300104, 1659377625577, 1659379283573, 1659379707182, 1659379962483, 1659380084831, 1659381704138, 1659382226285, 1659440072909, 1659443430578, 1659443736663, 1659459829731, 1659463236436, 1659463804033, 1659463979923, 1659464533390, 1659464691044, 1659557808312, 1659613319167, 1659617052733, 1659703708605, 1659707524329, 1659710841635, 1659711071269, 1659711286168, 1659959407060, 1659959908176, 1659961430300, 1659962676838, 1659963073051, 1659963915711, 1659988621132, 1659988735546, 1660054807002, 1660319817092, 1660319856986"
4,e777d1f31d4d955b63d60acc13df336d3903f52ab8f8f4f8868b8a3970deda0d,Non-Logged,4,"bebdeb3e-1699-43e0-a1b8-989f5a6ab679, f4b484a7-38f7-4246-be9e-4e2cd8373bcd, esid:conteudo_editorial_g1#materia#https://especiais.g1.globo.com/economia/concursos-e-emprego/lista-de-concursos-publicos-e-vagas-de-emprego/, esid:conteudo_editorial_g1#materia#http://especiais.g1.globo.com/economia/concursos-e-emprego/lista-de-concursos-publicos-e-vagas-de-emprego/","1658766608801, 1658766608801, 1660084035094, 1660353720694","579, 579, 7, 2","801396, 801396, 10000, 10000","78.74, 78.74, 16.71, 9.34","7, 7, 1, 1","1658766608801, 1658766608801, 1660084035094, 1660353720694"
5,6aa5109374f6534b0400ccbbdb9c7b7d64c40a663fe51c95102754e28948f92e,Non-Logged,4,"7fe849c0-4a55-429d-b480-11ee216909dd, 2de36771-38b8-4e2c-a2b7-d00590dd9009, befa491a-1c4a-43b8-ad4e-8bfabe03320e, c7c70809-d617-40a3-99a0-a95c87679acd","1658259718982, 1658424852871, 1658859110243, 1660064956101","127, 155, 6, 78","350199, 320000, 39671, 151452","20.83, 80.94, 45.18, 22.32","12, 2, 1, 4","1658259718982, 1658424852871, 1658859110243, 1660064956101"
7,c33bcbcaf32fe895fb0a854c94531120657ad5adabe3e14b57fc4b4167074906,Non-Logged,3,"0b8f3728-4ef7-40e7-85ac-367d8039bb6d, c8ade35b-5666-4901-9295-73f5d098f09c, 8f7db994-43fc-4287-8795-329241560135","1657911681110, 1658159870839, 1660136510555","1, 0, 0","40000, 30000, 36068","10.07, 25.76, 37.78","1, 1, 2","1657911681110, 1658159870839, 1660136510555"
8,3c23b4ee53e663cb2d47eed9b5e7216cb7e6784e7f7722bf622328ef940aee58,Non-Logged,4,"7adf8ddd-3ad8-4dc3-a55b-395beb8aac5e, bf257382-74fb-4392-ad6a-143240e39f81, dd4d0068-ae1b-4e78-a7e5-7e8c2a4a5615, esid:conteudo_editorial_g1#materia#https://especiais.g1.globo.com/bemestar/coronavirus/estados-brasil-mortes-casos-media-movel/","1656724891913, 1657221969625, 1659703496742, 1660518424033","0, 4, 1, 1","1219245, 150684, 58525, 12194","19.24, 51.29, 43.07, 43.27","67, 1, 1, 1","1656724891913, 1657221969625, 1659703496742, 1660518424033"


In [23]:
# Exibir o histórico completo sem truncamento
pd.set_option('display.max_colwidth', None)

# Exibir a linha específica
print(df_filtrado.loc[3, 'history'])


1f2b9c2f-a2d2-4192-b009-09065da8ec23, 04756569-593e-4133-a95a-83d35d43dbbd, b03986b4-7887-45f2-8269-a66b9d73a361, 9958aafa-3a3a-416c-a2b9-5d96769bad83, 69990b31-a6f9-4db0-80c3-1d4733f9e619, d4303151-c778-461b-8207-2e443db4b255, 722623f2-349b-4e8b-a974-ad8995f747ff, 9930ad3b-a506-4129-8efd-20c573365d74, faac2a94-565a-4fad-9db6-3abbb6e39c8a, 6dfb5395-decf-4b1f-ae70-959bde7417e2, 09d074f5-0cc9-4c31-9bb4-bc1c0d315675, b4070b48-1df6-4e82-ab9d-f7547c8a6da7, f89f8706-ffd4-4d86-af65-b2d0236996f4, 197de720-5810-4e35-b50c-02a1692f0e5a, 39410577-0d94-4790-ac41-81362bc8c915, 5db25cd8-32e2-4502-9208-b62d0e13b015, 14a54c8d-3155-4045-83bc-ae01af95a034, bcb7755a-5046-4bd7-81cd-8ead61a27ba7, f0a78e58-ec7e-494c-9462-fbd6446a9a89, ab93d775-dc30-45a2-b885-9dfcc26fd154, 470ccd72-1478-4a82-9e75-ecb6f732772a, 73ed314a-a9f3-4b76-83f1-67063a4ca520, 4154f103-9e39-49f5-8982-cdf13c576928, 4e9c2825-ff13-41ca-8e91-edd848060d19, 8c246d2b-81bd-4c1f-b563-2c905675f984, e6574d0d-a7c2-4830-a544-7497929d044b, e4dbb7c9-fd8

Convertando o history em um lista de UUIDs individuais

In [24]:
df_filtrado["history"] = df_filtrado["history"].apply(lambda x: str(x).split(", "))


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado["history"] = df_filtrado["history"].apply(lambda x: str(x).split(", "))


In [25]:
df_filtrado.head()



Unnamed: 0,userId,userType,historySize,history,timestampHistory,numberOfClicksHistory,timeOnPageHistory,scrollPercentageHistory,pageVisitsCountHistory,timestampHistory_new
3,c1e8d644329a78ea1f994292db624c57980b2886cfbc2d49cc3ae12fb5a533af,Non-Logged,56,"[1f2b9c2f-a2d2-4192-b009-09065da8ec23, 04756569-593e-4133-a95a-83d35d43dbbd, b03986b4-7887-45f2-8269-a66b9d73a361, 9958aafa-3a3a-416c-a2b9-5d96769bad83, 69990b31-a6f9-4db0-80c3-1d4733f9e619, d4303151-c778-461b-8207-2e443db4b255, 722623f2-349b-4e8b-a974-ad8995f747ff, 9930ad3b-a506-4129-8efd-20c573365d74, faac2a94-565a-4fad-9db6-3abbb6e39c8a, 6dfb5395-decf-4b1f-ae70-959bde7417e2, 09d074f5-0cc9-4c31-9bb4-bc1c0d315675, b4070b48-1df6-4e82-ab9d-f7547c8a6da7, f89f8706-ffd4-4d86-af65-b2d0236996f4, 197de720-5810-4e35-b50c-02a1692f0e5a, 39410577-0d94-4790-ac41-81362bc8c915, 5db25cd8-32e2-4502-9208-b62d0e13b015, 14a54c8d-3155-4045-83bc-ae01af95a034, bcb7755a-5046-4bd7-81cd-8ead61a27ba7, f0a78e58-ec7e-494c-9462-fbd6446a9a89, ab93d775-dc30-45a2-b885-9dfcc26fd154, 470ccd72-1478-4a82-9e75-ecb6f732772a, 73ed314a-a9f3-4b76-83f1-67063a4ca520, 4154f103-9e39-49f5-8982-cdf13c576928, 4e9c2825-ff13-41ca-8e91-edd848060d19, 8c246d2b-81bd-4c1f-b563-2c905675f984, e6574d0d-a7c2-4830-a544-7497929d044b, e4dbb7c9-fd80-4da8-b4f4-6d144442a2af, 1d22f204-4cea-4b1d-95da-f6fbe57cd622, 8c828218-85b4-4df3-a8e5-c0274eb897dc, 2463b085-fab1-4d06-b557-614e28ba71fc, 58f350e5-cf09-4958-9703-84c0e56468ea, a79fd177-614b-4ef1-a36a-f721e33342eb, 7b056bf6-c232-46bd-8903-59145ff7ce46, cc716c8c-c1da-406e-b01c-de23437fbdec, 3d983e49-8950-4f14-900e-fb180da36f6a, d5c906e0-eb98-49c9-b57b-5abffc102023, abcfbc97-6d80-4488-9453-84387a0c51bd, 539c0c29-885e-452d-86dc-562209ba9f3f, c21a2041-10d9-4e8f-b6ba-d64759439301, a09b778a-7da6-412e-adb5-aed7fefb3b16, 8028e556-734b-42dc-9af8-ded9f48c6505, 73b9f4e5-3047-4b2a-acce-3232b959c41a, 77da2d63-b7ba-4b63-b246-90e8eb417d2e, 8003f303-f544-4ee4-8842-b9bd172da1e8, ec7dbae8-2ef3-4fa0-8b70-22b425f09f5f, 696c06e7-a338-4cf5-b9c3-ea8b9e775a94, a2ef8430-00b6-49de-852d-2c72596c5917, f883145c-70cc-4c51-8c7f-acd17e35160e, 2d02962a-7705-40e3-b5dd-e3217995c239, 4cc037f3-0d83-4086-9642-fcd4a5feea55, 3c941fc4-43eb-482e-9160-e186bd71f66f, 99024585-0a13-4374-860d-112e7debfa29, b954a1b6-d613-4012-8bb5-d60ffb9e94e6, 08a14cc3-ca3a-4f4a-ac12-6c21dc50c432, e60f86b4-d9b7-47e5-ab2b-5459dbcceccc, 96aebf6e-817d-4a3d-9e21-f5357ecebab0]","1658333312180, 1658404553818, 1658408449062, 1658511068726, 1658756733747, 1658757180359, 1658768075695, 1658772367650, 1658773524807, 1658846346087, 1658846693913, 1658862376653, 1658928761751, 1658929260168, 1659355491071, 1659358112743, 1659359811944, 1659361237442, 1659362150720, 1659374329873, 1659376300104, 1659377625577, 1659379283573, 1659379707182, 1659379962483, 1659380084831, 1659381704138, 1659382226285, 1659440072909, 1659443430578, 1659443736663, 1659459829731, 1659463236436, 1659463804033, 1659463979923, 1659464533390, 1659464691044, 1659557808312, 1659613319167, 1659617052733, 1659703708605, 1659707524329, 1659710841635, 1659711071269, 1659711286168, 1659959407060, 1659959908176, 1659961430300, 1659962676838, 1659963073051, 1659963915711, 1659988621132, 1659988735546, 1660054807002, 1660319817092, 1660319856986","8, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 2, 0, 1, 1, 1, 3, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 1, 0, 22, 3, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0","182696, 91925, 30000, 273655, 126409, 42980, 140000, 54084, 8538, 30000, 70000, 49205, 53377, 40000, 110000, 90000, 190000, 140000, 150000, 100000, 165618, 70000, 284685, 159049, 47469, 50000, 90000, 50000, 30750, 100000, 60000, 195761, 100000, 86076, 144248, 31631, 267494, 83800, 12218, 120000, 210000, 97608, 50199, 125304, 352528, 160000, 100000, 200000, 70000, 160000, 260000, 72383, 60000, 24294, 16780, 13569","58.26, 72.66, 22.57, 59.89, 40.36, 36.35, 14.7, 48.69, 47.47, 10.47, 44.72, 15.61, 36.01, 41.63, 19.11, 17.84, 16.56, 14.89, 16.02, 16.31, 25.3, 70.91, 66.57, 50.33, 48.33, 60.74, 12.38, 46.99, 18.23, 13.68, 18.29, 69.47, 59.27, 33.22, 65.06, 30.45, 68.86, 66.92, 7.02, 50.75, 11.97, 62.67, 44.2, 58.91, 70.95, 16.49, 19.6, 21.13, 14.36, 18.38, 12.92, 37.54, 18.66, 43.67, 37.7, 33.47","1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1","1658333312180, 1658404553818, 1658408449062, 1658511068726, 1658756733747, 1658757180359, 1658768075695, 1658772367650, 1658773524807, 1658846346087, 1658846693913, 1658862376653, 1658928761751, 1658929260168, 1659355491071, 1659358112743, 1659359811944, 1659361237442, 1659362150720, 1659374329873, 1659376300104, 1659377625577, 1659379283573, 1659379707182, 1659379962483, 1659380084831, 1659381704138, 1659382226285, 1659440072909, 1659443430578, 1659443736663, 1659459829731, 1659463236436, 1659463804033, 1659463979923, 1659464533390, 1659464691044, 1659557808312, 1659613319167, 1659617052733, 1659703708605, 1659707524329, 1659710841635, 1659711071269, 1659711286168, 1659959407060, 1659959908176, 1659961430300, 1659962676838, 1659963073051, 1659963915711, 1659988621132, 1659988735546, 1660054807002, 1660319817092, 1660319856986"
4,e777d1f31d4d955b63d60acc13df336d3903f52ab8f8f4f8868b8a3970deda0d,Non-Logged,4,"[bebdeb3e-1699-43e0-a1b8-989f5a6ab679, f4b484a7-38f7-4246-be9e-4e2cd8373bcd, esid:conteudo_editorial_g1#materia#https://especiais.g1.globo.com/economia/concursos-e-emprego/lista-de-concursos-publicos-e-vagas-de-emprego/, esid:conteudo_editorial_g1#materia#http://especiais.g1.globo.com/economia/concursos-e-emprego/lista-de-concursos-publicos-e-vagas-de-emprego/]","1658766608801, 1658766608801, 1660084035094, 1660353720694","579, 579, 7, 2","801396, 801396, 10000, 10000","78.74, 78.74, 16.71, 9.34","7, 7, 1, 1","1658766608801, 1658766608801, 1660084035094, 1660353720694"
5,6aa5109374f6534b0400ccbbdb9c7b7d64c40a663fe51c95102754e28948f92e,Non-Logged,4,"[7fe849c0-4a55-429d-b480-11ee216909dd, 2de36771-38b8-4e2c-a2b7-d00590dd9009, befa491a-1c4a-43b8-ad4e-8bfabe03320e, c7c70809-d617-40a3-99a0-a95c87679acd]","1658259718982, 1658424852871, 1658859110243, 1660064956101","127, 155, 6, 78","350199, 320000, 39671, 151452","20.83, 80.94, 45.18, 22.32","12, 2, 1, 4","1658259718982, 1658424852871, 1658859110243, 1660064956101"
7,c33bcbcaf32fe895fb0a854c94531120657ad5adabe3e14b57fc4b4167074906,Non-Logged,3,"[0b8f3728-4ef7-40e7-85ac-367d8039bb6d, c8ade35b-5666-4901-9295-73f5d098f09c, 8f7db994-43fc-4287-8795-329241560135]","1657911681110, 1658159870839, 1660136510555","1, 0, 0","40000, 30000, 36068","10.07, 25.76, 37.78","1, 1, 2","1657911681110, 1658159870839, 1660136510555"
8,3c23b4ee53e663cb2d47eed9b5e7216cb7e6784e7f7722bf622328ef940aee58,Non-Logged,4,"[7adf8ddd-3ad8-4dc3-a55b-395beb8aac5e, bf257382-74fb-4392-ad6a-143240e39f81, dd4d0068-ae1b-4e78-a7e5-7e8c2a4a5615, esid:conteudo_editorial_g1#materia#https://especiais.g1.globo.com/bemestar/coronavirus/estados-brasil-mortes-casos-media-movel/]","1656724891913, 1657221969625, 1659703496742, 1660518424033","0, 4, 1, 1","1219245, 150684, 58525, 12194","19.24, 51.29, 43.07, 43.27","67, 1, 1, 1","1656724891913, 1657221969625, 1659703496742, 1660518424033"


verificar uuids

In [32]:
# Expressão regular para UUID (versões 1 a 5)
uuid_pattern = re.compile(r'^[0-9a-f]{8}-[0-9a-f]{4}-[1-5][0-9a-f]{3}-[89ab][0-9a-f]{3}-[0-9a-f]{12}$', re.IGNORECASE)

# Verificar se todos os valores de 'history' são UUIDs
df_filtrado['is_uuid'] = df_filtrado['history'].apply(lambda x: all(uuid_pattern.match(item) for item in x) if isinstance(x, list) else False)

# Verificar se há algum valor que não seja UUID
if df_filtrado['is_uuid'].all():
    print("Todos os valores na coluna 'history' são UUIDs.")
else:
    print("Há valores na coluna 'history' que não são UUIDs.")



Há valores na coluna 'history' que não são UUIDs.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['is_uuid'] = df_filtrado['history'].apply(lambda x: all(uuid_pattern.match(item) for item in x) if isinstance(x, list) else False)


In [33]:
# Expressão regular para validar UUIDs (versões 1 a 5)
uuid_pattern = re.compile(r'^[0-9a-f]{8}-[0-9a-f]{4}-[1-5][0-9a-f]{3}-[89ab][0-9a-f]{3}-[0-9a-f]{12}$', re.IGNORECASE)

# Função para filtrar valores inválidos dentro da lista
def filter_uuids(history_list):
    if isinstance(history_list, list):  # Garante que é uma lista antes de tentar filtrar
        return [item for item in history_list if uuid_pattern.match(item)]
    return history_list  # Retorna como está se não for uma lista

# Aplicar a função para limpar os valores inválidos da coluna 'history'
df_filtrado["history"] = df_filtrado["history"].apply(filter_uuids)

# Verificar se ainda há valores não UUIDs (depois da limpeza)
df_filtrado["is_uuid"] = df_filtrado["history"].apply(lambda x: all(uuid_pattern.match(item) for item in x) if isinstance(x, list) else False)

# Exibir mensagem de sucesso
if df_filtrado["is_uuid"].all():
    print("Agora, todos os valores na coluna 'history' são UUIDs.")
else:
    print("Ainda há valores não UUIDs na coluna 'history'.")



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado["history"] = df_filtrado["history"].apply(filter_uuids)


Agora, todos os valores na coluna 'history' são UUIDs.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado["is_uuid"] = df_filtrado["history"].apply(lambda x: all(uuid_pattern.match(item) for item in x) if isinstance(x, list) else False)


In [None]:
print((df_filtrado["history"].apply

In [34]:
df_filtrado.head()

Unnamed: 0,userId,userType,historySize,history,timestampHistory,numberOfClicksHistory,timeOnPageHistory,scrollPercentageHistory,pageVisitsCountHistory,timestampHistory_new,is_uuid
3,c1e8d644329a78ea1f994292db624c57980b2886cfbc2d49cc3ae12fb5a533af,Non-Logged,56,"[1f2b9c2f-a2d2-4192-b009-09065da8ec23, 04756569-593e-4133-a95a-83d35d43dbbd, b03986b4-7887-45f2-8269-a66b9d73a361, 9958aafa-3a3a-416c-a2b9-5d96769bad83, 69990b31-a6f9-4db0-80c3-1d4733f9e619, d4303151-c778-461b-8207-2e443db4b255, 722623f2-349b-4e8b-a974-ad8995f747ff, 9930ad3b-a506-4129-8efd-20c573365d74, faac2a94-565a-4fad-9db6-3abbb6e39c8a, 6dfb5395-decf-4b1f-ae70-959bde7417e2, 09d074f5-0cc9-4c31-9bb4-bc1c0d315675, b4070b48-1df6-4e82-ab9d-f7547c8a6da7, f89f8706-ffd4-4d86-af65-b2d0236996f4, 197de720-5810-4e35-b50c-02a1692f0e5a, 39410577-0d94-4790-ac41-81362bc8c915, 5db25cd8-32e2-4502-9208-b62d0e13b015, 14a54c8d-3155-4045-83bc-ae01af95a034, bcb7755a-5046-4bd7-81cd-8ead61a27ba7, f0a78e58-ec7e-494c-9462-fbd6446a9a89, ab93d775-dc30-45a2-b885-9dfcc26fd154, 470ccd72-1478-4a82-9e75-ecb6f732772a, 73ed314a-a9f3-4b76-83f1-67063a4ca520, 4154f103-9e39-49f5-8982-cdf13c576928, 4e9c2825-ff13-41ca-8e91-edd848060d19, 8c246d2b-81bd-4c1f-b563-2c905675f984, e6574d0d-a7c2-4830-a544-7497929d044b, e4dbb7c9-fd80-4da8-b4f4-6d144442a2af, 1d22f204-4cea-4b1d-95da-f6fbe57cd622, 8c828218-85b4-4df3-a8e5-c0274eb897dc, 2463b085-fab1-4d06-b557-614e28ba71fc, 58f350e5-cf09-4958-9703-84c0e56468ea, a79fd177-614b-4ef1-a36a-f721e33342eb, 7b056bf6-c232-46bd-8903-59145ff7ce46, cc716c8c-c1da-406e-b01c-de23437fbdec, 3d983e49-8950-4f14-900e-fb180da36f6a, d5c906e0-eb98-49c9-b57b-5abffc102023, abcfbc97-6d80-4488-9453-84387a0c51bd, 539c0c29-885e-452d-86dc-562209ba9f3f, c21a2041-10d9-4e8f-b6ba-d64759439301, a09b778a-7da6-412e-adb5-aed7fefb3b16, 8028e556-734b-42dc-9af8-ded9f48c6505, 73b9f4e5-3047-4b2a-acce-3232b959c41a, 77da2d63-b7ba-4b63-b246-90e8eb417d2e, 8003f303-f544-4ee4-8842-b9bd172da1e8, ec7dbae8-2ef3-4fa0-8b70-22b425f09f5f, 696c06e7-a338-4cf5-b9c3-ea8b9e775a94, a2ef8430-00b6-49de-852d-2c72596c5917, f883145c-70cc-4c51-8c7f-acd17e35160e, 2d02962a-7705-40e3-b5dd-e3217995c239, 4cc037f3-0d83-4086-9642-fcd4a5feea55, 3c941fc4-43eb-482e-9160-e186bd71f66f, 99024585-0a13-4374-860d-112e7debfa29, b954a1b6-d613-4012-8bb5-d60ffb9e94e6, 08a14cc3-ca3a-4f4a-ac12-6c21dc50c432, e60f86b4-d9b7-47e5-ab2b-5459dbcceccc, 96aebf6e-817d-4a3d-9e21-f5357ecebab0]","1658333312180, 1658404553818, 1658408449062, 1658511068726, 1658756733747, 1658757180359, 1658768075695, 1658772367650, 1658773524807, 1658846346087, 1658846693913, 1658862376653, 1658928761751, 1658929260168, 1659355491071, 1659358112743, 1659359811944, 1659361237442, 1659362150720, 1659374329873, 1659376300104, 1659377625577, 1659379283573, 1659379707182, 1659379962483, 1659380084831, 1659381704138, 1659382226285, 1659440072909, 1659443430578, 1659443736663, 1659459829731, 1659463236436, 1659463804033, 1659463979923, 1659464533390, 1659464691044, 1659557808312, 1659613319167, 1659617052733, 1659703708605, 1659707524329, 1659710841635, 1659711071269, 1659711286168, 1659959407060, 1659959908176, 1659961430300, 1659962676838, 1659963073051, 1659963915711, 1659988621132, 1659988735546, 1660054807002, 1660319817092, 1660319856986","8, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 2, 0, 1, 1, 1, 3, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 1, 0, 22, 3, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0","182696, 91925, 30000, 273655, 126409, 42980, 140000, 54084, 8538, 30000, 70000, 49205, 53377, 40000, 110000, 90000, 190000, 140000, 150000, 100000, 165618, 70000, 284685, 159049, 47469, 50000, 90000, 50000, 30750, 100000, 60000, 195761, 100000, 86076, 144248, 31631, 267494, 83800, 12218, 120000, 210000, 97608, 50199, 125304, 352528, 160000, 100000, 200000, 70000, 160000, 260000, 72383, 60000, 24294, 16780, 13569","58.26, 72.66, 22.57, 59.89, 40.36, 36.35, 14.7, 48.69, 47.47, 10.47, 44.72, 15.61, 36.01, 41.63, 19.11, 17.84, 16.56, 14.89, 16.02, 16.31, 25.3, 70.91, 66.57, 50.33, 48.33, 60.74, 12.38, 46.99, 18.23, 13.68, 18.29, 69.47, 59.27, 33.22, 65.06, 30.45, 68.86, 66.92, 7.02, 50.75, 11.97, 62.67, 44.2, 58.91, 70.95, 16.49, 19.6, 21.13, 14.36, 18.38, 12.92, 37.54, 18.66, 43.67, 37.7, 33.47","1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1","1658333312180, 1658404553818, 1658408449062, 1658511068726, 1658756733747, 1658757180359, 1658768075695, 1658772367650, 1658773524807, 1658846346087, 1658846693913, 1658862376653, 1658928761751, 1658929260168, 1659355491071, 1659358112743, 1659359811944, 1659361237442, 1659362150720, 1659374329873, 1659376300104, 1659377625577, 1659379283573, 1659379707182, 1659379962483, 1659380084831, 1659381704138, 1659382226285, 1659440072909, 1659443430578, 1659443736663, 1659459829731, 1659463236436, 1659463804033, 1659463979923, 1659464533390, 1659464691044, 1659557808312, 1659613319167, 1659617052733, 1659703708605, 1659707524329, 1659710841635, 1659711071269, 1659711286168, 1659959407060, 1659959908176, 1659961430300, 1659962676838, 1659963073051, 1659963915711, 1659988621132, 1659988735546, 1660054807002, 1660319817092, 1660319856986",True
4,e777d1f31d4d955b63d60acc13df336d3903f52ab8f8f4f8868b8a3970deda0d,Non-Logged,4,"[bebdeb3e-1699-43e0-a1b8-989f5a6ab679, f4b484a7-38f7-4246-be9e-4e2cd8373bcd]","1658766608801, 1658766608801, 1660084035094, 1660353720694","579, 579, 7, 2","801396, 801396, 10000, 10000","78.74, 78.74, 16.71, 9.34","7, 7, 1, 1","1658766608801, 1658766608801, 1660084035094, 1660353720694",True
5,6aa5109374f6534b0400ccbbdb9c7b7d64c40a663fe51c95102754e28948f92e,Non-Logged,4,"[7fe849c0-4a55-429d-b480-11ee216909dd, 2de36771-38b8-4e2c-a2b7-d00590dd9009, befa491a-1c4a-43b8-ad4e-8bfabe03320e, c7c70809-d617-40a3-99a0-a95c87679acd]","1658259718982, 1658424852871, 1658859110243, 1660064956101","127, 155, 6, 78","350199, 320000, 39671, 151452","20.83, 80.94, 45.18, 22.32","12, 2, 1, 4","1658259718982, 1658424852871, 1658859110243, 1660064956101",True
7,c33bcbcaf32fe895fb0a854c94531120657ad5adabe3e14b57fc4b4167074906,Non-Logged,3,"[0b8f3728-4ef7-40e7-85ac-367d8039bb6d, c8ade35b-5666-4901-9295-73f5d098f09c, 8f7db994-43fc-4287-8795-329241560135]","1657911681110, 1658159870839, 1660136510555","1, 0, 0","40000, 30000, 36068","10.07, 25.76, 37.78","1, 1, 2","1657911681110, 1658159870839, 1660136510555",True
8,3c23b4ee53e663cb2d47eed9b5e7216cb7e6784e7f7722bf622328ef940aee58,Non-Logged,4,"[7adf8ddd-3ad8-4dc3-a55b-395beb8aac5e, bf257382-74fb-4392-ad6a-143240e39f81, dd4d0068-ae1b-4e78-a7e5-7e8c2a4a5615]","1656724891913, 1657221969625, 1659703496742, 1660518424033","0, 4, 1, 1","1219245, 150684, 58525, 12194","19.24, 51.29, 43.07, 43.27","67, 1, 1, 1","1656724891913, 1657221969625, 1659703496742, 1660518424033",True


In [41]:
print(df_itens.columns)


Index(['page', 'url', 'issued', 'title', 'body', 'caption'], dtype='object')


In [42]:
print(df_filtrado["history"].head(10))  # Verificar se a coluna contém listas não vazias


3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       

In [38]:

# Garantir que history e timestampHistory sejam listas sem modificar os valores
df_filtrado["history"] = df_filtrado["history"].apply(lambda x: x.split(", ") if isinstance(x, str) else x)

# Explodir apenas 'history' para permitir a junção com df_itens
df_exploded = df_filtrado.explode("history")

# Fazer o merge para encontrar as páginas correspondentes
df_merged = df_exploded.merge(df_itens, left_on="history", right_on="page", how="inner")

# Voltar a agrupar os dados, mantendo timestampHistory e timestampHistory_new como listas originais
df_final = df_merged.groupby(["userId", "history"]) \
    .agg({
        "timestampHistory": "first",  # Mantém a lista original de timestamps
        "timestampHistory_new": "first",  # Mantém a lista original 
        "page": "first",
        "url": "first",
        "issued": "first",
        "title": "first",
        "body": "first",
        "caption": "first"
    }).reset_index()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado["history"] = df_filtrado["history"].apply(lambda x: x.split(", ") if isinstance(x, str) else x)


In [40]:
df_final.head()

Unnamed: 0,userId,history,timestampHistory,timestampHistory_new,page,url,issued,title,body,caption
0,00025217b55f104ede326550e7b46c3969a5a5333fcd29fcb06c2376526f5b41,28965b9d-24c7-45d7-9922-0f965e47e92b,1658342522783,1658342522783,28965b9d-24c7-45d7-9922-0f965e47e92b,http://g1.globo.com/rj/rio-de-janeiro/noticia/2022/07/19/pf-prende-homem-suspeito-de-lancar-explosivo-no-consulado-da-china-no-rio-e-apreende-50-kg-de-cocaina-e-r-375-em-dinheiro.ghtml,2022-07-19 19:24:30+00:00,prender homem suspeitar lançar explosivo consular China rio apreender cocaína dinheiro,vídeo divulgar época crime mostrar ataque consulado chinês rio polícia federal prender terça feiro homem suspeitar lançar artefato explosivo consular china botafogo zona sul Rio setembro operação muralha objetivo cumprir mandado busco apreensão expedir juíza adriano vara federal criminal Rio endereço ligar suspeito advogado flagrante policial encontrar quilo cocaína dinheiro real euro dólar conseguir falar defesa apreender droga dinheiro operação alvo atirador artefato consulado chinar divulgação polícia chegar autor investigação levar suposto autor fato ocasião utilizar veículo sedan prata estacionar praia botafogo caminhar consular China arremessar artefato causar dano expor perigo vida integridade físico aquele trabalhar residir durante cumprimento mandado policial federal cão farejador apollo encontrar droga endereço localizar bairro laranjeira agente apreender espécie euro dólar encaminhar superintendência rio Janeiro Praça mau lavratura auto prisão flagrante formalidade decorrente cumprimento mandado crime advogado suspeito participar outro crime prender delegacia homicídio acusar matar motorista ônibus Ribeiro oliveirar ano acordo investigação advogado envolver briga trânsito rua general glicério motivar crime testemunha afirmar ocasião advogado prometer discussão voltar tiro vítima parar linha laranjeirascentral morrer tiro acertar brisa ônibus carino negar acusação responder processo liberdade outro processo tráfico droga prender suspeita chefiar quadrilha jovem traficante forneciar droga usuário classe médio zona sul esquema disque droga envolvia taxisto mototaxista entregar encomenr inocentar caso delegacia dizer ocasião vítima perseguição denunciar policial civil corregedorio,vídeo câmerar segurança mostrar ataque setembro ano passado policial federal encontrar droga real euro dólar cumprir mandado busco apreensão
1,0003f534fe8124d98eef78b01baa3b69e3ffcda6e5a657e149a28a7db29c0d4a,07fc1034-4aa5-4600-b19d-5160c55c917d,"1656844828006, 1657017605361, 1657017766954, 1657453617605, 1659622458343, 1660285439340","1656844828006, 1657017605361, 1657017766954, 1657453617605, 1659622458343, 1660285439340",07fc1034-4aa5-4600-b19d-5160c55c917d,http://g1.globo.com/ce/ceara/noticia/2022/07/04/quem-e-o-cearense-que-viralizou-com-o-bordao-me-de-papai-homem-morreu-neste-domingo.ghtml,2022-07-04 20:46:19+00:00,cearense viralizar bordão papai homem morrer domingo,autor bordão papai morrer cear cearense iatami Bezerra ano morrer domingo tauá interior cear ficar famoso rede social vídeo viralizar iaiá virar fenômeno rede uso bordão diversos meme compartilhe Whatsapp compartilhe telegr vídeo publicar youtube milhão visualização compartilhar diversos página humor leia morrer autor bordão papai fenômeno rede social famoso memer opa bolo morrer cear imagem iaiá questionar pessoa bolachar leite comer responde negativamente fazer cara chorar perguntar cachaçar Sorri papai conforme bezerra sobrinhar iaiá vídeo gravar marido sobrinhas homem brincadeira ficar cidade iaiá autor bordão papai morrer passar frente tauá interior cear reprodução comunicativo comunidade conhecer amor pessoa tratar pessoal ver tirar foto gravar vídeo entrar brincadeira dizer morar mãe irmã sobrinho trabalhar sobrevivio bico conhecer acordo sobrinhar homem problema alcoolismo tratamento chegar parar beber ficar doente ficar ano beber voltar dizer hillary morte frente bar iatami bezerrar ano bordão papai ficar famoso vídeo viralizar arquivo pessoal testemunha passar desmaiar frente bar rua bairro bezerra Souza conforme polícia militar agente acionar chegar equipe samu haver constatar óbito vítima parar cardíacaum procedimento morte iaiá registrar delegacia regional tauá enterrar feira cemitério jur tader assista notícia cear minuto,iatami bezerrar ano iaiá falecer domingo passar frente tauá
2,0003f534fe8124d98eef78b01baa3b69e3ffcda6e5a657e149a28a7db29c0d4a,2d09c185-98d3-4898-a76c-12ba58eabd04,"1656844828006, 1657017605361, 1657017766954, 1657453617605, 1659622458343, 1660285439340","1656844828006, 1657017605361, 1657017766954, 1657453617605, 1659622458343, 1660285439340",2d09c185-98d3-4898-a76c-12ba58eabd04,http://g1.globo.com/sp/sao-paulo/eleicoes/2022/noticia/2022/08/03/em-meio-a-impasse-pablo-marcal-diz-que-ira-ao-tse-para-garantir-candidatura-a-presidencia-pelo-pros-partido-se-reune-nesta-sexta.ghtml,2022-08-04 00:27:47+00:00,impasse tse garantir candidatura presidência pro partir reunir,durante coletivo imprensa reprodução youtube disputa interno partir influenciador coach afirmar durante coletivo imprensa noite feira manter candidatura presidência repúblico pro disposto justiça garantir participação eleição ala adversário disputar internamente comando siglar domingo superior tribunal Justiça stj devolver presidência legendo eurípede contrário candidatura próprio defender partido apoie chapa turno marçal afirmar acreditar existir chance candidatura cancelar validar tribunal superior eleitoral tse prazo legal pro fazer convocar convenção quiserem manobra levar pessoa tse nome mão moraes candidatura registrar cnpj histór alguém querer manobra esse afirmar renuncio qualidade famíliar milhão real deixar faturar conectar negócio renunciar tanto coisa servir nação depender bolsonaro sentar cadeira repúblico dizer nota coletivo marçal afirmar candidatura indicar ato convenção realizar partir prazo legal consolidir suposto outro candidato necessário dia convocação convenção conforme estatuto partir inviável dia agosto calendário eleitoral definir tse estabelecer data realização convenção esclarecer ação sentido descumprir indicação realizar convenção contrár ordenamento jurídico vigente objeto judicialização existir registro candidaturar aguardar homologação tse comunicar seguir firme propósito destravar nação votar enfrentar arbitrár ilegalmente ouser afrontar democrático direito finalizar imbróglio jurídico presidente restituir pro eurípede júnior anunciar convocar convenção nacional partir referendar formal candidatura turno presidente pro eurípede júnior terno cinzar reunião geraldo aloizio mercadante prosdivulgação reunião acontecer proposta filiar escolham manutenção chapar próprio partido marçal candidato presidente março tribunal Justiça distrito federal afastar eurípede júnior presidência pro razão suposto desvio recurso partido passar comandar chapa pro confirmar convenção nacional manhã domingo comando holanda hora entanto ministro superior tribunal justiçar stj mussi devolver presidência siglar eurípede termine julgar caso dia retomar controle pro eurípede júnior reunir candidato vice presidente chapa encabeçar geraldo psb coordenador programa governo chapa aloizio mercadante encontro júnior declarar candidatura psb comprometer reverter formalização candidaturo nota divulgar equipe mercadante comitiva restituir pro sugerir alckmin mercadante inclusão programa auxílio endividar plano governo chapar fundação partir pro lançar candidato planalto siglar campanha presidencial pro oficializar candidatura presidência repúblico destituir recorrer destituir afirmar recorrer decisão garantir retorno eurípede júnior comando legenda medir esforço valer escolha decisãor causo grave lesão processo eleitoral curso partir pleno período convenção trazer dano atual membro escolher total sintonia objetivo diretório nacional ser estudar medida garantir unidade partidário respeito normo estatutário sintonia Lei nota procurar assessorio campanha obter resposta publicação reportagem advogado eleitoral candidato tassio renar afirmar trabalhar remédio jurídico necessário resolução caso buscar anúncio tentativo retirada candidaturo marçal acontecer dia reunião marcar desistência outro candidato presidente deputado federal candidato homologar avante presidência admitir último semana possibilidade embarcar oficialmente candidatura petista planalto discutir retirada reunião equipe liderar aloizio mercadante planejar encontro emissário avante absorver proposta Janones programa governo tratativo lulo reduzir candidato presidente turno blog jornalista duailibi petista avaliar desistência elevar chance vitória turno recente pesquisa datafolha divulgar último feira janone aparecer intenção votar vídeo Região metropolitano,pro disputar interno comando siglar stj devolver presidência legendo eurípede júnior domingo hora convenção confirmar marçal candidato partido convocar convenção nacional partir referendar formal candidatura
3,0003f534fe8124d98eef78b01baa3b69e3ffcda6e5a657e149a28a7db29c0d4a,855d20b7-53f2-4678-a10f-55402d085018,"1656844828006, 1657017605361, 1657017766954, 1657453617605, 1659622458343, 1660285439340","1656844828006, 1657017605361, 1657017766954, 1657453617605, 1659622458343, 1660285439340",855d20b7-53f2-4678-a10f-55402d085018,http://g1.globo.com/go/goias/noticia/2022/07/04/timido-e-discreto-saiba-como-era-filho-de-caiado-encontrado-morto-em-fazenda-de-nova-crixas.ghtml,2022-07-04 08:54:20+00:00,filho caiar encontrar matar fazenda crixás,caiar filho filho governador goiás divulgaçãogoverno esforçar família amigo pessoa próximo descrever caiar filho filho governador caiar morrer domingo crixás norte goiás causa falecimento divulgar compartilhe compartilhe telegr caiar filho nascer goiânia dia março filho caiado thelma gome professora histório rede municipal estadual aparecida Goiânia colégio estadual vida cursar semestr curso rádio universidade federal goiás ufg sair mudar capital paulista formar administração Escola superior propaganda Marketing espm leio filho governador caiar morrer crixás dor amor caiar lamentar morte filho filho caiar morrer dia aniversário irmã governador caiar filho caiar filho reproduçãoinstagr ano dividir vida goiá ano administrador mudar crixás cidade goiano cuidar fazenda famílir adriano limo primo grau governador gostar vida campo filho trabalhador discreto trabalhar ajudar negócio pai governador pai tratar coisa dizer caiar chorar chegar velório filho Goiânia despeder corpo caiar filho velar noite domingo goiânia cemitério valer cerrar cerimônia realizar presença diverso político autoridade despedir administrador prestar governador goiá familiar velório encerrar voltar cerimônia fúnebre despeder acontecer crematório corpo cremado manhã feira lamento governador caiar publicar mensagem rede social lamentar morte filho filho querer dor amor acolha glória infinito escrever governador governador caiar deixar misso trindade morte filho caiar postar mensagem lembrar entear publicar foto família agradecer mensagem carinho receber menino carinhoso dedicar preocupar sentire senhor olhar família escrever notícia Região goiás filho governador caiar encontrar matar fazenda vídeo último notícia goiá,filho governador formar administração causo morte divulgar
4,0003f534fe8124d98eef78b01baa3b69e3ffcda6e5a657e149a28a7db29c0d4a,900838d8-abf5-4cfb-9308-87a565f7c51f,"1656844828006, 1657017605361, 1657017766954, 1657453617605, 1659622458343, 1660285439340","1656844828006, 1657017605361, 1657017766954, 1657453617605, 1659622458343, 1660285439340",900838d8-abf5-4cfb-9308-87a565f7c51f,http://g1.globo.com/ce/ceara/noticia/2022/07/02/conheca-o-arranha-ceu-mais-alto-de-fortaleza-com-quase-o-dobro-da-altura-do-segundo-maior.ghtml,2022-07-02 08:04:12+00:00,conhecer arrar céu alto fortaleza quase dobro altura,andar metro altura edifício one alto fortaleza imagine visão beiro praia futuro castelão diferente capital cearense apartamento prédio alto fortaleza construção garantir visão panorâmico cidade alto metros altura one nome condomínio construção bairro mucuripe dobro altura arranho céu capital cearense ideia inicial construir torr andar fizemos mudança colocamos prédio outro presidente colmear construtora one otacílio valente ver alto edifício one praia mucuripe Fortaleza fabiane paulasistema verde mar magnitude projeto trazer desafio equipe responsável obra estudo evitar risco altura preocupação peso colocar ação vento tentar tombar prédio explicar início construção empresa financiar estudo vento região fazer empresa britânico desenvolver pesquisa similar construção burj khalifa prédio alto mundo localizar dubai suíte milhão metro altura andar one edifício alto Fortaleza fabiane paulasistema verde mar estudo inicial licença obra chegar ano concluído julho conforme previsão construtora one andar ser apartamento residencial apartamento suíte quarto empregar vaga garagem salo varandar juntas equivalente apartamento fortaleza presidente construtor responsável preço unidade variar milhão milhão altura preço apartamento vender último atualização reportagem incluir andar alto sala varandar quarto ver mar mucuripe comodidade empresa optar modelo elevador desenvolver china percurso térreo andar segunr velocidade metro minuto cerca dobro elevador padrão prédio fortalezar desconforto cabine frenagem aceleração anulo percepção explicar otacílio valente evitar risco andar escar caso energia contar gerador suficiente abastecer elevador área morader ranking alto prédio fortalezar visto alto edifício one Fabiane paulasistema verde mar obra metro altura graças mudança plano diretor Fortaleza passar permitir empreendimento alto outro apartamento altura limite ser construir capital cearense prédio concluir alto fortaleza edifício cidade metro altura andar moradia altur grande atual fortaleza devido aeroporto estabelecer limite nacional área próximo aeroporto poder condomínio mesmo altura alto afirmar valente Juazeiro norte Spazio Bezerra Menezes deter título estrutura alto interior cear andar quase metros altura ranking nacional prédio alto infinity coast santo catarina topo listar metro altura prédio redondezas edifício one visto alto edificação fabiane paulasistema verde mar assistar notícia cear minuto,one apartamento residencia milhão milhão ver mar praia mucuripeo


In [36]:
df_resultado.to_csv("../data/preprocessed/itens/matching_history_pages/merged_history_pages.csv", index=False, encoding="utf-8")


NameError: name 'df_resultado' is not defined

In [None]:
# Criar diretório para salvar os arquivos de saída
output_dir = "./data/tfidf/itens/matching_history_pages/"
os.makedirs(output_dir, exist_ok=True)

# Função para calcular TF-IDF e salvar diretamente em CSV
def calculate_tfidf_and_save(df, columns, output_prefix, max_features=500, batch_size=100000):
    for column in columns:
        if column not in df.columns:
            print(f"⚠️ Coluna {column} não encontrada no DataFrame. Pulando...")
            continue

        print(f"📌 Processando TF-IDF para coluna: {column}")

        # Criando o modelo TF-IDF com max_features=500
        vectorizer = TfidfVectorizer(max_features=max_features)

        num_batches = int(np.ceil(len(df) / batch_size))

        for i in range(num_batches):
            print(f"  ➜ Processando lote {i+1}/{num_batches}...")
            start = i * batch_size
            end = min((i + 1) * batch_size, len(df))

            # Aplicar TF-IDF ao lote
            tfidf_matrix = vectorizer.fit_transform(df[column].iloc[start:end].fillna("").astype(str))

            # Converter para DataFrame diretamente
            tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())

            # Adicionar colunas principais ao lote
            tfidf_df.insert(0, "userId", df["userId"].iloc[start:end].values)
            tfidf_df.insert(1, "history", df["history"].iloc[start:end].values)
            tfidf_df.insert(2, "timestampHistory", df["timestampHistory"].iloc[start:end].values)
            tfidf_df.insert(3, "timestampHistory_new", df["timestampHistory_new"].iloc[start:end].values)
            tfidf_df.insert(4, "page", df["page"].iloc[start:end].values)
            tfidf_df.insert(5, "url", df["url"].iloc[start:end].values)
            tfidf_df.insert(6, "issued", df["issued"].iloc[start:end].values)

            # Nome do arquivo para cada lote
            filename = os.path.join(output_dir, f"{output_prefix}_{column}_batch_{i+1}.csv")

            # Salvar cada lote separadamente
            tfidf_df.to_csv(filename, index=False, encoding='utf-8')
            print(f"✅ Lote {i+1} salvo: {filename}")

# Lista de colunas a processar
columns_to_process = ["title", "body", "caption"]

# Chamando a função para calcular e salvar os TF-IDF com lotes otimizados
calculate_tfidf_and_save(df_final, columns_to_process, "tfidf_result", max_features=500, batch_size=100000)


📌 Processando TF-IDF para coluna: title
  ➜ Processando lote 1/49...
