In [6]:
import os
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
from pymongo import MongoClient


##### Source Folders

In [7]:
users_csv = "../data/files/treino"
output_parquet = "../artifacts/parquets/merged_data.parquet"

##### Mergeando dados de treino e gerando Parquet

In [8]:
csv_files = [f for f in os.listdir(users_csv) if f.endswith('.csv')]
dfs = []

for csv_file in csv_files:
    csv_path = os.path.join(users_csv, csv_file)
    try:
        df = pd.read_csv(csv_path)
        dfs.append(df)
    except Exception as e:
        print(f"❌ Error reading {csv_file}: {e}")
        
all_data = pd.concat(dfs, ignore_index=True)
table = pa.Table.from_pandas(all_data)
pq.write_table(table, output_parquet)

print(f"✅ Merged {len(csv_files)} CSV files into {output_parquet}")


✅ Merged 6 CSV files into ../data/files/treino/output/merged_data.parquet


Conectando ao mongoDB

In [9]:
client = MongoClient("mongodb://admin:adminpassword@localhost:27018")
db = client["mydatabase"]
collection = db["users"]


In [10]:
df = pd.read_parquet(output_parquet)
dados_para_inserir = df.to_dict(orient="records")

##### Verifica se o dado já existe no mongo, baseado no userId, para inserir o registro

In [11]:
if dados_para_inserir:
    for dado in dados_para_inserir:
        dado["_id"] = dado["userId"]  # Define userId como chave primária
        collection.update_one(
            {"_id": dado["_id"]},  # Verifica se já existe um documento com esse userId
            {"$set": dado},        # Atualiza os dados se já existir
            upsert=True            # Insere caso não exista
        )
    print(f"✅ {len(dados_para_inserir)} documentos inseridos com sucesso no MongoDB!")
else:
    print("❌ Nenhum dado para inserir.")

✅ 577942 documentos inseridos com sucesso no MongoDB!


In [12]:
for doc in collection.find().limit(5):  # Mostrar apenas os primeiros 5 registros
  print(doc)

{'_id': 'fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27288434101e7252ef57', 'history': '80aa7bb2-adce-4a55-9711-912c407927a1, d9e5f15d-b441-4d8b-bee4-462b106d3916', 'historySize': 2, 'numberOfClicksHistory': '0, 0', 'pageVisitsCountHistory': '1, 1', 'scrollPercentageHistory': '81.58, 73.36', 'timeOnPageHistory': '71998, 115232', 'timestampHistory': '1657908085200, 1659634203762', 'timestampHistory_new': '1657908085200, 1659634203762', 'userId': 'fbb963d61eb8149e7f43b1bd905457ba5e106a830ddc27288434101e7252ef57', 'userType': 'Non-Logged'}
{'_id': '17f1083e6079b0f28f7820a6803583d1c1b405c0718b11a18d30b1620f643b23', 'history': '19ba89fc-1e06-4c5d-9c57-4a3088dc0511, e273dba4-136c-45fb-bdd6-0cc57b13aaf0', 'historySize': 2, 'numberOfClicksHistory': '68, 12', 'pageVisitsCountHistory': '1, 1', 'scrollPercentageHistory': '51.74, 35.49', 'timeOnPageHistory': '131495, 43733', 'timestampHistory': '1657111508570, 1657481309920', 'timestampHistory_new': '1657111508570, 1657481309920', 'userId': '17f10