In [1]:
import os
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
from pymongo import MongoClient


In [2]:
articles_csv = "../data/itens/itens"
articles_output_parquet = "../artifacts/parquets/articles_merged_data.parquet"

In [3]:
articles_csv_files = [f for f in os.listdir(articles_csv) if f.endswith('.csv')]
articles_dfs = []

for article_csv_file in articles_csv_files:
    article_csv_path = os.path.join(articles_csv, article_csv_file)
    try:
        article_df = pd.read_csv(article_csv_path)
        articles_dfs.append(article_df)
    except Exception as e:
        print(f"❌ Error reading {article_csv_file}: {e}")
        
article_all_data = pd.concat(articles_dfs, ignore_index=True)
article_table = pa.Table.from_pandas(article_all_data)
pq.write_table(article_table, articles_output_parquet)

print(f"✅ Merged {len(articles_csv_files)} CSV files into {articles_output_parquet}")

✅ Merged 3 CSV files into ../data/itens/itens/output/articles_merged_data.parquet


In [4]:
client = MongoClient("mongodb://admin:adminpassword@localhost:27018")
db = client["mydatabase"]
articles_collection = db["articles"]


In [5]:
article_df = pd.read_parquet(articles_output_parquet)
articles_dados_para_inserir = article_df.to_dict(orient="records")

In [6]:
if articles_dados_para_inserir:
    for article_dado in articles_dados_para_inserir:
        article_dado["_id"] = article_dado["page"]  # Define userId como chave primária
        articles_collection.update_one(
            {"_id": article_dado["_id"]},  # Verifica se já existe um documento com esse userId
            {"$set": article_dado},        # Atualiza os dados se já existir
            upsert=True            # Insere caso não exista
        )
    print(f"✅ {len(articles_dados_para_inserir)} documentos inseridos com sucesso no MongoDB!")
else:
    print("❌ Nenhum dado para inserir.")

✅ 255603 documentos inseridos com sucesso no MongoDB!


In [7]:
for doc in articles_collection.find().limit(5):  # Mostrar apenas os primeiros 5 registros
  print(doc)

{'_id': '13db0ab1-eea2-4603-84c4-f40a876c7400', 'body': 'Após audiência de custódia, a Justiça do Amazonas decretou, na tarde deste sábado (18), a prisão temporária,  por 30 dias, de Jeferson da Silva Lima, conhecido como "Pelado da Dinha". Ele teve participação direta na morte do indigenista Bruno Pereira e do jornalista inglês Dom Phillips, aponta as investigações. \n"Pelado da Dinha" foi considerado foragido na noite de sexta-feira (17) após ter o mandado de prisão expedido e não ser localizado pelas autoridades. Ele se entregou na delegacia de Atalaia do Norte, a 1.136 quilômetros de Manaus, nas primeiras horas da manhã deste sábado, onde foi ouvido pelo delegado Alex Perez Timóteo. \n"Pelado da Dinha" foi considerado foragido na noite de sexta-feira (17) após ter o mandado de prisão expedido \nRôney Elias/Rede Amazônica \nDurante a tarde, Jeferson foi escoltado por agentes da Polícia Federal ao Fórum de Justiça do município para a audiência de custódia e teve a prisão temporária d