In [1]:
from pymongo import MongoClient
import polars as pl

In [2]:
# Conectar ao MongoDB
client = MongoClient("mongodb://localhost:27017")  # Conectar ao MongoDB local
db = client["ctt2025"]  # Nome da base de dados no MongoDB
collection = db["expresso_2025"]  # Nome da coleção (tabela)

In [14]:
from datetime import datetime, timedelta, timezone
import polars as pl

# --- intervalo últimos 30 dias ---
end = datetime.now(timezone.utc)
start = end - timedelta(days=30)

DATE_FIELD = "data_criacao"

proj = {
    "centro": 1, "data_criacao": 1, "giro": 1, "loptica": 1,
    "janela_horaria": 1, "nome": 1, "morada": 1, "cp": 1,
    "localidade": 1, "cod_t_even": 1, "data_evento": 1,
    "latitude": 1, "longitude": 1, "nome_rem": 1, "cod_pais_origem": 1,
    "_id": 0  # ignora o _id, se não precisares
}

query = {DATE_FIELD: {"$gte": start, "$lt": end}}

n = collection.count_documents(query)
print(f"Documentos no último mês: {n}")

cursor = collection.find(query, projection=proj, batch_size=10_000)

batches, batch = [], []
BATCH_SIZE = 50_000

for i, item in enumerate(cursor, 1):
    batch.append({
        "data_criacao": str(item.get("data_criacao") or item.get("DATA_CRIACAO") or ""),
        "centro": str(item.get("centro") or item.get("CENTRO") or ""),
        "giro": str(item.get("giro") or item.get("GIRO") or ""),
        "loptica": str(item.get("loptica") or item.get("LOPTICA") or ""),
        "janela_horaria": str(item.get("janela_horaria") or item.get("JANELA_HORARIA") or ""),
        "nome": str(item.get("nome") or item.get("NOME") or ""),
        "morada": str(item.get("morada") or item.get("MORADA") or ""),
        "cp": str(item.get("cp") or item.get("CP") or ""),
        "localidade": str(item.get("localidade") or item.get("LOCALIDADE") or ""),
        "cod_t_even": str(item.get("cod_t_even") or item.get("COD_T_EVEN") or ""),
        "data_evento": str(item.get("data_evento") or item.get("DATA_EVENTO") or ""),
        "latitude": str(item.get("latitude") or item.get("LATITUDE") or ""),
        "longitude": str(item.get("longitude") or item.get("LONGITUDE") or ""),
        "nome_rem": str(item.get("nome_rem") or item.get("NOME_REM") or ""),
        "cod_pais_origem": str(item.get("cod_pais_origem") or item.get("COD_PAIS_ORIGEM") or ""),
    })

    if i % BATCH_SIZE == 0:
        dfb = pl.DataFrame(batch)   # agora é seguro, tudo string
        batches.append(dfb)
        batch.clear()

if batch:
    dfb = pl.DataFrame(batch)
    batches.append(dfb)

df = pl.concat(batches, how="vertical_relaxed") if batches else pl.DataFrame()

# ✅ converter colunas de interesse depois
if df.height:
    df = df.with_columns([
        pl.col("data_criacao").str.strptime(pl.Datetime, strict=False),
        pl.col("latitude").cast(pl.Float64, strict=False),
        pl.col("longitude").cast(pl.Float64, strict=False),
    ])





Documentos no último mês: 7923246


In [15]:
df.head(50)

data_criacao,centro,giro,loptica,janela_horaria,nome,morada,cp,localidade,cod_t_even,data_evento,latitude,longitude,nome_rem,cod_pais_origem
datetime[μs],str,str,str,str,str,str,str,str,str,str,f64,f64,str,str
2025-07-27 23:00:00,"""0""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""",,,"""nan""","""nan"""
2025-07-28 23:00:00,"""0""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""",,,"""nan""","""nan"""
2025-07-29 23:00:00,"""0""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""","""nan""",,,"""nan""","""nan"""
2025-07-30 23:00:00,"""8811361""","""MV260""","""DB198700339PT""","""09-19""","""NEVES DIAS""","""RUA MARIA AUXILIADORA 42 A BAI…","""7005-552""","""ÉVORA""","""I""","""31/07/2025 17:19:35""",38.558364,-7.895086,"""JULIE - DAT NOW, UNIPESSOAL LD…","""PT"""
2025-07-30 23:00:00,"""8811361""","""MV240""","""RL371999478PT""","""""","""""","""""","""7040-039""","""ARRAIOLOS""","""H""","""31/07/2025 17:16:41""",,,"""""","""PT"""
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
2025-07-30 23:00:00,"""8811361""","""MV270""","""DY275023717PT""","""09-19""","""CARVALHO JOAO""","""RUA DR JOSE ANTONIO DE ALMEIDA…","""7090-269""","""VIANA DO ALENTEJO""","""I""","""31/07/2025 16:17:36""",38.333027,-8.00176,"""CAINIAO""","""PT"""
2025-07-30 23:00:00,"""8811361""","""MV270""","""DS834821877PT""","""09-19""","""ISABEL LUZ""","""RUA DO MAUFORO NUMERO 23""","""7090-299""","""VIANA DO ALENTEJO""","""H""","""31/07/2025 16:17:02""",38.333133,-8.001675,"""LTEVE GROUP YPCOMPLAINTS@OUTLO…","""ES"""
2025-07-30 23:00:00,"""8811361""","""MV270""","""RW605741460PT""","""""","""""","""""","""""","""""","""I""","""31/07/2025 16:16:17""",38.333641,-8.00193,"""""","""PT"""
2025-07-30 23:00:00,"""8811361""","""MV110""","""RU663789895PT""","""""","""JOSE FELICIANO FIALHO MACHADO""","""AV SAO SEBASTIAO 17 SENHORA DA…","""7000-767""","""ÉVORA""","""I""","""31/07/2025 16:16:13""",,,"""DIRECAO REGIONAL DE MOBILIDADE…","""PT"""


In [16]:
import polars as pl

# filtrar exatamente o dia 2025-08-25 (ignora horas)
filtro = df.filter(
    pl.col("data_criacao").dt.date() == pl.date(2025, 8, 20)
)


filtro


data_criacao,centro,giro,loptica,janela_horaria,nome,morada,cp,localidade,cod_t_even,data_evento,latitude,longitude,nome_rem,cod_pais_origem
datetime[μs],str,str,str,str,str,str,str,str,str,str,f64,f64,str,str
2025-08-20 23:00:00,"""8811361""","""MV260""","""RL313217931PT""","""""","""""","""""","""""","""""","""I""","""21/08/2025 17:41:21""",38.559422,-7.89567,"""""","""PT"""
2025-08-20 23:00:00,"""8811361""","""MV260""","""RL418074614PT""","""""","""""","""""","""""","""""","""I""","""21/08/2025 17:38:56""",38.560492,-7.89229,"""""","""PT"""
2025-08-20 23:00:00,"""8811361""","""MV260""","""RG640777995PT""","""""","""""","""""","""""","""""","""I""","""21/08/2025 17:35:09""",38.557668,-7.90739,"""""","""PT"""
2025-08-20 23:00:00,"""8811361""","""MV260""","""RF940510151PT""","""""","""""","""""","""""","""""","""I""","""21/08/2025 17:33:19""",38.557668,-7.90739,"""""","""PT"""
2025-08-20 23:00:00,"""8811361""","""MV260""","""RG640777911PT""","""""","""""","""""","""""","""""","""I""","""21/08/2025 17:32:02""",38.557668,-7.90739,"""""","""PT"""
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
2025-08-20 23:00:00,"""8819009""","""LOCAL CTT EXPRE""","""EC213265347PT""","""""","""COOPERATIVA AGRICOLA ST. ISIDR…","""PEREIRA CALDAS 1, R/C""","""2985-158""","""SANTO ISIDRO DE PEGÕES""","""I""","""21/08/2025 08:13:11""",38.684488,-8.658045,"""CAPSULAS DO NORTE INDUSTRIAS M…","""PT"""
2025-08-20 23:00:00,"""8819009""","""LOCAL CTT EXPRE""","""EC213265333PT""","""""","""COOPERATIVA AGRICOLA ST. ISIDR…","""PEREIRA CALDAS 1, R/C""","""2985-158""","""SANTO ISIDRO DE PEGÕES""","""I""","""21/08/2025 08:13:11""",38.684488,-8.658045,"""CAPSULAS DO NORTE INDUSTRIAS M…","""PT"""
2025-08-20 23:00:00,"""8819009""","""LOCAL CTT EXPRE""","""EC213265404PT""","""""","""COOPERATIVA AGRICOLA ST. ISIDR…","""PEREIRA CALDAS 1, R/C""","""2985-158""","""SANTO ISIDRO DE PEGÕES""","""I""","""21/08/2025 08:13:11""",38.684488,-8.658045,"""CAPSULAS DO NORTE INDUSTRIAS M…","""PT"""
2025-08-20 23:00:00,"""8819009""","""LOCAL CTT EXPRE""","""EC213265395PT""","""""","""COOPERATIVA AGRICOLA ST. ISIDR…","""PEREIRA CALDAS 1, R/C""","""2985-158""","""SANTO ISIDRO DE PEGÕES""","""I""","""21/08/2025 08:13:11""",38.684488,-8.658045,"""CAPSULAS DO NORTE INDUSTRIAS M…","""PT"""


In [22]:
import os

# caminho para Downloads
downloads_path = os.path.join(os.path.expanduser("~"), "Downloads", "dados.parquet")

# grava o df final em Parquet
df.write_parquet(downloads_path, compression="zstd")

print(f"Parquet gravado em: {downloads_path}")


Parquet gravado em: C:\Users\1420844\Downloads\dados.parquet
