In [51]:
import time
import time, psutil, os
start = time.time()
m0 = psutil.Process(os.getpid()).memory_info().rss / 1024**2

In [52]:
import polars as pl

ficheiro = r"C:\Users\1420844\Downloads\addressGeoLoc_export_20221006.csv"

df = pl.read_csv(
    ficheiro,
    separator=",",
    quote_char='"',
    skip_rows=1,
    has_header=False,
    new_columns=["MORADA", "CP", "LOCALIDADE", "LATITUDE", "LONGITUDE"],
    decimal_comma=True
)

pl.Config.set_tbl_formatting("UTF8_FULL")  # formato mais limpo
pl.Config.set_tbl_rows(5)                 # nº de linhas a mostrar
pl.Config.set_tbl_width_chars(120) 
pl.Config.set_tbl_cols("10_000")    



polars.config.Config

In [53]:
df.head()

MORADA,CP,LOCALIDADE,LATITUDE,LONGITUDE
str,str,str,str,str
"""RUA CESARIO VERDE LOTE 3 A DAS…","""2660""","""FRIELAS""","""38.852697456""","""-9.16971532999997"""
"""RUA DO ROXICO NR50""","""3865-110""","""FERMELA""","""40.709808191""","""-8.54878568099997"""
"""AVENIDA 13 DE MAIO N 536""","""3885-227""","""CORTEGACA OVR""","""40.94109138""","""-8.61864986999996"""
"""AV REINALDO SANTOS N 24 3 DTO""","""2675-673""","""ODIVELAS""","""38.7926955990001""","""-9.18881750599996"""
"""RUA DO BARREIRO N 547""","""4405-730""","""VILA NOVA DE GAIA""","""41.113905909""","""-8.63062512299996"""


In [54]:
df.describe()

statistic,MORADA,CP,LOCALIDADE,LATITUDE,LONGITUDE
str,str,str,str,str,str
"""count""","""2168409""","""2168409""","""2168409""","""2168409""","""2168409"""
"""null_count""","""0""","""0""","""0""","""0""","""0"""
"""mean""",,,,,
…,…,…,…,…,…
"""75%""",,,,,
"""max""","""ZURICH RUA VIRGILIO MARTINHO N…","""CP""","""VOUZELA""","""LATITUDE""","""LONGITUDE"""


In [55]:
# garantir que CP é string
df = df.with_columns(df["CP"].cast(pl.Utf8))

# filtrar e contar
contagem = (
    df.filter(df["CP"].str.slice(0,4).is_in(["4830", "4850"]))
      .select(pl.count("MORADA"))
      .item()
)

print("Número de moradas:", contagem)

Número de moradas: 1158


In [56]:
df_filtrado = df.filter(
    df["CP"].str.slice(0, 4).is_in(["4830", "4850"])
)

df_filtrado

MORADA,CP,LOCALIDADE,LATITUDE,LONGITUDE
str,str,str,str,str
"""RUA COMANDANTE LUIS PINTO DA S…","""4830""","""POVOA DE LANHOSO""","""41.573881""","""-8.268431"""
"""AVENIDA DA CAPELA 147""","""4830""","""POVOA DE LANHOSO""","""41.602910728""","""-8.31333931399996"""
"""RUA NEUVES MAISONS NUMERO 211 …","""4830-550""","""POVOA DE LANHOSO""","""41.573046436""","""-8.26624732199997"""
…,…,…,…,…
"""RUA DA QUINTA N 179 B""","""4830-379""","""LOUREDO PVL""","""41.5465713200001""","""-8.28988375599994"""
"""RUA 5 DE SETEMBRO N94 N94 RC E…","""4830""","""PA VOA DE LANHOSO""","""41.57924""","""-8.273131"""


In [57]:
df_parts = df_filtrado.with_columns([
    # logradouro
    pl.col("MORADA").str.extract(r"^(RUA|AVENIDA|TRAVESSA|PRAÇA|ESTRADA|BECO)", 1).alias("logradouro"),

    # nome da rua (do logradouro até antes do número, sem lookahead → usa stop no número)
    pl.col("MORADA").str.extract(r"^(?:RUA|AVENIDA|TRAVESSA|PRAÇA|ESTRADA|BECO)\s+([A-Z\s]+?)(?:\d|$)", 1).str.strip_chars().alias("nome_rua"),

    # número da porta
    pl.col("MORADA").str.extract(r"\s(\d+)\b", 1).alias("numero"),

    # andar
    pl.col("MORADA").str.extract(r"(\d+º\s*[A-Z]*|R/C)", 1).alias("andar"),

    # código postal
    pl.col("MORADA").str.extract(r"(\d{4}-\d{3})", 1).alias("codigo_postal"),

    # localidade (última palavra)
    pl.col("MORADA").str.extract(r"([A-ZÇÃÉÓ]+)$", 1).alias("localidade")
])

df_parts

MORADA,CP,LOCALIDADE,LATITUDE,LONGITUDE,logradouro,nome_rua,numero,andar,codigo_postal,localidade
str,str,str,str,str,str,str,str,str,str,str
"""RUA COMANDANTE LUIS PINTO DA S…","""4830""","""POVOA DE LANHOSO""","""41.573881""","""-8.268431""","""RUA""","""COMANDANTE LUIS PINTO DA SILVA…","""37""",,,
"""AVENIDA DA CAPELA 147""","""4830""","""POVOA DE LANHOSO""","""41.602910728""","""-8.31333931399996""","""AVENIDA""","""DA CAPELA""","""147""",,,
"""RUA NEUVES MAISONS NUMERO 211 …","""4830-550""","""POVOA DE LANHOSO""","""41.573046436""","""-8.26624732199997""","""RUA""","""NEUVES MAISONS NUMERO""","""211""",,,"""DIREITO"""
…,…,…,…,…,…,…,…,…,…,…
"""RUA DA QUINTA N 179 B""","""4830-379""","""LOUREDO PVL""","""41.5465713200001""","""-8.28988375599994""","""RUA""","""DA QUINTA N""","""179""",,,"""B"""
"""RUA 5 DE SETEMBRO N94 N94 RC E…","""4830""","""PA VOA DE LANHOSO""","""41.57924""","""-8.273131""","""RUA""",,"""5""",,,"""ESQUERDO"""


In [58]:
m1 = psutil.Process(os.getpid()).memory_info().rss / 1024**2
print("Tempo Polars:", round(time.time() - start, 2), "segundos")
print("Memória Polars:", round(m1 - m0, 2), "MB")

Tempo Polars: 0.71 segundos
Memória Polars: 161.99 MB
