
# DuckDB + MovieLens — Starter Notebook (VS Code)

Este notebook foi preparado para:
- ligar a um ficheiro `.duckdb` local
- correr queries úteis em SQL
- (opcional) importar CSVs para dentro da base
- exportar resultados

> **Dica:** no VS Code, seleciona o kernel do teu `.venv` onde tens `duckdb` e `pandas` instalados.


In [1]:

#Se precisares de instalar dependências no teu venv, descomenta a linha abaixo.
%pip install duckdb pandas


Collecting duckdb
  Downloading duckdb-1.4.1-cp312-cp312-macosx_10_13_x86_64.whl.metadata (14 kB)
Collecting pandas
  Downloading pandas-2.3.3-cp312-cp312-macosx_10_13_x86_64.whl.metadata (91 kB)
Collecting numpy>=1.26.0 (from pandas)
  Downloading numpy-2.3.4-cp312-cp312-macosx_10_13_x86_64.whl.metadata (62 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading duckdb-1.4.1-cp312-cp312-macosx_10_13_x86_64.whl (16.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.2/16.2 MB[0m [31m7.4 MB/s[0m  [33m0:00:02[0mm0:00:01[0m00:01[0m
[?25hDownloading pandas-2.3.3-cp312-cp312-macosx_10_13_x86_64.whl (11.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.6/11.6 MB[0m [31m9.3 MB/s[0m  [33m0:00:01[0m6m0:00:01[0m00:01[0m
[?25hDownloading numpy-2.3.4-cp312-cp312-macosx_10_13_

In [2]:
import duckdb, pandas as pd
from pathlib import Path

DATA_DIR = Path("..") / "data" / "100k"
#movies_path

links_path = DATA_DIR / "links.csv"
movies_path = DATA_DIR / "movies.csv"
ratings_path = DATA_DIR / "ratings.csv"
tags_path = DATA_DIR / "tags.csv"

In [3]:
# cria ou liga se já existir:
con = duckdb.connect("movielens100K.duckdb")

# ver tabelas existentes
existing = set(con.sql("SHOW TABLES").df()["name"].str.lower())

# criar tabelas só se ainda não existirem
# movies (importação directa sem alterações — é texto e ok)
if "movies" not in existing:
    con.sql(f"CREATE TABLE movies AS SELECT * FROM read_csv_auto('{movies_path}')")

# ratings (na importação é importante garantir timestamp correcto)
con.sql(f"""
CREATE OR REPLACE TABLE ratings AS
SELECT
    userId::INT     As userId,
    movieId::INT    As movieId,
    rating::DOUBLE  As rating,
    to_timestamp(CAST(timestamp AS BIGINT)) AS timestamp
FROM read_csv_auto('{ratings_path}')
""")

# tags (também garantir timestamp)
con.sql(f"""
CREATE OR REPLACE TABLE tags AS
SELECT
    userId::INT     As userId,
    movieId::INT    As movieId,
    tag,
    to_timestamp(CAST(timestamp AS BIGINT)) AS timestamp
FROM read_csv_auto('{tags_path}')
""")

# links (tudo texto está ok)
if "links" not in existing:
    con.sql(f"CREATE TABLE links AS SELECT * FROM read_csv_auto('{links_path}')")

# mostrar estado final
con.sql("SHOW TABLES").df()

#Isto é melhor porquê?
#userId e movieId ficam logo como inteiros (não como texto)
#rating fica como número decimal real
#o timestamp passa a tipo TIMESTAMP (ts)


Unnamed: 0,name
0,links
1,movies
2,ratings
3,tags


## Fechar a ligação (quando terminares)

In [4]:
con.close()
print("Ligação fechada.")


Ligação fechada.
