Skip to content

kampcjj/dwh_datavault_export_demo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Vault Demo: Van Flatfile naar Dagelijkse Export

Dit project demonstreert hoe je een dagelijkse flatfile-aanlevering omzet naar een Data Vault-model en vervolgens weer een export maakt die de originele levering benadert. De mapping is transparant en in Excel voorbereid, zodat business analisten kunnen meekijken en sturen.

Doel

  • Dagelijkse aanleveringen (bijvoorbeeld klanten en orders) opslaan in een Data Vault structuur.
  • Per dag kun je een export genereren die het oorspronkelijke bronschema (flatfile) exact benadert, ‘as-of’ het snapshotmoment.
  • De mapping van bron naar vault en terug naar export is inzichtelijk en makkelijk overdraagbaar naar Excel.

Structuur en Belangrijke Bestanden

  • main.py: Startpunt van het project. Voert de dagelijkse load, vault-build en snapshot export uit.
  • engine/buildvault.py: Logica voor het laden van brondata en opbouwen van de Data Vault (hubs, satellites, links).
  • engine/exportsnapshots.py: Exportfunctie die per dag (as-of) de meest actuele versie van de entiteiten exporteert in flatfilevorm.
  • config/settings.py en config/dbconnection.py: Database configuratie.
  • datasourcedayXcustomers.csv, datasourcedayXorders.csv: Dagelijkse bronbestanden.
  • datasnapshots/: Hier vind je de gegenereerde exports per dag en entiteit.
  • requirements.txt: Te installeren Python-dependencies.

Uitvoeren

  1. Installeer de dependencies:
    pip install -r requirements.txt
    
  2. Zorg dat de brondata (csv’s) aanwezig zijn.
  3. Start het proces:
    python main.py
    
  4. De resultaten zijn te vinden in de datasnapshots/-map.

Mapping & Aanpassen

  • Mappinglogica is zodanig opgezet dat deze eenvoudig overschrijfbaar is vanuit een Exceloverzicht.
  • Wil je meer of andere kolommen? Pas het mapping-overzicht aan in je Excel en verwerk de wijzigingen in de Pandas-transformatie in de code.

Opschonen & Bestanden

  • De volgende bestanden/directories kun je veilig verwijderen:
    • __pycache__/
    • tests/, models/, sql/, utils/
    • dwh.sqlite (wordt elke run overschreven)
    • .env (alleen nodig voor custom settings)
    • README.md alleen als je geen uitleg meer wenst

Auteur:
Coen van de Kamp Datum laatste update: november 2025[1]

About

Demo project voor Data Vault export in Python met venv structuur.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages