# Introductie tot paden in Python en daarbuiten

<b>De working directory (werkmap)</b> is de map op je computer waarin je werkt vanuit een programma, script of terminal. Het is de standaardlocatie waar je bestanden opent, opslaat of aanmaakt, tenzij je een andere map opgeeft.

In Python bijvoorbeeld, als je een bestand wilt openen zonder een volledige padnaam op te geven, zal Python dat bestand in de huidige working directory (directory = een map) zoeken.


In [1]:
import os

print(os.getcwd()) # returnt de working directory


c:\Users\timos\OneDrive\02 HU\MADS-DAV\notebooks


In [2]:
print(os.listdir('.')) # returnt een lijst van alle files in de directory, . staat voor current working directory wat de standaard is voor os.listdir()

# checkt of het bestand bestaat, het bestand bestaat niet en we zien het dan ook niet in de lijst van os.listdir() staan.
file = 'pyproject.toml'
print(f"{file} exists: {os.path.exists(file)}") 

['01-cleaning.ipynb', '02-comparing_categories copy.ipynb', '02-comparing_categories.ipynb', '03-time.ipynb', '03.2-statistics-of-time.ipynb', '04.1-distributions.ipynb', '04.2-distribution_fitting.ipynb', '05.1-relationships.ipynb', '05.2-correlation.ipynb', '06.1-dimensionality_reduction.ipynb', '06.2-modelling.ipynb', '101_classes.ipynb', '102_paths.ipynb', '6.3.1-tanach_ingest.ipynb', '6.3.2-tanach_preprocess.ipynb', '6.3.3-tanach_model.ipynb', '6.4_huggingface.ipynb', 'notebooks']
pyproject.toml exists: False


De .. wordt gebruikt om de parent directory aan te duiden: de directory / map boven de huidige directory.

Met het os.chdir command (change directory) kan je wisselen van working directory in Python. Het is hetzelfde als cd command in Linux

In [3]:
os.chdir('..')
print(os.getcwd())

c:\Users\timos\OneDrive\02 HU\MADS-DAV


In [4]:
print(os.listdir()) # we zien nu andere bestanden staan

# nu we in een folder hoger zitten zien we ook dat het bestand pyproject.toml staan
file = 'pyproject.toml'
print(f"{file} exists: {os.path.exists(file)}") 

['.git', '.gitignore', '.gitkeep', '.lefthook.yml', '.pdm-python', '.python-version', '.venv', 'checklist.md', 'config.toml', 'dashboards', 'data', 'dev', 'img', 'logs', 'notebooks', 'presentations', 'pyproject.toml', 'README.md', 'references', 'requirements-dev.lock', 'requirements.lock', 'src']
pyproject.toml exists: True


Voorheen werd vaak de os.path module gebruikt om te werken met paden in Python. Tegenwoordig wordt er vaker gekozen voor de pathlib module. In tegenstelling tot de traditionele os.path module, waarmee je meestal werkt met strings, biedt pathlib een veel intuïtiever en krachtiger systeem door gebruik te maken van objecten die paden vertegenwoordigen.

In [5]:
## Met de Pathlib module kunnen paden op verschillende manieren geschreven worden en blijven hetzelfde
## Dit is vooral handig als je code schrijft voor zowel Linux en Windows

from pathlib import Path
notebooks_dir = Path('notebooks')

p1 = Path('notebooks/01-cleaning.ipynb')
p2 = Path('notebooks') / '01-cleaning.ipynb'
p3 = notebooks_dir / '01-cleaning.ipynb'
p4 = Path('notebooks//01-cleaning.ipynb')
p5 = Path('notebooks\\01-cleaning.ipynb')
p6 = Path('notebooks\01-cleaning.ipynb') # the only one that doesn't work

print(p1)
print(p2)
print(p3)
print(p4)
print(p5) 
print(p6) # the only one that doesn't work


notebooks\01-cleaning.ipynb
notebooks\01-cleaning.ipynb
notebooks\01-cleaning.ipynb
notebooks\01-cleaning.ipynb
notebooks\01-cleaning.ipynb
notebooks-cleaning.ipynb


Met de pathlib module is het makkelijk om verschillende eigenschappen van het path (in dit geval een bestand) op te halen. 
Let wel op dat bepaalde dingen niet werken met directories en wel met bestanden, en andersom.


In [6]:
# Voorbeelden
print(f"Name of the file: {p1.name}")
print(f"stem: {p1.stem}")
print(f"The suffix (file extension): {p1.suffix}")
print(f"Parent of the file (the directory it is in): {p1.parent}")

Name of the file: 01-cleaning.ipynb
stem: 01-cleaning
The suffix (file extension): .ipynb
Parent of the file (the directory it is in): notebooks


In [7]:
print(f"Does exists: {p1.exists()}")
print(f"Is a file: {p1.is_file()}")
print(f"Size (bytes): {p1.stat().st_size}") # returnt de grootte van het bestand in bytes

Does exists: True
Is a file: True
Size (bytes): 7695


In [8]:
# We zetten de working directory weer terug naar de notebooks folder
os.chdir('notebooks')
print(os.getcwd())

c:\Users\timos\OneDrive\02 HU\MADS-DAV\notebooks


Het mkdir command wordt gebruikt om een nieuwe directory aan te maken. De pathlib module laat je ook specificeren of er een error getoond moet worden als de directory al bestaat.

In [9]:
new_dir = notebooks_dir / 'new_dir'
new_dir

WindowsPath('notebooks/new_dir')

In [10]:
new_dir = notebooks_dir / 'new_dir'
print(notebooks_dir.exists())
new_dir.mkdir(parents=True, exist_ok=True)
print(f"Does exist: {notebooks_dir.exists()}")
print(f"Is a file: {new_dir.is_file()}, is a directory: {new_dir.is_dir()}")

True
Does exist: True
Is a file: False, is a directory: True


We gebruiken het rmdir (remove directory) command om de directory ook weer te verwijderen

In [11]:
new_dir.rmdir()

# De path variable

De path variable is een omgevings variable die wordt gebruikt voor het zoeken naar:
1. Uitvoerbare programma's zodat ze in de terminal gebruikt kunnen worden (vandaar dat je python <i> script_name.py </i> in je terminal kan gebruiken)
2. Python packages & modules
3. Virtual Environments passen de path variable aan zodat je system de python uit je .venv folder gebruikt

Omdat je systeem dus alleen zoekt naar modules op de plek van path EN je huidige working directory kan het soms pakketten in een andere map niet vinden. Je kan ervoor zorgen dat dit wel het geval is door de nieuwe directory aan path toe te voegen.

In [12]:
import wa_analyzer # Nu kunnen we de wa_analyzer module importeren omdat de src folder in de sys.path is toegevoegd

ModuleNotFoundError: No module named 'wa_analyzer'

In [13]:
import sys

sys.path.append("../src/")

In [14]:
import wa_analyzer # Nu kunnen we de wa_analyzer module importeren omdat de src folder aan het sys.path is toegevoegd