# Lab 9. Moduł `os`

**Dokumentacja:**
* https://docs.python.org/3/library/os.html#module-os

Moduł `os` dostarcza narzędzi specyficznych dla systemu operacyjnego, na którym bieżący interpreter został uruchomiony. Część z nich jest uniwersalna pomiędzy platformami. Poniżej przedstawione zostaną przykłady wybranych elementów tego modułu.

In [94]:
import os

**`os.environ`**

Pozwala na wypisanie, ale i ustawienie zmiennych środowiskowych. Wartość zmiennych odczytywana jest w momencie inicjalizacji interpretera Pythona, ale w zależności od sposobu jego uruchamiania (IDE, Jupyter) widoczność zmiennych może być nieco inna. Zmienne zdefiniowane w systemie po inicjalizacji Pythona (ale biorąc również pod uwagę w/w narzędzia) nie będą widoczne. Zdefiniowanie tych zmiennych ma charakter tymczasowy, tylko dla bieżącej sesji.

Zobacz również `os.getenv()` oraz `os.putenv()`.

In [96]:
os.environ['JAVA_HOME']

'C:\\Program Files\\OpenLogic\\jdk-17.0.15.6-hotspot'

In [97]:
os.environ['username']

'Krzysztof'

In [101]:
list(filter(lambda x: 'Python' in x, os.environ['PATH'].split(';')))

['C:\\Users\\Krzysztof\\AppData\\Local\\Programs\\Python\\Python312\\Scripts\\',
 'C:\\Users\\Krzysztof\\AppData\\Local\\Programs\\Python\\Python312\\',
 'C:\\Users\\Krzysztof\\AppData\\Local\\Programs\\Python\\Python313\\Scripts\\',
 'C:\\Users\\Krzysztof\\AppData\\Local\\Programs\\Python\\Python313\\',
 'C:\\Users\\Krzysztof\\AppData\\Local\\Programs\\Python\\Launcher\\',
 'C:\\Users\\Krzysztof\\AppData\\Local\\Programs\\Python\\Python311\\Scripts\\',
 'C:\\Users\\Krzysztof\\AppData\\Local\\Programs\\Python\\Python311\\']

**`os.getcwd()`**

In [103]:
os.getcwd()

'C:\\Users\\Krzysztof\\__projects\\__uwm_zaawansowany_python\\lab_09'

In [106]:
# zmiana bieżącej ścieżki
os.chdir('..')
os.getcwd()

'C:\\Users\\Krzysztof\\__projects'

In [None]:
# oczywiście do zmiany na właściwą dla projektu ścieżkę
os.chdir(r'.\__uwm_zaawansowany_python\lab_09')

In [115]:
os.getcwd()

'C:\\Users\\Krzysztof\\__projects\\__uwm_zaawansowany_python\\lab_09'

In [121]:
os.getlogin()

'Krzysztof'

Moduł `os` zawiera wiele niskopoziomowych funkcji do obsługi plików. Można je znaleźć w sekcji https://docs.python.org/3/library/os.html#file-descriptor-operations. Pozwalają one między innymi na zmianę uprawnień do pliku, odczytywanie danych z pliku w różny sposób, kopiowanie fragmentów między plikami i wiele innych niskopoziomowych funkcji związanych z obsługą plików.

**`os.access(filepath, mode)`**

Dostępne wartości parametru `mode`:
* os.F_OK - czy istnieje
* os.R_OK - odczyt (read)
* os.W_OK - zapis (write)
* os.X_OK - wykonanie (execute)

In [124]:
os.access('.', mode=os.R_OK)

True

In [126]:
# listuje zawartość wskazanego folderu
os.listdir('.')

['.ipynb_checkpoints', 'adv_python_09.ipynb', 'dane', 'test.py']

**`os.mkdir(path, mode=0o777, *, dir_fd=None)`**

Funkcja pozwala stworzyć folder zdefiniowany poprzez atrybut `path`. Zgłasza wyjątek `FileExistsError` jeżeli folder już istnieje lub `FileNotFoundError` jeżeli folder nadrzędny nie istnieje.

In [127]:
os.mkdir('test')

In [128]:
os.access('test', mode=os.R_OK)

True

**`os.makedirs(name, mode=0o777, exist_ok=False)`**

Funkcja, która służy do tworzenia folderów, ale tworzy je rekurencyjnie, jeżeli którykolwiek z podanych w ścieżce nie istnieje (to zależy również od wartości parametru `exist_ok`). Jeżeli `exist_ok` ma wartość `True` to nie jest zgłaszany wyjątek `FileExistsError`.

In [130]:
os.makedirs('./ala/ma/kota')

In [141]:
os.access('./ala/ma/kota', mode=os.R_OK)

True

**`os.remove(path, *, dir_fd=None)`**

Służy do usuwania plików i zgłasza wyjątek `OSError` jeżeli podana ścieżka wskazuje na folder. Do usuwania folderów służy funkcja `os.rmdir()`

In [142]:
!echo "Hello world!" > plik.txt

In [143]:
!ls

adv_python_09.ipynb
ala
dane
plik.txt
test
test.py


In [144]:
os.remove('plik.txt')

In [145]:
!ls

adv_python_09.ipynb
ala
dane
test
test.py


In [147]:
os.remove('ala/ma/kota')

PermissionError: [WinError 5] Odmowa dostępu: 'ala/ma/kota'

**`os.removedirs(name)`**

Usuwanie folderów rekurencyjnie. Usuwanie odbywa się począwszy od liścia i jeżeli któryś z kolejnych folderów nie jest pusty to folder nie zostanie usunięty.

In [148]:
os.removedirs('./ala/ma/kota')

In [149]:
!ls

adv_python_09.ipynb
dane
test
test.py


In [152]:
os.makedirs('./ala/ma/kota')

In [153]:
!echo "Bla bla ..." > ./ala/ma/test.txt

In [154]:
!ls ./ala/ma

kota
test.txt


In [155]:
os.removedirs('./ala/ma/kota')

In [157]:
!ls -R

.:
adv_python_09.ipynb
ala
dane
test
test.py

./ala:
ma

./ala/ma:
test.txt

./dane:

./test:


Jak widać na powyższych przykładach, podfolder o nazwie `kota` ze ścieżki `ala\ma\kota` został usunięty, ale pozostałe nie gdyż podfolder `ma` nie był pusty.

**`os.rename(src, dst, *, src_dir_fd=None, dst_dir_fd=None)`**

Funkcja służy do zmiany nazwy plików lub folderów. `os.renames` służy do tego samego celu, ale w sposób rekurencyjny.

In [159]:
os.rename('./ala/ma','./ala/miała')

In [161]:
!ls -R

.:
adv_python_09.ipynb
ala
dane
test
test.py

./ala:
miaĹ‚a

./ala/miaĹ‚a:
test.txt

./dane:

./test:


In [163]:
# brak poprawnego kodowania wyjścia do UTF-8 można obejść w poniższy sposób (ale nie jest jedyny)
import subprocess

result = subprocess.run(['ls', '-R'], stdout=subprocess.PIPE)
print(result.stdout.decode())

.:
adv_python_09.ipynb
ala
dane
test
test.py

./ala:
miała

./ala/miała:
test.txt

./dane:

./test:



**`os.scandir(path='.')`**

Jest to funkcja, która zwraca iterator obiektów `os.DirEntry` poczynając od wskazanej ścieżki. Elementy są zwracane w porządku arbitralnym, a elementy specjalne `.` oraz `..` są pomijane. Jeżeli kod, który korzysta z drzewa elementów wybranego fragmentu systemu plików będzie wykorzystywał inne funkcje sprawdzające atrybuty tych obiektów (plików, folderów) takie jak uprawnienia, typ zasobu itp. to rozwiązanie bazujące na funkcji `scandir()` będzie znacznie wydajniejsze względem funkcji `listdir()`, która również zostanie tutaj zaprezentowana.

Klasa `os.DirEntry` pozwala na sprawdzenie wartości wielu atrybutów danego zasobu, a ich lista znajduje się w dokumentacji:
* https://docs.python.org/3/library/os.html#os.DirEntry

In [200]:
fs = os.scandir()
for item in fs:
    print(item)

<DirEntry '.ipynb_checkpoints'>
<DirEntry 'adv_python_09.ipynb'>
<DirEntry 'ala'>
<DirEntry 'dane'>
<DirEntry 'test'>
<DirEntry 'test.py'>


In [173]:
# pamiętaj, że iteratory są wyczerpywalne, więc po przejściu należy je ponownie przeładować
files = [f.name for f in fs if f.is_file()]
files

['adv_python_09.ipynb', 'test.py']

In [198]:
# wyświetlenie wybranych atrybutów zasobów, które sa dostępne bez względu na system operacyjny
# istnieją też inne atrybuty, których wartość może nie występować dla każdego systemu operacyjnego
# szczegóły do sprawdzenia w dokumentacji

for item in fs:
    print(item.stat())

os.stat_result(st_mode=16895, st_ino=0, st_dev=0, st_nlink=0, st_uid=0, st_gid=0, st_size=0, st_atime=1746598958, st_mtime=1746433731, st_ctime=1746433198)
os.stat_result(st_mode=33206, st_ino=0, st_dev=0, st_nlink=0, st_uid=0, st_gid=0, st_size=44987, st_atime=1746604200, st_mtime=1746604200, st_ctime=1746433198)
os.stat_result(st_mode=16895, st_ino=0, st_dev=0, st_nlink=0, st_uid=0, st_gid=0, st_size=0, st_atime=1746603658, st_mtime=1746600026, st_ctime=1746599682)
os.stat_result(st_mode=16895, st_ino=0, st_dev=0, st_nlink=0, st_uid=0, st_gid=0, st_size=0, st_atime=1746598958, st_mtime=1746465310, st_ctime=1746465310)
os.stat_result(st_mode=16895, st_ino=0, st_dev=0, st_nlink=0, st_uid=0, st_gid=0, st_size=0, st_atime=1746598686, st_mtime=1746598686, st_ctime=1746598686)
os.stat_result(st_mode=33206, st_ino=0, st_dev=0, st_nlink=0, st_uid=0, st_gid=0, st_size=288, st_atime=1746600298, st_mtime=1746446660, st_ctime=1746433724)


In [199]:
# list dir wyświetla tylko nazwy zasobów, więc nadaje się idealnie do szybkiego odfiltrowania ich po nazwach
fs = os.listdir()
for item in fs:
    print(item)

.ipynb_checkpoints
adv_python_09.ipynb
ala
dane
test
test.py


In [201]:
[f for f in os.listdir() if f.endswith('.py')]

['test.py']

**`os.walk(top, topdown=True, onerror=None, followlinks=False)`**

Kolejna funkcja pozwalająca na eksplorację systemu plików z poziomu języka Python. Funkcja zwraca trzyelementową krotkę `(dirpath, dirnames, filenames)`,w której:
* `dirpath` - ścieżka do listowanego folderu
* `dirnames` - nazwy wszystkich podfolderów ścieżki `dirpath`
* `filenames` - nazwy wszystkich plików ścieżki `dirpath`

Funkcja domyślnie przechodzi przez strukturę w kierunku top-down, ale możemy to zmienić wartością parametru `topdown`.

In [206]:
for level in os.walk('./ala'):
    print(level)

('./ala', ['miała'], [])
('./ala\\miała', [], ['test.txt'])


In [209]:
for level in os.walk('./ala', topdown=False):
    print(level)

('./ala\\miała', [], ['test.txt'])
('./ala', ['miała'], [])


**Inne wybrane elementy modułu `os`**

In [165]:
# zwraca liczbę procesorów logicznych w systemie
os.cpu_count()

12

In [210]:
# pozwala na wykonanie polecenia powłoki
os.system('dir')

0

Dlaczego taki outpup?

Za dokumentacją (https://docs.python.org/3/library/os.html#os.system):
> On Unix, the return value is the exit status of the process encoded in the format specified for wait().

> On Windows, the return value is that returned by the system shell after running command. The shell is given by the Windows environment variable COMSPEC: it is usually cmd.exe, which returns the exit status of the command run; on systems using a non-native shell, consult your shell documentation.

I również tam znajdziemy informację, że w takim przypadku lepszym pomysłem jest wykorzystanie modułu `subprocess`.

In [213]:
# zwraca separator ścieżek w systemie plików dla bieżącego systemu operacyjnego
os.sep

'\\'

## 3. Moduł `os.path`

Jest to moduł w module `os`, który zawiera przydatne funkcje do pracy ze ścieżkami w systemie plików. Poniżej zaprezentowane zostaną tylko wybrane z nich. Dla pełnego ich przeglądu zapraszam do oficjalnej dokumentacji:
* https://docs.python.org/3/library/os.path.html#module-os.path

Jedną z najpowszechniej wykorzystywanych funkcji jest `os.path.join`, która służy do budowania poprawnej ścieżki w kontekście bieżącego systemu operacyjnego z podanych elementów.

In [222]:
# przyjmijmy, że mamy stałą DATAPATH, która wskazuje na globalny folder z danymi (pamiętajmy, że to znowu konwencja - umowa)
DATAPATH = './dane/'

In [216]:
# nasz plik będzie się nazywał dummy_data.txt
filename = 'dummy_data.txt'

In [223]:
filepath = os.path.join(DATAPATH, filename)
filepath

'./dane/dummy_data.txt'

In [224]:
with open(filepath, 'w', encoding='utf-8') as file:
    file.write('moje dummy data')

In [225]:
os.listdir(DATAPATH)

['dummy_data.txt', 'd_pl_txt.zip']

Inne wybrane funkcje w tym module.

In [226]:
# ścieżka bezwzględna
os.path.abspath(filepath)

'C:\\Users\\Krzysztof\\__projects\\__uwm_zaawansowany_python\\lab_09\\dane\\dummy_data.txt'

In [229]:
# ostatni człon ścieżki, wartość różni się w zależności od tego czy jest to plik czy folder
os.path.basename(filepath)

'dummy_data.txt'

In [228]:
os.path.basename(DATAPATH)

''

In [230]:
os.path.dirname(DATAPATH)

'./dane'

In [231]:
os.path.dirname(filepath)

'./dane'

In [232]:
# czy ścieżka istnieje
os.path.exists(DATAPATH)

True

In [233]:
os.path.exists(filepath)

True

In [236]:
# zwraca rozmiar w bajtach - dla folderów wartość -> 0
os.path.getsize(filepath)

15

In [239]:
# czy plik?
print(os.path.isfile(filepath))
# czy folder?
print(os.path.isdir(filepath))
# czy symlink (głównie UNIX)?
print(os.path.islink(filepath))
# czy ścieżka bezwzględna?
print(os.path.isabs(filepath))

True
False
False
False


In [247]:
# pamiętajmy, że pierwotnie w kodzie ścieżka została zapisana w postaci: './dane/dummy_data.txt'
print(1, os.path.abspath(filepath))
print(2, os.path.normcase(os.path.abspath(filepath)))
print(3, os.path.normpath(os.path.abspath(filepath)))
print(4, os.path.realpath(os.path.abspath(filepath)))
print(5, os.path.relpath(os.path.abspath(filepath)))

1 C:\Users\Krzysztof\__projects\__uwm_zaawansowany_python\lab_09\dane\dummy_data.txt
2 c:\users\krzysztof\__projects\__uwm_zaawansowany_python\lab_09\dane\dummy_data.txt
3 C:\Users\Krzysztof\__projects\__uwm_zaawansowany_python\lab_09\dane\dummy_data.txt
4 C:\Users\Krzysztof\__projects\__uwm_zaawansowany_python\lab_09\dane\dummy_data.txt
5 dane\dummy_data.txt


In [249]:
# teraz naszą ścieżkę zmodyfikujemy nieco
filepath = '../../'
print(1, os.path.abspath(filepath))
print(2, os.path.normcase(os.path.abspath(filepath)))
print(3, os.path.normpath(os.path.abspath(filepath)))
print(4, os.path.realpath(os.path.abspath(filepath)))
print(5, os.path.relpath(os.path.abspath(filepath)))

1 C:\Users\Krzysztof\__projects
2 c:\users\krzysztof\__projects
3 C:\Users\Krzysztof\__projects
4 C:\Users\Krzysztof\__projects
5 ..\..


**`os.path.split`**

Ta funkjca rozdziela ścieżkę na krotkę (bazowa ścieżka bez liścia (zazwyczaj zasób plikowy), liść). Poniżej przykład.

In [250]:
filepath = os.path.join(DATAPATH, filename)
os.path.split(filepath)

('./dane', 'dummy_data.txt')

In [251]:
os.path.split(os.path.abspath(filepath))

('C:\\Users\\Krzysztof\\__projects\\__uwm_zaawansowany_python\\lab_09\\dane',
 'dummy_data.txt')

### Zadania

**Zadanie 1**

Rozpakuj (możesz z poziomu Pythona albo systemu operacyjnego) plik `d_pl_txt.zip` (plik spakowany i podzielony na 3 części znajduje się w podfolderze `./dane`) w folderze `dane`. Wykorzystując narzędzia z modułu `os` wypisz ile jest folderów i ile plików w tym rozpakowanym pliku - czyli poniżej folderu o nazwie `d_pl_txt`.

**Zadanie 2**

Napisz funkcję o nazwie `file_stats`, która przyjmie dwa argumenty:
* `base_path` - ścieżka wyszukiwania
* `folder_name` - nazwa folderu do odszukania

Jeżeli funkcja odnajdzie folder (rekurencyjnie) o podanej nazwie to ma zwrócić liczbę wszystkich plików, które znajdują się w nim (i tylko w nim, bez rekurencji) oraz łączną ich wielkość.

**Zadanie 3**

Napisz funkcję `fs_stats`, która:
* jako argument przyjmuje ścieżkę,
* rekurencyjnie przechodzi przez wszystkie elementy i zapisuje poniższe informacje do ramki pandas:
  * nazwa elementu (folderu lub pliku)
  * ścieżka względna
  * ścieżka bezwzględna
  * czy to folder
  * czy to plik
  * rozmiar w bajtach
  * liczba linii w pliku

**Zadanie 4**

Wykorzystując kod z zadania 3 lub finalną ramkę danych scal zawartość wszystkich plików w jeden zbiór danych i zapisz go do pliku csv.

**Zadanie 5**

Wyjaśnij dlaczego liczba bajtów zaalokowanych dla trzech list przedstawionych w przykładzie użycia funkcji `sys.getsizeof()` różni się (lub nie) dla list o tej samej (lub różnej) ilości elementów?