# Jak tworzyć ścieżki like a pro?

## WAŻNE! Zanim zaczniemy!

Zanim zaczniemy, zadanie dla ciebie, w folderze, w którym znajduje się ten notebook utwórz następujące drzewo katalogów i plików:
```
data
├── raw
│   ├── 2024-01-01.csv
│   ├── 2024-01-01.xlsx
│   └── 2024-01-02.csv
└── processed
    ├── 2024-01-01.csv
    └── 2024-01-02.csv
```
same pliki csv mogą być puste, ale muszą istnieć

W tej lekcji poznamy kilka technik tworzenie ścieżek do plików i katalogów w Pythonie. W całości skoncentrujemy się na module `pathlib`.

In [1]:
# zacznijmy od importu klasy Path z modułu pathlib
from pathlib import Path

## Tworzenie obiektu ścieżki

Używając klasy `Path` możemy konstruować obiekty reprezentujące ścieżki do plików i katalogów.

In [2]:
DATA_PATH = Path("data")
# DATA_PATH to zmienna typu Path, która wskazuje na katalog data, i pozwala nam wykonywać operacje na plikach
# w tym katalogu
DATA_PATH

PosixPath('data')

In [3]:
# ale możemy też stworzyć ścieżki do kolejnych katalogów lub plików bez konieczności używania
# slashy czy backslashy
RAW_PATH = Path("data", "raw")
RAW_PATH

PosixPath('data/raw')

## Jak łączyć ścieżki - like a pro?

Jednak prawdziwy pro będzie łączył ścieżki w taki sposób, żeby działało to na każdym systemie operacyjnym!

In [4]:
DATA_2024_01_01_PATH = DATA_PATH / "raw" / "2024-01-01.csv"
DATA_2024_01_01_PATH

PosixPath('data/raw/2024-01-01.csv')

In [5]:
DATA_2024_01_01_PATH = DATA_PATH / "processed" / "2024-01-01.csv"
DATA_2024_01_01_PATH

PosixPath('data/processed/2024-01-01.csv')

## Jak sprawdzić czyli ścieżka / plik / katalog istnieje?

```
data  <-- DATA_PATH
├── raw
│   ├── 2024-01-01.csv <-- DATA_2024_01_01_PATH
│   ├── 2024-01-01.xlsx
│   └── 2024-01-02.csv
└── processed
    ├── 2024-01-01.csv
    └── 2024-01-02.csv
```

In [6]:
# katalog data istnieje, więc otrzymamy True
DATA_PATH.exists()

True

In [14]:
# plik 2024-01-01.csv istnieje, więc otrzymamy True
DATA_2024_01_01_PATH.exists()

True

In [15]:
# ale "whatever" nie istnieje, więc otrzymamy False
(DATA_PATH / "whatever").exists()

False

## Jak sprawdzić czy ścieżka wskazuje na plik czy katalog?

```
data  <-- DATA_PATH
├── raw
│   ├── 2024-01-01.csv <-- DATA_2024_01_01_PATH
│   ├── 2024-01-01.xlsx
│   └── 2024-01-02.csv
└── processed
    ├── 2024-01-01.csv
    └── 2024-01-02.csv
```

In [16]:
DATA_PATH.is_dir()

True

In [17]:
DATA_PATH.is_file()

False

In [18]:
DATA_2024_01_01_PATH.is_dir()

False

In [19]:
DATA_2024_01_01_PATH.is_file()

True

## Jak przeiterować po plikach w katalogu?

Możemy wykorzystać `iterdir()` do przeiterowania po zawartości katalogu.

In [20]:
for subpath in DATA_PATH.iterdir():
    print(subpath)

data/.DS_Store
data/processed
data/raw


In [21]:
for subpath in (DATA_PATH / "raw").iterdir():
    print(subpath)    

data/raw/2024-01-01.csv
data/raw/2024-01-02.csv
data/raw/2024-01-01.xlsx


## Jak przeiterować po plikach w katalogu określonego typu?

In [22]:
for subpath in DATA_PATH.glob("*.csv"):
    print(subpath)

In [23]:
for subpath in DATA_PATH.glob("**/*.csv"):
    print(subpath)

data/processed/2024-01-01.csv
data/processed/2024-01-02.csv
data/raw/2024-01-01.csv
data/raw/2024-01-02.csv


## Jak pobrać nazwę pliku z pełnej ścieżki?

In [24]:
DATA_2024_01_01_PATH.name

'2024-01-01.csv'

In [25]:
DATA_2024_01_01_PATH.stem

'2024-01-01'

In [26]:
DATA_2024_01_01_PATH.suffix

'.csv'

##### moje kombinacje