![LU Logo](https://www.lu.lv/fileadmin/user_upload/LU.LV/www.lu.lv/Logo/Logo_jaunie/LU_logo_LV_horiz.png)


# 7. nedēļa: Darbības ar datnēm


## Kopsavilkums

Mēs apskatīsim šādus tematus:

* Darbības ar direktorijām: to izveidošana, pārsaukšana, apskatīšana un dzēšana.
  * Darbības ar `pathlib`, `glob` un `rglob`
* Darbības ar teksta failiem (datnēm): to lasīšana, papildināšana un rakstīšana.
  * Simbolu kodējuma problēmas
* Binārās datnes
* JSON datnes

## Nodarbības mērķi

Nodarbības beigās studenti pratīs:

* Darboties ar direktorijām (folders)
* Darboties ar datnēm

In [None]:
# import komandas parasti tiek liktas programmas sākumā

# Python versijas pārbaude
import sys
print(f"Python version: {sys.version}")

## 1.tēma - Darbības ar direktorijām

* [pathlib](https://docs.python.org/3/library/pathlib.html) – Objekt-orientēti failsistēmas ceļi (paths)
* [os](https://docs.python.org/3/library/os.html) – Dažādas darbības ar datora operētājsistēmu

In [None]:
# Ieimportēsim pathlib bibliotēkas Path klasi
from pathlib import Path

In [None]:
# Patreizējās darba direktorijas satura apskatīšana

# Ceļš uz patreizējo darba direktoriju
cur_dir = Path(".")

# Direktorijas satura apskatīšana (patvaļīgā secībā)
for item in cur_dir.iterdir():
    print(item)

In [None]:
# Sakārtosim direktorijas saturu alfabēta secībā

for item in sorted(cur_dir.iterdir()):
    print(item)

In [None]:
# Izveidosim jaunu direktoriju (zem patreizējās darba direktorijas)

new_dir = Path("Test-directory")   # pēc noklusējuma: zem patreizējās darba direktorijas
new_dir.mkdir(exist_ok=True)       # nerādīt kļūdu, ja tāda direktorija jau ir

# Drukāsim patreizējās darba direktorijas saturu
for item in sorted(cur_dir.iterdir()):
    print(item)

In [None]:
# Pārsauksim direktroju

import os

os.rename("Test-directory", "Test-directory-2")

# Drukāsim patreizējās darba direktorijas saturu
for item in sorted(cur_dir.iterdir()):
    print(item)

In [None]:
# Dzēsīsim direktoriju (tai ir jābūt tukšai)

new_dir = Path("Test-directory-2")
new_dir.rmdir()

### Demonstrācijas nolūkiem izveidosim dažas datnes un direktorijas.

Parasti, lai izveidotu datnes, tās tiek atvērtas (`open`) rakstīšanas režīmā un tajās tiek ierakstīts kaut kāds saturs. Tomēr demonstrācijas nolūkiem mēs šeit izmantosim metodi `touch()`, kas ļauj izveidot tukšu datni.

In [None]:
# Izveidosim 2 direktorijas un vairākas tukšas datnes

Path("Test-directory").mkdir()
Path("Test-directory/sub_dir").mkdir()

Path("Test-directory/file1.docx").touch()
Path("Test-directory/file2.docx").touch()
Path("Test-directory/test1.py").touch()
Path("Test-directory/sub_dir/file1.docx").touch()
Path("Test-directory/sub_dir/file2.csv").touch()
Path("Test-directory/sub_dir/test3.csv").touch()

In [None]:
# Drukāsim patreizējās darba direktorijas saturu

cur_dir = Path(".")

for item in sorted(cur_dir.iterdir()):
    print(item)

In [None]:
# Ar help() palīdzību ir iespējams apskatīt papildus informāciju par Path objektiem

help(cur_dir)

In [None]:
os.getcwd()

### Datņu meklēšana pēc nosaukumu šabloniem

Apskatīsim kā meklēt datnes pēc to nosaukumu šabloniem (piem., `*.docx` lai atrastu visas Microsoft Word datnes).

In [None]:
# Patreizējā darba dirktorijā nav .docx datnes
#  - tādēļ glob() izsaukuma rezultātā netiks atgriezts neviens rezultāts

matches = cur_dir.glob("*.docx")

for item in sorted(matches):
    print(item)

In [None]:
# Liksim Pythonam meklēt datnes apakšdirektorijās
#  - tiks atrastas vairākas datnes "Test-directory" direktorijā
#  - bet Python neveiks meklēšanu rekursīvi (tālāk iekļautās apakšdirektorijās)

matches = cur_dir.glob("*/*.docx")

for item in sorted(matches):
    print(item)

In [None]:
# Ja mēs vēlamies meklēt datnes rekursīvi jebkurā apakšdirektorijā:
#  - tam var izmantot īpašu "**" direktoriju šablonu

matches = cur_dir.glob("**/*.docx")

for item in sorted(matches):
    print(item)

In [None]:
# rglob() ir līdzīgs glob() izsaukumam, kur datņu šablona priekšā ir pievienots "**/"

matches = cur_dir.rglob("*.docx")

for item in sorted(matches):
    print(item)

In [None]:
# Mēs varam arī "staigāt" pa direktoriju koku ar os.walk() funkcijas palīdzību

import os

# Iziet cauri direktoriju kokam un drukāt direktoriju un datņu nosaukumus
for dirpath, dirnames, files in os.walk('.'):
        print(f'Directory: {dirpath}')
        for filename in files:
            print("   ", filename)


## 2.tēma - Teksta datņu rakstīšana un lasīšana

Šajā tēmā tiks apskatīta teksta failu lasīšana, papildināšana un rakstīšana.

Ar `with` komandas palīdzību var nodrošināt to, ka datne pēc tās atvēršanas tiek korekti aizvērta:

```
with open(filename, "w") as file_object:
    file_object.write("some text")
```

Šajā piemērā komanda `with` atver `filename` datni rakstīšanas režīmā (`"w"`), piešķir atvērtās datnes objektu mainīgajam `file_object` un pēc tam, kad `with` komandas koda bloks ir izpildīts, aizver atvērto datni.

### Datņu lasīšana

Lai izveidotu datni, ko lasīt, mēs lietosim Jupyter komandu `%%writefile`.

In [None]:
%%writefile test_file.txt
first,second,third
1,2,3
4,5,6
7,8,9

In [None]:
# datnes atvēršana tiks veikta ar komandas "with" palīdzību
#  - "r" norāda, ka datne ir jāatver lasīšanas režīmā

with open("test_file.txt", "r") as file:
    text = file.read()

# nodrukāt nolasīto datnes saturu
print(text)

In [None]:
help(open)

In [None]:
# Ar "encoding" parametera palīdzību var norādīt simbolu kodējumu (parasti "utf-8")

with open("test_file.txt", "r", encoding="utf-8") as file:
    text = file.read()

print(text)

In [None]:
# Datni var nolasīt arī līniju pa līnijai (line-by-line)

with open("test_file.txt", "r", encoding="utf-8") as file:
    for line in file:
        print(line)

In [None]:
# Nodzēsīsim liekos jaunas rindas simbolus

with open("test_file.txt", "r", encoding="utf-8") as file:
    for line in file:
        line = line.rstrip()
        print(line)

In [None]:
# Kā open() funkcijas parametru var norādīt arī Path() objektus

test_file = Path("test_file.txt")

with open(test_file, "r", encoding="utf-8") as file:
    for line in file:
        line = line.rstrip()
        print(line)

### Datņu rakstīšana

In [None]:
# Lai datnē ierakstītu jaunu saturu (dzēšot iepriekšējo saturu, ja tāda datne jau ir), 
# tā ir jāatver "w" (write) režīmā.

text = """
This is another file.
It contains lines of text.
"""

# Pielietosim Path() objektu
write_file_path = Path("write_file.txt")

with open(write_file_path, "w", encoding="utf-8") as write_file:
    write_file.write(text)

In [None]:
# Pārbaudīsim vai teksta rinda ir ierakstīta šajā datnē

with open(write_file_path, "r", encoding="utf-8") as file:
    data = file.read()

print(data)

In [None]:
# Datnes var atvērt arī pievienošanas režīmā "a" (append). Tādā gadījumā
# jaunais saturs tiks pievienots datnes beigās, nepārrakstot esošo saturu.

with open(write_file_path, "a", encoding="utf-8") as write_file:
    write_file.write("We are appending text at the end of the file.")
    write_file.write("One more line here.")


In [None]:
# Pārbaudīsim datnes saturu

with open(write_file_path, "r", encoding="utf-8") as file:
    data = file.read()

print(data)

In [None]:
# No jauna ierakstītās teksta rindiņas saplūda vienā rindiņā.
# Lai tas nenotiktu, rindiņu beigās ir jāpievieno jaunas rindiņas
# simbols "\n".

with open(write_file_path, "a", encoding="utf-8") as write_file:

    # add the newline character to start on a new line
    write_file.write("\n")
    
    write_file.write("This text should be on a new line.\n")
    write_file.write("One more line here.\n")

In [None]:
with open(write_file_path, "r", encoding="utf-8") as file:
    data = file.read()

print(data)

In [None]:
data

In [None]:
# Dzēst izveidoto datni

os.remove("test_file.txt")

write_file_path.unlink()

## 3.tēma - Bināro un cita veida datņu lasīšana un rakstīšana

### Binārās datnes

Lai darbotos ar binārām datnēm, to atvēršanas režīmam ir jāpievieno burts `"b"` (piem., `"rb"` binārās datnes lasīšanai).

Binārajām datnēm nav simbolu kodējums (tās ir tikai baitu virknes).

In [None]:
# Izveidojam baitu objektu

data = b'0123456789abcdef'
print(data)

In [None]:
# Rakstam saturu datnē

write_binary_path = Path("write_file.bin")

with open(write_binary_path, "wb") as write_file:
    write_file.write(data)

In [None]:
# Nolasām datnes saturu

with open(write_binary_path, "rb") as read_file:
    data_read = read_file.read()
    print(data_read)

In [None]:
# Ar seek() metodes palīdzību var norādīt uz vietu datnē, kur 
# veikt tālākās darbības.

with open(write_binary_path, "rb") as read_file:

    # iet uz pozīciju 8 un nolasīt 1 baitu
    read_file.seek(8)
    print(read_file.read(1))

    print()

    # iet uz poziciju 3 no datnes beigām un nolasīt 1 baitu
    read_file.seek(-3, 2)
    print(read_file.read(1))


In [None]:
%%writefile test_file.txt
first,second,third
1,2,3
4,5,6
7,8,9

In [None]:
with open("test_file.txt", "rb") as read_file:
    data_read = read_file.read()
    print(data_read)

In [None]:
help(data_read)

### JSON datnes

JSON (JavaScript Object Notation) datnes ļauj tajās saglabāt un no tām nolasīt sarežģītākas Python objektu hierarhijas (vārdnīcas, sarakstus, ...).

https://www.json.org/json-en.html

JSON formāta pamatā ir divi saliktie datu tipi:
- kolekcija ar atslēgu/vērtību pāriem (Python: vārdnīca)
- sakārtots vērtību saraksts (Python: saraksts)

Šajos objektos var būt iekšā vienkāršāki datu veidi, piemēram, skaitļi un teksta virknes.

Python vārdnīca, kas satur sarakstu un vēl vienu vārdnīcu:
```
json_object = {
  "key 1": "value 1",
  "key 2": ["value 2", "is", "a", "list"],
  "key 3": {"lists and dictionaries": "can be nested"}
}
```

Darbam ar JSON datiem var izmantot Python [json](https://docs.python.org/3/library/json.html) bibliotēku:

- `json.dump()` – saglabāt strukturētus datus JSON datnē
- `json.dumps()` – atgriezt strukturētus datus JSON teksta rindas formā
- `json.load()` – nolasīt strukturētus datus no JSON datnes
- `json.loads()` – nolasīt strukturētus datus no JSON teksta rindas

In [None]:
import json

In [None]:
# Dati, ko vēlamies saglabāt JSON formā
#  - saraksts, kas satur Python vārdnīcu, kas satur kortežu

data = [
    'foo', 
    {'bar': ('baz', None, 1.0, 2)}
]

In [None]:
print(data)

In [None]:
data[1]

In [None]:
data[1]["bar"]

In [None]:
# Saglabājam datus JSON datnē

file_path = Path("test_data.json")

with open(file_path, "w", encoding="utf-8") as file_out:
    json.dump(data, file_out)

In [None]:
# Apskatīsim izveidotās datnes saturu

with open(file_path, "r", encoding="utf-8") as file_in:
    for line in file_in:
        print(repr(line))

In [None]:
# Nolasīsim strukturētus datus no izveidotās JSON datnes

with open(file_path, "r", encoding="utf-8") as file_in:
    new_data = json.load(file_in)

In [None]:
# Nolasītie dati izskatās *gandrīz* tāpat kā sākotnējā datu struktūra,
# vienīgi korteža vietā tagad ir saraksts (jo JSON datņu formātam 
# nav atsevišķs korteža datu tips).

new_data

In [None]:
# Ar nolasītajiem datiem var darboties tāpat kā ar jebkādu citu 
# Python datu struktūru

new_data[1]['bar']

---

Python datu struktūras var saglabāt un nolasīt arī JSON teksta rindu formā:

In [None]:
data

In [None]:
json_str = json.dumps(data)
json_str

In [None]:
new_data = json.loads(json_str)
new_data

### CSV datnes

CSV (comma separated values / ar komatiem atdalītas vērtības) datnes ļauj mums darboties ar tabulveida datiem, kas sastāv no rindiņām, kur katra rindiņa satur vērtības (tabulas šūnu saturu), kuras parasti tiek atdalītas viena no otras ar komatu.

Darbībām ar CSV datnēm ir paredzēta [csv](https://docs.python.org/3/library/csv.html) bibliotēka:

In [None]:
import csv

data = [["apple", "ābols"], ["pear", "bumbieris"], ["dog", "suns"], ["white", "balts"], ["black", "melns"]]

In [None]:
# Sākumā atvērsim CSV datni rakstīšanas režīmā

with open("data.csv", "w", encoding="utf-8") as out_file:
    csv_file = csv.writer(out_file, lineterminator="\n")

    for item in data:
        csv_file.writerow(item)

In [None]:
# Linux un macOS operētājsistēmās datnes saturu var apskatīties
# ar "cat" komandu. Atkomentējiet "!cat" komandas rindiņu lai
# apskatītu datnes saturu tad, ja Jums ir Linux vai macOS.
#!cat data.csv

In [None]:
# Nolasīsim datnes saturu

data = []

with open("data.csv", "r", encoding="utf-8") as in_file:
    csv_file = csv.reader(in_file)

    for item in csv_file:
        print(item)
        data.append(item)

In [None]:
data

### Citi datņu veidi

Python ļauj darboties ar dažāda veida datnēm, t.sk. ar datņu arhīviem:

- [gzip](https://docs.python.org/3/library/gzip.html) arhīvu datņu atbalsts
- [Python's zipfile: Manipulate Your ZIP Files Efficiently](https://realpython.com/python-zipfile/)

Python iekļautais dažādu arhīvu datņu tipu atbalsts ļauj no arhīva datnēm lasīt datus, tos pirms tam neatarhivējot. Tas var būt noderīgi gadījumos, kad ir jādarbojas ar lielām arhivētām datnēm. 

Python ir [pickle bibliotēka](https://docs.python.org/3/library/pickle.html), kura ļauj datnēs saglabāt arī sarežģītākus Python objektus, kurus nav iespējams saglabāt vienkāršās JSON datnēs.

## Kopsavilkums

Ko mēs iemācījāmies šajā nodarbībā:
* Kā Python valodā darboties ar direktorijām
* Kā darboties ar teksta un binārajām datnēm

## Papildus tēma - Vārdnīcu īsā sintakse

Vārdnīcu veidošanas īsā sintakse (*dictionary comprehension*) piedāvā kompaktu veidu vārdnīcu objektu izveidošanai.

- `{item[0]: item[1] for item in some_list if some_condition}`

Šajā piemērā katrai `item` vērtībai tiks izveidots atbilstošs vārdnīcas ieraksts, kurā `item[0]` kļūs par atslēgu un `item[1]` - par atslēgai atbilstošo vērtību.

In [None]:
data = [["apple", "ābols"], ["pear", "bumbieris"], ["dog", "suns"], ["white", "balts"], ["black", "melns"]]

In [None]:
# ar "for" ciklu (bez vārdnīcu īsās sintakses)

new_dict = {}

for key, value in data:
    new_dict[key] = value

new_dict

In [None]:
# 1 koda rindiņā ar vārdnīcu īso sintaksti

new_dict2 = {key: value for key, value in data}

new_dict2

In [None]:
new_dict2["dog"]

## Papildus resursi

### Tēma 1 - darbības ar direktorijām

- [pathlib](https://docs.python.org/3/library/pathlib.html) - Objektorientēti failsistēmas ceļi
- [Working with files in Python](https://realpython.com/working-with-files-in-python/)

### Tēma 2 - datņu lasīšana un rakstīšana

- [Reading and writing files](https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files) - Python apmācības materiāls
- [Reading and writing files](https://automatetheboringstuff.com/2e/chapter9/) - grāmata "Automate the boring stuff with Python"
- [Working with files in Python](https://realpython.com/working-with-files-in-python/)

### Tēma 3 - darbs ar binārajām un cita veida datnēm

- [Reading binary files in Python](https://www.pythonmorsels.com/reading-binary-files-in-python/#top)
- [gzip — Support for gzip files](https://docs.python.org/3/library/gzip.html)
- [Working With JSON Data in Python](https://realpython.com/python-json/)
- [Python's zipfile: Manipulate Your ZIP Files Efficiently](https://realpython.com/python-zipfile/)
