# Fájlok olvasása, bevitel, kivitel

Az egyik alapvető műveletek közé tartozik a programozásban a bemenet és kimenet kezelése. Adatot elsősorban az ún. standard bemenetről (standard input - stdin) és standard kimenetre (standard output - stdout) írhatunk. Természetesen az írás és olvasás műveletek elérhetőek fájlok esetén is.

A tudományos programozás során elsősorban fájlokból olvasunk és fájlokba írunk.

Ebben a *notebook*-ban a fájlok olvasásával és írásával ismerkedünk meg, illetve néhány alapvető karakterlánc (továbbiakban `string`) manipulációs művelettel.

## Fájlok olvasása

Felkiáltójellel (!) kezdve egy sort a cellában tudunk `shell` parancsokat kiadni. Linux alapú rendszerben a `cat` parancs egy fájl tartalmát nyomtatja ki, jelen esetben az `assets` mappában található `adat.txt` fájl tartalmát láthatjuk.

In [3]:
!cat assets/adat.txt

1 2
3 4

In [4]:
!ls

01_bevezetes.ipynb		      05_scipy.ipynb
02_io_fajlok_hibakezeles.ipynb	      06_objektom_orientalt_programozas.ipynb
03_numpy.ipynb			      assets
04_linearis_algebra_matplotlib.ipynb  first_notebook.ipynb


Fájlokat az `open` függvény segítségével nyithatunk meg. Ez a függvény a nagyjából a C vagy Matlab `fopen` függvényével ekvivalens. Az első argumentuma a fájl elérési útvonala, a második argumentuma a fájl megnyitásának módja:
- `"r"` = read; fájl megnyitása olvasásra
- `"w"` = write; fájl megnyitása írásra, a fájl előző tartalma törlődik
- `"a"` = append; fájl megnyitása írásra, a fájl előző tartalma nem törlődik, a fájl végére tudunk írni
- `"r+"`, `"w+"`; fájl megnyitásra írásra **ÉS** olvasásra
- `"rb"`, `"wb"` binary read/write; fájl bináris módban történő olvasása és írása

Erősen ajánlott csak egyfajta módot alkalmazni, fájlt **csak** írásra **vagy csak** olvasásra megnyitni. Fájlt egyszerre írni és olvasni problémás lehet. Pl. mi a helyzet akkor ha nem csak mi írunk a fájlba, hanem egy másik program is.

In [5]:
# fájl megnyitása olvasásra
file = open("assets/adat.txt", "r")
# windows esetén
# file = open("assets\adat.txt", "r")

Egy megnyitott fájlon ugyanúgy lehet végigjárni (végigiterálni) mint egy Python tárolón (pl. list-en). Ekkor a `line` változó a fájl egy sorát tartalmazó string lesz.

In [6]:
for line in file:
    print(line)

1 2

3 4


Ha egyszer végigjártuk a fájlt, azt nem tudjuk újra végigjárni, előtte vissza kell térni a fájl elejére. Ezt a `seek` metódussal tehetjük meg.

## Rövid kitérő: metódusok

Bővebben az objektum orientált programozás során fogunk velük foglalkozni. Egyenlőre annyit jegyezzünk meg, hogy a metódusok olyan speciális függvények, melye egy adott Python objektumhoz tartoznak és képesek az objektumot, annak állapotát, megváltoztatni. Pl. a seek metódussal visszatérhetünk a fájl elejére.

In [7]:
for line in file:
    print(line)

In [8]:
# seet(0, 0) = nulla bájtot szeretnénk lépni, a fájl elejétől
file.seek(0, 0)

0

A `readline` metódus segítségével szintén soronként tudjuk olvasni a fájl tartalmát.

In [9]:
file.readline()

'1 2\n'

In [10]:
file.readline()

'3 4'

In [11]:
file.readline()

''

A `readlines` metódus pedig egy list-be gyűjti a fájl sorainak tartalmát.

In [12]:
file.seek(0,0)
lines = file.readlines()

In [13]:
print(lines)

['1 2\n', '3 4']


## Alapvető string műveletek

A `lines` változó egy, olyan list, melynek elemei a fájl egyes sorainak felelnek meg. Egy sor string-ként van eltárolva. A string (magyarul karakterlánc; ritkán használt), ahogy a neve is sejteti, karakterek sorozatát vagy láncolatát tartalmazza.

Tekintsünk át néhány hasznos string metódust.

A `split` metódus egy új list-et hoz létre a string-ből. A létrehozott list elemei maguk is string-ek. A kiinduló string elemeinek szétválasztása új string elemekké az ún. whitespace (tabulátor, space, soremelés = `\n`) karaktereknél történik.

In [14]:
# az első sor
lines[0]

'1 2\n'

In [18]:
type(lines), type(lines[0])

(list, str)

In [23]:
split = lines[0].split()

In [22]:
help(str.split)

Help on method_descriptor:

split(self, /, sep=None, maxsplit=-1)
    Return a list of the words in the string, using sep as the delimiter string.
    
    sep
      The delimiter according which to split the string.
      None (the default value) means split according to any whitespace,
      and discard empty strings from the result.
    maxsplit
      Maximum number of splits to do.
      -1 (the default value) means no limit.



In [24]:
split

['1', '2']

In [25]:
split[0]

'1'

In [26]:
int(split[0]), float(split[1])

(1, 2.0)

In [27]:
int("1") + 3

4

Az elválasztó karakter nem csak whitespace lehet.

In [28]:
"1,2,3,4".split(",")

['1', '2', '3', '4']

A `strip` metódus a string elejéről és végéről távolítja el a whitespace karaktereket.

In [29]:
"   min: 4.5   ".strip()

'min: 4.5'

Az `rstrip` (rightstrip) csak a string végéről (jobb oldaláról) távolít el whitespace karaktereket. 

In [20]:
"   min: 4.5   ".rstrip()

'   min: 4.5'

Az `lstrip` (leftstrip) csak a string elejéről (bal oldaláról) távolít el whitespace karaktereket. 

In [21]:
"   min: 4.5   ".lstrip()

'min: 4.5   '

A strip függvények egy új string-el térnek vissza, melyre úgyanúgy alkalmazhatunk string metódusokat, így metódusok sorát tudjuk láncban alkalmazni (method chaining).

In [30]:
# ugyanaz mintha a strip metódust hívtuk volna meg.
"   min: 4.5   ".lstrip().rstrip()

'min: 4.5'

Ha pl. egy konfigurációs fájlt olvasunk, ahol a kulcs érték párok `:`-al vannak elválasztva egy adott sort a következőképpen dolgozhatunk fel.

In [24]:
line = "   min: 4.5   "

In [26]:
# "üres" karakterek eltávolítása és a sor kettéválsztása ':' metntén
line.strip().split(":")

['min', ' 4.5']

String-et többféleképpen definiálhatunk. Ha egy string túl hosszú, a `\` karakterrel több sorba tördelhetjük. **Figyelem:** A string nem fog új sor karaktert tartlmazni, lásd a kinyomtatott sor a cella alatt.

In [27]:
"asd asds \
asdsad"

'asd asds asdsad'

String formázása az újsor karterek megtartásával.

In [32]:
"""
aaa
bbb   df
ccc
"""

'\naaa\nbbb   df\nccc\n'

Tegyük fel, hogy be szeretnénk olvasni egy konfigurációs fájlt. A konfigurációs fájlban a kulcs-érték párok `:`-al vannak elválasztva, a `#`-al kezdődő sorok kommentnek számítanak.

In [33]:
# fájl tartalmának definiálása
text = """\
# comment
max: 3.4
min: -1.2\
"""
text

'# comment\nmax: 3.4\nmin: -1.2'

A kommentek kiszűrésére segítségünkre lehet a `startswith` metódus.

In [34]:
# járjuk végig soronként a "fájl" tartalmát
for line in text.split("\n"):
    # ha a sor #-al kezdődik írjuk ki komment előtaggal
    if line.startswith("#"):
        # continue
        print("Comment:", line)
    # egyébként válasszuk ketté kulcs-érték párra a sort
    else:
        print(line.split(":"))

Comment: # comment
['max', ' 3.4']
['min', ' -1.2']


Készítsunk egy dictionary-t, ami tartalmazza a a kulcs-érték párokat.

In [35]:
# üres dictionary készítése
params = {}

# járjuk végig soronként a "fájl" tartalmát
for line in text.split("\n"):
    # ha a sor nem #-al kezdődik adjuk hozzá a dictionary-hez
    if not line.startswith("#"):
        s = line.split(":")
        key, value = s[0].strip(), s[1].strip()
        
        params[key] = value

In [36]:
params

{'max': '3.4', 'min': '-1.2'}

A list létrehozásához hasonlóan itt is használhatunk ún. comprehension-t.

In [37]:
params = {
    line.split(":")[0].strip(): line.split(":")[1].strip()
    for line in text.split("\n")
    if not line.startswith("#")
}

Elemek lekérése.

In [38]:
params["max"]

'3.4'

In [39]:
params["min"]

'-1.2'

A dictionary értékei továbbra is string-ek. Ahhoz, hogy számként tudjuk őket kezelni, át kell őket alakítani string-ből számmá, egyébként nem tudunk aritmetikai műveleteket végrehajtani rajtuk.

In [40]:
num = float(params["max"])

num + 1.0

4.4

# Python hibakezelés

A Python hibakezelése az ún. Exception (Kivétel) értékeken alapszik. Tegyük fel, hogy meg akarunk nyitni egy fájlt, ami nem létezik:

In [41]:
open("a.txt", "r")

FileNotFoundError: [Errno 2] No such file or directory: 'a.txt'

A Python ekkor "dob" vagy "emel" egy kivételt (raise an exception). Miért is fontos ez számunkra? Tegyuk fel, hogy olvasni szeretnénk egy fájlt.

In [42]:
file = open("assets/adat.txt", "r")

file.readline()
file.readline()

file.close()

A fájl olvasása rendben megtörtént és a `close` metódussal le is zártuk a fájlt. Ezt ellenőrizhetjük a file változó `closed` elemével.

In [43]:
file.closed

True

Mi a helyzet akkor, ha valami hiba történik az olvasás közben.

In [44]:
file = open("assets/adat.txt", "r")

file.readline()
file.readline()

7 / 0

file.close()

ZeroDivisionError: division by zero

A Python dobott egy kivételt. (Vegyük észre, hogy jelen esetben a kivétel típusa `ZeroDivisionError`, nem `FileNotFoundError`. A kivétel típusa információval szolgál a bekövetkezett hiba természetéről. A kivételeknek van egy adott hierarchiája, erről [itt](https://airbrake.io/blog/python-exception-handling/class-hierarchy) lehet többet olvasni.)

Ez rendben is van, hiszen illegális műveletet próbáltunk végrehajtani (nullával osztás). Abban az esetben, amikor egy kivételt dob a Python értelmező, a program futása megáll, esetünkben nem érkeztünk el a fájlt lezáró műveletig, tehát nem zártuk le a fájlt.

In [45]:
file.closed

False

A fájl lezárásának elhalasztása több problémához is vezethet (technikai részletek [itt](https://www.quora.com/Why-do-we-need-to-flush-the-buffer-when-doing-I-O-operations?share=1)).

A Pythonban a kivételek kezelése a `try` és `except` blokkok segítségével történik. Jelen példán keresztül bemutatva.

In [46]:
try:
    file = open("assets/adat.txt", "r")

    file.readline()
    file.readline()

    7 / 0
    # exception elmentése az e változóba
except Exception as e:
    print("Exception raised: ", e)
    file.close()
    # további hibakezelés
    
file.close()

Exception raised:  division by zero


In [47]:
file.closed

True

A probléma a fenti kóddal, hogy kétszer kell meghívnunk a close metódust. Egyik esetben, amikor hibával fut le a kódunk, másik esetben, amikor hiba nélkül. (Jelen esetben mindig hibával fog lefutni a kód, de a valóságban, természetesen nem jellemzőek az ilyen szituácók.)

A probléma megoldásása a `finally` blokk használható.

In [48]:
try:
    file = open("assets/adat.txt", "r")

    file.readline()
    file.readline()

    7 / 0
    # exception elmentése az e változóba
except Exception as e:
    print("Exception raised: ", e)
    # további hibakezelés
finally:
    file.close()


Exception raised:  division by zero


In [49]:
file.closed

True

A finally blokkban definált utasítások mindig lefutnak, akár bekövetkezett hiba, akár nem. Ez a hibakezelési szituáció, olyan sokszor előfordul, hogy a kód egyszerűbbé tételére egy speciális szintaxist építettek a nyelvbe: 

In [53]:
with open("assets/adat.txt", "r") as file:
    file.readline()
    print(file.closed)
    7 / 0
    file.readline()


False


ZeroDivisionError: division by zero

A fenti kóddal tömörebben tudjuk elérni azt, amit előbb a try-catch-finally blokkal tudtunk megvalósítani.

In [54]:
file.closed

True

Valóban a hiba ellenére a fájl lezárt állapotba került.

## Fáljok írása, string formázás

Most nézzünk egy rövid példát a fájlok írására. Írjuk ki a Python értelmező verzióját egy fájlba.

In [56]:
# sys package importálása
import sys

In [57]:
# használjuk a with blokkot
with open("assets/version.txt", "w") as f:
    # a write metódussal tudunk "f" fájlba írni
    f.write("Python version: %s\n" % sys.version)

In [58]:
!cat assets/version.txt

Python version: 3.8.2 (default, Mar 25 2020, 17:03:02) 
[GCC 7.3.0]


Az írás során egy eddig ismeretlen szintaxist használtunk. A Python-ban a `%` "operátor" és formázási string segítségével tudunk egy adott változót string-be formázni.

In [80]:
"Python version: %s\n" % sys.version

'Python version: 3.7.4 (default, Aug 13 2019, 20:35:49) \n[GCC 7.3.0]\n'

A `%s` karakter helyére, string formátumban a Python beillesztette a `sys.version` változó értékét. Ez a szintaxis ismerős lehet C progrmozóknak, gyakorlatilag megegyezik a C-ben definiált formázási szabályokkal. Nézzünk néhány további páldát.

In [59]:
# egész szám = integer formázása
"int: %d" % 1

'int: 1'

In [60]:
# lebegőpontpos szám = float formázása
"float: %f" % 2.75

'float: 2.750000'

In [92]:
# 10 - összes karakter száma, 3 - tizedes jegy utáni számjegyek száma
"float: %10.3f" % 2.75

'float:      2.750'

In [61]:
# exponenciális jelölés
"float: %1.3e" % 2.75

'float: 2.750e+00'

Manapság inkább egy alternatív módszer használatos a string-ek formázására, amit a string `format` metódusával tudunk használni:

In [103]:
# {} jelöli a változó helyét
"float: {}".format(2.75)

'float: 2.75'

In [62]:
# pontosság beállítása
"float: {:5.2f}".format(2.75)

'float:  2.75'

In [63]:
# több változó esete
"{}: {:5.2f}".format("value", 2.75)

'value:  2.75'

A format metódus és a `%` operátor szintaxisáról bővebben [itt](https://pyformat.info/).

Az előző fájlhoz hozzáfűzünk.

In [64]:
with open("assets/version.txt", "a") as f:
    f.write("Python version: %s\n" % sys.version)

In [65]:
!cat assets/version.txt

Python version: 3.8.2 (default, Mar 25 2020, 17:03:02) 
[GCC 7.3.0]
Python version: 3.8.2 (default, Mar 25 2020, 17:03:02) 
[GCC 7.3.0]


A következő fejezetben a numpy csomaggal ismerkedünk meg.