# Szöveges fájlformátumok

---

(2020. 01. 07. – 11. óra)

Mittelholcz Iván

# 1. Plain text (TXT)

# 1.1. Plain text fájlok soronkénti feldolgozása (*filter*)

Séma, a `process()` függvény változtatásával kb. bármilyen, soronként kezelhető problémára jó:

```py
inp = open('input.txt')
out = open('output.txt', 'w')

for line in inp:
    line = line.strip()
    if not line:
        continue
    res = process(line)
    out.write(res)

inp.close()
out.close()
```

# 1.2. Reguláris kifejezések

Modul: `re`

Dokumentáció: <https://docs.python.org/3/library/re.html>

HOWTO: <https://docs.python.org/3/howto/regex.html#regex-howto>

A Python hajlamos a stringekben lecserélni dolgokat (pl. a \n-t sortörésre, stb.). Hogy ne kelljen mindent kiiszképelni (sőt, az iszképelő backslash-t is iszképelni), ezért minták megadásánál érdemes ún. *raw string*-eket használni, pl. `raw = r'valami\n'`

# 1.3. Keresés

A `re.search(pattern, text)` függvény a megadott szövegben keresi a mintát. Ha van találat, akkor az első előfordulással tér vissza (ún. *match object*).

Példa:

```py
import re
m = re.search(r'(\w+) (\w+) (\d+)?', 'ritkán rikkant a rigó')
if m:
    print(m.group(0)) # a teljes illeszkedő szövegrész (nem kell zárójelezve legyen)
    print(m.group(1)) # 1-as csoport
    print(m.group(2)) # 2-es csopot
    print(m.group(3)) # 3-es csopot
    print(m.group(1,2)) # tuple az 1-es és a 2-es csoportból
```

# 1.3. Keresés (folyt.)

A `re.findall(pattern, text)` függvény a megadott szövegben keresi a minta összes, nem átfedő előfordulását. Az előfordulások listájával tér vissza (ha nem voltak csoportok, akkor stringek listája, ha voltak, akkor tuple-ök listája).

Példa:

```py
m = re.findall(r'((\d+ )?\w+)', '100 forintnak 50 a fele')
print(m)
# [('100 forintnak', '100 '), ('50 a', '50 '), ('fele', '')]
```

# 1.4. Csere és törlés

A `re.sub(pattern, replace, text)` függvény lecseréli a minta előfordulásait a szövegben és a módosított szöveggel tér vissza.

A mintában lévő csoportokra `\szám` formában lehet hivatkozni a csere-szövegben.

```py
new = re.sub(r'(\d+)', r'\1 db', '10 rigó rikkant')
print(new)
```

# 1.5. Vegyes


## Flag-ek

A fenti függvényeknek opcionálisan megadhatók ún. [flag](https://docs.python.org/3/howto/regex.html#compilation-flags)-ek, amikkel módosítani lehet ezek működését (pl. re.search(pattern, text, flag)). Több flag-et a `|` operátorral lehet összekötni.

Példa (kis- és nagybetű különbség figyelmen kívül hagyása):

```py
re.search(r'[a-z]', text, re.IGNORECASE))
```

# 1.5. Vegyes (folyt.)

## Optimalizálás

A mintából mindig egy objektum generálodik, ez költésges folyamat. A `re.compile(pattern)` függvénnyel elmenthetjük ezt az objektumot, később számtalanszor újrahasznosíthatjuk. Példa:

```py
pat = re.compile(pattern)
pat.search(text)
```

ugyanaz, mint a

```py
re.search(pattern, text)
```

Rossz gyakorlat:

```py
for line in inp:
    print(re.findall(pattern, text))
```

Jó gyakorlat:

```py
p = re.compile(pattern)
for line in inp:
    print(p.findall(text))
```

# 2. CSV / TSV

valami

# 3. XML / HTML

valami

# Köszönöm a figyelmet