# Szöveges fájlformátumok

---

(2021. 02. 12.)

Mittelholcz Iván

# 1. Plain text (TXT)

# 1.1. Plain text fájlok soronkénti feldolgozása (*filter*)

Séma, a `process()` függvény változtatásával kb. bármilyen, soronként kezelhető problémára jó:

```py
inp = open('input.txt')
out = open('output.txt', 'w')

for line in inp:
    line = line.strip()
    if not line:
        continue
    res = process(line)
    out.write(res)

inp.close()
out.close()
```

In [None]:
# rossz!!! (minden egyszerre a memoriaban)

inp = open('input.txt')
text = inp.read()
inp.close()

res = []
for line in text.split('\n'):
    line = line.strip()
    if not line:
        continue
    res.append(process(line))

out = open('output.txt', 'w')
out.write('\n'.join(res))
out.close()

# 1.2. Reguláris kifejezések

Modul: `re`

Dokumentáció: <https://docs.python.org/3/library/re.html>

HOWTO: <https://docs.python.org/3/howto/regex.html#regex-howto>

A Python hajlamos a stringekben lecserélni dolgokat (pl. a \n-t sortörésre, stb.). Hogy ne kelljen mindent kiiszképelni (sőt, az iszképelő backslash-t is iszképelni), ezért minták megadásánál érdemes ún. *raw string*-eket használni, pl. `raw = r'valami\n'`

# 1.3. Keresés

A `re.search(pattern, text)` függvény a megadott szövegben keresi a mintát. Ha van találat, akkor az első előfordulással tér vissza (ún. *match object*).

Példa:

```py
import re
m = re.search(r'(\w+) (\w+) (\d+)?', 'ritkán rikkant a rigó')
if m:
    print(m.group(0)) # a teljes illeszkedő szövegrész (nem kell zárójelezve legyen)
    print(m.group(1)) # 1-as csoport
    print(m.group(2)) # 2-es csopot
    print(m.group(3)) # 3-es csopot
    print(m.group(1,2)) # tuple az 1-es és a 2-es csoportból
```

A `re.findall(pattern, text)` függvény a megadott szövegben keresi a minta összes, nem átfedő előfordulását. Az előfordulások listájával tér vissza (ha nem voltak csoportok, akkor stringek listája, ha voltak, akkor tuple-ök listája).

Példa:

```py
m = re.findall(r'((\d+ )?\w+)', '100 forintnak 50 a fele')
print(m)
# [('100 forintnak', '100 '), ('50 a', '50 '), ('fele', '')]
```

# 1.4. Csere és törlés

A `re.sub(pattern, replace, text)` függvény lecseréli a minta előfordulásait a szövegben és a módosított szöveggel tér vissza.

A mintában lévő csoportokra `\szám` formában lehet hivatkozni a csere-szövegben.

```py
new = re.sub(r'(\d+)', r'\1 db', '10 rigó rikkant')
print(new)
```

# 1.5. Mohóság

Mohó operátorok: `*`, `+`, `?`

Lusta operátorok: `*?`, `+?`, `??`

```py
string = 'xaaaxaaax'
greedy = re.search(r'x.*x', string)
lazy = re.search(r'x.*?x', string)
print('mohó:', greedy.group())
print('lusta:', lazy.group())
```

# 1.6. Optimalizálás

A mintából mindig egy objektum generálodik, ez költésges folyamat. A `re.compile(pattern)` függvénnyel elmenthetjük ezt az objektumot, később számtalanszor újrahasznosíthatjuk. Példa:

```py
pat = re.compile(pattern)
result = pat.search(text)
# ugyan az, mint a result = re.search(pattern, text)
```

Rossz gyakorlat:

```py
for line in inp:
    result = re.findall(pattern, line)
```

Jó gyakorlat:

```py
p = re.compile(pattern)
for line in inp:
    result = p.findall(line)
```

# 1.7. Feladatok

- Írjunk egy függvényt, ami egy szöveget és egy pozitív egész számot vár paraméterként. A függvény adja vissza, hogy hány adott hosszúságú szó van a szövegben. Punktuációk sorozata nem számít szónak.
- Írjunk egy függvényt, ami egy stringről eldönti, hogy a római szám-e! A neve legyen `is_roman_num(string)`, visszatérési értéke pedig boolean ([wiki](https://hu.wikipedia.org/wiki/R%C3%B3mai_sz%C3%A1m%C3%ADr%C3%A1s)).

# 2. CSV / TSV

CSV: Coma Separated Values

TSV: TAB Separated Values

Egy sor = egy objektum, egy oszlop = egy tulajdonság, opcionálisan van egy fejléc, az oszlopok nevével.

Példa:

```txt
Név     Fajta   Kor
Pongó   dalmata 6
Foltos  dalmata 0
Ezredes bobtail 15
Nózi    vizsla  14
```

# 2.1. Olvasás

Modul: `csv` (a TSV fájlokhoz is ezt használjuk)

Dokumentáció: <https://docs.python.org/3/library/csv.html>

Példa: TSV sorok beolvasása listába (`process`: listát feldolgozó függvény)

```py
import csv

inp = open('input.tsv')
reader = csv.reader(inp, delimiter='\t')
for row in reader:
    process(row)
```

In [None]:
import csv

class Kutya:
    def __init__(self, nev, fajta, kor):
        self.nev = nev
        self.fajta = fajta
        self.kor = kor

inp = open('101.tsv')
reader = csv.reader(inp, delimiter='\t')
kutyak = []
for row in reader:
    kutyak.append(Kutya(*row)) # kicsomagolas: Kutya([nev, fajta, kor]) --> Kutya(nev, fajta, kor)

for kutya in kutyak:
    print(kutya.nev, kutya.fajta, kutya.kor)

# 2.2. Írás

Példa: listák kiírása TSV fájlba (`data`: listák listája)

```py
import csv

out = open('output.tsv', 'w')
writer = csv.writer(out, delimiter='\t')
for row in data:
    writer.writerow(row)
```

In [None]:
import csv

out = open('output.tsv', 'w')
writer = csv.writer(out, delimiter='\t')
for k in kutyak:
    writer.writerow([k.nev, k.kor, k.fajta])
    
out.close()

# 2.3. Feladatok

- Írjunk egy szkriptet, ami a `101.tsv` fájl alapján kiszámolja a kutyák átlagéletkorát.
- Írjunk egy szkriptet, ami tetszőleges szöveges fájlból szógyakoriságot számol, az eredményt egy fejléces TSV fájlba írja ki.

# 3. XML / HTML

Példa (l. <https://hu.wikipedia.org/wiki/XML>):

```xml
<Recept név="kenyér" elk_idő="5 perc" sütés_idő="3 óra">
  <cím>Egyszerű kenyér</cím>
  <összetevő mennyiség="3" egység="csésze">Liszt</összetevő>
  <összetevő mennyiség="10" egység="dekagramm">Élesztő</összetevő>
  <összetevő mennyiség="1.5" egység="csésze">Meleg víz</összetevő>
  <összetevő mennyiség="1" egység="teáskanál">Só</összetevő>
  <Utasítások>
    <lépés>Keverj össze minden összetevőt, aztán jól gyúrd össze!</lépés>
    <lépés>Fedd le ruhával és hagyd pihenni egy óráig!</lépés>
    <lépés>Gyúrd össze újra, aztán süsd meg a sütőben!</lépés>
  </Utasítások>
</Recept>
```

# 3.1. Szintaxis

- csak séma: jelölő nyelv, bármit leírhat (vs HMTL), nincsenek előre definiált tagek
- fa struktúra: egy gyökér elem, minden más az ő "gyereke", vagy a gyerekének a gyereke, sít.
- *elem*: minden, ami "fel van címkézve", pl.

  ```xml
  <...>liszt</...>
  ```

- *tag*: címkék az elemeken, kötelező lezárni őket, nem fedhetnek át, pl.

  ```xml
  <összetevő>...</összetevő>
  ```

- *attribútum*: plusz információk (kulcs-érték párok) a nyitótageken belül, pl.
  ```xml
  <... egység="csésze">...</...>
  ```

# 3.2. Beautifulsoup alapok

Dokumentáció: <https://www.crummy.com/software/BeautifulSoup/bs4/doc/>

Telepítés (Beautifulsoup és xml parser):

```sh
pip install beautifulsoup4 lxml
```

Leveskészítés stringből (xml):

```python
from bs4 import BeautifulSoup as BS
xml = '<összetevő mennyiség="3" egység="csésze">Liszt</összetevő>'
soup = BS(xml, 'xml')
```

Leves fájlból (xml):

```py
inp = open('recept.xml')
soup = BS(inp, 'xml')
print(soup.prettify())
```

# 3.3. Tagek

Első a fában: `soup.tag`

Példa

```python
print(soup.cím)
print(soup.összetevő)
```

Összes a fában: `soup.find_all(tag)` (listaszerű)

Példa:

```python
for osszetevo in soup.find_all('összetevő'):
    print(osszetevo.get_text())
```

# 3.4. Tagek (folytatás)

Tag szöveges tartalma (elem): `tag.get_text()`

Példa:

```python
for osszetevo in soup.find_all('összetevő'):
    print(osszetevo.get_text())
```

Tag attribútumai: `tag.attrs` (dict)

Példa:

```python
soup.Recept.attrs
```

Egy attribútum értéke: `tag['attribútum']` (str)

```python
soup.Recept['név']
```

# 3.5. Feladatok

Kiinduló pont a `recept.xml` fájl.

- Hány összetevő kell a kenyérhez?
- Mi a mértékegysége a második összetevőnek?
- Mi az utolsó utasítás?
- Hány teáskanál 'Só' kell a kenyérhez? (Tegyük fel, hogy nem tudjuk, hányadik összetevő a 'Só'!)

# Köszönöm a figyelmet!