## [Comprehension-ök](https://python-3-patterns-idioms-test.readthedocs.io/en/latest/Comprehensions.html)

A comprehension egy olyan nyelvi elem a Pythonban, amely szekvenciák tömör megadását teszi lehetővé. A comprehension némileg hasonlít a matematikában alkalmazott, [tulajdonság alapján történő halmazmegadásra](https://en.wikipedia.org/wiki/Set-builder_notation) (példa: a páratlan számok halmaza megadható $\{2k + 1\ |\ k \in \mathbb{Z}\}$ módon).

### Feltétel nélküli comprehension

In [1]:
# Állítsuk elő az első 10 négyzetszám listáját gyűjtőváltozó használatával!
l = []
for i in range(1, 11):
    l.append(i**2)
l

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [3]:
# Ugyanez tömörebben, lista comprehension-nel:
l = [i**2 for i in range(1, 11)]
l

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [4]:
# Állítsuk elő az első 10 négyzetszám halmazát gyűjtőváltozó használatával!
s = set()
for i in range(1, 11):
    s.add(i**2)
s

{1, 4, 9, 16, 25, 36, 49, 64, 81, 100}

In [5]:
# Ugyanez tömörebben, halmaz comprehension-nel:
s = {i**2 for i in range(1, 11)}
s

{1, 4, 9, 16, 25, 36, 49, 64, 81, 100}

In [6]:
# Állítsunk elő egy szótárat, amely az angol kisbetűs magánhangzókhoz hozzárendeli az ASCII-kódjukat!
# Használjunk gyűjtőváltozót!
d = {}
for ch in 'aeiou':
    d[ch] = ord(ch)
d

{'a': 97, 'e': 101, 'i': 105, 'o': 111, 'u': 117}

In [8]:
# Ugyanez tömörebben, szótár comprehension-nel:
d = {ch: ord(ch) for ch in 'aeiou'}
d

{'a': 97, 'e': 101, 'i': 105, 'o': 111, 'u': 117}

Megjegyzés: Tuple comprehension nincs.

In [1]:
# Feladat: Párok tagjainak megcserélése egy listában.
pairs = [('alma', 10), ('körte', 20), ('barack', 30)]
pairs2 = [(p[1], p[0]) for p in pairs]

### Feltételes comprehension

In [13]:
# Feltételes lista comprehension.
[i**2 for i in range(1, 11) if i % 2 == 0]

[4, 16, 36, 64, 100]

In [14]:
# Feltételes halmaz comprehension.
{i**2 for i in range(1, 11) if i % 2 == 0}

{4, 16, 36, 64, 100}

In [15]:
# Feltételes szótár comprehension.
{ch: ord(ch) for ch in 'aeiou' if ch != 'i'}

{'a': 97, 'e': 101, 'o': 111, 'u': 117}

## A sum, min, max függvények

In [2]:
# Számítsuk ki számok összegét a sum függvénnyel

# Az adatok egész számok egy listában
print(sum([1, 8, 3]))

# Az adatok valós számok egy listában
print(sum([1.1, 2.2]))

# Az adatok egész és valós számok egy tuple-ban
print(sum((1, 2.3)))

# Az adatok complex számok egy halmazban
print(sum({1 + 2j, 2 + 3j}))

12
3.3000000000000003
3.3
(3+5j)


In [3]:
# Minimum/maximum érték (ahol az adatok összehasonlíthatók)

# Az adatok számok
print(min(3, 5, 2.8))

# Az adatok számok egy listában
print(max([3, 5, 2.8]))

# Az adat egy db sztring, azaz karakterek egy szekvenciája
print(min('alma'))
print(max('alma'))

# Az adatok sztringek
print(min('Little John', 'Lady Mariann', 'Robin Hood'))

# Az adatok sztringek egy listában
print(max(['Little John', 'Lady Mariann', 'Robin Hood']))

2.8
5
a
m
Lady Mariann
Robin Hood


## Rendezés

In [16]:
# Lista rendezése helyben.
l = [2, 11, 10, 3]
l.sort()

In [5]:
l

['banán', 'bor', 'málnaszörp', 'rum', 'sör']

In [19]:
# Rendezés csökkenő sorrendbe.
l.sort(reverse=True)
l

[11, 10, 3, 2]

In [4]:
# Ha csak sztringeket tartalmaz a lista, akkor lehet rendezni.
l = ['sör', 'bor', 'rum', 'málnaszörp', 'banán']
l.sort()

In [23]:
l

['banán', 'bor', 'málnaszörp', 'rum', 'sör']

In [27]:
# Kollekció rendezése listába.
l1 = [2, 11, 10, 3]
l2 = sorted(l1)
print(l1)
print(l2)

[2, 11, 10, 3]
[2, 3, 10, 11]


In [28]:
# Tuple elemeit is rendezhetjük új listába.
sorted((40, 10, 30, 35))

[10, 30, 35, 40]

In [29]:
# ...és halmaz elemeit is.
sorted({40, 10, 30, 35})

[10, 30, 35, 40]

In [31]:
# Szótár esetén a sorted a kulcsokat rendezi.
d = {'cseresznye': 10, 'alma': 20, 'körte': 30}
sorted(d)

['alma', 'cseresznye', 'körte']

In [32]:
# Sztring esetén a sorted a karaktereket rendezi.
sorted('valami')

['a', 'a', 'i', 'l', 'm', 'v']

In [33]:
# Párok listájának rendezése (lexikografikusan).
pairs = [('sör', 10), ('bor', 20), ('pálinka', 30), ('bor', 5)]
sorted(pairs)

[('bor', 5), ('bor', 20), ('pálinka', 30), ('sör', 10)]

- A Python rendező algoritmusa a Timsort.
- Időigény: O(n*log(n)), ahol n a rendezendő szekvencia hossza.
- A Python rendező algoritmusa stabil (egyenlőség esetén megőrzi az eredeti sorrendet).

## [Fájlkezelés](https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files)

- A fájl valamilyen adathordozón tárolt, logikailag összefüggő adatok összessége.
- Egy fájl életciklusa a következő lépésekből áll:
  1. megnyitás
  2. olvasás, írás, pozícionálás, ...
  3. bezárás

In [6]:
# Fájl megnyitása (precízebben: létező fájl megnyitása olvasásra).
f = open('example_file.txt')

FileNotFoundError: [Errno 2] No such file or directory: 'example_file.txt'

In [38]:
type(f)

_io.TextIOWrapper

In [42]:
# Fájl bezárása.
f.close()

In [45]:
# Fájl tartalmának beolvasása sztringbe.
f = open('example_file.txt')
s = f.read()
f.close()
print(s)

# example data
apple,10
pear,20
cherry,30



In [46]:
# ...ugyenez rövidebben:
s = open('example_file.txt').read()
print(s)

# example data
apple,10
pear,20
cherry,30



Megjegyzés: CPython értelmező esetén a fájl automatikusan bezáródik, ha minden hivatkozás megszűnik rá.

In [48]:
# Első 2 sor beolvasása.
f = open('example_file.txt')
print(f.readline())
print(f.readline())
f.close()

# example data

apple,10



In [50]:
# Megjegyzés: A readline a sortörést is beteszi az eredménybe.
line = open('example_file.txt').readline()
line

'# example data\n'

In [51]:
# A sortörést pl. a strip függvénnyel vághatjuk le:
line.strip()

'# example data'

In [52]:
# Fájl sorainak beolvasása sztringlistába.
open('example_file.txt').readlines()

['# example data\n', 'apple,10\n', 'pear,20\n', 'cherry,30\n']

In [53]:
# Sztring darabolása egy határoló jelsorozat mentén (tokenizálás).
'apple,10'.split(',')

['apple', '10']

In [54]:
# Alapértelmezés szerint a split fehér karakterek mentén darabol.
'adsf  foo'.split()

['adsf', 'foo']

In [58]:
# Iterálás egy szövegfájl sorain.
for line in open('example_file.txt'):
    print(line)

# example data

apple,10

pear,20

cherry,30



In [75]:
# Fájl első sorának átugrása, a további sorok tokenizálása.
f = open('example_file.txt')
f.readline() # első sor átugrása
data = []
for line in f: # végigmegyünk a további sorokon
    tok = line.strip().split(',')
    rec = tok[0], int(tok[1])
    data.append(rec)
f.close()

In [76]:
data

[('apple', 10), ('pear', 20), ('cherry', 30)]

In [80]:
# Sztring fájlba írása.
f = open('example_file_2.txt', 'w')
f.write('Apple\nBanana\n')
f.close()

In [82]:
# ...ugyanez tömörebben:
open('example_file_2.txt', 'w').write('Apple\nBanana\n')

13

(CPython értelmező esetén a fájl azonnal bezáródik, mivel nincsen rá több hivatkozás.)

In [89]:
# Celsius-Fahrenheit táblázatot tartalmazó fájl elkészítése.
file = open('celsius_fahrenheit.txt', 'w')
file.write(f'      °C      °F\n')
for c in range(-40, 41, 5):
    f = c * 1.8 + 32
    file.write(f'{c:8}{f:8}\n')
file.close()

In [91]:
# Határozzuk meg az igazi.txt szövegfájlban található szavak halmazát!
{line.strip() for line in open('igazi.txt')}

{'a',
 'az',
 'csinálja',
 'egyáltalán',
 'fortranban',
 'gépidőelszámolást',
 'ha',
 'igazi',
 'intelligencia',
 'manipulációt',
 'megcsinálja',
 'mesterséges',
 'már',
 'programokat',
 'programozó',
 'szimbólum',
 'szövegkezelést'}

In [100]:
# Olvassuk be a matrix.txt szövegfájl tartalmát egész számok listájának listájába!
matrix = []
for line in open('matrix.txt'):
    row = [int(x) for x in line.split()]
    matrix.append(row)
matrix

[[0, 1, 1, 0, 1, 0, 1, 1, 0, 1],
 [0, 0, 1, 0, 1, 1, 0, 1, 0, 1],
 [0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
 [0, 1, 0, 0, 1, 0, 1, 1, 0, 0],
 [1, 0, 1, 1, 0, 0, 1, 0, 1, 1],
 [1, 0, 1, 0, 0, 1, 1, 0, 1, 0],
 [1, 1, 1, 0, 1, 1, 1, 0, 1, 1],
 [0, 0, 0, 0, 0, 1, 0, 1, 0, 1],
 [1, 1, 0, 1, 0, 1, 1, 1, 0, 0],
 [1, 0, 1, 0, 1, 0, 0, 1, 0, 1]]

In [102]:
# Ugyanez dupla comprehension-nel:
matrix = [[int(x) for x in l.split()]
          for l in open('matrix.txt')]
matrix

[[0, 1, 1, 0, 1, 0, 1, 1, 0, 1],
 [0, 0, 1, 0, 1, 1, 0, 1, 0, 1],
 [0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
 [0, 1, 0, 0, 1, 0, 1, 1, 0, 0],
 [1, 0, 1, 1, 0, 0, 1, 0, 1, 1],
 [1, 0, 1, 0, 0, 1, 1, 0, 1, 0],
 [1, 1, 1, 0, 1, 1, 1, 0, 1, 1],
 [0, 0, 0, 0, 0, 1, 0, 1, 0, 1],
 [1, 1, 0, 1, 0, 1, 1, 1, 0, 0],
 [1, 0, 1, 0, 1, 0, 0, 1, 0, 1]]

## Gyakorlás: Szóstatisztika

A [hamlet.txt](hamlet.txt) fájl a [Hamlet](https://hu.wikipedia.org/wiki/Hamlet,_d%C3%A1n_kir%C3%A1lyfi) angol nyelvű szövegkönyvét tartalmazza. Készíts programot, amely kiszámítja majd kiírja a szövegkönyvben szereplő 30 leggyakoribb szót! A szó definíciója a következő legyen:

- A szavakat a fehér karakterek (szóköz, tabulátor, soremelés) választják el egymástól.
- A kis- és nagybetűk ne számítsanak különbözőnek!
- A szó elején és végén található központozás karakterek ne számítsanak bele a szóba!

In [2]:
# Beolvasás kisbetűs szavak listájába.
words = open('hamlet.txt').read().lower().split()

In [3]:
# Központozás karakterek eltávolítása.
import string
words = [w.strip(string.punctuation) for w in words]

In [4]:
# Szógyakoriságok kiszámítása.
freq = {} # kulcs: szó, érték: előfordulások száma
for w in words:
    if w in freq: freq[w] += 1
    else: freq[w] = 1

In [5]:
freq2 = sorted([(x[1], x[0]) for x in freq.items()], reverse=True)

In [6]:
# Kiírás.
for i in range(30):
    print(freq2[i])

(1145, 'the')
(973, 'and')
(736, 'to')
(674, 'of')
(565, 'i')
(539, 'you')
(534, 'a')
(513, 'my')
(431, 'in')
(409, 'it')
(381, 'that')
(358, 'ham')
(339, 'is')
(310, 'not')
(297, 'this')
(297, 'his')
(268, 'with')
(258, 'but')
(248, 'for')
(241, 'your')
(231, 'me')
(223, 'lord')
(219, 'as')
(216, 'be')
(213, 'he')
(200, 'what')
(195, 'king')
(195, 'him')
(194, 'so')
(180, 'have')
