# Řetězce -- str()

Datový typ `str` -- řetězec  se zapisuje do uvozovek `"` nebo apostrofů `'`. Trojité uvozovky/apostrofy
začínají/končí více-řádkové řetězce. Speciální znaky jsou uvozeny zpětným
lomítkem. 

In [None]:
>>> s = 'Ahoj Karle'
>>> s
'Ahoj Karle'
>>> s = "Ahoj Karle"
>>> s
'Ahoj Karle'
>>> s = "znak apostrof: ' "
>>> s
"znak apostrof: ' "
>>> s = "znak uvozovka: \" "
>>> s
'znak uvozovka: " '
>>> s = "ahoj\nnazdar\n\tcau"
>>> print s
ahoj
nazdar
	cau

## Speciální znaky


zápis   | význam
:------:|------------
`\n`    | konec řádku
`\r`    | návrat vozíku
`\t`    | tabulátor
`\\`    | a zpětné lomítko
`\"`    | uvozovka
`\'`    | apostrof
`\x`*hh*| znak se zadanou hexadecimální hodnotou: např. `\x40` je @
`\u`*hhhh*  | 16-bitový znak [Unicode](https://cs.wikipedia.org/wiki/Unicode)
`\U`*hhhhhhhh* | 32-bitový znak [Unicode](https://cs.wikipedia.org/wiki/Unicode)

### RAW retězce

Někdy se stává, že je potřebujeme zapsat řetězec, který obsahuje hodně zpětných lomítek.
Nebo chceme zapsat speciální znaky, které ve skutečnosti nebudou speciální. `:-)`
(Například [regulární výraz](https://cs.wikipedia.org/wiki/Regul%C3%A1rn%C3%AD_v%C3%BDraz))
Pro tyto případy existuje predpona `r` (jako RAW), která zruší všechny speciální znaky.

In [85]:
s = r"ahoj\nnazdar\n\tcau"
print(s)

ahoj\nnazdar\n\tcau


In [86]:
login = r'\w{3}\d{5}'
print(login)

\w{3}\d{5}


## Výřezy

Řetězec je posloupnost (tedy vlastně seznam) znaků. Proto `str()` řadíme mezi
seznamové datové typy.
Se všemi seznamovými datovými typy můžeme provádět vyřezy 
tzv. [slice](https://docs.python.org/3/library/functions.html?highlight=slice#slice).

```
index
  -9  -8  -7  -6  -5  -4  -3  -2  -1
   0   1   2   3   4   5   6   7   8  
 +---+---+---+---+---+---+---+---+---+
 | P | y | t | h | o | n |   | A | B | 
 +---+---+---+---+---+---+---+---+---+
výřez
 :   1   2   3   4   5   6   7   8   :
 :  -8  -7  -6  -5  -4  -3  -2  -1   :

```

In [6]:
s = 'Python AB'
s[4]

'o'

In [7]:
s[-6]

'h'

In [8]:
s[2:8]

'thon A'

In [11]:
s[3:-3]

'hon'

In [10]:
s[:-4]

'Pytho'

In [12]:
s[5:]

'n AB'

## Spojování řetězců

Spojování řetězců lze provádět pomocí operací `+` a `*`.



In [None]:
>>> 'ahoj'+' nazdar '+'cau'
'ahoj nazdar cau'
>>> s = 'ahoj'
>>> s = s + ' nazdar '
>>> s += 'cau'
>>> s
'ahoj nazdar cau'
>>> '@' * 20
'@@@@@@@@@@@@@@@@@@@@'

## Neměnitelnost řetězců

Řetězce jsou **neměnitelné**. To znamená, že proměnou lze vytvořit, nebo přepsat,
ale nejde změnit například jeden znak.

In [1]:
s='ahoj Karle'
s[0]='A'

TypeError: 'str' object does not support item assignment

S řetězci lze pracovat pomocí metod datového typu `str`. **Všechny metody vždy
vrací nový objekt a původní řetěze zůstává nezměněn**:

[strmetody]: http://docs.python.org/3/library/stdtypes.html?highlight=str.replace#string-methods

### Některé [zajímavé metody][strmetody]

 * `.lower()`
 * `.upper()`
 * `.swapcase`
 
... převede všechna písmena na malá respektive velká respektive prohodí velké za malé.

In [None]:
>>> s='Toto je retezec'
>>> s.lower()
'toto je retezec'
>>> s.upper()
'TOTO JE RETEZEC'
>>> abc=s.upper()
>>> s
'Toto je retezec'
>>> abc
'TOTO JE RETEZEC'

* `.split(znak)`
: **rozdělí**
řetězec podle zadaného znaku; není-li znak zadán, rozdělí 
ho podle bílých znaků (mezera, tabulátor, nový řádek)

In [None]:
>>> s='ahoj nazdar      cau'
>>> s.split()
['ahoj', 'nazdar', 'cau']
>>> '1 2 8    12   94  16'.split()  
['1', '2', '8', '12', '94', '16']
>>> 'ahoj:nazdar   :    cau'.split(':') 
['ahoj', 'nazdar   ', '    cau']

* `.join(seznam)`
: **spojí** všechny položky seznamu pomocí původního řetězce


In [None]:
>>> s='RETEZEC'
>>> s.join(['ahoj','nazdar','cau'])
'ahojRETEZECnazdarRETEZECcau'
>>> s.join('abcd')
'aRETEZECbRETEZECcRETEZECd'
>>> ':'.join(['ahoj','nazdar','cau'])
'ahoj:nazdar:cau'

* `.strip([chars])`
: **ořeže**  řetězec o bílé znaky na začátku a na konci; je-li zadán
  dobrovolný parametr `chars` budou se odstraňovat právě tyto znaky

In [None]:
>>> s='    ahoj Karle  '
>>> s.strip()
'ahoj Karle'

>>> s='..:_.._...:ahoj Karle..:::.:__..:'
>>> s.strip('.:_')
'ahoj Karle'

* `.find(sub,[ start, [ end ] ])`
: **vrátí index** -- pozice podřetězce `sub` v řetězci; je možné 
  nepovinně zadat `start` a `end` jako pozice začátku a konce hledání


In [16]:
s='ahoj nazdar      cau'
s.find('na')

5

In [17]:
s[5]

'n'

* `.index(sub,[ start, [ end ] ])`
: stejné jako `.find()`, ale při nepřítomnosti podřetězce 
  `sub` vyvolá běhovou chybu

In [18]:
s='ahoj nazdar      cau'
s.find('Q')

-1

In [19]:
s.index('Q')

ValueError: substring not found

* `.count(sub,[ start, [ end ] ])`
: **spočítá** ` kolikrát se v řetězci nachází podřetězec `sub`; je možné 
  nepovinně zadat `start` a `end` jako pozice začátku a konce hledání


In [20]:
s='ahoj nazdar'
s.index('z')

7

In [21]:
s.index('d')

8

In [22]:
s.index('blbost')

ValueError: substring not found

* `.replace(old,new)`
: **nahradí** řetězec `old` řetězcem `new`

In [23]:
s='ahoj nazdar      cau'
s.replace('naz','NE')

'ahoj NEdar      cau'

## Formátování

* `.format(seznam)` 
: vrátí řetězec v němž jsou speciální konstrukce ve složených
  závorkách `{...}` nahrazeny hodnotami se seznamu

Jedná se vlastně o formátovací mikrojazyk. Jeho plný popis najdete 
v [dokumentaci](http://docs.python.org/3/)
jako [Format String Syntax](https://docs.python.org/3/library/string.html#formatstrings). 
Zde uvádím jen to nejdůležitější:

Do složených závorek lze zapsat volitelně pořadí hodnoty v seznamu. Pro 
vložení znaku `{` nebo `}` je třeba jej zdvojit.


In [24]:
'jedna: {}, dva: {}, tri: {}'.format('ahoj',77, 3.1415)

'jedna: ahoj, dva: 77, tri: 3.1415'

In [25]:
'jedna: {2}, dva: {0}, tri: {1}'.format('ahoj',77, 3.1415)

'jedna: 3.1415, dva: ahoj, tri: 77'

In [26]:
'jedna: {2}, dva: {0}, tri: {1}; znak {{'.format('ahoj',77, 3.1415)

'jedna: 3.1415, dva: ahoj, tri: 77; znak {'

* Dále lze přidat formátovací řetězec ve tvaru `<šířka><,>.<přesnost><typ>`
`<šířka>` a `<přesnost.` jsou celá čísla.

* `<,>` říká že se má čárka jako 
oddělovač řádů.


**`<typ>`**| význam
:----------|:-------
`s` | řetězec
`d` | číslo v desítkové soustavě
`b` | číslo ve dvojkové soustavě
`o` | číslo v osmičkové soustavě
`x`, `X` | číslo v šestnáctkové soustavě
`e`, `E` | reálné číslo v pevné řádové čárce
`f`, `F` | reálné číslo v plovoucí řádové čárce
`g`, `G` | zvolí `e` nebo `f` tak, aby se to dobře četlo
`n` | jako `g`, ale podle [locale](https://cs.wikipedia.org/wiki/locale) rozhodne zda bude použita desetinná tečka nebo čárka
`c` | znak -- převede celé číslo na znak 
`NIC` (`<typ> není zadán`)&nbsp;&nbsp;&nbsp;| stejné jako `s` nebo `d` nebo `g`

In [27]:
'cele cislo {0:d}'.format(25)

'cele cislo 25'

In [30]:
'cele cislo {0:20d}'.format(25)

'cele cislo                   25'

In [31]:
'cele cislo {0:10d}'.format(25)

'cele cislo         25'

In [32]:
'realne cislo {0:f}'.format(31415926.535897)

'realne cislo 31415926.535897'

In [33]:
'realne cislo {0:e}'.format(31415926.535897)

'realne cislo 3.141593e+07'

In [34]:
'realne cislo {0:5}'.format(31415926.535897)

'realne cislo 31415926.535897'

In [35]:
'realne cislo {0:20g}'.format(31415926.535897)

'realne cislo          3.14159e+07'

In [36]:
'realne cislo {0:10.3g}'.format(31415926.535897)

'realne cislo   3.14e+07'

In [37]:
'realne cislo {0:10.3f}'.format(31415926.535897) 

'realne cislo 31415926.536'

In [38]:
'realne cislo {0:20.3f}'.format(31415926.535897)

'realne cislo         31415926.536'

In [39]:
'realne cislo {0:20,.3f}'.format(31415926.535897)

'realne cislo       31,415,926.536'

In [40]:
'retezec {0:s} KONEC'.format('Je tu hola veta.')

'retezec Je tu hola veta. KONEC'

In [41]:
'retezec {0:30s} KONEC'.format('Je tu hola veta.')

'retezec Je tu hola veta.               KONEC'

* Nula před `<šířka>` indikuje, že prázdná místa se mají **vyplnit nulami.**

In [43]:
'realne cislo {0:020.3f}'.format(31415926.535897)

'realne cislo 0000000031415926.536'

In [44]:
'cele cislo {0:020b}'.format(165)

'cele cislo 00000000000010100101'

In [45]:
'cele cislo {0:20b}'.format(165)

'cele cislo             10100101'

* `#` tiskne s prefixem indikujícím **číselnou soustavu**

In [46]:
'cele cislo {0:#8b}'.format(92)

'cele cislo 0b1011100'

In [47]:
'cele cislo {0:#8x}'.format(92)

'cele cislo     0x5c'

* Výpis znaménka lze vynutit pomocí znaku `+`. 
* Znak `-` nastaví výpis znaménka jen u záporných čísel a 
* mezera ` ` vypisuje místo plus mezeru.

In [55]:
from math import pi
'cislo {0:f}'.format(pi)

'cislo 3.141593'

In [56]:
'cislo {0:+f}'.format(pi)

'cislo +3.141593'

In [57]:
'cislo {0:+f}'.format(-pi)

'cislo -3.141593'

In [58]:
'cislo {0: f}'.format(-pi)

'cislo -3.141593'

In [59]:
'cislo {0: f}'.format(pi)

'cislo  3.141593'

* Zarovnání se děje pomocí znaků `>`, `<` , `^` a `=`, který slouží
pro zarovnávání čísel.

In [60]:
'cislo {0:20.3f}'.format(pi)

'cislo                3.142'

In [61]:
'cislo {0:>20.3f}'.format(pi)

'cislo                3.142'

In [62]:
'cislo {0:<20.3f}'.format(pi)

'cislo 3.142               '

In [63]:
'cislo {0:^20.3f}'.format(pi)

'cislo        3.142        '

In [66]:
print('{:=20f}\n{:=20f}\n{:=20f}'.format(3.1415, 1.5, 125.8))

            3.141500
            1.500000
          125.800000


* Zarovnáme na střed 15 znaků 4 desetinná místa i se znaménkem

In [67]:
print(':{0:^+020.4f}:'.format(pi))
print(':{0:^+20.4f}:'.format(pi))

:000000+3.14160000000:
:      +3.1416       :


## Kódování znaků

* V Pythonu jsou řetězce kódovány v [Unicode](https://cs.wikipedia.org/wiki/Unicode).
* Řetězec lze převést do konkrétní znakové sady pomocí metody `.encode()`.

In [68]:
s = 'Loď v úžině'
s.encode('UTF8')

b'Lo\xc4\x8f v \xc3\xba\xc5\xbein\xc4\x9b'

In [69]:
s.encode('cp1250')

b'Lo\xef v \xfa\x9ein\xec'

Zároveň je ale třeba říct, že takto převedený řetězec už vlasně není řetězec `str()` ale **binární řetězec** `bites()`. Ten lze vytvořit zapsáním předpony `b`. Můřete si zároň všimnou že o jednu "buňku" výše tuto předponu `b` také najdete.

In [71]:
b = s.encode('UTF8')
type(b)

bytes

In [73]:
binarni = b'kockodan'
type(binarni)

bytes

* Opačný proces, tedy převod `bites()` na `str()` zajistí metoda `.decode()`.

In [83]:
print(b'Lo\xef v \xfa\x9ein\xec')
print(b'Lo\xef v \xfa\x9ein\xec'.decode('cp1251'))
print(b'Lo\xef v \xfa\x9ein\xec'.decode('cp1252'))
print(b'Lo\xef v \xfa\x9ein\xec'.decode('cp1250'))

b'Lo\xef v \xfa\x9ein\xec'
Loп v ъћinм
Loï v úžinì
Loď v úžině
