# Datový model

Co to vlastně je proměnná v Pythonu? Jak to vypadá, co to umí, jak se to liší od ostatních jazyků?

V jazycích jako např. C, je proměnná fakticky pojmenované umístění v paměti. Příklad:

```c
int a = 4;
```
Celočíselná proměnná `a` tady prostě ukazuje na 4 byty někde v paměti, ve kterých se nachází 0 a 1 reprezentující, v tomto případě, hodnotu 4.

Oproti tomu v Pythonu výraz

In [None]:
a = 4

vytváří složitější objekt, přičemž slovo objekt zde můžeme vnímat i ve smyslu OOP. Je to struktura sdružující data a nějaké operace na nich (funkce/metody) do jednoho celku. Jinými slovy, porměnná v Pythonu i *něco umí*.

Co všechno taková proměnná umí, tedy všechny metody objektu uloženého v dané proměnné, si můžeme vypsat použitím vestavěné funkce `dir`

In [5]:
dir(a)

['__abs__',
 '__add__',
 '__and__',
 '__bool__',
 '__ceil__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floor__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__le__',
 '__lshift__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rfloordiv__',
 '__rlshift__',
 '__rmod__',
 '__rmul__',
 '__ror__',
 '__round__',
 '__rpow__',
 '__rrshift__',
 '__rshift__',
 '__rsub__',
 '__rtruediv__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__truediv__',
 '__trunc__',
 '__xor__',
 'as_integer_ratio',
 'bit_count',
 'bit_length',
 'conjugate',
 'denominator',
 'from_bytes',
 'imag',
 'numerator',
 'real',
 'to_bytes

V Pythonu se tedy nejedná o pouhý odkaz někam do paměti, ale o poměrně komplexní objekt se spoustou funkcí. Kromě takovýchto *type-specific* funkcí, má **každý** objekt definované ještě funkce `type` a `id` a nějakou svou `value`. Každý objekt v Pythonu je tedy konkrétního typu, má přidělené nějaké unikátní id a má jistou hodnotu. Je dobré zdůraznit, že `id` objektů v Pythonu odpovídá adrese v paměti, kde se objekt nalézá.

In [12]:
a = 1024
print(a, type(a), id(a)) # tiskne value, type a id

1024 <class 'int'> 139802668932400
1025 <class 'int'> 139802668941264


In [11]:
b = 765.12
print(b, type(b), id(b))

765.12 <class 'float'> 139802670772144


Všechny tyto vlastnosti můžeme i porovnávat. Operátor `==` porovnává hodnotu, zatímco operátor `is`porovnává právě `id`, tedy identitu objektů. Rozlišujeme tím tak objekty s totožnou hodnotou a objekty identické.

In [14]:
a = 1000
b = 1000
print(a == b, a is b)

True False


Proměnné `a` a `b` mají stejnou hodnotu, ale jedná se o dva rozdílné objekty; nejsou tedy identické.

In [15]:
a = 1000
b = a
print(a == b, a is b)

True True


Zde je proměnná `b` zkonstruovaná přímo z proměnné `a` - jedná se o identické objekty a takové mají samozřejmě stejnou hodnotu.

## Interning

Zajímavá situace ovšem nastane ve speciálních případech.

In [23]:
a = 150
b = 150
print(a == b, a is b)
print(id(a), id(b))

True True
139803036226448 139803036226448


Python ve skutečnosti celá čísla od -5 do 256 uchovává v bokem alokovaném poli a proměnné `a` a `b` se k nim pouze odkazují. Podobně stejné řetězce se neduplikují, ale rovněž se uchovávají bokem. Tomuto procesu se říká **interning** a motivací je úspora paměti. Někdy kolem verze 3.7 došlo ke změně - do té doby Python internoval řetězce do délky 40 znaků, nyní internuje až do délky 4096. Na některých strojích je dokonce vidět významně odlišné `id` vyčleněných hodnot oproti hodnotám ostatním. To souvisí s faktem, že `id`je v implementaci CPython ve skutečnosti adresa objektu v paměti.

In [17]:
a = "test"
b = "test"
c = "tes"
print(a == b, a is b)
print(b == c+'t', b is c+'t')

True True
True False


## Mutability vs immutability

V Pythonu podobně jako v JavaScriptu rozlišujeme **mutable** a **immutable**, tedy měnné a neměnné, datové typy. Srovnejme to opět s jazykem C. V následujícím příkladě vytváříme celočíselnou proměnnou `a`. Tedy někde v paměti se alokují 4 byty místa, do kterých se uloží hodnota 1. V následující řádku se do těch samých 4 bytů zapíše hodnota 2. Proměnná `a` stále ukazuje na ty samé 4 byty ("ukazuje" je trochu nevhodné slovo, protože to není pointer, ale to nechme být).

```C
int a = 1;
a = 2;
```

Oproti tomu v Pythonu:

In [None]:
a = 600
print(id(a))
a = 601
print(id(a))

139758052070672
139758052080560


Po přepsání hodnoty dostáváme jiné `id`, tj. jinou adresu v paměti, fakticky nový objekt. To je tím, že objekt typu `int`je immutable, neměnný - jeho hodnotu není možné změnit. Pokud se o tom pokusíme, vzniká nový objekt. Dosavadní objekt v příkladu výše zaniká, v příkladu níže zůstává (pochopíme v části o garbage collection).

In [None]:
a = 400
b = a
a is b

a += 1
a is b

Mezi výhody immutable typů se obvykle řadí

1. čitelnější kód (podle mě sporné1
2. thread safety (žádné z vláken prostě immutable objekt nezmění)
3. easier to debug (podle mě také sporné)

```{admonition} Osobní názor
:class: warning
Body 1 a 2 jsou podle mě přinejmenším sporné.
```


Thread safety se dá zjednodušeně ilustrovat na příkladu s funkcí:

In [None]:
a = 1

def f(x):
    x = 2

f(a)
print(a)

1


### Které typy jsou které?

Immutable typy
- `int`
- `float`
- `bool`
- `string`
- `complex`
- `frozen set`
- `tuple`
- `range`

Mutable typy
- `list`
- `set`
- `dict`

Pojďme se podívat na to, jak se chová nějaký mutable typ. Ten totiž měnit můžeme, nezaniká, pouze mění svou hodnotu. Častými mutable typy jsou kontejnery.

In [None]:
a = [1, 2, 3]
b = a

a is b, a, b

a.append(4)
a is b, a, b

(True, [1, 2, 3, 4], [1, 2, 3, 4])

To může být ovšem v kontrastu k immutable typům matoucí - ukažme si to na obdobném příkladu

In [None]:
a = [1]

def f(x):
    x.append(2)

f(a)
print(a)

[1, 2]


Tedy neuvědomíme-li si, že funkci předáváme mutable proměnnou, může se nám její hodnota měnit "za zády". Pozor je třeba dávat ještě na výchozí (defaultní) hodnoty argumentů funkcí. V příkladu níže vidíme, co se stane (každé slušné IDE na takový přešlap upozorní).

In [None]:
def f(x, lst = []):
    lst.append(x)
    return lst

lst1 = f(1, [1, 2, 3])
lst2 = f(2)
lst3 = f(3)
print(lst1, lst2, lst3)
print(lst2 is lst3)

[1, 2, 3, 1] [2, 3] [2, 3]
True


Na závěr se podívejme na tento humorný příklad. Co se tam děje?

In [None]:
a, b = (0, [1, 2]) , (0, [1, 2])
print(a == b, id(a) == id(b))

True False


## Funkce jsou first class citizen

Takto se označuje fakt, že funkce nemají oproti proměnným žádné výsadní postavení a můžeme tak s nimi nakládat. Tedy funkce je možné libovolně přiřazovat do nových proměnných.

Z hlediska OOP to znamená, že funkce je objekt, který má definovaný operátor `__call__`, jinými slovy, objekt, na které můžeme použít kulatou závorku.

In [None]:
def add(a, b):
    return a + b

f = add

f(1, 2)

In [None]:
def do_something_with_f(x, f):
    return f(x)

def f(x):
    return 2*x


do_something_with_f(2, f)