# Úvod do jazyka Python

Python patří mezi nástroje pro dávkové zpracování dat. V tomto případě se nepostupuje interaktivně jako například v MS Excel, ale uživatel sestaví posloupnost příkazů a interpreter provede tyto příkazy podobně, jako spuštění programu. Výhody jsou následující.

* Možnost pracovat s daty neomezené velikosti.
* Snadná reprodukovatelnost.
* Lepší přehlednost v rozsáhlejších projektech.
* Možnost zařazení datové analýzy jako stavebního kamene delšího řetězce.
* Možnost neomezeného opakování stejné analýzy v cyklu nad jinými daty.

Nevýhoda dávkového zpracování je, že si nemůžeme požadované výstupy zajistit klikáním v menu. Jedná se však o nástroje s širokou uživatelskou základnou a v době kvalitního vyhledávání na Internetu není těžké "vygooglit" na webech s dotazy a odpověďmi příkazy nutné pro kreslení grafů různých typů a další dílčí úkoly spojené se zpracováním dat. Výhodou jsou mnohem větší možnosti, než má Excel. Srovnatelný se skriptováním v jazyce Python je jedině program Matlab, který je na univerzitě dostupný, ale vzhledem k vysoké ceně nebývá dostupný mimo univerzity a mimo velké firmy.

## Ke způsobu práce

* Učíme se na příkladech.
* Začínáme s modifikací hotových modelů. Experimentujte. Zkoušejte příklady z nápovědy, z přednášek a cvičení.
* Model stavíme z hotových bloků, málo modelů píšeme od nuly. Často najdeme podobný problém a ten si přizpůsobíme. Například najdeme obrázek podobný našemu zamýšlenému v [galerii](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html) a odsud vidíme, jaké příkazy a volby je potřeba použít.
* Detaily k nastavení a volbám při volání funkcí hledáme v manuálu. Pro rychlou orientaci slouží [cheatsheety](https://www.datacamp.com/cheat-sheet/category/python).
* Spousta dotazů s kvalitními odpověďmi je na serveru StackExchange nebo jinde. Popište hesly problém ve vyhledávacím políčku Google a zkuste vyhledat podobné dotazy a odpovědi na ně. Totéž s chybovými hláškami, pokud jim nerozumíte.

## K syntaxi v jazyce Python

* záleží na mezerách na začátku řádku
   * příkazy tvořící hlavní tělo začínají na začátku řádku
   * bloky uvnitř cyklů a podmínek jsou odsazeny o pevný počet mezer (doporučené jsou čtyři pro jednotlivé úrovně)
* zlom řádku může být uvnitř závorek s argumentem funkce a uvnitř závorek pro seznamy, potom nezáleží na odsazení
* komentáře jsou jednořádkové a uvozeny znakem #
* doporučený styl podle [Style guide](https://peps.python.org/pep-0008/)

In [None]:
pocet_opakovani = 10 # promenne pojmenovavame tak, aby nazev vypovidal o obsahu dat
pocet_velkych_cisel = 0
"""
Při práci nemusíme vypisovat celé jméno proměnné, ale můžeme používat 
doplňování kódu, kdy napíšeme jenom prvních několik písmen a po stisku 
domluvené klávesy (zpravidla tabelátor) se název buď doplní, nebo, 
je-li více variant, se nabídnou možná doplnění pomocí menu.
V tomto textu též vidíte možnost víceřádkových komentářů. Stačí je 
napsat jako víceřádkové řetězce, tj. řetězce uvozené a ukončené třemi 
uvozovkami.
"""
for i in range(pocet_opakovani):
    if i<5:
        # tisk informace o cisle i
        print("Číslo",i,"je malé")
    else:
        print(
            "Číslo",
            i,
            "je velké"
            )
        pocet_velkych_cisel = pocet_velkych_cisel + 1
print(
    "Vyskytlo se celkem",
    pocet_velkych_cisel,
    "velkych cisel"
)        


Všimněte si mimo jiné, že Python počítá a indexuje od nuly, podobně jako JavaScript a některé další jazyky. První položka v seznamu má index nula, druhá jedna atd.

## Aritmetika s čísly

In [None]:
a = 4 # promenna a obsahuje nastavenou hodnotu
b = a + 2  # promenna b bude o dve vetsi nez promenna a
a = b**2   # promenna a se nahradi druhou mocninnou promenne b, promenna b zustava na sve hodnote
a  # tisk hodnoty promenne, vystup posledniho vypoctu se tiskne, neni nutne pouzivat print

Proměnné si udrží hodnoty i v dalších políčkách. V dalším políčku zmenšíme hodnotu $a$ o 30.

In [None]:
a-30

Operace se zapisují běžným způsobem jako například v Excelu, pouze umocňování se označuje dvojicí hvězdiček. Takto vypadá druhá mocnina trojky.

In [None]:
3**2

### Úkol 1

Následující políčko s kódem `1**2 + 2**2 + 3**2 + 4**2`
sčítá druhé mocniny přirozených čísel až do čísla 4. Opravte políčko tak, aby sečetlo druhou mocninu přirozených čísel až do čísla 8.

In [None]:
1**2 + 2**2 + 3**2 + 4**2

## Hrátky s textem

Textový řetezec se bere jako seznam znaků a je možné ho ukládat do proměnná, přistupovat k prvnímu nebo poslednímu znaku, k několika prvním nebo několika posledním znakům, ke skupině znaků uprostřed atd. Pozor na to, že Python indexuje od nuly a první znak má tedy index nulový. Pokud je index záporný, znamená to pořadí od konce.

In [None]:
retezec="MENDELU"
retezec

In [None]:
retezec[0]

In [None]:
retezec[-2]

In [None]:
retezec[:4]

In [None]:
retezec[-3:]

In [None]:
retezec[2:4]

In [None]:
retezec + " je prostě " + retezec + "."

In [None]:
veta = "".join([retezec," je prostě ",retezec,"."])
veta

In [None]:
len(veta)

In [None]:
veta[:-5]

In [None]:
(10*(retezec+"-"))[:-1]

In [None]:
"-".join([retezec for i in range(10)])

In [None]:
"-".join([retezec for i in range(10)]).lower().replace("m","M")

> *Tyto techniky s přístupem k obsahu podle indexu využijeme, když budeme mít data v seznamu a budeme chtít přistupovat například k první nebo poslední hodnotě, nebo k několika prvním či
několika posledním hodnotám.* 

### Úkol 2

* Vložte pod toto políčko klávesou B (nebo pomocí menu) políčko pro vložení příkazů. Můžete také jít na následující políčko a vložit nové políčko klávesou A. Musíte být v příkazovém módu, tj. needitovat žádné pole. Kolem aktuálního políčka musí být modrý rámeček.
* Do proměnné `muj_pokus` uložte řetězec "LDF je nejlepší".
* Určete délku řetězce pomocí funkce `len`.

## Knihovny

Jenom základní funkce jsou v Pythonu přístupny přímo. Další funkce načítáme ve formě knihoven. Pro práci s daty zpravidla nejprve importujeme knihovny pro numeriku, práci s datovými tabulkami a pro kreslení grafů. Přitom používáme pro knihovny obvyklé zkratky, například `np` namísto `numpy`. Snipet pro vložení těchto knihoven najdete v rozbalovacím menu Snipets.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

## Práce se seznamem hodnot

### Zadání hodnot přímo do seznamu

Pro nakreslení grafu vyzkoušejte následující kód.

In [None]:
x = [0, 1, 2, 3, 4, 5, 6]
y = [0, 1, 4, 9, 16, 25, 36]
plt.plot(x,y);

Grafy je možno modifikovat dle potřeby. Následující dvojice příkazů vykreslí dva grafy předvolenými barvami. Jeden graf je složen z teček, druhý z teček a lomené čáry.

In [None]:
plt.plot(x,x, "o", color="green")
plt.plot(x,y, "o-", color="red");



### Vygenerování položek v seznamu

V předchozím jsme zadali funkční hodnoty přímo. Často se funkční hodnoty počítají. Například zde vypočteme druhé mocniny prvních několika přirozených čísel.

In [None]:
y = [i**2 for i in range(9)]
y

In [None]:
sum(y)

In [None]:
plt.plot(y)

Uvnitř hranatých závorek může být přechod na nový řádek. Na počtu mezer na
začátku v tomto případě nezáleží. 

> *Tuto techniku využijeme například, pokud
budeme chtít vyřešit model pro různé parametry a výstupy uložit pro další práci.*

In [None]:
parametry = [0,1,2,4,6,15]
seznam = [
    i**3
    for i in parametry
]
seznam

## Práce s poli `np.array`

S poli typu `np.array` se pracuje podobně jako se seznamy ale dokážeme s nimi dělat rovnou matematické operace a zápis je pohodlnější.

In [None]:
# S polem typu array je možné provést operaci umocnění rovnou
# Pole můžeme vygenerovat pomocí prvního a posledního prvku a příkazu np.linspace
N = 1
x = np.linspace(0,N)
y = x**2 
plt.plot(x,y)
plt.grid()

### Úkol 3

Nakreslete graf třetí mocniny na intervalu $(-1,1)$. Jako výchozí bod použijte
snippet `Graf funkce, Numpy` (horní menu, rozbalovací položka `Snippets`). 

In [None]:
# Sem vložte příkazy pro nakreslení grafu funkce x**3 na intervalu od -1 do 1.

## Tabulky, pandas

In [None]:
x = np.linspace(0,10,1001)
y = x**2
df = pd.DataFrame()
df["x"] = x
df["y"] = y
#df["suma"] = df["x"] + df["y"]
# Kratsi alternativa: df["suma"] = df.x + df.y
df

In [None]:
df["soucin"] = df["x"] * df["y"]
df

Tabulky je možno použít k operacím se sloupci podobně jako to znáte z Excelu,
ale přehledněji. 

> *Tabulky využijeme k ukládání stejně dlouhých datových řad. Výhodou je, že
> tabulky mají mnoho nástrojů na kreslení, manipulaci se sloupci a podobně.*

In [None]:
df.plot(x="x")

In [None]:
x = np.linspace(0,2*np.pi,100)
df = pd.DataFrame(index=x)
df["sin"] = np.sin(x)
df["cos"] = np.cos(x)
df["soucet mocnin"] = df["sin"]**2 + df["cos"]**2
df

## Obrázky

In [None]:
# vypocet dat
x = np.linspace(0,6*np.pi,1000) # data na vstupu, definicni obor funkce
y = np.sin(x) # funkcni hodnoty

# vykresleni dat do obrazku
fig,ax = plt.subplots(figsize=(10,3))
plt.plot(x, y, color='red')

# kosmeticke upravy
ax.set(
    title='Graf',
    ylabel='Sinus',
    xlabel='Nezávislá proměnná',
    ylim=(-2,2)
);


## Vykreslení dvourozměného pole

Pokud druhý argument není pole čísel, ale pole složené z polí, kreslí se
příslušný počet křivek. 

In [None]:
x = np.linspace(0,1.5)
seznam_funkci = [ [i**2,i+1,2-i**2] for i in x ]
popisek = ["parabola","přímka", "otočená parabola"]
plt.plot(x,seznam_funkci, label=popisek)
plt.legend();

Body do každé křivky se berou ze sloupců. Pokud tedy
vytvoříme pole ze seznamu křivek, musíme jej transponovat, tj. řádky přepsat do
sloupců. Aby se dalo pole transponovat, je nutné jej mít jako `np.array`.

In [None]:
x = np.linspace(0,1.5)
seznam_funkci = np.array([x**2,x+1,2-x**2])
popisek = ["parabola", "přímka", "otočená parabola"]
plt.plot(x,seznam_funkci.T, label=popisek)
plt.legend();

> *Uvedený postup využijeme u modelů, kde řešením dostaneme časový průběh více
neznámých, například při modelování interakce mezi dvěma a více populacemi.
Nemusíme kreslit každou křivku samostatně, ale nakreslíme je jedním příkazem.*

## Dva obrázky pod sebou, data z tabulky

Někdy chceme nakreslit do jednoho obrázku dvě funkce se společným definičním
oborem, ale značně rozdílnými funkčními hodnotami. Řešením je buď nakreslit
obrázky pod sebe a se sdílenou vodorovnou osou (viz níže), nebo nakreslit do
jednoho obrázku obě funkce, ale každou s jiným měřítkem na svislé ose, tedy
použít v jednom obrázku dvě svislé osy (viz Google a hesla `matplotlib` a `twinx`).

In [None]:
# tabulka funkcnich hodnot pro sinus a kosinus
x = np.linspace(0,6*np.pi,100)
df = pd.DataFrame(index=x)
df["sin"] = np.sin(x)
df["cos"] = np.cos(x)

# Tisk začátku tabulky pro kontrolu
print(df.head())

# vykresleni dat do obrazku
fig,ax = plt.subplots(2,1,figsize=(8,4),sharex=True) # zalozeni obrazku se dvema soustavami souradnic pod sebou
df.plot(y="sin",ax=ax[0], legend=False)# prvni graf
df.plot(y="cos",ax=ax[1], legend=False)# druhy graf

# dekorace grafu
ax[0].grid() # vykresleni mrizky
ax[1].grid() # vykresleni mrizky
ax[0].set(ylabel="Sinus")
ax[1].set(ylabel="Kosinus");

## Extra: Růst populace v prostředí s omezenou nosnou kapacitou

Kód simuluje pro různé hodnoty parametru $r$ chování modelu populace, vyvíjející se v prostředí s omezenou nosnou kapacitou podle vztahu $$x_{k+1}=rx_k(1-x_k).$$ O matematických souvislostech se budeme bavit během semestru. Tento příklad ukazuje, že v rekurentních vzorcích se může objevit chaos. Pěkný model růstu populace pro malé hodnoty parametru je pro velké hodnoty nahrazen cykly přeskakujícími mezi několika hodnotami nebo dokonce chaosem. Viz [Logistic map](https://en.wikipedia.org/wiki/Logistic_map) na Wikipedii.

In [None]:
N = 50
df = pd.DataFrame()
seznam_r = [1.5,2, 2.5, 2.8, 3, 3.5, 3.8,3.9]

for r in seznam_r:
    x = np.zeros(N) # vytvoření seznamu potřebné délky
    x[0]=0.1
    for i in range(N-1):
      x[i+1] = r*x[i]*(1-x[i])
    df[r] = x

fig,ax = plt.subplots(figsize=(20,8))
df.plot(ax=ax,style="o-")
plt.legend(title=r"parametr $r$");


Obrázky můžeme nakreslit také přehledněji do mřížky se sdílenými hodnotami na osách.

In [None]:
fig,axs = plt.subplots(int(len(seznam_r)/2),2,sharex=True, sharey=True)
ax = axs.flatten()
for i,r in enumerate(seznam_r):
    ax[i].plot(df[r],label=r, color="C"+str(i))
fig.legend(title=r"Hodnota $r$")
fig.suptitle("Řešení diskrétní logistické rovnice");

## Každá věc se dá udělat více způsoby ...

Do mřížky umí grafy uspořádat i přímo příkaz pro kreslení proměnné obsahující tabulku.

In [None]:
df.plot(
    subplots=True, 
    layout=(int(len(seznam_r)/2),2), 
    sharex=True, 
    sharey=True);

Je také možné počítat pro všechny hodnoty parametru $r$ současně. Potom stačí
jeden cyklus. Nemusí se dělat cyklus pro každou hodnotu parametru samostatně.

In [None]:
N = 50
df = pd.DataFrame()
seznam_r = [1.5,2, 2.5, 2.8, 3, 3.5, 3.8,3.9]

x = np.zeros([N, len(seznam_r)]) # vytvoření seznamu potřebné délky
x [0,:] = 0.1
for i in range(N-1):
    x[i+1,:] = seznam_r*x[i,:]*(1-x[i,:])

fig,ax = plt.subplots(figsize=(15,4))
plt.plot(x,"o-")
plt.legend(seznam_r,title=r"parametr $r$");