# Cesta kořeny 2

** moto: **

Spadne kapr do medu a říká:

  "Hustý, to je hustý..."
  
_Z.Janák, písemka z TM_

## Osnova

* Úvod
* Alias vs hodnota
* String
* Mutanti a nemutanti
* Práce se souborem
* Elegance pythonu
* Závěrečné cvičení

## Úvod

V této lekci se ponoříme (zabředneme) do úplných základů Pythonu. Daná tématika se může zdát možná až příliš abstraktní a v praxi nepoužitelná, nicméně opak je pravdou! Uvidíme, že díky solidním základům bude například načítání dat ze souboru jednoduchou a přímočarou záležitostí.

Na začátku zavzpomínáme na (dnes již klasický) [Fišerův problém](https://github.com/ziky5/F4500_Pyhon_pro_fyziky/blob/master/lekce_01/praktikum.ipynb). Data jsme tehdy měli uložená v csv souboru `data.csv`. Vše jsme načetli jednoduše pomocí pandy:

In [1]:
import pandas as pd
data = pd.read_csv('data.csv')
data

Unnamed: 0,T,A,B
0,15.0,0.1734,459.0
1,16.0,0.1782,450.0
2,17.0,0.1831,441.0
3,18.0,0.188,435.0
4,19.0,0.1928,427.0
5,20.0,0.1976,419.0
6,21.0,0.2024,411.0


Pokud vzpomínáte, tak ke sloupci `T` jsme přistupovali takto:

In [2]:
data['T']

0    15.0
1    16.0
2    17.0
3    18.0
4    19.0
5    20.0
6    21.0
Name: T, dtype: float64

Proč jsme nemohli jednoduše vykonat následující?

In [3]:
data[T]

NameError: name 'T' is not defined

## Alias v hodnota

In [4]:
     T = 'T'
#alias v hodnota

Alias je (zhruba řečeno) pojmenované místo v paměti počítače. Tedy pomocí `T` označujeme při ** běhu programu ** místo v paměti, kam jsme si již předtím ** něco ** uložili (v tomto případě "písmeno" T). Ne vše může být aliasem (např. žádná proměnná nemůže začínat číslem):

In [5]:
3 = 'T'

SyntaxError: can't assign to literal (<ipython-input-5-e237428ae1a1>, line 1)

Naopak následující příkaz:

In [6]:
300

300

právě vytvořil ** nové "místo" ** v paměti počítače, kam ** uložil ** hodnotu (v binární podobě), která reprezentuje přirozené číslo 300. Že jsme si místo (jeho adresu) nezapamatovali, je náš problém. Nyní už neexistuje žádný způsob, jak zjistit, kde vlastně je ono místo a tudíž jej nemůžeme použít dále při běhu programu. Jupyter nám dokonce dává jasně najevo, že jsme si ono místo neuložili do proměnné (viz `Out[6]: 300`).

Tím se dostáváme k tomu, co vlastně znamená symbol `=` ve zdrojovém kódu. Jedná se o tzv. operátor přiřazení. Aliasu přiřazuje místo v paměti, na které **"ukazuje".** Rozeberme tedy podrobně, co znamená následující:

In [1]:
x = 1       # zde vznikne místo v paměti, do které se uloží číslo 1 a proměnná x ukazuje na to místo
x = x + 1   # zde se vezme obsah proměnné x (číslo 1) a provede se operace součtu,
            # výsledek se uloží se do x
x           # výsledek je pochopitelně 2

2

Jinými slovy: to co je na pravé straně operátoru `=` se vyhodnotí (získají se hodnoty uložené v paměti), aplikují se všechny operace a adresu místa s výsledekem si uložíme do aliasu na levé straně.

Klasický, z matematiky známý, operátor rovnosti se v Pythonu označuje `==` (porovnává **hodnoty** uložené na daných místech v paměti)

In [9]:
300 == 300

True

In [10]:
300 == 301

False

Na identitu (tedy že daný alias ukazuje na stejné místo v paměti) se ptáme slůvkem `is`:

In [11]:
a = 300
b = 300
a is b          # a ukazuje na jiné místo v paměti než b

False

V obou místech je však uložená stejná hodnota (číslo 300), tedy:

In [12]:
a == b

True

## String

Řetězec (string) v Pythonu reprezentuje text. Python nerozlišuje mezi znakem (character) a sekvencí znaků (string). Znak je v Pythonu reprezentován jako string o velikosti 1:

In [13]:
T = 'T'
len(T)

1

Nyní můžeme udělat to, co nám v Úvodu nefungovalo:

In [14]:
data[T]   # T se vyhodnotí na písmeno "T"

0    15.0
1    16.0
2    17.0
3    18.0
4    19.0
5    20.0
6    21.0
Name: T, dtype: float64

V Pyhonu není rozdíl mezi jednoduchou uvozovkou ' a dvojtou ", následující definice jsou si ekvivalentní

In [15]:
T1 = 'T'
T2 = "T"
T3 = """T"""
T4 = '''T'''
T1 == T2 == T3 == T4

True

Tři uvozovky (ať už jednoduché či dvojité) se můžou rozprostírat na víc řádků.

In [16]:
print('''
Hroch a Panda
jsou dobří přátelé
''')


Hroch a Panda
jsou dobří přátelé



Stringy lze opět porovnávat, v tomto případě použijeme operátor nerovnosti:

In [17]:
'Hroch' != 'Zikán'

True

Naopak následující může být trochu překvapivé (Python pochopitelně porovnává jednotlivé znaky, sémantice nerozumí):

In [18]:
'Hroch' == 'zvíře'

False

Jako dobrá představa stringu je seznam (list) znaků. Vskutku, se stringem lze zacházet obdobně jako se seznamem:

In [19]:
s = 'Panda'
print(s[0])
print(s[1:5])

P
anda


Dva či více stringů lze spojit pomocí operátoru +:

In [20]:
'Hroch' + ' a ' + 'Panda'

'Hroch a Panda'

Podobnost s listem však pokulhává v jedné zásadní věci:

In [21]:
s[0] = 'F'

TypeError: 'str' object does not support item assignment

## Mutanti

Souhraným označením mutanti se označují datové typy, které se mohou měnit (mutable data type). Jeden takový už známe. Vzpomenete si který?

In [2]:
l1 = ['a', 'a', 'n', 'd']

In [3]:
l1.append('a')

Jak už víte, prvky seznamu (narozdíl od stringu) můžeme měnit:

In [4]:
l1[0] = 'P'

In [5]:
l1

['P', 'a', 'n', 'd', 'a']

Dokážete však vysvětlit následující?

In [6]:
l2 = l1
l2.append('!')
l1

['P', 'a', 'n', 'd', 'a', '!']

Jak je možné, že se změnil list `l1`, když jsme modifikovali `l2`? Pro jistotu:

In [9]:
l2     # l2 se změnil také

['P', 'a', 'n', 'd', 'a', '!']

Odpověď je poměrně jednoduchá - `l1` i `l2` ukazují na stejné místo v paměti (jedná se o stejné "objekty"):

In [10]:
l1 is l2

True

Pokud bychom chtěli vytvořit opravdovou kopii, tak aby se nám změny neprojevili na `l1`:

In [11]:
l3 = l1.copy()

In [12]:
l3

['P', 'a', 'n', 'd', 'a', '!']

In [13]:
l3.append('!')
l1

['P', 'a', 'n', 'd', 'a', '!']

Pro jistotu se ještě přesvědčíme, že se opravdu nejedná o stejné objekty:

In [15]:
l3 is l1

False

## Nemutanti

Jak jsme viděli před chvílí stringy nelze modifikovat. Pokud bychom chtěli změnit string 'Panda' na 'Fanda', nezbyde nám nic jiného než vytvořit string nový:

In [18]:
s = 'Panda'
s[1:]

'anda'

In [19]:
'F' + s[1:]

'Fanda'

Obdobně se chová i datový typ integer (celé číslo). Porovnejte následující s předchozími hrátky s listy l1 a l2:

In [35]:
a = 1
b = a
a = 2

print(a)
print(b)

2
1


Toto je velice důležité chování Pythonu. Pokud si do nějaké proměnné uložíte nějaké číslo, pak se nikdy nemůže změnit jinak, než že ho sami explicitně změníte!

## Mutanti vs nemutanti

Nemutanti:

* int (-5, 2, 150333)
* float (-5.0, -2., 1.50333e5)
* string ('Hroch')
* ...

Mutanti:
* list ([1, 2])
* DataFrame
* ...
* ...
* ...

## Práce se souborem

Soubor označuje a sdružuje data uložená na disku. Abychom se k datům v souboru dostali a mohli s nimi pracovat, musíme požádat operační systém. Nebojte se, v Pythonu to není nic složitého. Prvním nezbytným krokem je soubor otevřít:

In [20]:
f = open('data.csv')
f

<_io.TextIOWrapper name='data.csv' mode='r' encoding='UTF-8'>

Proměnná f nyní představuje tzv. file handle. Neobsahuje žádná data (ta zatím stále leží na disku), je to jenom prostředek, skrze který můžeme komunikovat s operačním systémem. Samotný transfer dat můžeme zahájit zavoláním funkce read:

In [21]:
data = f.read()
print(data)

T,A,B
15.0,0.1734,459.0
16.0,0.1782,450.0
17.0,0.1831,441.0
18.0,0.1880,435.0
19.0,0.1928,427.0
20.0,0.1976,419.0
21.0,0.2024,411.0



Nyní máme data v operační paměti a uložili jsme si je do proměnné data. Nyní je záhodno sdělit operačnímu systému, že se souborem již nebudeme dále pracovat a soubor takzvaně uzavřít:

In [22]:
f.close()

Podívejme se blíže na proměnnou data:

In [23]:
print(type(data))
data

<class 'str'>


'T,A,B\n15.0,0.1734,459.0\n16.0,0.1782,450.0\n17.0,0.1831,441.0\n18.0,0.1880,435.0\n19.0,0.1928,427.0\n20.0,0.1976,419.0\n21.0,0.2024,411.0\n'

Vidíme, že tentokrát máme k dispozici něco úplně jiného, než co nám vrátila panda v první lekci zavoláním funkce read_csv. Tentokrát se jedná o string, ony záhadné \n označují znak nového řádku, Python jim rozumí a pokud použijeme funkci print, pak se vše zobrazí správně (viz výše).

V této podobě jsou nicméně data velice špatně použitelná. Nezbývá nám nic jiného než si data sami upravit. Existuje mnoho způsobů, jak to udělat. Ten který si teď ukážeme není sice nejelegantnější, je však velice názorný.

Nejprve data rozdělíme na jednotlivé řádky:

In [24]:
data = data.split('\n')
data

['T,A,B',
 '15.0,0.1734,459.0',
 '16.0,0.1782,450.0',
 '17.0,0.1831,441.0',
 '18.0,0.1880,435.0',
 '19.0,0.1928,427.0',
 '20.0,0.1976,419.0',
 '21.0,0.2024,411.0',
 '']

Následně každý řádek rozdělíme podle čárky na jednotlivé hodnoty:

In [25]:
data = [line.split(',') for line in data if line != '']
data

[['T', 'A', 'B'],
 ['15.0', '0.1734', '459.0'],
 ['16.0', '0.1782', '450.0'],
 ['17.0', '0.1831', '441.0'],
 ['18.0', '0.1880', '435.0'],
 ['19.0', '0.1928', '427.0'],
 ['20.0', '0.1976', '419.0'],
 ['21.0', '0.2024', '411.0']]

Naším cílem je vytvořit starý známý [DataFrame](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html). Po pozorném přečtení dokumentace vidíme, že nejprve potrebujeme vytvořit numpy vektor (z tomto případě 2D vektor - správně bychom mělí říci tenzor či matice):

In [27]:
import numpy as np
arr = np.array(data[1:])
arr

array([['15.0', '0.1734', '459.0'],
       ['16.0', '0.1782', '450.0'],
       ['17.0', '0.1831', '441.0'],
       ['18.0', '0.1880', '435.0'],
       ['19.0', '0.1928', '427.0'],
       ['20.0', '0.1976', '419.0'],
       ['21.0', '0.2024', '411.0']], 
      dtype='<U6')

2D numpy vektory, jsou velice podobné 1D vektorům, k prvnímu řádku této matice lze přistoupit takto:

In [28]:
arr[0]

array(['15.0', '0.1734', '459.0'], 
      dtype='<U6')

K prvnímu elementu prvního řádku pak takto:

In [33]:
arr[0][0]

'15.0'

Nyní máme konečně vše nachystané k vytvoření DataFrame:

In [37]:
import pandas as pd
data = pd.DataFrame(arr, columns=data[0])

In [62]:
data

Unnamed: 0,T,A,B
0,15.0,0.1734,459.0
1,16.0,0.1782,450.0
2,17.0,0.1831,441.0
3,18.0,0.188,435.0
4,19.0,0.1928,427.0
5,20.0,0.1976,419.0
6,21.0,0.2024,411.0


In [63]:
data['C'] = data['A'] + data['B']

In [64]:
data

Unnamed: 0,T,A,B,C
0,15.0,0.1734,459.0,0.1734459.0
1,16.0,0.1782,450.0,0.1782450.0
2,17.0,0.1831,441.0,0.1831441.0
3,18.0,0.188,435.0,0.1880435.0
4,19.0,0.1928,427.0,0.1928427.0
5,20.0,0.1976,419.0,0.1976419.0
6,21.0,0.2024,411.0,0.2024411.0


Asi jsme něco udělali špatně. Co se to vlastně stalo?

## Datové konverze

Projděme si celý proces načítání dat ještě jednou. Nadefinujme si k tomu dvě užitečné funkce:

In [38]:
def load_data(file_name):
    f = open(file_name)
    data = f.read()
    f.close()
    return data

def make_dataframe(data):
    data = data.split('\n')
    data = [line.split(',') for line in data if line != '']
    arr = np.array(data[1:])
    return pd.DataFrame(arr, columns=data[0])

In [39]:
data = make_dataframe(load_data('data.csv'))
data

Unnamed: 0,T,A,B
0,15.0,0.1734,459.0
1,16.0,0.1782,450.0
2,17.0,0.1831,441.0
3,18.0,0.188,435.0
4,19.0,0.1928,427.0
5,20.0,0.1976,419.0
6,21.0,0.2024,411.0


In [40]:
x = data['A'][0]
print(x)
print(type(x))

0.1734
<class 'str'>


Problém spočívá v tom, že data jsou stringy, ne floaty. Musíme je ručně převést. K tomu slouží funkce float:

In [42]:
print(float(x))
print(type(float(x)))

0.1734
<class 'float'>


Pokud bychom měli následující vnořenou strukturu

In [46]:
strings = [['1', '2', '4'], ['5', '9', '9']]
strings

[['1', '2', '4'], ['5', '9', '9']]

a chtěli vytvořit novou identickou strukturu jen převést všechny stringy na floaty, pak to můžeme udělat např. následovně:

In [51]:
floats = []
for rec in strings:
    floats.append([float(num) for num in rec])

floats

[[1.0, 2.0, 4.0], [5.0, 9.0, 9.0]]

Poznamenejme jen, že se vlastně jedná o dva vnořené for cykly. V prvním procházíme prvky listu `strings` - cykly tedy budou dva: první s `['1', '2', '4']` a druhý s `['5', '9', '9']`. Vnořený for cylkus bude nejprve pro hodnoty `1`, `2` a `4` a následně pro `5`, `9` a `9`. Výsledekem každého vnitřního for cyklu bude vždy nový list: `[1.0, 2.0, 4.0]` a `[5.0, 9.0, 9.0]`. Tyto listy vždy přilepíme na konec listu `float`, který si na začátku inicializujeme na prázdný list.

Naši funkci `make_dataframe` tedy můžeme upravit například následujícím způsobem:

In [52]:
def make_dataframe(data):
    data = data.split('\n')
    data = [line.split(',') for line in data if line != '']
    
    floats = []
    for rec in data[1:]:
        floats.append([float(num) for num in rec])
        
    arr = np.array(floats)
    return pd.DataFrame(arr, columns=data[0])

In [53]:
data = make_dataframe(load_data('data.csv'))
data

Unnamed: 0,T,A,B
0,15.0,0.1734,459.0
1,16.0,0.1782,450.0
2,17.0,0.1831,441.0
3,18.0,0.188,435.0
4,19.0,0.1928,427.0
5,20.0,0.1976,419.0
6,21.0,0.2024,411.0


In [54]:
print(type(data['A'][0]))

<class 'numpy.float64'>


In [55]:
data['C'] = data['A'] + data['B']
data

Unnamed: 0,T,A,B,C
0,15.0,0.1734,459.0,459.1734
1,16.0,0.1782,450.0,450.1782
2,17.0,0.1831,441.0,441.1831
3,18.0,0.188,435.0,435.188
4,19.0,0.1928,427.0,427.1928
5,20.0,0.1976,419.0,419.1976
6,21.0,0.2024,411.0,411.2024


Poznámka: pokud bychom četli dokumentaci opravdu pozorně zjistili bychom, že panda za nás může konverzi provést sama:

In [57]:
def make_dataframe(data):
    data = data.split('\n')
    data = [line.split(',') for line in data if line != '']
    arr = np.array(data[1:])
    return pd.DataFrame(arr, columns=data[0], dtype='f')

In [58]:
data = make_dataframe(load_data('data.csv'))
data

Unnamed: 0,T,A,B
0,15.0,0.1734,459.0
1,16.0,0.1782,450.0
2,17.0,0.1831,441.0
3,18.0,0.188,435.0
4,19.0,0.1928,427.0
5,20.0,0.1976,419.0
6,21.0,0.2024,411.0


In [59]:
print(type(data['A'][0]))

<class 'numpy.float32'>


## Elegance Pythonu

Vzhledek k tomu, že práce se souborem je velice častá Python nabízí několik elegantních metod, jak si ulehčit život. Prvně si představíme tzv. "with block", který nás zbaví nutnosti soubor ručně zavírat a pak si ukážeme, jak efektivně iterovat přes jednotlivé řádky souboru.

In [60]:
with open('data.csv') as f:
    data = []
    for line in f:
        row = line.strip().split(',')
        data.append(row)

data = pd.DataFrame(np.array(data[1:]), columns=data[0], dtype='f')
data

Unnamed: 0,T,A,B
0,15.0,0.1734,459.0
1,16.0,0.1782,450.0
2,17.0,0.1831,441.0
3,18.0,0.188,435.0
4,19.0,0.1928,427.0
5,20.0,0.1976,419.0
6,21.0,0.2024,411.0


Uvedený způsob skýtá dvě velké výhody.

1. With block se automaticky postará o zavření souboru. I kdybychom udělali nějakou chybu v kódu ve with blocku, Python stejně automaticky zavře soubor, takže po nás nezůstane nic otevřeného (existuje samozřejmě způsob, jak to ošetřit i ručně, ale tím se zde zabývat nebudeme)

2. Důležitý rozdíl při iteraci přes soubor oproti použití funkce read je v tom, že jsme NENAČETLI celý obsah souboru naráz. Operační systém nám v každé iteraci vrátil pouze jeden řádek. My jsme si sice všechna data uložili do proměnné data, protože jsme na konec chtěli vytvořit DataFrame. Pokud bychom však chtěli např. pouze sečíst všechny hodnoty v prvním sloupci, mohli bychom to udělat například následovně:

In [61]:
total_sum = 0
with open('data.csv') as f:
    f.readline() # zahodíme hlavičku
    for line in f:
        total_sum += float(line.split(',')[0])

total_sum

126.0

Výhodou je, že takto lze zpracovat i soubory, které jsou větší než operační paměť našeho počítače. Pokud bychom se pokusili načíst takový soubor celý do paměti, tak se dostaneme do vážných problémů.

## Závěrečné cvičení

Vytvořte (pomocí Pythonu pochopitelně) soubor s názvem data2.csv, který bude identický jako data.csv, jen přidáme čtvrtý sloupec, který vznikne vynásobením druhého a třetího sloupce. Tento sloupec pojmenujeme C.