## Slovo úvodem
Narozdíl od jiných notebooků v této části repozitáře tento notebook nevznikl jako podklad pro nějaký workshop či přednášku. Cílem spíše bylo mít někde ucelený soubor poznámek, který by byl vždy po ruce. Samozřejmě i tak se snažím, aby byl níže uvedený text čitelný a nebylo v něm příliš mnoho chyb. Přes to ale bude vzhledem ke svému účelu méně koherentní než texty jiné.

## Wheely

Při instalaci balíčku pomocí **pip install jmeno_balicku** se pip podívá na pypi.org a zkusí pro chtěný balíček nalézt wheel. Pokud se to nepovede, pokusí se pip stáhnout zdrojový kód. Co to ale vlastně ten wheel je a proč ho pip upřednostňuje před zdrojovým kódem?  
Wheel je fakticky zip archiv obsahující soubory nutné k instalaci balíčku. Důležitá je skutečnost, že pokud balíček využívá Cčková rozšíření, má ve wheelu už odpovídající kód zkompilovaný pro příslušnou verzi Pythonu, operační systém a HW architekturu. Díky tomu nemusí mít u sebe uživatel nainstalovaný kompilátor, resp. při absenci kompilátoru smutně koukat na chybovou hlášku. Její příklad se nalézá níže pro balíček majka, který má na pypi.org pouze zdroják. 
```
(environment) C:\vs\programovani\python\drobne_knihovny>pip install majka
Collecting majka
  Using cached https://files.pythonhosted.org/packages/6c/0c/92a788a342a880a676a9cf66b91ec6ec09fbabe5f87decc2cc7d1642b583/majka-0.8.tar.gz
Installing collected packages: majka
  Running setup.py install for majka ... error
    Complete output from command c:\vs\programovani\python\drobne_knihovny\environment\scripts\python.exe -u -c "import setuptools, tokenize;__file__='C:\\Users\\NEWNOT~1\\AppData\\Local\\Temp\\pip-install-jq2cz80k\\majka\\setup.py';f=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(code, __file__, 'exec'))" install --record C:\Users\NEWNOT~1\AppData\Local\Temp\pip-record-jb0sqhcm\install-record.txt --single-version-externally-managed --compile --install-headers c:\vs\programovani\python\drobne_knihovny\environment\include\site\python3.7\majka:
    running install
    running build
    running build_ext
    building 'majka' extension
    error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/

    ----------------------------------------
Command "c:\vs\programovani\python\drobne_knihovny\environment\scripts\python.exe -u -c "import setuptools, tokenize;__file__='C:\\Users\\NEWNOT~1\\AppData\\Local\\Temp\\pip-install-jq2cz80k\\majka\\setup.py';f=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(code, __file__, 'exec'))" install --record C:\Users\NEWNOT~1\AppData\Local\Temp\pip-record-jb0sqhcm\install-record.txt --single-version-externally-managed --compile --install-headers c:\vs\programovani\python\drobne_knihovny\environment\include\site\python3.7\majka" failed with error code 1 in C:\Users\NEWNOT~1\AppData\Local\Temp\pip-install-jq2cz80k\majka\
```
S wheelem je instalace mnohem jednodušší.
```
(environment) C:\vs\programovani\python\drobne_knihovny>pip install numpy
Collecting numpy
  Downloading https://files.pythonhosted.org/packages/eb/a9/1e4215043cac5ffc6a5ab1f2e0e58a680fc8fd19e28eb28c01e90aeace3e/numpy-1.21.1-cp37-cp37m-win_amd64.whl (14.0MB)
    100% |████████████████████████████████| 14.0MB 3.2MB/s
Installing collected packages: numpy
Successfully installed numpy-1.21.1
```

Podívejme se, co se vlastně ve wheelu nachází. Jak bylo uvedeno výše, wheel je archiv, nikoli binární soubor. Pro "čistý" balíček, který nepoužívá Cčko, se tak ve wheelu nachází zdrojový kód v normální pro člověka čitelné podobě.

Wheely mají častokrát dosti divoké názvy. Jak je rozklíčovat? Šablona názvu má tvar {distribution}-{version}(-{build tag})?-{python tag}-{abi tag}-{platform tag}.whl, přičemž jako konkrétní příklad použijme dejme tomu numpy-1.21.1-cp37-cp37m-win_amd64.whl. 
- distribution značí jméno balíčku (numpy) a version jeho verzi (1.21.1)  
- build tag je nepovinný - proto se v šabloně nalézá otazník. Používá se v případě, kdy by měly dva wheely všechny ostatní identifikátory (vč. verze balíčku) identické. U výše zmíněného numpy balíčku build tag přítomný není a hádám, že se s ním člověk při stahování souborů z pypi.org asi moc nesetká.  
- python tag udává verzi Pythonu, pro který je wheel určen. Pokud bude balíček fungovat jak pro Python 2, tak pro Python 3, objeví se zde py2.py3. Pokud je ale určen pouze pro jednu z těchto možností, objeví se py2, nebo py3. Velice často ale dochází k tomu, že balíček funguje jen pro konkrétní minoritní verzi Pythonu. Tehdy se v názvu wheelu objeví např. py37. Nám se u numpy ale objevilo cp37. Písmeno c udává implementaci, konkrétně CPython. Balíček fungující na jakékoli implementaci Python má výše zmíněné py, například Jython by měl jy - více zkratek viz [zde](https://www.python.org/dev/peps/pep-0425/#python-tag), povídání k implementacím [tady](https://wiki.python.org/moin/PythonImplementations).  
- ABI je zkratka pro Application Binary Interface. Jestli jsem vše správně pochopil, jedná se o interface, skrze který komunikuje program s DDLkama poskytovanýma Pythoní instalací nebo třeba operačním systémem (viz [toto](https://stackoverflow.com/questions/2171177/what-is-an-application-binary-interface-abi) a [toto](https://www.python.org/dev/peps/pep-0384/)). V našem konkrétním příkladě zde máme cp37m - první čtyři znaky se vztahují ke minor verzi Pythonu, písmeno m se týka ["pymalloc alocatoru"](https://stackoverflow.com/questions/54097033/what-does-the-m-in-a-python-abi-tag-mean).  
- jako poslední je tag s operačním systémem a architekturou.

Co ale dělat, když člověk u sebe potřebuje wheel vytvořit? Postup si ukážeme na balíčku majka, jehož zdrojáky v podobě archivu stáhneme [zde](https://pypi.org/project/majka/#files) a do pracovního adrsáře si rozbalíme majka-0.8. Dále si nainstalujeme pomocný balíček určený právě na vytváření wheelů (pip install wheel).  
Defaultní postup by bylo vlézt do adresáře balíčku (majka-0.8) a v něm spustit 
```
python setup.py bdist_wheel
```
To ale spadne na chybové hlášce "error: invalid command 'bdist_wheel'". Řešení spočívá v editaci souboru majka-0.8\setup.py - před řádek "from distutils.core import setup, Extension" se musí umístit "import setuptools". Pořadí je zde důležité - pokud bychom importění setuptools umístili až na distutils.core, dostali bychom po spuštění wheel vytvářejícího příkazu chybu "error: each element of 'ext_modules' option must be an Extension instance or 2-tuple". Paklíiže se wheel úspěšně vytvořil, nalezneme ho v adresáři majka-0.8\dist\majka-0.8-cp37-cp37m-win_amd64.whl.  
Podle dokumentace pro vytvoření wheelu u čistých balíčků nevyužívajících Cčko stačí do setup.cfg vložit
```
[bdist_wheel]
universal = 1
```
Když ale to samé napíšeme u majky, ktrá Cčko potřebuje, je výsledný wheel úplně stejný jako předtím.
 

## Request

In [1]:
import requests

Pokud chceme provolat pomocí GETu nějakou stránku, napíšeme

In [5]:
requests.get("https://seznam.cz")

<Response [200]>

Zdůrazněme, že https:// je potřeba - jinak se objeví chyba 
```
MissingSchema: Invalid URL 'seznam.cz': No schema supplied. Perhaps you meant http://seznam.cz?
```

Navrátový kód je sice pěkný, ale obvykle chceme GETem získat i nějaké nemetadatové informace. Návratový objekt si tak uložíme do proměnné:

In [6]:
response = requests.get("https://seznam.cz")

Printění tohoto objektu dává informaci o návratovém kódu.

In [9]:
print(response)

<Response [200]>


Nicméně pokud ccheme tento kód získat jako integer a ne jako nějakou responsi, musíme šáhnout na atribut *status_code* response objektu.

In [10]:
response.status_code

200

Pokud bychom chtěli získat samotný obsah návratové zrpávy, zavolali bychom
```python
response.content
```
případně
```python
response.text
```
Nicméně tyto zprávy by v případě seznamácké stránky byly příliš velké a tak i nepřehledné. Proto se pokusíme provolat Elasticsearch bydlící na lokálu na portu 9200.

In [12]:
response = requests.get("http://localhost:9200")

In [14]:
response.status_code

200

Vidíme, že content obsahuje binární objekt.

In [13]:
response.content

b'{\n  "name" : "LAPTOP-T8SH3TQ4",\n  "cluster_name" : "elasticsearch",\n  "cluster_uuid" : "EZ6I1dsWS-WFN0A1spvfXQ",\n  "version" : {\n    "number" : "7.13.3",\n    "build_flavor" : "default",\n    "build_type" : "zip",\n    "build_hash" : "5d21bea28db1e89ecc1f66311ebdec9dc3aa7d64",\n    "build_date" : "2021-07-02T12:06:10.804015202Z",\n    "build_snapshot" : false,\n    "lucene_version" : "8.8.2",\n    "minimum_wire_compatibility_version" : "6.8.0",\n    "minimum_index_compatibility_version" : "6.0.0-beta1"\n  },\n  "tagline" : "You Know, for Search"\n}\n'

Text je obyčejný string, i když jeho vnitřní struktura vypadá jako json. Jak z něj ale rozumně onen json dostat?

In [18]:
type(response.text)

str

In [17]:
response.text

'{\n  "name" : "LAPTOP-T8SH3TQ4",\n  "cluster_name" : "elasticsearch",\n  "cluster_uuid" : "EZ6I1dsWS-WFN0A1spvfXQ",\n  "version" : {\n    "number" : "7.13.3",\n    "build_flavor" : "default",\n    "build_type" : "zip",\n    "build_hash" : "5d21bea28db1e89ecc1f66311ebdec9dc3aa7d64",\n    "build_date" : "2021-07-02T12:06:10.804015202Z",\n    "build_snapshot" : false,\n    "lucene_version" : "8.8.2",\n    "minimum_wire_compatibility_version" : "6.8.0",\n    "minimum_index_compatibility_version" : "6.0.0-beta1"\n  },\n  "tagline" : "You Know, for Search"\n}\n'

Stačí použít metodu (opravdu metodu, nikoli atribut) *json*.

In [20]:
response.json()

{'name': 'LAPTOP-T8SH3TQ4',
 'cluster_name': 'elasticsearch',
 'cluster_uuid': 'EZ6I1dsWS-WFN0A1spvfXQ',
 'version': {'number': '7.13.3',
  'build_flavor': 'default',
  'build_type': 'zip',
  'build_hash': '5d21bea28db1e89ecc1f66311ebdec9dc3aa7d64',
  'build_date': '2021-07-02T12:06:10.804015202Z',
  'build_snapshot': False,
  'lucene_version': '8.8.2',
  'minimum_wire_compatibility_version': '6.8.0',
  'minimum_index_compatibility_version': '6.0.0-beta1'},
 'tagline': 'You Know, for Search'}

Občas se též hodí mít informace o hlavičce (např. aby člověk věděl, jaký je vlastně typ toho, co ze serveru dostává - v našem případě je to json, viz content-type).

In [21]:
response.headers



V rámci elasticu budeme onomu search enginu předkládat dotazy, nejen ho provolávat s cílem zjitit, jestli žije. Url bude pořád stejná, není důvod přecházet na url Kibany. 
Pokud chceme zjisti obsah určitého dokumentu, což bychom v Kibaně realizovali pomocí
```
GET news_headlines/_doc/7Rmlz3oBnJR_Eb7VMUY_
```
použijeme i nyní requests.get. Pouze url rozšíříme o odpovídající parametry.

In [28]:
elasticsearch_url = "http://localhost:9200"
index_name = "news_headlines"
document_id = "7Rmlz3oBnJR_Eb7VMUY_"
whole_url = elasticsearch_url + "/" + index_name + "/_doc/" + document_id
response = requests.get(whole_url)
response.json()

{'_index': 'news_headlines',
 '_type': '_doc',
 '_id': '7Rmlz3oBnJR_Eb7VMUY_',
 '_version': 1,
 '_seq_no': 7790,
 '_primary_term': 1,
 'found': True,
 '_source': {'date': '2018-01-11',
  'short_description': 'French police recovered the merchandise stolen in an armed robbery on Wednesday.',
  '@timestamp': '2018-01-11T00:00:00.000+01:00',
  'link': 'https://www.huffingtonpost.com/entry/paris-hotel-robbery-jewels-recovered_us_5a57e499e4b0720dc4c592af',
  'category': 'WORLD NEWS',
  'headline': '$5.4 Million In Jewels Recovered From Paris Hotel Heist',
  'authors': 'Emmnauel Jarry, Reuters'}}

Pokud bychom chtěli zíksat nějakou informaci s pomocí getu, na který nalepíme parametry (tj. výsledná url má tvar typu https://www.google.com/search?q=kakadu), můžeme použít i parametr params a to sice následujícím způsobem.

In [8]:
google_url = "https://www.google.com/search"
response = requests.get(
    google_url,
    params={"q": "kakadu"}
)

Běžnější ale bude posílat data pomocí postu. Obvykle by se data posílala s pomocí parametru data. jelikžož zde ale posíláme json, jmenuje se tak i použitý parametr. Výhodou je, že informace o tom, že posíláme právě json, se dostane i do hlavičky requestu.

In [19]:
elasticsearch_url = "http://localhost:9200"
index_name = "animals"
whole_url = elasticsearch_url + "/" + index_name + "/_doc"
animals_dict = {"animal_name": "parrot", "animal_type": "bird"}
response = requests.post(
    whole_url,
    json=animals_dict
)

In [22]:
response.json()

{'_index': 'animals',
 '_type': '_doc',
 '_id': 'cjYnJ3sBVWSKN75mGWMR',
 '_version': 1,
 'result': 'created',
 '_shards': {'total': 2, 'successful': 1, 'failed': 0},
 '_seq_no': 0,
 '_primary_term': 1}

Za situace, kdy posíláme na endpoint soubor, lze použít následující konstrukci:
```python
with open(one_file_name, "rb") as opened_file:
    file_dict =  {"file": opened_file}
    response = requests.post(local_endpoint, files=files_dict)
```

## Datetime

Balíček datetime slouží k operacím spojeným s datem a časem.

In [2]:
import datetime

Aktuální timestampu dostaneme skrze metodu *now*. Všimněme si, že v kódu píšeme datetime dvakrát za sebou. Poprvé toto slovo zastupuje balíček, podruhé objekt reprezentující datum a čas.

In [3]:
datetime.datetime.now()

datetime.datetime(2024, 6, 30, 19, 9, 41, 816552)

V případě potřeby lze z *datetime* objektu vypreparovat datum (resp. čas) metodou *date* (resp. *time*). Pro datum lze použít i alternativní funkci *datetime.date.today()*.

In [5]:
datetime.datetime.now().date()

datetime.date(2024, 6, 30)

In [4]:
datetime.datetime.now().time()

datetime.time(19, 12, 38, 400622)

Jednotlivé části datetime objektu z něj lze v podobě integerů dostat použitím správného atributu.

In [11]:
current_timestamp = datetime.datetime.now()
print(current_timestamp)
print(current_timestamp.year)
print(current_timestamp.month)
print(current_timestamp.day)
print(current_timestamp.hour)
print(current_timestamp.minute)
print(current_timestamp.second)

2024-06-30 19:18:45.495735
2024
6
30
19
18
45


Obvykle datetime objekt ale nevytváříme s pomocí *now()*. Do konstrukturu můžeme napsat vše od roku po mikrosekundy:

In [13]:
datetime.datetime(2024, 12, 1, 10, 12, 59, 123456)

datetime.datetime(2024, 12, 1, 10, 12, 59, 123456)

Přitom ale povinný je jen rok, měsíc a den:

In [15]:
datetime.datetime(2024, 12, 1)

datetime.datetime(2024, 12, 1, 0, 0)

Nejčastěji ale datetime objekt vytvoříme z textového řetězce. Použijeme pro to metodu *strptime*. Ta jako první parametr přebírá string s timestampou, druhým parametrem je pak formát specifikující, jak string rozklíčovat (bacha - *strptime* nepodporuje key argumenty, tj. nic jako format="%Y-%m-%d" nebude fungovat).  
Ve formátu se specifické znaky označují prefixem v podobě procenta, tj. například "%Y" znamená rok ve formátu XXXX. Seznam těchto specifických znaků nalezneme na spodku [této stránky](https://docs.python.org/3/library/datetime.html). Znaky bez prefixu (tečky, pomlčky apod.) se budou párovat se svými dvojčaty ve stringu bez jakýchkoli dalších podmínek.

In [19]:
string_date = "2024-12-1"
datetime.datetime.strptime(string_date, "%Y-%m-%d")

datetime.datetime(2024, 12, 1, 0, 0)

Existuje i opačná operace - převod datetimu na string. To má na starosti metoda *strftime*.

In [20]:
current_timestamp = datetime.datetime.now()
current_timestamp.strftime("%Y-%m-%d")

'2024-06-30'

Pokud potřebujeme určité datum posunout o nějaký interval dopředu či dozadu, použijeme objekt *timedelta*, který přičteme k *datetime* objektu. Parametry, které můžeme pro *timedelta* použít, jsou *weeks*, *days*, *hours*, *minutes*, *seconds*, *milliseconds* a *microseconds*. 

In [8]:
current_timestamp = datetime.datetime.now()
print(current_timestamp)
tomorrow_timestamp = current_timestamp + datetime.timedelta(days=1)
print(tomorrow_timestamp)
yesterday_timestamp = current_timestamp + datetime.timedelta(days=-1)
print(yesterday_timestamp)
next_week_timestamp = current_timestamp + datetime.timedelta(weeks=1)
print(next_week_timestamp)
two_hours_ago_timestamp = current_timestamp + datetime.timedelta(hours=-2)
print(two_hours_ago_timestamp)

2024-07-01 18:59:27.045414
2024-07-02 18:59:27.045414
2024-06-30 18:59:27.045414
2024-07-08 18:59:27.045414
2024-07-01 16:59:27.045414
