# Knižnice HPC

## 🐍 Kurz Vysokovýkonné počítanie a veľké dáta v Pythone (HPC)
**🧑‍🏫 Lektor:** Miroslav Reiter  
**📥 LinkedIn kontakt:** https://www.linkedin.com/in/miroslav-reiter/  

`*Testovaci* **Text**`

**✅ Osnova:** https://itkurzy.sav.sk/node/231

**🎞️ YouTube videá:** https://www.youtube.com/c/IT-AcademySK  
**📇 Zdrojové kódy a materiály:** https://github.com/miroslav-reiter/Kurzy_SAV_Analytika_Python_R  

**😊 Emojis:** Win + .  

# ⚒️ Používané nástroje HPC
- 🐍 **Python**: momentálne najpopulárnejší jazyk pre vedu o údajoch (Data science). Python je síce interpretovaný a pomalší jazyk ako C/C++, ale využitím knižníc, ako je NumPy (a Pandas navyše), sa môžeme priblížiť rýchlosti C.  
  
- 🪐 **Jupyter**: nástroj s prostredím interaktívneho notebooku, mocný prieskumný, vizualizačný a komunikačný nástroj.
  
- 🐼 **Pandas**: nástroj na manipuláciu s tabuľkovými údajmi v Pythone. Je to obrovská knižnica, ale ak poznáte správne metódy, môžeme vytvoriť výkonnú analýzu.

- 🦾 **Polars**: rýchla knižnica na spracovanie dát v Pythone, ktorá je alternatívou k Pandas. Polars je optimalizovaná pre výkon, podporuje paralelné spracovanie dát a je schopná spracovať obrovské množstvá dát oveľa rýchlejšie ako Pandas.

- 📦 **Parquet**: Parquet je stĺpcový formát na ukladanie dát, ktorý je optimalizovaný pre čítanie a zápis veľkých datasetov. Je bežne používaný v big data aplikáciách a podporuje efektívne kompresie a rýchle vyhľadávanie.

- 🔥 **Apache Spark**: open-source distribuovaná výpočtová platforma, ktorá umožňuje paralelné spracovanie veľkých objemov dát. Je široko používaná na analýzu big data, strojové učenie a spracovanie dát v cloude. Spark poskytuje podporu pre spracovanie dát v reálnom čase a je kompatibilný s formátmi ako Parquet a CSV.
  
- 📊 **NumPy**: pre numerické výpočty v Pythone, ktorá poskytuje efektívnu prácu s viacrozmernými poľami a maticami. Používa sa na rýchle numerické operácie, lineárnu algebru a spracovanie veľkých dát.

- 🔬 **SciPy**: postavená na NumPy a pridáva pokročilé matematické funkcie ako numerická integrácia, optimalizácia a štatistika. Je ideálna pre vedecké a inžinierske výpočty.

- 🖧 **Dask**: paralelné a distribuované výpočty na veľkých dátach cez viaceré procesy a uzly. Je kompatibilný s Pandas a NumPy, čím zjednodušuje prácu s veľkými datasetmi v distribuovaných prostrediach.

- 🤖 **PyTorch**: pre strojové učenie, ktorá podporuje výpočty na GPU. Je obľúbená pre dynamické modelovanie a experimentovanie, hlavne v oblasti počítačového videnia a NLP.

- 📈 **TensorFlow**: na vytváranie a nasadzovanie modelov strojového učenia v produkčných prostrediach. Je optimalizovaná na vysoký výkon, distribúciu a spracovanie veľkých dát.

- 🔗 **MPI for Python (mpi4py)**: na implementáciu paralelných algoritmov cez MPI (Message Passing Interface), určená pre distribuované a paralelné výpočty v prostrediach ako superpočítače a klastry.

- ⚡ **CUDA**: platforma a API od NVIDIA na paralelné výpočty pomocou GPU. PyCUDA umožňuje využívať GPU pre vysokovýkonné výpočty, čo urýchľuje aplikácie ako simulácie, spracovanie obrazu a strojové učenie.

😎 Existuje 300 000+ knižníc pre Python.  

# 📚 PIP, Knižnice a ich verzie 
**PIP (package installer for Python)** - Správca Balíčkov pre moduly programovacieho jazyka Python, Tiež napísaný v Pythone, Licencia MIT.  
Dokumentácia PIP: https://pip.pypa.io/en/stable/

**PyPI (The Python Package Index)** - Repozitár/úložisko softvéru pre programovací jazyk Python  
https://pypi.org
1

In [5]:
# !pip list



Collecting typing-extensions>=4.8.0 (from torch)
  Using cached typing_extensions-4.12.2-py3-none-any.whl.metadata (3.0 kB)
Using cached typing_extensions-4.12.2-py3-none-any.whl (37 kB)
Installing collected packages: typing-extensions
  Attempting uninstall: typing-extensions
    Found existing installation: typing_extensions 4.5.0
    Uninstalling typing_extensions-4.5.0:
      Successfully uninstalled typing_extensions-4.5.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow 2.13.1 requires typing-extensions<4.6.0,>=3.6.6, but you have typing-extensions 4.12.2 which is incompatible.
tensorflow-cpu 2.11.1 requires keras<2.12,>=2.11.0, but you have keras 2.13.1 which is incompatible.
tensorflow-cpu 2.11.1 requires protobuf<3.20,>=3.9.2, but you have protobuf 4.25.5 which is incompatible.
tensorflow-cpu 2.11.1 requires tensorboard<2.12,

In [3]:
!pip list

Package                       Version
----------------------------- ----------------
absl-py                       2.0.0
aiohttp                       3.8.4
aiosignal                     1.3.1
alabaster                     0.7.13
annotated-types               0.6.0
anyio                         3.7.1
argon2-cffi                   23.1.0
argon2-cffi-bindings          21.2.0
astunparse                    1.6.3
async-timeout                 4.0.3
attrs                         23.1.0
Babel                         2.13.0
backcall                      0.2.0
beautifulsoup4                4.12.2
bleach                        6.1.0
blis                          0.7.11
bokeh                         3.1.1
boto3                         1.26.133
botocore                      1.29.165
cachetools                    5.3.1
catalogue                     2.0.10
certifi                       2023.7.22
cffi                          1.16.0
charset-normalizer            3.3.0
click 

# 📜 Verzie vizualizačných knižnic 
try - except - finally  

https://docs.python.org/3/tutorial/errors.html 

In [12]:


print("✅ Moduly/kniznice boli nacitane")
# Zobrazenie verzií knižníc

# Tu používame pyarrow pre Parquet
 

# Ak by bol nainštalovaný `pyarrow` pre Parquet


✅ Moduly/kniznice boli nacitane
Pandas verzia: 1.5.3
NumPy verzia: 1.24.3
SciPy verzia: 1.10.1
Dask verzia: 2023.5.0
PyTorch verzia: 2.4.1+cpu
TensorFlow verzia: 2.13.1
Polars verzia: 1.8.2
PyArrow verzia (Parquet): 17.0.0
Parquet verzia: 1.3.1
PySpark verzia: 3.5.3


In [13]:
try:
    import pandas as pd
    import numpy as np
    

    

    

except:
    print("EXCEPT: Moduly/Kniznice neboli nacitane, nastala chyba...")

finally:
    print("\nFINALLY: Tento text sa vypise vzdy")

TRY:
✅ Moduly/kniznice boli nacitane
Pandas verzia: 1.5.3
NumPy verzia: 1.24.3
SciPy verzia: 1.10.1
Dask verzia: 2023.5.0
PyTorch verzia: 2.4.1+cpu
TensorFlow verzia: 2.13.1
Polars verzia: 1.8.2
PyArrow verzia (Parquet): 17.0.0
Parquet verzia: 1.3.1
PySpark verzia: 3.5.3

FINALLY: Tento text sa vypise vzdy


# 🤖 TensorFlow: Základný model neurónovej siete

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 32)                25120     
                                                                 
 dense_3 (Dense)             (None, 10)                330       
                                                                 
Total params: 25450 (99.41 KB)
Trainable params: 25450 (99.41 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


# ⚡ Polars: Rýchle spracovanie dátových rámcov

shape: (4, 2)
┌─────┬─────┐
│ A   ┆ B   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 1   ┆ 5   │
│ 2   ┆ 6   │
│ 3   ┆ 7   │
│ 4   ┆ 8   │
└─────┴─────┘
shape: (2, 2)
┌─────┬─────┐
│ A   ┆ B   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 3   ┆ 7   │
│ 4   ┆ 8   │
└─────┴─────┘
shape: (4, 3)
┌─────┬─────┬─────┐
│ A   ┆ B   ┆ C   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1   ┆ 5   ┆ 2   │
│ 2   ┆ 6   ┆ 4   │
│ 3   ┆ 7   ┆ 6   │
│ 4   ┆ 8   ┆ 8   │
└─────┴─────┴─────┘


# 📦 PyArrow: Práca s Parquet formátom

pyarrow.Table
meno: string
vek: int32
povolanie: string
----
meno: [["Alice","Bob","Katarína"]]
vek: [[25,30,22]]
povolanie: [["Inžinier","Doktor","Umelec"]]


# 🔥 PySpark: Práca s distribuovanými dátami

+--------+---+
|    meno|vek|
+--------+---+
|   Alice| 25|
|     Bob| 30|
|Katarína| 22|
+--------+---+

+----+---+
|meno|vek|
+----+---+
| Bob| 30|
+----+---+

+--------+---+
|    meno|vek|
+--------+---+
|Katarína| 22|
|   Alice| 25|
|     Bob| 30|
+--------+---+



# Testovacie Dáta a Generovanie Dát

# Testovacie Dáta a Generovanie Dát

# 📚 Knižnica Faker
- Populárna knižnica v Pythone, ktorá slúži na generovanie falošných údajov, ako sú mená, adresy, e-maily, telefónne čísla a ďalšie. 
- Je veľmi užitočná pri testovaní aplikácií, generovaní testovacích dát alebo pri simulácii reálnych používateľov. 
- Môžete rýchlo a jednoducho vytvárať realisticky vyzerajúce, ale úplne náhodné údaje.

Collecting faker
  Downloading Faker-30.8.2-py3-none-any.whl.metadata (15 kB)
Downloading Faker-30.8.2-py3-none-any.whl (1.8 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.8 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m106.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-30.8.2


1. používateľ : Václav Mráz
Email: václav.mráz1@gmail.com
Adresa: Nová Bellova 3
804 04 Licince
Telefón: 00421 948 582 742
----------------------------------------
2. používateľ : Kazimír Klimková
Email: kazimír.klimková2@gmail.com
Adresa: Malý trh 66
828 54 Nevidzany
Telefón: 00421 948 545 248
----------------------------------------
3. používateľ : Lolita Dorová
Email: lolita.dorová3@gmail.com
Adresa: Špieszova 7
960 45 Malé Kršteňany
Telefón: 00421 58 612 2829
----------------------------------------
4. používateľ : Miriama Jendeková
Email: miriama.jendeková4@gmail.com
Adresa: Údolná 82
996 85 Skalka nad Váhom
Telefón: +421 949 665 893
----------------------------------------
5. používateľ : Linda Pavelková
Email: linda.pavelková5@gmail.com
Adresa: Pasienková 3
042 23 Stanča
Telefón: 00421 901 245 494
----------------------------------------


TypeError: TypeError: generuj_obrazok() takes 0 positional arguments but 2 were given

URL falošného obrázka: https://picsum.photos/500/500?random=808


# Polars

# Knižnica Polars

# Apache Spark

# 📊 Apache Spark?
- Najpopulárnejšia Python knižnica na vytváranie dynamických grafov
- Tvorba interaktívnych grafov a vizualizácií
- Vhodná pre vývojárov, dátových vedcov a analytikov
- Stĺpcové grafy, čiarové grafy, teplotné mapy, 3D grafy, geografické mapy 
- Používatelia môžu klikať, približovať a skúmať údaje priamo v grafickom výstupe


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.1.2[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


Verzia pyspark: 3.4.0


<module 'pyspark' from '/opt/python/envs/default/lib/python3.8/site-packages/pyspark/__init__.py'>

+-----+---+----------+------+
| Meno|Vek|     Mesto|Nakupy|
+-----+---+----------+------+
|  Ján| 25|Bratislava| 150.5|
| Anna| 30|    Košice|200.75|
|Peter| 22|    Žilina| 180.0|
|  Eva| 35|     Nitra| 220.3|
|Marek| 28|    Prešov| 195.9|
+-----+---+----------+------+



# 1. Načítanie a spracovanie veľkých dátových súborov
Apache Spark je navrhnutý na spracovanie veľkých dátových súborov, ktoré sa nedajú jednoducho načítať do pamäte. Napríklad môžete načítať veľký CSV alebo JSON súbor a vykonávať agregácie, analýzy a transformácie.

# 2. Práca s dátovými rámcami (DataFrames) a SQL dopyty
Spark má podporu pre SQL-like dopyty cez Spark SQL. Môžete použiť SQL dopyty na veľké množstvo dát priamo v rámci svojho dátového rámca.