# Knižnice HPC

## 🐍 Kurz Vysokovýkonné počítanie a veľké dáta v Pythone (HPC)
**🧑‍🏫 Lektor:** Miroslav Reiter  
**📥 LinkedIn kontakt:** https://www.linkedin.com/in/miroslav-reiter/  

`*Testovaci* **Text**`

**✅ Osnova:** https://itkurzy.sav.sk/node/231

**🎞️ YouTube videá:** https://www.youtube.com/c/IT-AcademySK  
**📇 Zdrojové kódy a materiály:** https://github.com/miroslav-reiter/Kurzy_SAV_Analytika_Python_R  

**😊 Emojis:** Win + .  

# ⚒️ Používané nástroje HPC
- 🐍 **Python**: momentálne najpopulárnejší jazyk pre vedu o údajoch (Data science). Python je síce interpretovaný a pomalší jazyk ako C/C++, ale využitím knižníc, ako je NumPy (a Pandas navyše), sa môžeme priblížiť rýchlosti C.  
  
- 🪐 **Jupyter**: nástroj s prostredím interaktívneho notebooku, mocný prieskumný, vizualizačný a komunikačný nástroj.
  
- 🐼 **Pandas**: nástroj na manipuláciu s tabuľkovými údajmi v Pythone. Je to obrovská knižnica, ale ak poznáte správne metódy, môžeme vytvoriť výkonnú analýzu.

- 🦾 **Polars**: rýchla knižnica na spracovanie dát v Pythone, ktorá je alternatívou k Pandas. Polars je optimalizovaná pre výkon, podporuje paralelné spracovanie dát a je schopná spracovať obrovské množstvá dát oveľa rýchlejšie ako Pandas.

- 📦 **Parquet**: Parquet je stĺpcový formát na ukladanie dát, ktorý je optimalizovaný pre čítanie a zápis veľkých datasetov. Je bežne používaný v big data aplikáciách a podporuje efektívne kompresie a rýchle vyhľadávanie.

- 🔥 **Apache Spark**: open-source distribuovaná výpočtová platforma, ktorá umožňuje paralelné spracovanie veľkých objemov dát. Je široko používaná na analýzu big data, strojové učenie a spracovanie dát v cloude. Spark poskytuje podporu pre spracovanie dát v reálnom čase a je kompatibilný s formátmi ako Parquet a CSV.
  
- 📊 **NumPy**: pre numerické výpočty v Pythone, ktorá poskytuje efektívnu prácu s viacrozmernými poľami a maticami. Používa sa na rýchle numerické operácie, lineárnu algebru a spracovanie veľkých dát.

- 🔬 **SciPy**: postavená na NumPy a pridáva pokročilé matematické funkcie ako numerická integrácia, optimalizácia a štatistika. Je ideálna pre vedecké a inžinierske výpočty.

- 🖧 **Dask**: paralelné a distribuované výpočty na veľkých dátach cez viaceré procesy a uzly. Je kompatibilný s Pandas a NumPy, čím zjednodušuje prácu s veľkými datasetmi v distribuovaných prostrediach.

- 🤖 **PyTorch**: pre strojové učenie, ktorá podporuje výpočty na GPU. Je obľúbená pre dynamické modelovanie a experimentovanie, hlavne v oblasti počítačového videnia a NLP.

- 📈 **TensorFlow**: na vytváranie a nasadzovanie modelov strojového učenia v produkčných prostrediach. Je optimalizovaná na vysoký výkon, distribúciu a spracovanie veľkých dát.

- 🔗 **MPI for Python (mpi4py)**: na implementáciu paralelných algoritmov cez MPI (Message Passing Interface), určená pre distribuované a paralelné výpočty v prostrediach ako superpočítače a klastry.

- ⚡ **CUDA**: platforma a API od NVIDIA na paralelné výpočty pomocou GPU. PyCUDA umožňuje využívať GPU pre vysokovýkonné výpočty, čo urýchľuje aplikácie ako simulácie, spracovanie obrazu a strojové učenie.

😎 Existuje 300 000+ knižníc pre Python.  

# 📚 PIP, Knižnice a ich verzie 
**PIP (package installer for Python)** - Správca Balíčkov pre moduly programovacieho jazyka Python, Tiež napísaný v Pythone, Licencia MIT.  
Dokumentácia PIP: https://pip.pypa.io/en/stable/

**PyPI (The Python Package Index)** - Repozitár/úložisko softvéru pre programovací jazyk Python  
https://pypi.org
1

!pip list


In [2]:
!pip list

#!pip install numpy
#!pip install scipy
#!pip install dask[complete]
#!pip install torch
#!pip install tensorflow
#!pip install polars
!pip install parquet
#!pip install pyspark
#!pip install pyarrow
#!pip install mpi4py
#!pip install pycuda

Package           Version
----------------- -----------
absl-py           2.1.0
asttokens         2.4.1
bokeh             3.6.1
click             8.1.7
cloudpickle       3.1.0
colorama          0.4.6
comm              0.2.2
contourpy         1.3.1
cycler            0.12.1
Cython            3.0.11
dask              2024.11.2
dask-expr         1.1.19
debugpy           1.8.8
decorator         5.1.1
distributed       2024.11.2
executing         2.1.0
fonttools         4.54.1
fsspec            2024.10.0
h5py              3.12.1
ipykernel         6.29.5
ipython           8.29.0
jedi              0.19.2
Jinja2            3.1.4
joblib            1.4.2
jupyter_client    8.6.3
jupyter_core      5.7.2
keras             3.6.0
kiwisolver        1.4.7
locket            1.0.0
lz4               4.3.3
markdown-it-py    3.0.0
MarkupSafe        3.0.2
matplotlib        3.9.2
matplotlib-inline 0.1.7
mdurl             0.1.2
ml_dtypes         0.5.0
mpi4py            4.0.1
msgpack           1.1.0
namex       

# 📜 Verzie vizualizačných knižnic 
try - except - finally  

https://docs.python.org/3/tutorial/errors.html 

In [12]:
import pandas as pd
import polars as pl
import numpy as np
import scipy 
import dask
#import torch
#import tensorflow as tf

import pyspark
# na pracu s parquet format
import pyarrow
import parquet

import importlib.metadata

print("✅ Moduly/kniznice boli nacitane")
# Zobrazenie verzií knižníc
print(f"Pandas verzia {pd.__version__}")
print(f"Numpy verzia {np.__version__}")
print(f"Scipy verzia {scipy.__version__}")
print(f"Dask verzia {dask.__version__}")
#print(f"Pytorch verzia {torch.__version__}")
#print(f"Tensorflow verzia {tf.__version__}")

print(f"Polars verzia {pl.__version__}")

print(f"PyArrow verzia {pyarrow.__version__}")
print(f"Parquet verzia {importlib.metadata.version('parquet')}")

print(f"Pyspark verzia {pyspark.__version__}")



# Tu používame pyarrow pre Parquet
 

# Ak by bol nainštalovaný `pyarrow` pre Parquet

✅ Moduly/kniznice boli nacitane
Pandas verzia 2.2.3
Numpy verzia 2.1.3
Scipy verzia 1.14.1
Dask verzia 2024.11.2
Polars verzia 1.13.0
PyArrow verzia 18.0.0
Parquet verzia 1.3.1
Pyspark verzia 3.5.3


In [13]:
try:
    import pandas as pd
    import polars as pl
    import numpy as np
    import scipy 
    import dask
    #import torch
    #import tensorflow as tf

    import pyspark
# na pracu s parquet format
    import pyarrow
    import parquet

    import importlib.metadata

    print("✅ Moduly/kniznice boli nacitane")
# Zobrazenie verzií knižníc
    print(f"Pandas verzia {pd.__version__}")
    print(f"Numpy verzia {np.__version__}")
    print(f"Scipy verzia {scipy.__version__}")
    print(f"Dask verzia {dask.__version__}")
    #print(f"Pytorch verzia {torch.__version__}")
    #print(f"Tensorflow verzia {tf.__version__}")

    print(f"Polars verzia {pl.__version__}")

    print(f"PyArrow verzia {pyarrow.__version__}")
    print(f"Parquet verzia {importlib.metadata.version('parquet')}")

    print(f"Pyspark verzia {pyspark.__version__}")



# Tu používame pyarrow pre Parquet
 

# Ak by bol nainštalovaný `pyarrow` pre Parquet

    

    

    

except:
    print("EXCEPT: Moduly/Kniznice neboli nacitane, nastala chyba...")

finally:
    print("\nFINALLY: Tento text sa vypise vzdy")

✅ Moduly/kniznice boli nacitane
Pandas verzia 2.2.3
Numpy verzia 2.1.3
Scipy verzia 1.14.1
Dask verzia 2024.11.2
Polars verzia 1.13.0
PyArrow verzia 18.0.0
Parquet verzia 1.3.1
Pyspark verzia 3.5.3

FINALLY: Tento text sa vypise vzdy


# 🤖 TensorFlow: Základný model neurónovej siete

In [14]:
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential([
    Dense(32, activation="relu", input_shape=(784,)),
    Dense(10, activation="softmax")
])

model.compile(
    optimizer = "adam",
    loss = "sparse_categorical_crossentropy",
    metrics = ["accuracy"]
)

X_train = np.random.random((1000, 784))
Y_train = np.random.randint(10, size = (1000, ))


model.fit(
    X_train,
    Y_train,
    epochs = 5
)

model.summary()

ModuleNotFoundError: No module named 'tensorflow'

# ⚡ Polars: Rýchle spracovanie dátových rámcov

In [15]:
import polars as pl

df = pl.DataFrame({
    "A": [1,2,3,4],
    "B": [5,6,7,8]

}
)

#print(df)
#df

df_filtrovany = df.filter(pl.col("A")>2)
#df_filtrovany

df2 = df.with_columns(pl.col("A").alias("C"))
df2

A,B,C
i64,i64,i64
1,5,1
2,6,2
3,7,3
4,8,4


# 📦 PyArrow: Práca s Parquet formátom

In [16]:
import pyarrow as pa
import pyarrow.parquet as pq 
import pandas as pd

data = [
    ("Dada", 21, "Inžinier"),
    ("Martin", 28, "Doktor"),
    ("Michal", 29, "Umelec")
]

schema = pa.schema([
    ("meno", pa.string()),
    ("vek", pa.int32()),
    ("povolania", pa.string())
])

tabulka = pa.Table.from_pandas(pd.DataFrame(data, columns=["meno", "vek", "povolania"]), schema = schema)

pq.write_table(tabulka, "zamestnanci.parquet")


tabulka_nacitana = pq.read_table("zamestnanci.parquet")
tabulka_nacitana

pyarrow.Table
meno: string
vek: int32
povolania: string
----
meno: [["Dada","Martin","Michal"]]
vek: [[21,28,29]]
povolania: [["Inžinier","Doktor","Umelec"]]

# 🔥 PySpark: Práca s distribuovanými dátami

In [17]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("PrikladPySpark").getOrCreate()

data = [
    ("Robert", 40),
    ("Jan", 30),
    ("Martin", 20)
]

df = spark.createDataFrame(data, ["meno", "vek"])
df.show()

df_filtrovany = df.filter(df["vek"] >= 30)
df_filtrovany.show()

df.write.mode("ignore").parquet("studenti.parquet")

df_nacitany = spark.read.parquet("studenti.parquet")
df_nacitany.show()

Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: java.lang.UnsupportedOperationException: getSubject is supported only if a security manager is allowed
	at java.base/javax.security.auth.Subject.getSubject(Subject.java:347)
	at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:577)
	at org.apache.spark.util.Utils$.$anonfun$getCurrentUserName$1(Utils.scala:2416)
	at scala.Option.getOrElse(Option.scala:189)
	at org.apache.spark.util.Utils$.getCurrentUserName(Utils.scala:2416)
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:329)
	at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
	at java.base/jdk.internal.reflect.DirectConstructorHandleAccessor.newInstance(DirectConstructorHandleAccessor.java:62)
	at java.base/java.lang.reflect.Constructor.newInstanceWithCaller(Constructor.java:501)
	at java.base/java.lang.reflect.Constructor.newInstance(Constructor.java:485)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:247)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)
	at py4j.Gateway.invoke(Gateway.java:238)
	at py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:80)
	at py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:69)
	at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
	at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
	at java.base/java.lang.Thread.run(Thread.java:1575)


# Testovacie Dáta a Generovanie Dát

# Testovacie Dáta a Generovanie Dát

In [18]:
import pandas as pd
import numpy as np

zaznamy = 8_000_000

data_klienti = {
    "Meno": np.random.choice([
        "Adriana", "Alena", "Andrea", "Anna", "Barbora", "Beáta", "Daniela", "Dominika", "Elena", "Emília", "Erika", "Eva", "Gabriela", "Hana", "Ivana", "Jana", "Katarína", "Kristína", 
    "Laura", "Lenka", "Lucia", "Magdaléna", "Mária", "Martina", "Monika", "Natália", "Petra", "Renáta", "Silvia", "Simona", "Soňa", "Tamara", "Veronika", "Zuzana"
    ], size = zaznamy),
    "Vek": np.random.randint(18, 71, size = zaznamy),
    "Mesta": np.random.choice(["Bratislava", "Košice", "Prešov", "Žilina", "Nitra", "Banská Bystrica", "Trnava", "Martin", "Trenčín", "Poprad"], size = zaznamy),
    "Nakupy": np.round(np.random.uniform(150.0, 1000.0, size = zaznamy), 2)
}

df_data_klienti = pd.DataFrame(data_klienti)
df_data_klienti
df_data_klienti.to_csv("dataset-8M-klient-sk.csv", index = False)

In [None]:
import pandas as pd
import numpy as np

# Počet záznamov
zaznamy = 1_000_000_000
# Veľkosť jednej časti
velkost_casti = 10_000_000

# Cesta k súboru
csv_soubor = "dataset-1000M-klienti-SK.csv"

# Nastavíme, aby sa súbor prepisoval od začiatku, keďže budeme zapisovať po častiach
with open(csv_soubor, mode="a") as f:
    # Vytvorenie dát a zápis po častiach
    for i in range(zaznamy // velkost_casti):
        data_klienti = {
            "Meno": np.random.choice([
                "Adriana", "Alena", "Andrea", "Anna", "Barbora", "Beáta", "Daniela", "Dominika", 
                "Elena", "Emília", "Erika", "Eva", "Gabriela", "Hana", "Ivana", "Jana", "Katarína", 
                "Kristína", "Laura", "Lenka", "Lucia", "Magdaléna", "Mária", "Martina", "Monika", 
                "Natália", "Petra", "Renáta", "Silvia", "Simona", "Soňa", "Tamara", "Veronika", "Zuzana"], 
                size=velkost_casti
            ),
            "Vek": np.random.randint(18, 70, size=velkost_casti),
            "Mesto": np.random.choice([
                "Bratislava", "Košice", "Prešov", "Žilina", "Nitra", 
                "Banská Bystrica", "Trnava", "Martin", "Trenčín", "Poprad"
            ], size=velkost_casti),
            "Nakupy": np.round(np.random.uniform(150.0, 1000.0, size=velkost_casti), 2)
        }
        
        # Vytvorenie DataFrame pre aktuálnu časť
        df_data_klienti = pd.DataFrame(data_klienti)
        
        # Prvýkrát zapisujeme hlavičku, ostatné časti už nie
        df_data_klienti.to_csv(csv_soubor, mode="a", header=(i == 0), index=False)

# 📚 Knižnica Faker
- Populárna knižnica v Pythone, ktorá slúži na generovanie falošných údajov, ako sú mená, adresy, e-maily, telefónne čísla a ďalšie. 
- Je veľmi užitočná pri testovaní aplikácií, generovaní testovacích dát alebo pri simulácii reálnych používateľov. 
- Môžete rýchlo a jednoducho vytvárať realisticky vyzerajúce, ale úplne náhodné údaje.

Collecting faker
  Downloading Faker-30.8.2-py3-none-any.whl.metadata (15 kB)
Downloading Faker-30.8.2-py3-none-any.whl (1.8 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.8 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m106.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-30.8.2


1. používateľ : Václav Mráz
Email: václav.mráz1@gmail.com
Adresa: Nová Bellova 3
804 04 Licince
Telefón: 00421 948 582 742
----------------------------------------
2. používateľ : Kazimír Klimková
Email: kazimír.klimková2@gmail.com
Adresa: Malý trh 66
828 54 Nevidzany
Telefón: 00421 948 545 248
----------------------------------------
3. používateľ : Lolita Dorová
Email: lolita.dorová3@gmail.com
Adresa: Špieszova 7
960 45 Malé Kršteňany
Telefón: 00421 58 612 2829
----------------------------------------
4. používateľ : Miriama Jendeková
Email: miriama.jendeková4@gmail.com
Adresa: Údolná 82
996 85 Skalka nad Váhom
Telefón: +421 949 665 893
----------------------------------------
5. používateľ : Linda Pavelková
Email: linda.pavelková5@gmail.com
Adresa: Pasienková 3
042 23 Stanča
Telefón: 00421 901 245 494
----------------------------------------


TypeError: generuj_obrazok() takes 0 positional arguments but 2 were given

URL falošného obrázka: https://picsum.photos/500/500?random=808


# Polars

# Knižnica Polars

# Apache Spark

# 📊 Apache Spark?
- Najpopulárnejšia Python knižnica na vytváranie dynamických grafov
- Tvorba interaktívnych grafov a vizualizácií
- Vhodná pre vývojárov, dátových vedcov a analytikov
- Stĺpcové grafy, čiarové grafy, teplotné mapy, 3D grafy, geografické mapy 
- Používatelia môžu klikať, približovať a skúmať údaje priamo v grafickom výstupe


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.1.2[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


Verzia pyspark: 3.4.0


<module 'pyspark' from '/opt/python/envs/default/lib/python3.8/site-packages/pyspark/__init__.py'>

+-----+---+----------+------+
| Meno|Vek|     Mesto|Nakupy|
+-----+---+----------+------+
|  Ján| 25|Bratislava| 150.5|
| Anna| 30|    Košice|200.75|
|Peter| 22|    Žilina| 180.0|
|  Eva| 35|     Nitra| 220.3|
|Marek| 28|    Prešov| 195.9|
+-----+---+----------+------+



# 1. Načítanie a spracovanie veľkých dátových súborov
Apache Spark je navrhnutý na spracovanie veľkých dátových súborov, ktoré sa nedajú jednoducho načítať do pamäte. Napríklad môžete načítať veľký CSV alebo JSON súbor a vykonávať agregácie, analýzy a transformácie.

# 2. Práca s dátovými rámcami (DataFrames) a SQL dopyty
Spark má podporu pre SQL-like dopyty cez Spark SQL. Môžete použiť SQL dopyty na veľké množstvo dát priamo v rámci svojho dátového rámca.