# Knižnice HPC

## 🐍 Kurz Vysokovýkonné počítanie a veľké dáta v Pythone (HPC)
**🧑‍🏫 Lektor:** Miroslav Reiter  
**📥 LinkedIn kontakt:** https://www.linkedin.com/in/miroslav-reiter/  

`*Testovaci* **Text**`

**✅ Osnova:** https://itkurzy.sav.sk/node/231

**🎞️ YouTube videá:** https://www.youtube.com/c/IT-AcademySK  
**📇 Zdrojové kódy a materiály:** https://github.com/miroslav-reiter/Kurzy_SAV_Analytika_Python_R  

**😊 Emojis:** Win + .  

# ⚒️ Používané nástroje HPC
- 🐍 **Python**: momentálne najpopulárnejší jazyk pre vedu o údajoch (Data science). Python je síce interpretovaný a pomalší jazyk ako C/C++, ale využitím knižníc, ako je NumPy (a Pandas navyše), sa môžeme priblížiť rýchlosti C.  
  
- 🪐 **Jupyter**: nástroj s prostredím interaktívneho notebooku, mocný prieskumný, vizualizačný a komunikačný nástroj.
  
- 🐼 **Pandas**: nástroj na manipuláciu s tabuľkovými údajmi v Pythone. Je to obrovská knižnica, ale ak poznáte správne metódy, môžeme vytvoriť výkonnú analýzu.

- 🦾 **Polars**: rýchla knižnica na spracovanie dát v Pythone, ktorá je alternatívou k Pandas. Polars je optimalizovaná pre výkon, podporuje paralelné spracovanie dát a je schopná spracovať obrovské množstvá dát oveľa rýchlejšie ako Pandas.

- 📦 **Parquet**: Parquet je stĺpcový formát na ukladanie dát, ktorý je optimalizovaný pre čítanie a zápis veľkých datasetov. Je bežne používaný v big data aplikáciách a podporuje efektívne kompresie a rýchle vyhľadávanie.

- 🔥 **Apache Spark**: open-source distribuovaná výpočtová platforma, ktorá umožňuje paralelné spracovanie veľkých objemov dát. Je široko používaná na analýzu big data, strojové učenie a spracovanie dát v cloude. Spark poskytuje podporu pre spracovanie dát v reálnom čase a je kompatibilný s formátmi ako Parquet a CSV.
  
- 📊 **NumPy**: pre numerické výpočty v Pythone, ktorá poskytuje efektívnu prácu s viacrozmernými poľami a maticami. Používa sa na rýchle numerické operácie, lineárnu algebru a spracovanie veľkých dát.

- 🔬 **SciPy**: postavená na NumPy a pridáva pokročilé matematické funkcie ako numerická integrácia, optimalizácia a štatistika. Je ideálna pre vedecké a inžinierske výpočty.

- 🖧 **Dask**: paralelné a distribuované výpočty na veľkých dátach cez viaceré procesy a uzly. Je kompatibilný s Pandas a NumPy, čím zjednodušuje prácu s veľkými datasetmi v distribuovaných prostrediach.

- 🤖 **PyTorch**: pre strojové učenie, ktorá podporuje výpočty na GPU. Je obľúbená pre dynamické modelovanie a experimentovanie, hlavne v oblasti počítačového videnia a NLP.

- 📈 **TensorFlow**: na vytváranie a nasadzovanie modelov strojového učenia v produkčných prostrediach. Je optimalizovaná na vysoký výkon, distribúciu a spracovanie veľkých dát.

- 🔗 **MPI for Python (mpi4py)**: na implementáciu paralelných algoritmov cez MPI (Message Passing Interface), určená pre distribuované a paralelné výpočty v prostrediach ako superpočítače a klastry.

- ⚡ **CUDA**: platforma a API od NVIDIA na paralelné výpočty pomocou GPU. PyCUDA umožňuje využívať GPU pre vysokovýkonné výpočty, čo urýchľuje aplikácie ako simulácie, spracovanie obrazu a strojové učenie.

😎 Existuje 300 000+ knižníc pre Python.  

# 📚 PIP, Knižnice a ich verzie 
**PIP (package installer for Python)** - Správca Balíčkov pre moduly programovacieho jazyka Python, Tiež napísaný v Pythone, Licencia MIT.  
Dokumentácia PIP: https://pip.pypa.io/en/stable/

**PyPI (The Python Package Index)** - Repozitár/úložisko softvéru pre programovací jazyk Python  
https://pypi.org
1

In [5]:
# !pip list
# Inštalácia knižnice NumPy na numerické výpočty
!pip install numpy

# Inštalácia knižnice SciPy pre pokročilé matematické funkcie
!pip install scipy

# Inštalácia knižnice Dask pre paralelné a distribuované výpočty
# Použitie '[complete]' nainštaluje všetky voliteľné závislosti
!pip install dask[complete]

# Inštalácia knižnice PyTorch pre strojové učenie
!pip install torch

# Inštalácia knižnice TensorFlow pre strojové učenie
!pip install tensorflow

# Inštalácia knižnice Polars pre rýchle spracovanie dát
!pip install polars

# Inštalácia knižnice Parquet na prácu s Parquet formátom
!pip install parquet

# Inštalácia knižnice PySpark pre distribuované spracovanie dát v Apache Spark
!pip install pyspark

# Inštalácia knižnice MPI for Python (mpi4py) na paralelné výpočty cez MPI
#!pip install mpi4py

# Inštalácia knižnice PyCUDA pre výpočty na GPU pomocou CUDA
#!pip install pycuda


Collecting typing-extensions>=4.8.0 (from torch)
  Using cached typing_extensions-4.12.2-py3-none-any.whl.metadata (3.0 kB)
Using cached typing_extensions-4.12.2-py3-none-any.whl (37 kB)
Installing collected packages: typing-extensions
  Attempting uninstall: typing-extensions
    Found existing installation: typing_extensions 4.5.0
    Uninstalling typing_extensions-4.5.0:
      Successfully uninstalled typing_extensions-4.5.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow 2.13.1 requires typing-extensions<4.6.0,>=3.6.6, but you have typing-extensions 4.12.2 which is incompatible.
tensorflow-cpu 2.11.1 requires keras<2.12,>=2.11.0, but you have keras 2.13.1 which is incompatible.
tensorflow-cpu 2.11.1 requires protobuf<3.20,>=3.9.2, but you have protobuf 4.25.5 which is incompatible.
tensorflow-cpu 2.11.1 requires tensorboard<2.12,

In [3]:
!pip list

Package                       Version
----------------------------- ----------------
absl-py                       2.0.0
aiohttp                       3.8.4
aiosignal                     1.3.1
alabaster                     0.7.13
annotated-types               0.6.0
anyio                         3.7.1
argon2-cffi                   23.1.0
argon2-cffi-bindings          21.2.0
astunparse                    1.6.3
async-timeout                 4.0.3
attrs                         23.1.0
Babel                         2.13.0
backcall                      0.2.0
beautifulsoup4                4.12.2
bleach                        6.1.0
blis                          0.7.11
bokeh                         3.1.1
boto3                         1.26.133
botocore                      1.29.165
cachetools                    5.3.1
catalogue                     2.0.10
certifi                       2023.7.22
cffi                          1.16.0
charset-normalizer            3.3.0
click 

# 📜 Verzie vizualizačných knižnic 
try - except - finally  

https://docs.python.org/3/tutorial/errors.html 

In [12]:
import pandas as pd
import numpy as np
import scipy
import dask
import torch
import tensorflow as tf
import polars as pl
import parquet
import pyarrow  # Na prácu s Parquet
import pyspark
import importlib.metadata
#import mpi4py
#import pycuda

print("✅ Moduly/kniznice boli nacitane")
# Zobrazenie verzií knižníc
print("Pandas verzia:", pd.__version__)
print("NumPy verzia:", np.__version__)
print("SciPy verzia:", scipy.__version__)
print("Dask verzia:", dask.__version__)
print("PyTorch verzia:", torch.__version__)
print("TensorFlow verzia:", tf.__version__)
print("Polars verzia:", pl.__version__)

# Tu používame pyarrow pre Parquet
print("PyArrow verzia (Parquet):", pyarrow.__version__)  

# Ak by bol nainštalovaný `pyarrow` pre Parquet
print("Parquet verzia:", importlib.metadata.version('parquet'))  
print("PySpark verzia:", pyspark.__version__)
# print("mpi4py verzia:", mpi4py.__version__)
# print("PyCUDA verzia:", pycuda.__version__)

✅ Moduly/kniznice boli nacitane
Pandas verzia: 1.5.3
NumPy verzia: 1.24.3
SciPy verzia: 1.10.1
Dask verzia: 2023.5.0
PyTorch verzia: 2.4.1+cpu
TensorFlow verzia: 2.13.1
Polars verzia: 1.8.2
PyArrow verzia (Parquet): 17.0.0
Parquet verzia: 1.3.1
PySpark verzia: 3.5.3


In [13]:
try:
    import pandas as pd
    import numpy as np
    import scipy
    import dask
    import torch
    import tensorflow as tf
    import polars as pl
    import parquet
    import pyarrow  # Na prácu s Parquet
    import pyspark
    import importlib.metadata

    print("TRY:")
    print("✅ Moduly/kniznice boli nacitane")
    # Zobrazenie verzií knižníc
    print("Pandas verzia:", pd.__version__)
    print("NumPy verzia:", np.__version__)
    print("SciPy verzia:", scipy.__version__)
    print("Dask verzia:", dask.__version__)
    print("PyTorch verzia:", torch.__version__)
    print("TensorFlow verzia:", tf.__version__)
    print("Polars verzia:", pl.__version__)

    # Tu používame pyarrow pre Parquet
    print("PyArrow verzia (Parquet):", pyarrow.__version__)  

    # Ak by bol nainštalovaný `pyarrow` pre Parquet
    print("Parquet verzia:", importlib.metadata.version('parquet'))  
    print("PySpark verzia:", pyspark.__version__)

except:
    print("EXCEPT: Moduly/Kniznice neboli nacitane, nastala chyba...")

finally:
    print("\nFINALLY: Tento text sa vypise vzdy")

TRY:
✅ Moduly/kniznice boli nacitane
Pandas verzia: 1.5.3
NumPy verzia: 1.24.3
SciPy verzia: 1.10.1
Dask verzia: 2023.5.0
PyTorch verzia: 2.4.1+cpu
TensorFlow verzia: 2.13.1
Polars verzia: 1.8.2
PyArrow verzia (Parquet): 17.0.0
Parquet verzia: 1.3.1
PySpark verzia: 3.5.3

FINALLY: Tento text sa vypise vzdy


# 🤖 TensorFlow: Základný model neurónovej siete

In [18]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Vytvorenie jednoduchého modelu neurónovej siete
model = Sequential([
    Dense(32, activation='relu', input_shape=(784,)),
    Dense(10, activation='softmax')
])

# Kompilácia modelu
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Vytvorenie náhodných údajov pre tréning
import numpy as np
X_train = np.random.random((1000, 784))  # 1000 vzorov, každý s 784 znakmi
y_train = np.random.randint(10, size=(1000,))  # 1000 štítkov (0 až 9)

# Tréning modelu
model.fit(X_train, y_train, epochs=5)

# Výpis schémy modelu
model.summary()

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 32)                25120     
                                                                 
 dense_3 (Dense)             (None, 10)                330       
                                                                 
Total params: 25450 (99.41 KB)
Trainable params: 25450 (99.41 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


# ⚡ Polars: Rýchle spracovanie dátových rámcov

In [24]:
import polars as pl

# Vytvorenie dátového rámca (DataFrame)
df = pl.DataFrame({
    "A": [1, 2, 3, 4],
    "B": [5, 6, 7, 8]
})

# Zobrazenie dátového rámca
print(df)

# Filtrácia dát
filterovaný_df = df.filter(pl.col("A") > 2)
print(filterovaný_df)

# Pridanie novej kolónky stlpca
df = df.with_columns((pl.col("A") * 2).alias("C"))
print(df)

shape: (4, 2)
┌─────┬─────┐
│ A   ┆ B   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 1   ┆ 5   │
│ 2   ┆ 6   │
│ 3   ┆ 7   │
│ 4   ┆ 8   │
└─────┴─────┘
shape: (2, 2)
┌─────┬─────┐
│ A   ┆ B   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 3   ┆ 7   │
│ 4   ┆ 8   │
└─────┴─────┘
shape: (4, 3)
┌─────┬─────┬─────┐
│ A   ┆ B   ┆ C   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1   ┆ 5   ┆ 2   │
│ 2   ┆ 6   ┆ 4   │
│ 3   ┆ 7   ┆ 6   │
│ 4   ┆ 8   ┆ 8   │
└─────┴─────┴─────┘


# 📦 PyArrow: Práca s Parquet formátom

In [29]:
import pyarrow as pa
import pyarrow.parquet as pq

# Vytvorenie dátového rámca (DataFrame) na ukladanie do Parquet
údaje = [
    ("Alice", 25, "Inžinier"),
    ("Bob", 30, "Doktor"),
    ("Katarína", 22, "Umelec")
]

# Vytvorenie schema a tabuľky Arrow
schema = pa.schema([
    ('meno', pa.string()),
    ('vek', pa.int32()),
    ('povolanie', pa.string())
])

tabuľka = pa.Table.from_pandas(pd.DataFrame(údaje, columns=['meno', 'vek', 'povolanie']), schema=schema)

# Uloženie do Parquet súboru
pq.write_table(tabuľka, 'príklad.parquet')

# Načítanie Parquet súboru
načítaná_tabulka = pq.read_table('príklad.parquet')
print(načítaná_tabulka)

pyarrow.Table
meno: string
vek: int32
povolanie: string
----
meno: [["Alice","Bob","Katarína"]]
vek: [[25,30,22]]
povolanie: [["Inžinier","Doktor","Umelec"]]


# 🔥 PySpark: Práca s distribuovanými dátami

In [30]:
from pyspark.sql import SparkSession

# Inicializácia Spark session
spark = SparkSession.builder.appName("PríkladPySpark").getOrCreate()

# Vytvorenie DataFrame
údaje = [("Alice", 25), ("Bob", 30), ("Katarína", 22)]
df = spark.createDataFrame(údaje, ["meno", "vek"])

# Zobrazenie dát
df.show()

# Filtrácia dát
filterovaný_df = df.filter(df["vek"] > 25)
filterovaný_df.show()

# Uloženie do Parquet formátu
df.write.parquet("príklad_spark.parquet")

# Načítanie Parquet súboru
df_z_parquet = spark.read.parquet("príklad_spark.parquet")
df_z_parquet.show()

+--------+---+
|    meno|vek|
+--------+---+
|   Alice| 25|
|     Bob| 30|
|Katarína| 22|
+--------+---+

+----+---+
|meno|vek|
+----+---+
| Bob| 30|
+----+---+

+--------+---+
|    meno|vek|
+--------+---+
|Katarína| 22|
|   Alice| 25|
|     Bob| 30|
+--------+---+



# Testovacie Dáta a Generovanie Dát

In [1]:
import pandas as pd
import numpy as np

# Vytvorenie datasetu s 10 miliónmi riadkov
zaznamy = 1_000_000_000

# Generovanie dát
data_klienti = {
    "Meno": np.random.choice([
    "Adriana", "Alena", "Andrea", "Anna", "Barbora", "Beáta", "Daniela", "Dominika", "Elena", "Emília", "Erika", "Eva", "Gabriela", "Hana", "Ivana", "Jana", "Katarína", "Kristína", 
    "Laura", "Lenka", "Lucia", "Magdaléna", "Mária", "Martina", "Monika", "Natália", "Petra", "Renáta", "Silvia", "Simona", "Soňa", "Tamara", "Veronika", "Zuzana"], size = zaznamy),
    "Vek": np.random.randint(18, 70, size = zaznamy),
    "Mesto": np.random.choice([
    "Bratislava", "Košice", "Prešov", "Žilina", "Nitra", 
    "Banská Bystrica", "Trnava", "Martin", "Trenčín", "Poprad"
], size = zaznamy),
    "Nakupy": np.round(np.random.uniform(150.0, 1000.0, size = zaznamy), 2)
}

# Vytvorenie DataFrame
df_data_klienti = pd.DataFrame(data_klienti)

# Uloženie do CSV súboru
df_data_klienti.to_csv("dataset-1000M-klienti-SK.csv", index=False)

In [1]:
import pandas as pd
import numpy as np

# Počet záznamov
zaznamy = 1_000_000_000
# Veľkosť jednej časti
velkost_casti = 10_000_000

# Cesta k súboru
csv_soubor = "dataset-1000M-klienti-SK.csv"

# Nastavíme, aby sa súbor prepisoval od začiatku, keďže budeme zapisovať po častiach
with open(csv_soubor, mode="a") as f:
    # Vytvorenie dát a zápis po častiach
    for i in range(zaznamy // velkost_casti):
        data_klienti = {
            "Meno": np.random.choice([
                "Adriana", "Alena", "Andrea", "Anna", "Barbora", "Beáta", "Daniela", "Dominika", 
                "Elena", "Emília", "Erika", "Eva", "Gabriela", "Hana", "Ivana", "Jana", "Katarína", 
                "Kristína", "Laura", "Lenka", "Lucia", "Magdaléna", "Mária", "Martina", "Monika", 
                "Natália", "Petra", "Renáta", "Silvia", "Simona", "Soňa", "Tamara", "Veronika", "Zuzana"], 
                size=velkost_casti
            ),
            "Vek": np.random.randint(18, 70, size=velkost_casti),
            "Mesto": np.random.choice([
                "Bratislava", "Košice", "Prešov", "Žilina", "Nitra", 
                "Banská Bystrica", "Trnava", "Martin", "Trenčín", "Poprad"
            ], size=velkost_casti),
            "Nakupy": np.round(np.random.uniform(150.0, 1000.0, size=velkost_casti), 2)
        }
        
        # Vytvorenie DataFrame pre aktuálnu časť
        df_data_klienti = pd.DataFrame(data_klienti)
        
        # Prvýkrát zapisujeme hlavičku, ostatné časti už nie
        df_data_klienti.to_csv(csv_soubor, mode="a", header=(i == 0), index=False)

# 📚 Knižnica Faker
- Populárna knižnica v Pythone, ktorá slúži na generovanie falošných údajov, ako sú mená, adresy, e-maily, telefónne čísla a ďalšie. 
- Je veľmi užitočná pri testovaní aplikácií, generovaní testovacích dát alebo pri simulácii reálnych používateľov. 
- Môžete rýchlo a jednoducho vytvárať realisticky vyzerajúce, ale úplne náhodné údaje.

In [2]:
!pip install faker

Collecting faker
  Downloading Faker-32.1.0-py3-none-any.whl.metadata (15 kB)
Downloading Faker-32.1.0-py3-none-any.whl (1.9 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.9 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m58.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-32.1.0


In [1]:

from faker import Faker

# Vytvorenie inštancie triedy Faker
faker = Faker("sk_SK")  # Nastavenie slovenského jazyka

# Funkcia na generovanie falošných osobných údajov s číslovaním používateľov
def generuj_pouzivatelske_udaje(pocet):
    pouzivatelia = []
    for i in range(1, pocet + 1):
        meno = faker.first_name()  # Falošné meno
        priezvisko = faker.last_name()  # Falošné priezvisko
        # E-mail s doménou gmail.com
        email = f"{meno.lower()}.{priezvisko.lower()}{i}@gmail.com"
        adresa = faker.address()  # Falošná adresa
        telefon = faker.phone_number()  # Falošné telefónne číslo
        pouzivatel = {
            "cislo": i,  # Číslovanie používateľov
            "meno": meno,
            "priezvisko": priezvisko,
            "email": email,
            "adresa": adresa,
            "telefon": telefon
        }
        pouzivatelia.append(pouzivatel)
    return pouzivatelia

# Vygenerovanie 5 falošných používateľov
pouzivatelia = generuj_pouzivatelske_udaje(5)

# Vytlačenie vygenerovaných údajov
for pouzivatel in pouzivatelia:
    print(f"{pouzivatel['cislo']}. používateľ : {pouzivatel['meno']} {pouzivatel['priezvisko']}")
    print(f"Email: {pouzivatel['email']}")
    print(f"Adresa: {pouzivatel['adresa']}")
    print(f"Telefón: {pouzivatel['telefon']}")
    print("-" * 40)

ModuleNotFoundError: ModuleNotFoundError: No module named 'faker'

In [38]:
from faker import Faker

# Vytvorenie inštancie triedy Faker
faker = Faker()

# Generovanie falošného obrázka pomocou Lorem Picsum
def generuj_obrazok():
    obrazok_url = f"https://picsum.photos/100/100?random={faker.random_int(min=1, max=1000)}"  # URL pre náhodný obrázok
    return obrazok_url

# Vygenerovanie obrázka
obrazok = generuj_obrazok()

# Výstup URL generovaného obrázka
print(f"URL falošného obrázka: {obrazok}")

TypeError: TypeError: generuj_obrazok() takes 0 positional arguments but 2 were given

In [39]:
from faker import Faker

# Vytvorenie inštancie triedy Faker
faker = Faker()

# Generovanie falošného obrázka pomocou Lorem Picsum s väčšími rozmermi
def generuj_obrazok(sirka, vyska):
    obrazok_url = f"https://picsum.photos/{sirka}/{vyska}?random={faker.random_int(min=1, max=1000)}"  # URL pre náhodný obrázok
    return obrazok_url

# Vygenerovanie obrázka s rozmermi 500x500
obrazok = generuj_obrazok(500, 500)

# Výstup URL generovaného obrázka
print(f"URL falošného obrázka: {obrazok}")

URL falošného obrázka: https://picsum.photos/500/500?random=808


# Faker

In [17]:
#!pip install pyarrow
#!pip install openpyxl

from faker import Faker
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
import openpyxl

# Vytvorenie inštancie triedy Faker
faker = Faker("sk_SK")  # Nastavenie slovenského jazyka

# Funkcia na generovanie falošných osobných údajov s číslovaním používateľov
def generuj_pouzivatelske_udaje(pocet):
    pouzivatelia = []
    for i in range(1, pocet + 1):
        meno = faker.first_name()  # Falošné meno
        priezvisko = faker.last_name()  # Falošné priezvisko
        # E-mail s doménou gmail.com
        email = f"{meno.lower()}.{priezvisko.lower()}{i}@gmail.com"
        adresa = faker.address()  # Falošná adresa
        telefon = faker.phone_number()  # Falošné telefónne číslo
        pouzivatel = {
            "cislo": i,  # Číslovanie používateľov
            "meno": meno,
            "priezvisko": priezvisko,
            "email": email,
            "adresa": adresa,
            "telefon": telefon
        }
        pouzivatelia.append(pouzivatel)
    return pouzivatelia

# Vygenerovanie 5 falošných používateľov
pouzivatelia = generuj_pouzivatelske_udaje(500_000)

# Vytvorenie DataFrame z dát
df = pd.DataFrame(pouzivatelia)

# Uloženie do CSV súboru
df.to_csv("export-pouzivatelia.csv", index=False, encoding='utf-8')
print("✅ Data sa uložili do CSV")

# Uloženie do Parquet súboru
table = pa.Table.from_pandas(df)
pq.write_table(table, 'export-pouzivatelia.parquet')
print("✅ Data sa uložili do parquet")

# Uloženie do XLSX súboru
df.to_excel("export-pouzivatelia.xlsx", index=False, engine='openpyxl')
print("✅ Data sa uložili do XLSX")

# Vytlačenie vygenerovaných údajov
# for pouzivatel in pouzivatelia:
#     print(f"{pouzivatel['cislo']}. používateľ : {pouzivatel['meno']} {pouzivatel['priezvisko']}")
#     print(f"Email: {pouzivatel['email']}")
#     print(f"Adresa: {pouzivatel['adresa']}")
#     print(f"Telefón: {pouzivatel['telefon']}")
#     print("-" * 40)

✅ Data sa uložili do CSV
✅ Data sa uložili do parquet
✅ Data sa uložili do XLSX


# Polars

# 🐻‍❄️ Polars 
- Knižnica pre spracovanie a analýzu dát v Pythone
- Zameraná na vysokú rýchlosť a efektívnosť, najmä pri práci s veľkými dátovými súbormi 
- Navrhnuté ako alternatíva k populárnej knižnici Pandas
- Dôraz na optimalizáciu výkonu a využitie moderných technológií ako je paralelné spracovanie a využívanie viacerých jadier CPU


## Typické použitie Polars
📊 Analytické nástroje  
🤖 Strojové učenie  
🖥️ Spracovanie logov  
💵 Finančná analýza  
🌐 Práca s dátami IoT  
💳 Analýza transakcií  
🌍 Geo dáta a mapy  
🧬 Bioinformatika
🏥 Zdravotníctvo a med. analýza 
🚚 Logistika a optimalizácia trás  
🛒 E-commerce a analýza zákaz.  
🔍 Výskum a akademická analýza  
📡 Sieťová analytika a security  
🏡 Smart Cities a mestské dáta  
🌱 Agrikultúra a poľnohospod. dáta 



# 🎓 Základný dataset online kurzy

# 💻 Filtrovanie kurzov podľa ceny

shape: (19, 5)
┌──────────────────────┬──────┬─────────────────┬─────────────┬─────────┐
│ nazov_kurzu          ┆ cena ┆ kategoria       ┆ dlzka_kurzu ┆ novinka │
│ ---                  ┆ ---  ┆ ---             ┆ ---         ┆ ---     │
│ str                  ┆ i64  ┆ str             ┆ i64         ┆ bool    │
╞══════════════════════╪══════╪═════════════════╪═════════════╪═════════╡
│ Dátová Analýza       ┆ 180  ┆ Dátová Analýza  ┆ 20          ┆ false   │
│ HTML, CSS Web Vývoj  ┆ 200  ┆ Web Development ┆ 30          ┆ false   │
│ Pokročilý Python     ┆ 220  ┆ Python          ┆ 15          ┆ true    │
│ Strojové Učenie      ┆ 250  ┆ AI              ┆ 25          ┆ true    │
│ AI Základy           ┆ 270  ┆ AI              ┆ 18          ┆ true    │
│ …                    ┆ …    ┆ …               ┆ …           ┆ …       │
│ Správa Serverov      ┆ 250  ┆ DevOps          ┆ 25          ┆ true    │
│ Hacking a Bezpečnosť ┆ 200  ┆ Bezpečnosť      ┆ 21          ┆ false   │
│ Deep Learning        

# 💡 Filtrovanie kurzov podľa dĺžky kurzu (väčšie ako 20 hodín)

shape: (12, 5)
┌──────────────────────┬──────┬─────────────────┬─────────────┬─────────┐
│ nazov_kurzu          ┆ cena ┆ kategoria       ┆ dlzka_kurzu ┆ novinka │
│ ---                  ┆ ---  ┆ ---             ┆ ---         ┆ ---     │
│ str                  ┆ i64  ┆ str             ┆ i64         ┆ bool    │
╞══════════════════════╪══════╪═════════════════╪═════════════╪═════════╡
│ HTML, CSS Web Vývoj  ┆ 200  ┆ Web Development ┆ 30          ┆ false   │
│ Strojové Učenie      ┆ 250  ┆ AI              ┆ 25          ┆ true    │
│ Microsoft Excel      ┆ 190  ┆ Microsoft Excel ┆ 22          ┆ false   │
│ Java Základy         ┆ 160  ┆ Java            ┆ 28          ┆ false   │
│ C# Programovanie     ┆ 300  ┆ C#              ┆ 24          ┆ true    │
│ …                    ┆ …    ┆ …               ┆ …           ┆ …       │
│ Dátová Vizuálizácia  ┆ 270  ┆ Dátová Analýza  ┆ 23          ┆ true    │
│ UX/UI Design         ┆ 180  ┆ UX/UI Dizajn    ┆ 30          ┆ false   │
│ Správa Serverov      

# 🔎 Filtrácia a zistenie najdlhšieho kurzu

shape: (1, 4)
┌─────────────────────┬──────┬─────────────────┬─────────────┐
│ nazov_kurzu         ┆ cena ┆ kategoria       ┆ dlzka_kurzu │
│ ---                 ┆ ---  ┆ ---             ┆ ---         │
│ str                 ┆ i64  ┆ str             ┆ i64         │
╞═════════════════════╪══════╪═════════════════╪═════════════╡
│ HTML, CSS Web Vývoj ┆ 200  ┆ Web Development ┆ 30          │
└─────────────────────┴──────┴─────────────────┴─────────────┘


# 🐍 Filtrovanie kurzov, ktoré sú v kategórii "Python" a majú cenu nad 200 €

shape: (1, 5)
┌──────────────────┬──────┬───────────┬─────────────┬─────────┐
│ nazov_kurzu      ┆ cena ┆ kategoria ┆ dlzka_kurzu ┆ novinka │
│ ---              ┆ ---  ┆ ---       ┆ ---         ┆ ---     │
│ str              ┆ i64  ┆ str       ┆ i64         ┆ bool    │
╞══════════════════╪══════╪═══════════╪═════════════╪═════════╡
│ Pokročilý Python ┆ 220  ┆ Python    ┆ 15          ┆ true    │
└──────────────────┴──────┴───────────┴─────────────┴─────────┘


# 📊 Agregácia ceny podľa kategórie kurzu

shape: (14, 2)
┌──────────────────┬────────────────┐
│ kategoria        ┆ priemerna_cena │
│ ---              ┆ ---            │
│ str              ┆ f64            │
╞══════════════════╪════════════════╡
│ Web Vývoj        ┆ 210.0          │
│ Testovanie       ┆ 270.0          │
│ Microsoft Excel  ┆ 190.0          │
│ Data Engineering ┆ 230.0          │
│ Bezpečnosť       ┆ 200.0          │
│ …                ┆ …              │
│ AI               ┆ 253.333333     │
│ UX/UI Dizajn     ┆ 180.0          │
│ Dátová Analýza   ┆ 225.0          │
│ Web Development  ┆ 200.0          │
│ Java             ┆ 160.0          │
└──────────────────┴────────────────┘


# 📊 Počet kurzov v jednotlivých kategóriách

shape: (14, 2)
┌─────────────────┬──────────────┐
│ kategoria       ┆ pocet_kurzov │
│ ---             ┆ ---          │
│ str             ┆ u32          │
╞═════════════════╪══════════════╡
│ AI              ┆ 3            │
│ Web Vývoj       ┆ 1            │
│ Microsoft Excel ┆ 1            │
│ Bezpečnosť      ┆ 1            │
│ C#              ┆ 1            │
│ …               ┆ …            │
│ Web Development ┆ 1            │
│ Cloud Computing ┆ 2            │
│ DevOps          ┆ 2            │
│ Python          ┆ 2            │
│ Testovanie      ┆ 1            │
└─────────────────┴──────────────┘


shape: (14, 2)
┌──────────────────┬──────────────┐
│ kategoria        ┆ pocet_kurzov │
│ ---              ┆ ---          │
│ str              ┆ u32          │
╞══════════════════╪══════════════╡
│ AI               ┆ 3            │
│ Python           ┆ 2            │
│ Dátová Analýza   ┆ 2            │
│ Cloud Computing  ┆ 2            │
│ DevOps           ┆ 2            │
│ …                ┆ …            │
│ Web Development  ┆ 1            │
│ Web Vývoj        ┆ 1            │
│ Data Engineering ┆ 1            │
│ C#               ┆ 1            │
│ Java             ┆ 1            │
└──────────────────┴──────────────┘


# 🧮 Výpočet celkovej ceny kurzov

shape: (1, 1)
┌──────────────┐
│ celkova_cena │
│ ---          │
│ i64          │
╞══════════════╡
│ 4530         │
└──────────────┘


# 💰 Sumarizácia celkovej ceny kurzov a priemernej dĺžky kurzu

shape: (1, 2)
┌──────────────┬─────────────────┐
│ celkova_cena ┆ priemerna_dlzka │
│ ---          ┆ ---             │
│ i64          ┆ f64             │
╞══════════════╪═════════════════╡
│ 4530         ┆ 21.9            │
└──────────────┴─────────────────┘


# ✨ Pridanie stĺpca s kategóriou "novinka" na základe ceny

shape: (20, 5)
┌──────────────────────┬──────┬─────────────────┬─────────────┬─────────┐
│ nazov_kurzu          ┆ cena ┆ kategoria       ┆ dlzka_kurzu ┆ novinka │
│ ---                  ┆ ---  ┆ ---             ┆ ---         ┆ ---     │
│ str                  ┆ i64  ┆ str             ┆ i64         ┆ bool    │
╞══════════════════════╪══════╪═════════════════╪═════════════╪═════════╡
│ Python Základy       ┆ 150  ┆ Python          ┆ 10          ┆ false   │
│ Dátová Analýza       ┆ 180  ┆ Dátová Analýza  ┆ 20          ┆ false   │
│ HTML, CSS Web Vývoj  ┆ 200  ┆ Web Development ┆ 30          ┆ false   │
│ Pokročilý Python     ┆ 220  ┆ Python          ┆ 15          ┆ true    │
│ Strojové Učenie      ┆ 250  ┆ AI              ┆ 25          ┆ true    │
│ …                    ┆ …    ┆ …               ┆ …           ┆ …       │
│ Správa Serverov      ┆ 250  ┆ DevOps          ┆ 25          ┆ true    │
│ Hacking a Bezpečnosť ┆ 200  ┆ Bezpečnosť      ┆ 21          ┆ false   │
│ Deep Learning        

# 📏 Zistenie maximálnej dĺžky kurzu

shape: (1, 1)
┌───────────┐
│ max_dlzka │
│ ---       │
│ i64       │
╞═══════════╡
│ 30        │
└───────────┘


# 📊 Generovanie náhodného datasetu a základná analýza 



shape: (5, 6)
┌─────┬─────────┬─────┬────────────┬───────────┬─────────────────────┐
│ id  ┆ Meno    ┆ vek ┆ nakupy     ┆ krajina   ┆ datum_nakupu        │
│ --- ┆ ---     ┆ --- ┆ ---        ┆ ---       ┆ ---                 │
│ i64 ┆ str     ┆ i64 ┆ f64        ┆ str       ┆ datetime[μs]        │
╞═════╪═════════╪═════╪════════════╪═══════════╪═════════════════════╡
│ 1   ┆ Soňa    ┆ 55  ┆ 167.960525 ┆ Slovensko ┆ 2024-07-17 00:00:00 │
│ 2   ┆ Anna    ┆ 47  ┆ 223.540711 ┆ Polsko    ┆ 2024-02-22 00:00:00 │
│ 3   ┆ Lucia   ┆ 34  ┆ 163.828016 ┆ Slovensko ┆ 2024-12-17 00:00:00 │
│ 4   ┆ Natália ┆ 61  ┆ 279.580707 ┆ Slovensko ┆ 2024-11-15 00:00:00 │
│ 5   ┆ Tamara  ┆ 31  ┆ 219.788987 ┆ Polsko    ┆ 2024-02-17 00:00:00 │
└─────┴─────────┴─────┴────────────┴───────────┴─────────────────────┘
Priemerny vek: shape: (1, 1)
┌───────────┐
│ vek       │
│ ---       │
│ f64       │
╞═══════════╡
│ 46.050108 │
└───────────┘
Priemerny nakupy: shape: (1, 1)
┌────────────┐
│ nakupy     │
│ ---        │
│

# 🔗 Zlúčenie dvoch datasetov 

shape: (5, 7)
┌─────┬─────────┬─────┬────────────┬───────────┬─────────────────────┬─────────────┐
│ id  ┆ Meno    ┆ vek ┆ nakupy     ┆ krajina   ┆ datum_nakupu        ┆ zamestnanie │
│ --- ┆ ---     ┆ --- ┆ ---        ┆ ---       ┆ ---                 ┆ ---         │
│ i64 ┆ str     ┆ i64 ┆ f64        ┆ str       ┆ datetime[μs]        ┆ str         │
╞═════╪═════════╪═════╪════════════╪═══════════╪═════════════════════╪═════════════╡
│ 1   ┆ Soňa    ┆ 55  ┆ 167.960525 ┆ Slovensko ┆ 2024-07-17 00:00:00 ┆ Inzinier    │
│ 2   ┆ Anna    ┆ 47  ┆ 223.540711 ┆ Polsko    ┆ 2024-02-22 00:00:00 ┆ Lekar       │
│ 3   ┆ Lucia   ┆ 34  ┆ 163.828016 ┆ Slovensko ┆ 2024-12-17 00:00:00 ┆ Programator │
│ 4   ┆ Natália ┆ 61  ┆ 279.580707 ┆ Slovensko ┆ 2024-11-15 00:00:00 ┆ Programator │
│ 5   ┆ Tamara  ┆ 31  ┆ 219.788987 ┆ Polsko    ┆ 2024-02-17 00:00:00 ┆ Ucitel      │
└─────┴─────────┴─────┴────────────┴───────────┴─────────────────────┴─────────────┘


In [35]:
# Uloženie do formátu Parquet
df_zakaznici.write_parquet('zakaznici.parquet')

# Načítanie z Parquet
df_nacitanie_parquet = pl.read_parquet('zakaznici.parquet')
print(df_nacitanie_parquet.head())

shape: (5, 7)
┌─────┬──────────┬─────┬────────────┬───────────┬─────────────────────┬───────────┐
│ id  ┆ Meno     ┆ vek ┆ nakupy     ┆ krajina   ┆ datum_nakupu        ┆ bonus     │
│ --- ┆ ---      ┆ --- ┆ ---        ┆ ---       ┆ ---                 ┆ ---       │
│ i64 ┆ str      ┆ i64 ┆ f64        ┆ str       ┆ datetime[μs]        ┆ f64       │
╞═════╪══════════╪═════╪════════════╪═══════════╪═════════════════════╪═══════════╡
│ 1   ┆ Kristína ┆ 46  ┆ 244.572994 ┆ Polsko    ┆ 2024-04-01 00:00:00 ┆ 24.457299 │
│ 2   ┆ Beáta    ┆ 32  ┆ 228.482928 ┆ Slovensko ┆ 2024-06-14 00:00:00 ┆ 22.848293 │
│ 3   ┆ Laura    ┆ 35  ┆ 225.403623 ┆ Polsko    ┆ 2024-08-21 00:00:00 ┆ 22.540362 │
│ 4   ┆ Elena    ┆ 35  ┆ 203.473078 ┆ Cesko     ┆ 2024-07-07 00:00:00 ┆ 20.347308 │
│ 5   ┆ Hana     ┆ 58  ┆ 252.920543 ┆ Polsko    ┆ 2024-09-09 00:00:00 ┆ 25.292054 │
└─────┴──────────┴─────┴────────────┴───────────┴─────────────────────┴───────────┘


# 📄 Spracovanie JSON dát 

shape: (5, 6)
┌─────┬──────────┬─────┬────────────┬───────────┬─────────────────────┐
│ id  ┆ Meno     ┆ vek ┆ nakupy     ┆ krajina   ┆ datum_nakupu        │
│ --- ┆ ---      ┆ --- ┆ ---        ┆ ---       ┆ ---                 │
│ i64 ┆ str      ┆ i64 ┆ f64        ┆ str       ┆ datetime[μs]        │
╞═════╪══════════╪═════╪════════════╪═══════════╪═════════════════════╡
│ 1   ┆ Kristína ┆ 46  ┆ 244.572994 ┆ Polsko    ┆ 2024-04-01 00:00:00 │
│ 2   ┆ Beáta    ┆ 32  ┆ 228.482928 ┆ Slovensko ┆ 2024-06-14 00:00:00 │
│ 3   ┆ Laura    ┆ 35  ┆ 225.403623 ┆ Polsko    ┆ 2024-08-21 00:00:00 │
│ 4   ┆ Elena    ┆ 35  ┆ 203.473078 ┆ Cesko     ┆ 2024-07-07 00:00:00 │
│ 5   ┆ Hana     ┆ 58  ┆ 252.920543 ┆ Polsko    ┆ 2024-09-09 00:00:00 │
└─────┴──────────┴─────┴────────────┴───────────┴─────────────────────┘


# Polars Big Data

# Formáty pre spracovanie veľkých dát
1. **CSV** je najuniverzálnejší a najjednoduchší formát na prácu s textovými dátami.
2. **JSON** je ideálny na prenos a ukladanie štruktúrovaných dát, napríklad zoznamov a objektov.
3. **XML** je skvelý pre hierarchické dáta, ale je náročnejší na spracovanie.
4. **Parquet** a **ORC** sú optimálne pre veľké datasety a distribuované spracovanie.
5. **Feather** je ideálny pre rýchlu analýzu a prenos dát medzi nástrojmi ako Pandas a R.
6. **IPC (Arrow)** je veľmi efektívny pri výmene dát medzi systémami.
7. **Excel** je najlepšie používať na menšie tabulky, ktoré sa často upravujú vizuálne.

In [1]:
!pip install pyarrow openpyxl
!pip install --upgrade polars pandas pyarrow



# 🎓 Základný dataset online kurzy

shape: (20, 4)
┌──────────────────────┬──────┬─────────────────┬─────────────┐
│ nazov_kurzu          ┆ cena ┆ kategoria       ┆ dlzka_kurzu │
│ ---                  ┆ ---  ┆ ---             ┆ ---         │
│ str                  ┆ i64  ┆ str             ┆ i64         │
╞══════════════════════╪══════╪═════════════════╪═════════════╡
│ Python Základy       ┆ 150  ┆ Python          ┆ 10          │
│ Dátová Analýza       ┆ 180  ┆ Dátová Analýza  ┆ 20          │
│ HTML, CSS Web Vývoj  ┆ 200  ┆ Web Development ┆ 30          │
│ Pokročilý Python     ┆ 220  ┆ Python          ┆ 15          │
│ Strojové Učenie      ┆ 250  ┆ AI              ┆ 25          │
│ …                    ┆ …    ┆ …               ┆ …           │
│ Správa Serverov      ┆ 250  ┆ DevOps          ┆ 25          │
│ Hacking a Bezpečnosť ┆ 200  ┆ Bezpečnosť      ┆ 21          │
│ Deep Learning        ┆ 240  ┆ AI              ┆ 20          │
│ Testovanie Softvéru  ┆ 270  ┆ Testovanie      ┆ 18          │
│ DevOps               ┆ 

             nazov_kurzu  cena         kategoria  dlzka_kurzu
0         Python Základy   150            Python           10
1         Dátová Analýza   180    Dátová Analýza           20
2    HTML, CSS Web Vývoj   200   Web Development           30
3       Pokročilý Python   220            Python           15
4        Strojové Učenie   250                AI           25
5             AI Základy   270                AI           18
6        Microsoft Excel   190   Microsoft Excel           22
7           Java Základy   160              Java           28
8       C# Programovanie   300                C#           24
9                 Docker   250   Cloud Computing           21
10       Cloud Computing   220   Cloud Computing           27
11      Data Engineering   230  Data Engineering           19
12   Dátová Vizuálizácia   270    Dátová Analýza           23
13          UX/UI Design   180      UX/UI Dizajn           30
14    JavaScript Základy   210         Web Vývoj           16
15      

Export do ORC bol úspešný!
Export do Feather bol úspešný!
Export do Excelu bol úspešný!


ModuleNotFoundError: ModuleNotFoundError: No module named 'pyarrow'

Export do ORC bol úspešný!
Export do Feather bol úspešný!
Export do Excelu bol úspešný!


# CSV súbor s transakciami 22,29 GB (6 GB Zip)
## 260 mil. záznamov, 10 stĺpcov, 75 000 zákazníkov

https://www.kaggle.com/datasets/conorsully1/simulated-transactions  
kaggle simulated transaction  

https://colab.research.google.com/github/rapidsai-community/showcase/blob/main/accelerated_data_processing_examples/polars_gpu_engine_demo.ipynb 


https://github.com/rapidsai-community/showcase/blob/main/accelerated_data_processing_examples/polars_gpu_engine_demo.ipynb?utm_source=influencer&utm_medium=social&utm_campaign=KN

Schema([('CUST_ID', String),
        ('START_DATE', String),
        ('END_DATE', String),
        ('TRANS_ID', String),
        ('DATE', String),
        ('YEAR', Int64),
        ('MONTH', Int64),
        ('DAY', Int64),
        ('EXP_TYPE', String),
        ('AMOUNT', Float64)])

CUST_ID,START_DATE,END_DATE,TRANS_ID,DATE,YEAR,MONTH,DAY,EXP_TYPE,AMOUNT
str,str,str,str,str,i64,i64,i64,str,f64
"""CI6XLYUMQK""","""2015-05-01""",,"""T8I9ZB5A6X90UG8""","""2015-09-11""",2015,9,11,"""Motor/Travel""",20.27
"""CI6XLYUMQK""","""2015-05-01""",,"""TZ4JSLS7SC7FO9H""","""2017-02-08""",2017,2,8,"""Motor/Travel""",12.85
"""CI6XLYUMQK""","""2015-05-01""",,"""TTUKRDDJ6B6F42H""","""2015-08-01""",2015,8,1,"""Housing""",383.8


AMOUNT
f64
21367000000.0


# Apache Spark

# 📊 Apache Spark?
- Najpopulárnejšia Python knižnica na vytváranie dynamických grafov
- Tvorba interaktívnych grafov a vizualizácií
- Vhodná pre vývojárov, dátových vedcov a analytikov
- Stĺpcové grafy, čiarové grafy, teplotné mapy, 3D grafy, geografické mapy 
- Používatelia môžu klikať, približovať a skúmať údaje priamo v grafickom výstupe

In [2]:
!pip install pyspark


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.1.2[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


Verzia pyspark: 3.4.0


<module 'pyspark' from '/opt/python/envs/default/lib/python3.8/site-packages/pyspark/__init__.py'>

+-----+---+----------+------+
| Meno|Vek|     Mesto|Nakupy|
+-----+---+----------+------+
|  Ján| 25|Bratislava| 150.5|
| Anna| 30|    Košice|200.75|
|Peter| 22|    Žilina| 180.0|
|  Eva| 35|     Nitra| 220.3|
|Marek| 28|    Prešov| 195.9|
+-----+---+----------+------+



# 1. Načítanie a spracovanie veľkých dátových súborov
Apache Spark je navrhnutý na spracovanie veľkých dátových súborov, ktoré sa nedajú jednoducho načítať do pamäte. Napríklad môžete načítať veľký CSV alebo JSON súbor a vykonávať agregácie, analýzy a transformácie.

# 2. Práca s dátovými rámcami (DataFrames) a SQL dopyty
Spark má podporu pre SQL-like dopyty cez Spark SQL. Môžete použiť SQL dopyty na veľké množstvo dát priamo v rámci svojho dátového rámca.