# Knihovna Pandas
pro analýzu dat a manipulaci s nimi 

"Panel Data" - multidimenzionální struktury dat (reprezentovány jako tabulky)

DataFrame
- hlavní datová struktura
- reprezentuje dvourozměrnou tabulku s daty

Series
- základní datový typ (1D)
- jednorozměrné pole s indexy
- jako seznam nebo slovník, ale s dalšími funkcemi
    - každý prvek má svůj vlastní index k identifikaci a přístupu
    - může obsahovat různé typy dat
    - mnoho vestavěných funkcí a metod, včetně agregačních funkcí, filtrování dat, transformací ...

Čtení a zápis dat
- CSV, Excel, JSON, SQL, ...
- snadné čtení a zápis z/do těchto formátů

Instalace

In [None]:
!python -m pip install pandas

In [1]:
import pandas as pd
import numpy as np

arr = np.array([51, 65, 48, 59, 68])    # NumPy array
series = pd.Series(arr)                 # Pandas Series
series

0    51
1    65
2    48
3    59
4    68
dtype: int64

In [3]:
s1 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s1)   # indexy a, b, c
s2 = pd.Series(10, index=[2, 4, 6])
s2          # série, která obsahuje hodnotu 10 a indexy [0, 1, 2, 3, 4, 5]


a    10
b    20
c    30
dtype: int64


2    10
4    10
6    10
dtype: int64

In [4]:
import pandas as pd 
df = pd.DataFrame()     # prázdný DataFrame, data dáváme jako parametr
print(df)
print()
print(df.head())        # header (prvních n řádků)

Empty DataFrame
Columns: []
Index: []

Empty DataFrame
Columns: []
Index: []


Vložení dat

In [2]:
# slovník seznamů (klíč = název atributu)
data = {'Jméno': ['Franta', 'Jiří', 'Jana', 'Honza'], 'Věk': [23, 45, 21, 19 ]}
df = pd.DataFrame(data)
df

Unnamed: 0,Jméno,Věk
0,Franta,23
1,Jiří,45
2,Jana,21
3,Honza,19


In [6]:
# seznam slovníků (názvy atributů se opakují u každého záznamu )
data =[ {'Jméno': 'Franta',  'Věk': 23},{'Jméno': 'Jiří',  'Věk': 45},{'Jméno': 'Jana',  'Věk': 21}]
df = pd.DataFrame(data, columns=['Jméno','Věk'])        # jako další parametr můžeme specifikovat sloupce
df

Unnamed: 0,Jméno,Věk
0,Franta,23
1,Jiří,45
2,Jana,21


In [7]:
# seznam n-tic (podobně jako seznam slovníků)
data = [('Franta', 23),( 'Jiří', 45), ('Jana', 21), ('Honza',19)]
df = pd.DataFrame(data, columns=['Jméno','Věk'])
df

Unnamed: 0,Jméno,Věk
0,Franta,23
1,Jiří,45
2,Jana,21
3,Honza,19


## Načtení tabulky
Příklady formátů souborů:

- CSV: &emsp;&ensp;read_csv(), to_csv()
- Excel: &emsp;read_excel(), to_excel()
- SQL databáze: &nbsp;read_sql()
- JSON: &emsp;read_json(), to_json()

Příklad pracuje s oficiální tabulkou WHO staženou ve formě excelovského souboru z https://apps.who.int/nha/database/Select/Indicators/en.

K přečtení excelovského souboru je zapotřebí mít nainstalovanou knihovnu openpyxl.

Vzhledem k velikosti souboru přes 30 MB v komprimovaném formátu může příklad trvat několik minut.

In [None]:
%pip install openpyxl

In [None]:
# Pozor, může trvat několik minut!!!
import pandas as pd

excel_file = "data/GHED_data.XLSX"              # Název excelovského souboru
df = pd.read_excel(excel_file)                  # Načtení excelovského souboru
df.to_csv("tmp/data.csv", index=False)

In [3]:
# Pozor, může trvat několik minut!!!
import pandas as pd

excel_file = "data/GHED_data.XLSX"              # Název excelovského souboru
df = pd.read_excel(excel_file)                  # Načtení excelovského souboru

# Vybrané sloupce podle názvů
sel_cols = ['country', 'code', 'region', 'year', 'gdp_pc_usd', 'che_pc_usd']

sel_col_df = df[sel_cols]                       # Vytvoření nového DataFramu obsahujícího pouze vybrané sloupce

# Výběr záznamů s nejnovějšími daty pro každou zemi (nejvyšší hodnotou v sloupci 'year' pro každý klíč 'country')
max_year = sel_col_df.groupby('country')['year'].idxmax()
selected_df = sel_col_df.loc[max_year]

display(selected_df)

xlsx_output_file = "tmp/selected_data.xlsx"    # Uložení do formátu XLSX
selected_df.to_excel(xlsx_output_file, index=False)

csv_output_file = "tmp/selected_data.csv"      # Uložení do formátu CSV
selected_df.to_csv(csv_output_file, index=False)

print("Data byla úspěšně uložena do formátů XLSX a CSV.")

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
1828,Afghanistan,AFG,EMR,2021,372.548784,81.319763
2268,Albania,ALB,EUR,2021,6394.970737,464.742859
21,Algeria,DZA,AFR,2021,3700.324153,204.566620
2290,Andorra,AND,EUR,2021,42066.041514,3505.991455
43,Angola,AGO,AFR,2021,2167.605349,64.163422
...,...,...,...,...,...,...
1806,Venezuela (Bolivarian Republic of),VEN,AMR,2021,3965.034402,160.098404
4242,Viet Nam,VNM,WPR,2021,3756.488821,172.552979
2246,Yemen,YEM,EMR,2021,,
1011,Zambia,ZMB,AFR,2021,1137.343302,75.339493


Data byla úspěšně uložena do formátů XLSX a CSV.


In [4]:
import pandas as pd
df = pd.read_csv("tmp/selected_data.csv")      # načtení souboru csv
df.head()                                       # prvních 5 řádků (posledních: tail)

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
0,Afghanistan,AFG,EMR,2021,372.548784,81.319763
1,Albania,ALB,EUR,2021,6394.970737,464.742859
2,Algeria,DZA,AFR,2021,3700.324153,204.56662
3,Andorra,AND,EUR,2021,42066.041514,3505.991455
4,Angola,AGO,AFR,2021,2167.605349,64.163422


In [9]:
import locale

locale.setlocale(locale.LC_ALL, 'cs_CZ.UTF-8')          # Nastavení národního prostředí na českou lokalizaci
pd.options.display.float_format = '{:,.2f}'.format      # Nastavení defaultního formátu čísel s čárkou mezi tisíci

def format_number(num):                                 # Funkce pro formátování čísel s mezerou mezi tisíci
    if isinstance(num, float):
        return locale.format_string('%.2f', num, grouping=True)
        #return '{:,.2f}'.format(num).replace(',', ' ').replace('.', ',')
    else:
        return str(num)

for col in df.select_dtypes(include=['number']):        # Aplikace formátování na všechny číselné hodnoty v datovém rámci
    df[col] = df[col].apply(format_number)

df.head()

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
0,Afghanistan,AFG,EMR,2021,37255,8132
1,Albania,ALB,EUR,2021,"6 394,97",46474
2,Algeria,DZA,AFR,2021,"3 700,32",20457
3,Andorra,AND,EUR,2021,"42 066,04","3 505,99"
4,Angola,AGO,AFR,2021,"2 167,61",6416


In [10]:
df.sort_values(by='gdp_pc_usd', ascending=False).head()     # země s největším HDP - prvních 5 řádků

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
189,Yemen,YEM,EMR,2021,,
97,Libya,LBY,EMR,2021,,
167,Syrian Arab Republic,SYR,EMR,2021,,
42,Cuba,CUB,AMR,2021,,
177,Türkiye,TUR,EUR,2021,"9 661,23",44106.0


### Dotazování

In [5]:
df[["country", "region"]]

Unnamed: 0,country,region
0,Afghanistan,EMR
1,Albania,EUR
2,Algeria,AFR
3,Andorra,EUR
4,Angola,AFR
...,...,...
187,Venezuela (Bolivarian Republic of),AMR
188,Viet Nam,WPR
189,Yemen,EMR
190,Zambia,AFR


In [12]:
df.query('region=="AFR"')

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
2,Algeria,DZA,AFR,2021,"3 700,32",20457
4,Angola,AGO,AFR,2021,"2 167,61",6416
18,Benin,BEN,AFR,2021,"1 360,91",3513
22,Botswana,BWA,AFR,2021,"7 250,62",45746
26,Burkina Faso,BFA,AFR,2021,89308,5695
27,Burundi,BDI,AFR,2021,26664,2427
28,Cabo Verde,CPV,AFR,2021,"3 590,90",24791
30,Cameroon,CMR,AFR,2021,"1 668,01",6379
32,Central African Republic,CAF,AFR,2021,47337,4293
33,Chad,TCD,AFR,2021,68651,3563


In [6]:
df.query('country.str.startswith("M")')

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
100,Madagascar,MDG,AFR,2021,503.3521,17.640089
101,Malawi,MWI,AFR,2021,628.114629,46.555511
102,Malaysia,MYS,WPR,2021,11109.268252,487.00882
103,Maldives,MDV,SEAR,2021,10354.021363,1038.667725
104,Mali,MLI,AFR,2021,896.859714,40.120251
105,Malta,MLT,EUR,2021,34405.509062,3641.619385
106,Marshall Islands,MHL,WPR,2021,6111.7717,766.944092
107,Mauritania,MRT,AFR,2021,2166.046297,89.288452
108,Mauritius,MUS,AFR,2021,8836.806479,564.900757
109,Mexico,MEX,AMR,2021,10045.676724,610.645325


Čištění dataframu

In [7]:
# Hledání chybějících hodnot
nan_year = df[df['year'].isna()]        # nebo nan_values = df[df['year'].isnull()]
print("NaN:", nan_year)
print()
nan_rows = df[df.isna().any(axis=1)]    # Výběr řádků, kde alespoň jedna hodnota v řádku je NaN
print(nan_rows)
df['year'] = df['year'].astype(int)     # Převedeme sloupec 'A' na číselný datový typ (pokud není)
df = df.dropna()                        # Odstranění neplatných řádků obsahujících NaN hodnoty

NaN: Empty DataFrame
Columns: [country, code, region, year, gdp_pc_usd, che_pc_usd]
Index: []

                  country code region  year  gdp_pc_usd  che_pc_usd
42                   Cuba  CUB    AMR  2021         NaN         NaN
97                  Libya  LBY    EMR  2021         NaN         NaN
167  Syrian Arab Republic  SYR    EMR  2021         NaN         NaN
189                 Yemen  YEM    EMR  2021         NaN         NaN


In [8]:
print("Tvar:", df.shape)
print("\nSloupce:", df.columns)
print("\nDatové typy:", df.dtypes)

Tvar: (188, 6)

Sloupce: Index(['country', 'code', 'region', 'year', 'gdp_pc_usd', 'che_pc_usd'], dtype='object')

Datové typy: country        object
code           object
region         object
year            int64
gdp_pc_usd    float64
che_pc_usd    float64
dtype: object


In [9]:
country_series=df['country']
print(country_series.name, type(country_series))
print(country_series.index)
print()
print(country_series.values)    # příp. prvních 10 [:10]

country <class 'pandas.core.series.Series'>
Index([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,
       ...
       181, 182, 183, 184, 185, 186, 187, 188, 190, 191],
      dtype='int64', length=188)

['Afghanistan' 'Albania' 'Algeria' 'Andorra' 'Angola'
 'Antigua and Barbuda' 'Argentina' 'Armenia' 'Australia' 'Austria'
 'Azerbaijan' 'Bahamas' 'Bahrain' 'Bangladesh' 'Barbados' 'Belarus'
 'Belgium' 'Belize' 'Benin' 'Bhutan' 'Bolivia (Plurinational State of)'
 'Bosnia and Herzegovina' 'Botswana' 'Brazil' 'Brunei Darussalam'
 'Bulgaria' 'Burkina Faso' 'Burundi' 'Cabo Verde' 'Cambodia' 'Cameroon'
 'Canada' 'Central African Republic' 'Chad' 'Chile' 'China' 'Colombia'
 'Comoros' 'Congo' 'Cook Islands' 'Costa Rica' 'Croatia' 'Cyprus'
 'Czechia' "Côte d'Ivoire" 'Democratic Republic of the Congo' 'Denmark'
 'Djibouti' 'Dominica' 'Dominican Republic' 'Ecuador' 'Egypt'
 'El Salvador' 'Equatorial Guinea' 'Eritrea' 'Estonia' 'Eswatini'
 'Ethiopia' 'Fiji' 'Finland' 'France' 'Gabon' 'Gambia' 'Geor

In [10]:
country_series[-5:]

186                               Vanuatu
187    Venezuela (Bolivarian Republic of)
188                              Viet Nam
190                                Zambia
191                              Zimbabwe
Name: country, dtype: object

In [18]:
# Vytvoření Pandas Series pomocí slovníku
dict1 = {0 : 'Franta', 1 : 'Jana', 2 : 'Honza'}
series = pd.Series(dict1)   # vytvoření Pandas Series
series

0    Franta
1      Jana
2     Honza
dtype: object

### Statistika

In [19]:
import pandas as pd
df = pd.read_csv("tmp/selected_data.csv")  # načtení pomocí funkce read_csv() 
df.head()                                   # zobrazí prvních 5 záznamů

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
0,Afghanistan,AFG,EMR,2021,372.55,81.32
1,Albania,ALB,EUR,2021,6394.97,464.74
2,Algeria,DZA,AFR,2021,3700.32,204.57
3,Andorra,AND,EUR,2021,42066.04,3505.99
4,Angola,AGO,AFR,2021,2167.61,64.16


In [20]:
print(df.shape)         # tvar dataframu
df.describe()           # jednotlivé statistiky (všech numerických polí)

(192, 6)


Unnamed: 0,year,gdp_pc_usd,che_pc_usd
count,192.0,188.0,188.0
mean,2021.1,16675.0,1355.98
std,0.3,27024.43,2175.7
min,2021.0,266.64,17.64
25%,2021.0,2244.77,104.76
50%,2021.0,6311.62,441.64
75%,2021.0,18437.48,1404.14
max,2022.0,234317.08,12473.79


In [21]:
print("Počet výskytů:")
print(df.count())                       # počet platných hodnot pro všechny sloupce
print("\nPrůměr:")                      
print(df.mean(numeric_only=True))       # pouze pro numerická pole
print("\nMedián:")
print(df.median(numeric_only=True))     # pouze pro numerická pole


Počet výskytů:
country       192
code          192
region        192
year          192
gdp_pc_usd    188
che_pc_usd    188
dtype: int64

Průměr:
year          2,021.10
gdp_pc_usd   16,675.00
che_pc_usd    1,355.98
dtype: float64

Medián:
year         2,021.00
gdp_pc_usd   6,311.62
che_pc_usd     441.64
dtype: float64


In [22]:
print("Minima všech sloupců:")              # pro všechny sloupce
print(df.min())
print("\nMaxima všech sloupců:")
print(df.max())
print("\nStandardní odchylky všech numerických sloupců")
print(df.std(numeric_only=True))            # pouze pro numerická pole

Minima všech sloupců:
country       Afghanistan
code                  AFG
region                AFR
year                 2021
gdp_pc_usd         266.64
che_pc_usd          17.64
dtype: object

Maxima všech sloupců:
country        Zimbabwe
code                ZWE
region              WPR
year               2022
gdp_pc_usd   234,317.08
che_pc_usd    12,473.79
dtype: object

Standardní odchylky všech numerických sloupců
year              0.30
gdp_pc_usd   27,024.43
che_pc_usd    2,175.70
dtype: float64


### Agregace dat

In [23]:
df.head()

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
0,Afghanistan,AFG,EMR,2021,372.55,81.32
1,Albania,ALB,EUR,2021,6394.97,464.74
2,Algeria,DZA,AFR,2021,3700.32,204.57
3,Andorra,AND,EUR,2021,42066.04,3505.99
4,Angola,AGO,AFR,2021,2167.61,64.16


In [24]:
display(df.groupby('region').count())               # Seskupování podle regionu
#df_cleaned = df.dropna()                           # Odstranění všech řádků obsahujících hodnotu NaN
df2 = df[['year', 'gdp_pc_usd', 'che_pc_usd']]
df2.groupby('year').mean()   # Seskupování podle roku

Unnamed: 0_level_0,country,code,year,gdp_pc_usd,che_pc_usd
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AFR,47,47,47,47,47
AMR,35,35,35,34,34
EMR,20,20,20,17,17
EUR,53,53,53,53,53
SEAR,10,10,10,10,10
WPR,27,27,27,27,27


Unnamed: 0_level_0,gdp_pc_usd,che_pc_usd
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2021,13389.89,1031.9
2022,45895.13,4238.54


In [25]:
dfg = df[['region', 'gdp_pc_usd', 'che_pc_usd']].groupby('region').mean()
display(dfg)
dfg['gdp_pc_usd']

Unnamed: 0_level_0,gdp_pc_usd,che_pc_usd
region,Unnamed: 1_level_1,Unnamed: 2_level_1
AFR,2417.05,132.84
AMR,12668.5,1192.55
EMR,14693.87,690.32
EUR,35436.27,2985.44
SEAR,3721.73,224.78
WPR,15756.81,1330.42


region
AFR     2,417.05
AMR    12,668.50
EMR    14,693.87
EUR    35,436.27
SEAR    3,721.73
WPR    15,756.81
Name: gdp_pc_usd, dtype: float64

### Kontingenční tabulky

In [26]:
import pandas as pd
# Vytvoření DataFrame s jednoduchými daty o prodejích
data = {
    'Datum': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02', '2022-01-03'],
    'Produkt': ['A', 'B', 'A', 'B', 'A'],
    'Město': ['Praha', 'Praha', 'Brno', 'Brno', 'Praha'],
    'Množství': [100, 150, 200, 100, 120],
    'Tržby': [1000, 2000, 1500, 2500, 1800]
}

df = pd.DataFrame(data)

print(df)

kontingencni_tabulka = pd.pivot_table(df, index='Produkt', columns='Město', values=['Množství', 'Tržby'], aggfunc='sum')
kontingencni_tabulka

        Datum Produkt  Město  Množství  Tržby
0  2022-01-01       A  Praha       100   1000
1  2022-01-01       B  Praha       150   2000
2  2022-01-02       A   Brno       200   1500
3  2022-01-02       B   Brno       100   2500
4  2022-01-03       A  Praha       120   1800


Unnamed: 0_level_0,Množství,Množství,Tržby,Tržby
Město,Brno,Praha,Brno,Praha
Produkt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,200,220,1500,2800
B,100,150,2500,2000


## PyArrow
implementace Apache Arrow (sloupcově orientovaný formát pro práci s daty)
- efektivní manipulace s datovými strukturami a algoritmy
- přenos mezi různými analytickými nástroji a jazyky
- nástroje pro serializaci a deserializaci dat
- např. formát parquet pro ukládání velkých objemů dat (Big Data)

In [None]:
!python -m pip install pyarrow

In [1]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# Vytvoření DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [30, 35, 25],
    'city': ['Prague', 'Berlin', 'Paris']
})

# Převedení DataFrame na PyArrow Table
table = pa.Table.from_pandas(df)

# Uložení tabulky do formátu Parquet
pq.write_table(table, 'tmp/example.parquet')

# Načtení tabulky z formátu Parquet
table_read = pq.read_table('tmp/example.parquet')

# Zobrazení obsahu tabulky
display(table_read.to_pandas())


Unnamed: 0,name,age,city
0,Alice,30,Prague
1,Bob,35,Berlin
2,Charlie,25,Paris


In [2]:
import pyarrow as pa

# Vytvořte pole pro sloupce
cisla = pa.array([1, 2, 3, 4])
jmena = pa.array(["Jan", "Petr", "Marie", "Jana"])

# Definujte názvy sloupců
nazvy_sloupcu = ["cislo", "jmeno"]

# Vytvořte tabulku z polí a názvů sloupců
tabulka = pa.Table.from_arrays([cisla, jmena], names=nazvy_sloupcu)

# Získejte názvy všech sloupců v tabulce
print("Názvy sloupců:", tabulka.column_names)

# Vyberte konkrétní sloupce podle jména nebo indexu
sloupec_cislo = tabulka.column("cislo")
sloupec_jmeno = tabulka.column(1)  # Indexem (0-based)

print("Sloupec 'cislo':", sloupec_cislo)
print("Sloupec 'jmeno' (indexem):", sloupec_jmeno)


Názvy sloupců: ['cislo', 'jmeno']
Sloupec 'cislo': [
  [
    1,
    2,
    3,
    4
  ]
]
Sloupec 'jmeno' (indexem): [
  [
    "Jan",
    "Petr",
    "Marie",
    "Jana"
  ]
]


# Dask
knihovna pro paralelní a škálovatelné výpočty
- umožňuje efektivní zpracování velkých dat
- alternativa k NumPy, Pandas a Scikit-learn pro práci s velkými datasetty

Dask Arrays
– alternativa k NumPy
- rozkládá velká pole na menší bloky a provádí výpočty efektivněji

Dask DataFrame 
– alternativa k Pandas
- umožňuje pracovat s velkými datframy

Dask Delayed 
– paralelizace výpočtů

Dask Scheduler 
– výběr výpočetního režimu
- Vícevláknový (threads) – vhodný pro NumPy/Pandas (sdílí paměť)
- Multiprocesový (processes) – vhodný pro výpočty bez sdílení paměti
- Distribuovaný (distributed) – pro clustery a cloud

In [None]:
%pip install dask

#### Dask Arrays

Součet velkého počtu čísel pomocí NumPy

In [None]:
%%time
import numpy as np

# Vytvoříme velké numpy pole (100 milionů prvků)
x = np.ones((100000000,))

result = np.sum(x)

# Spuštění výpočtu
print(result)  # 100000000.0

100000000.0
CPU times: total: 328 ms
Wall time: 331 ms


Součet velkého počtu čísel pomocí Dask

In [12]:
%%time
import dask.array as da

# Vytvoříme velké Dask pole (100 milionů prvků)
x = da.ones((100000000,), chunks=(1000000,))  # Data rozdělíme na bloky po 1M

# Lazy evaluation – výpočet se ještě neprovedl
result = x.sum()

# Spuštění výpočtu
print(result.compute())  # 100000000.0

100000000.0
CPU times: total: 188 ms
Wall time: 173 ms


#### Dask DataFrame

Zpracování pomocí Pandas

In [29]:
%%time
import pandas

# Načteme velký CSV soubor jako Dask DataFrame
df = pandas.read_csv("tmp/data.csv")

# Lazy evaluation – výpočet se neprovádí ihned
mean_value = df["hk_gdp"].mean()

# Spustíme výpočet
print(mean_value)

0.3745205208622305
CPU times: total: 2.02 s
Wall time: 2.02 s


Zpracování pomocí Dask

In [27]:
%%time
import dask.dataframe as dd

# Načteme velký CSV soubor jako Dask DataFrame
df = dd.read_csv("tmp/data.csv")

# Lazy evaluation – výpočet se neprovádí ihned
mean_value = df["hk_gdp"].mean()

# Spustíme výpočet
print(mean_value.compute())

0.3745205208622305
CPU times: total: 2.64 s
Wall time: 2.63 s


#### Paralelní výpočty

In [87]:
%%time
import time
import math

numbers = range(10_000, 15_000, 100)

start = time.time()
results = [math.factorial(n) for n in numbers]  # Sekvenční výpočet
end = time.time()

print(f"Sekvenční výpočet trval {end - start:.2f} sekund")


Sekvenční výpočet trval 0.25 sekund
CPU times: total: 234 ms
Wall time: 247 ms


In [86]:
%%time
import dask
from dask import delayed

@delayed
def factorial(n):
    return math.factorial(n)

start = time.time()
tasks = [factorial(n) for n in numbers]  # Vytvoříme úlohy
results = dask.compute(*tasks)  # Spustíme paralelně
end = time.time()

print(f"Paralelní výpočet s Dask trval {end - start:.2f} sekund")


Paralelní výpočet s Dask trval 0.26 sekund
CPU times: total: 234 ms
Wall time: 261 ms
